基于Langchain+向量数据库+ChatGPT构建企业级知识库

1年前作者：musicml分类：Toy博客阅读(14)违法举报

这篇具有很好参考价值的文章主要介绍了基于Langchain+向量数据库+ChatGPT构建企业级知识库。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

▼最近直播超级多，预约保你有收获

近期直播：《基于 LLM 大模型的向量数据库企业级应用实践》

1—

LangChain 是什么？

众所周知 OpenAI 的 API 无法联网的，所以如果只使用自己的功能实现联网搜索并给出回答、总结 PDF 文档、基于某个 Youtube 视频进行问答等等的功能肯定是无法实现的。

数据感知：将 LLM 模型链接到不同的数据源，比如：ChatGPT 访问 PDF 等；

代理：允许与 LLM 模型进行交互。

第一、支持 LLM 调用

- 支持多种模型接口调用：OpenAI、Hugging Face、AzureOpenAI ...
- 支持多种方式实现缓存记录：In-Mem（内存）、SQLite、Redis、SQL ...
- 支持流模式（类型打字机的效果）

第二、支持 Prompt 管理

- 支持多种自定义模板

第三、支持索引

- 支持文档切割
- 支持 token 向量化
- 支持向量数据库

第四、支持 Chain（链）

- 链允许我们将多个组件组合在一起，以创建一个单一的、连贯的应用程序。比如：我们可以创建一个链，该链接受用户输入，使用提示模板对其进行格式化，然后将格式化的响应传递给 LLM。

第五、文档加载器（Document Loader）

顾名思义，这个就是从指定源进行加载数据的，比如：

- 文件夹 DirectoryLoader
- Azure 存储 AzureBlobStorageContainerLoader
- CSV文件 CSVLoader
- 印象笔记 EverNoteLoader
- Google网盘 GoogleDriveLoader
- 任意的网页 UnstructuredHTMLLoader
- PDF PyPDFLoader
- S3 S3DirectoryLoader/S3FileLoader
- Youtube YoutubeLoader 等官方文档地址：https://python.langchain.com/en/latest/modules/indexes/document_loaders.html
- 代码实践如下：

基于Langchain+向量数据库+ChatGPT构建企业级知识库,langchain,数据库,chatgpt

— 2 —

文本切割（Text Splitters）

当您想要处理长文本时，有必要将该文本拆分为块。听起来很简单，但这里有很多潜在的复杂性。在理想情况下，我们希望将语义相关的文本片段放在一起。“语义相关”的含义可能取决于文本的类型。文本切割器的工作方式：

- 将文本拆分为语义有意义的小块（通常是句子）
- 开始将这些小块组合成一个较大的块，直到达到一定的大小（由某个函数测量）
- 达到一定大小后，将该块设置为自己的文本段，然后开始创建一个具有一些重叠的新文本块（以保持块之间的上下文）

默认推荐的文本拆分器是 RecursiveCharacterTextSplitter。此文本拆分器采用字符列表。它尝试基于第一个字符的拆分来创建块，但如果任何块太大，它就会移动到下一个字符，依此类推。默认情况下，它尝试拆分的字符为 ["\n\n", "\n", " ", ""]。

文本切割代码如下：

基于Langchain+向量数据库+ChatGPT构建企业级知识库,langchain,数据库,chatgpt

—3 —

向量化（向量数据库）

第一、为什么 LLM 需要将文本内容向量化

计算机最擅长处理的就是数字，因此我们需要将文本（如单词或者句子）转化为数字，或者更具体地说，转化为向量。向量是一种数学对象，可以看作是一个有序的数字列表。这种将文本转化为向量的过程就叫做向量化。

第二、什么是欧式距离

把它想象成在多维空间中两点之间的直线距离。比如在二维空间（也就是平面）上，两点之间的欧氏距离就是我们平时说的直线距离。在三维空间中，也就是我们生活的物理世界中，两点之间的欧氏距离就是我们通常意义上的空间直线距离。这个概念可以扩展到更高的维度。

第三、欧式距离在文本分析中的作用

在文本分析中，欧氏距离常常被用来衡量两段文本（或者说，两个向量）的相似度。如果两个向量之间的欧氏距离小，那么这两段文本就被认为是相似的；反之，如果欧氏距离大，那么这两段文本就被认为是不相似的。

第四、向量数据库

顾名思义，专门设计用于高效存储和检索向量数据，向量数据库检索主要基于向量之间的距离或相似度。常用向量数据库有：

- Chroma（开源本地文件向量数据库）
- Milvus（开源分布式高性能数据库）
- Pinecone（商业化分布式高性能数据库）

代码实践如下：

基于Langchain+向量数据库+ChatGPT构建企业级知识库,langchain,数据库,chatgpt

— 4 —

链(Chain)

可以把 Chain 理解为任务。一个 Chain 就是一个任务，当然也可以像链条一样，一个一个的执行多个链，常用 Chain 如下：

- LLMChain（适用于各种 LLM 链）
- load_qa_chain（ QA 问答）
- ConversationalRetrievalChain（使用聊天记录在文档上进行聊天）

— 5—

免费超干货 LLM 大模型直播

为了帮助同学们掌握好 LLM 大模型的向量数据库企业级应用实战，明晚8点，我和陈东老师会开一场直播和同学们深度聊聊大模型的向量化、向量数据库的应用实战，请同学点击下方按钮预约直播，咱们明晚8点不见不散哦~~

近期直播：《基于 LLM 大模型的向量数据库企业级应用实践》

END文章来源地址https://www.toymoban.com/news/detail-735908.html

到了这里，关于基于Langchain+向量数据库+ChatGPT构建企业级知识库的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

基于GPT3.5实现本地知识库解决方案-利用向量数据库和GPT向量接口-实现智能回复并限制ChatGPT回答的范围...
标题有点长，但是基本也说明出了这篇文章的主旨，那就是利用GPT AI智能回答自己设置好的问题既能实现自己的AI知识库机器人，又能节省ChatGPT调用的token成本费用。代码仓库地址 document.ai: 基于GPT3.5的通用本地知识库解决方案下面图片是整个流程：导入知识库数据利用
2024年02月02日
浏览(9)
（一）AI本地知识库问答（可运行）：LangChain+Chroma向量数据库+OpenAi大模型
只需要看config目录下的config.py，data目录下的txt知识库文件，db向量数据库文件在持久化部署后会自动生成，route下的app.py，scripts目录下的Chroma向量库持久化部署.py这几个就可以，scripts目录下的考勤问答.py和test目录下都是单独的自己测试的小代码，可以不用关注因为运行需要
2024年02月03日
浏览(18)
LangChain 4用向量数据库Faiss存储，读取YouTube的视频文本搜索Indexes for information retrieve
接着前面的Langchain，继续实现读取YouTube的视频脚本来问答Indexes for information retrieve LangChain 实现给动物取名字， LangChain 2模块化prompt template并用streamlit生成网站实现给动物取名字 LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄引用向量数据库Faiss 查看OpenAI model main.p
2024年02月05日
浏览(15)
ModaHub魔搭社区：AI原生云向量数据库Zilliz Cloud与 LangChain 集成搭建智能文档问答系统
目录准备工作主要参数准备数据开始提问本文将演示如何使用 Zilliz Cloud 和 LangChain 搭建基于大语言模型（LLM）的问答系统。在本例中，我们将使用一个 1 CU 的 Cluster，还将使用 OpenAI 的 Embedding API 来获取指定文本的向量表示。现在就让我们开始吧。运行本页中的脚本需要
2024年02月15日
浏览(12)
【人工智能】如何基于向量数据库+LLM（大语言模型），打造更懂你的企业专属Chatbot？—— AnalyticDB(ADB)+LLM：构建AIGC时代下企业专属 Chatbot
目录
2024年02月08日
浏览(12)
构建搜索引擎，而非向量数据库（Vector DB） [译]
作者： Panda Smith 在过去 12 个月中，我们见证了向量数据库（Vector DB）创业公司的迅猛增长。我此刻并不打算深入探讨它们各自的设计取舍。相反，我更想探讨和解释一些关于向量数据库的常见理解——它是什么、它的功能用途，以及在解决问题时，我们应如何恰当地利用向
2024年02月04日
浏览(14)
向量数据库Pinecone，治疗ChatGPT幻觉的药方？
大白话了解新鲜事，今天讲讲以Pinecone为代表的向量数据库。向量数据库Pinecone一夜爆火，4月27日B轮拿到了1亿美元的融资，估值达到7.5亿美元，一个2021年刚刚推出的数据库产品，火爆背后的原因是什么？ 0 1 背景自从AutoGPT，以及ChatGPT的Retrieval plugin推出之后（二者都推荐
2024年02月06日
浏览(13)
【LangChain】如何本地部署基于chatGPT的实时文档和表格数据的助手，在自己的数据上构建chatGPT？
（1） LangChain 是一个用于自然语言处理的 Python 库，它的目标是尝试简化自然语言处理任务，提高处理效率和准确性。该库提供了一组易于使用的函数和工具，可以帮助你实现各种自然语言处理任务，例如语句分割、分词、词性标注、命名实体识别、情感分析等。与其它自然
2024年02月08日
浏览(8)
基于向量数据库搭建自己的搜索引擎
前言【基于chatbot】厌倦了商业搜索引擎搜索引擎没完没了的广告，很多时候，只是需要精准高效地检索信息，而不是和商业广告“斗智斗勇”。以前主要是借助爬虫工具，而随着技术的进步，现在有了更多更方便的解决方案，向量数据库就是其中之一【chatGPT也需要它的支撑
2024年04月11日
浏览(11)
理解构建LLM驱动的聊天机器人时的向量数据库检索的局限性 - （第1/3部分）
本博客是一系列文章中的第一篇，解释了为什么使用大型语言模型（ LLM ）部署专用领域聊天机器人的主流管道成本太高且效率低下。在第一篇文章中，我们将讨论为什么矢量数据库尽管最近流行起来，但在实际生产管道中部署时从根本上受到限制。在下面的文章中，我们说
2024年02月14日
浏览(12)