txhy2018

PyLMKit(5):基于网页知识库的检索增强生成RAG

基于网页知识库的检索增强生成RAG

0.项目信息

日期： 2023-12-2
作者：小知
课题: RAG（Retrieval-Augmented Generation，检索增强生成）是一种利用知识库检索的方法，提供与用户查询相关的内容，从而增强模型答案的准确性和特异性。RAG包括本地知识库、基于网络的知识库、记忆知识库和数据库知识库。
PyLMKit设计了四种RAG功能：
- 基于本地文档的知识库DocRAG
- 基于网页的知识库WebRAG
- 基于数据库的知识库DBRAG
- 基于记忆的知识库MemoryRAG
GitHub：https://github.com/52phm/pylmkit
PyLMKit官网教程
- PyLMKit应用（online application）
- English document
- 中文文档

PyLMKit RAG架构图

1.下载安装

# 下载安装
pip install pylmkit -U --user
pip install BeautifulSoup4 --user
pip install sentence-transformers --user
pip install faiss-cpu --user

2.设置API KEY

应用哪个大模型，就提前设置好该大模型对应的 API KEY

import os


# openai chatgpt
os.environ['openai_api_key'] = ""

# 百度
os.environ['qianfan_ak'] = ""
os.environ['qianfan_sk'] = ""

# 阿里
os.environ["DASHSCOPE_API_KEY"] = ""

# 科大讯飞-星火
os.environ["spark_appid"] = ""
os.environ["spark_apikey"] = ""
os.environ["spark_apisecret"] = ""
os.environ["spark_domain"] = "generalv3"

# 智谱AI
os.environ['zhipu_apikey'] = ""

或者在.env文件中批量加载设置好的API KEY，加载方法如下：

from dotenv import load_dotenv

# load .env
# load_dotenv()

3.加载大语言模型

导入大语言模型，在本案例中使用百度千帆大模型作为例子进行介绍。

from pylmkit.llms import ChatQianfan  # 百度-千帆
from pylmkit.llms import ChatSpark  # 讯飞-星火
from pylmkit.llms import ChatZhipu  # 清华-智谱
from pylmkit.llms import ChatHunyuan  # 腾讯-混元
from pylmkit.llms import ChatBaichuan  # 百川
from pylmkit.llms import ChatTongyi  # 阿里-通义
from pylmkit.llms import ChatOpenAI  # OpenAI

llm_model = ChatQianfan()

4.选择记忆功能

PyLMKit 设计了四种记忆功能，分别如下：

MemoryHistoryLength：记忆历史长度，强调使用近期多长的记忆内容；
MemoryConversationsNumber：记忆对数数，强调使用近期N组对话作为记忆的内容；
MemorySummary：记忆摘要，强调精简提取记忆；
暂未公布

本案例使用MemoryHistoryLength记忆功能，使得大语言模型能到根据该历史记忆记住上下文内容，以便连贯回答用户的问题。(更多关于记忆的用法，可以在后续memory专题中查阅)

from pylmkit.memory import MemoryHistoryLength


memory = MemoryHistoryLength(memory_length=500, streamlit_web=False)  # 在python中运行
# memory2 = MemoryHistoryLength(memory_length=500, streamlit_web=True)  # 在streamlit web中运行

5.设计角色模板

大语言模型是一种一对多关系的模型架构，其中一表示大语言模型，而多表示下游任务，比如写作、客服、分析数据等这些都属于下游任务。
因此需要我们通过设计提示词模板去引导大语言模型高效且有质量地完成指定下游任务。

在设计角色模板之前，我们先来了解PyLMKit中一些必须固定的关键词：

{query}：表示这是用户输入的提问内容；
{search}：表示线上实时搜索引擎搜索返回的内容；
{memory}：表示记忆的内容；
{ra}：表示知识库搜索返回的内容。

下面我们来看一个角色模板的例子：

# 它们所在的位置，表示它们内容所嵌入的位置
role_template = "{memory}\n {search}\n 用户提问:{query}"

# 当然，你还可以进一步设计模板
role_template = "历史对话内容：{memory}\n 搜索的相似内容：{search} {ra}\n 请结合上述内容回答问题:{query}"

model.invoke(query="如何学习python？")

角色模板决定大语言模型回答的质量，因此角色模板需要反复打磨，以设计一个高质量的角色模板，对问题的解决效果可以达到事半功倍。

另外，值得注意的是，如果你设计的角色模板的关键词，不在[query, search, ra, memory]中，那么你需要额外添加新的变量和变量值，例如：

role_template = "{memory}\n 请为我推荐{query}的{topic}"

# 额外的关键字，可以像 topic="美食" 一样添加，多个也是一样的步骤进行添加
model.invoke(query='北京', topic="美食")

role_template = "{memory}\n 请为我推荐{query}的{topic}"

6.加载知识库

PyLMKit设计了四种RAG功能：

基于本地文档的知识库DocRAG
基于网页的知识库WebRAG
基于数据库的知识库DBRAG
基于记忆的知识库MemoryRAG

本案例介绍DocRAG和WebRAG，下面先介绍如何快速加载本地文档和网页知识库。

加载本地知识库DocumentLoader

from pylmkit.perception.text import DocumentLoader


# 加载器：可以加载一个文档，也可以批量加载指定文件夹中的文档
# loader = DocumentLoader(path='./document_test/aaa.txt')
loader = DocumentLoader(path='./document_test', show_progress=True)

# 分割器
docs1 = loader.split(chunk_size=200, chunk_overlap=50)

print(len(docs1))
print(docs1[0])

  0%|                                                                                            | 0/5 [00:00

 
   
   加载网页知识库WebLoader 
   
  from pylmkit.perception.text import WebLoader

# 加载器：可以加载一个网页，也可以批量加载网页
loader = WebLoader(path='https://zhuanlan.zhihu.com/p/339971541')
# loader = WebLoader(
#     path=[
#         'https://zhuanlan.zhihu.com/p/339971541',
#         'https://zhuanlan.zhihu.com/p/339971541',
        
#     ]
# )

# 分割器
docs2 = loader.split(chunk_size=200, chunk_overlap=50)

print(len(docs2))
print(docs2[-1])

 
  2023-12-02 12:20:31 - langchain.document_loaders.web_base - INFO - fake_useragent not found, using default user agent.To get a realistic header for requests, `pip install fake_useragent`.


44
page_content='，因此相比竞品而言 上 汽魔方电池在各个容量电池包的体积效率转换和重量效率转换都更为出色。上汽魔方电池躺式布局https://www.zhihu.com/video/1549353400738979841编辑于 2022-09-03 11:19动力电池锂电池\u200b赞同 183\u200b\u200b7 条评论\u200b分享\u200b喜欢\u200b收藏\u200b申请转载\u200b' metadata={'source': 'https://zhuanlan.zhihu.com/p/339971541', 'title': '一文读懂汽车动力电池 - 知乎', 'description': '动力电池作为电动汽车的三大件（电池、电机、电控）之一，是整个车辆系统的动力来源，一直以来被视为电动汽车发展的标志性技术，其性能好坏直接关系到车辆续航里程的长短，重要性不言而喻。今天小七带大家拨开迷雾…', 'language': 'zh'}
 
  可以将本地知识库和网页知识库融合应用。 
  docs = []
docs.extend(docs1)
docs.extend(docs2)
print(len(docs))
 
  188
 
  7.加载词向量模型 
  文本是一种非结构化的数据类型，因此需要使用词嵌入技术将文本向量化，PyLMKit提供两大类型的词向量模型调用： 
   
   使用付费的词向量模型：通过API调用词向量模型，如OpenAI的EmbeddingsOpenAI，百度千帆的EmbeddingsQianfan 
   下载开源模型到本地免费使用：在huggingface中下载模型，如EmbeddingsHuggingFace，EmbeddingsHuggingFaceBge和EmbeddingsHuggingFaceInstruct 
   
  除了通过PyLMKit调用，还支持langchain导入。 
  另外，值得注意的是，不同词向量模型的准确性不一，因此也要选择合适的词向量模型才能发挥更大的作用。 
  # 付费调用
from pylmkit.llms import EmbeddingsQianfan  # 百度-千帆-词向量模型
from pylmkit.llms import EmbeddingsOpenAI  # OpenAI-词向量模型

# 本地调用
from pylmkit.llms import EmbeddingsHuggingFace  # 使用 HuggingFace 中开源模型
from pylmkit.llms import EmbeddingsHuggingFaceBge
from pylmkit.llms import EmbeddingsHuggingFaceInstruct


# 本案例使用本地模型，为了方便使用一个小模型（下载模型一般会下载超时，需合理上网）
embed_model = EmbeddingsHuggingFace(model_name="all-MiniLM-L6-v2")

 
  G:\anzhuangqu\anaconda2023\envs\gradio_env\Lib\site-packages\tqdm\auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html
  from .autonotebook import tqdm as notebook_tqdm
2023-12-02 12:20:37 - sentence_transformers.SentenceTransformer - INFO - Load pretrained SentenceTransformer: all-MiniLM-L6-v2
2023-12-02 12:20:38 - sentence_transformers.SentenceTransformer - INFO - Use pytorch device: cpu
 
  8.加载向量数据库 
  向量数据库无疑是今年的大热点，因为RAG或者说基于本地知识库的垂直领域知识问答，这种低成本且可行的技术方案在今年特别爆火，而向量数据库作为一种能存储向量和检索相似文档中起着重要作用。 
  下面使用FAISS向量数据库进行演示。 
  from langchain.vectorstores import FAISS

vdb_model = FAISS
 
  9.加载RAG应用 
  PyLMKit设计了四种RAG功能： 
   
   基于本地文档的知识库DocRAG 
   基于网页的知识库WebRAG 
   基于数据库的知识库DBRAG 
   基于记忆的知识库MemoryRAG 
   
  RAG是基于知识库检索 + RolePlay角色扮演两部分组成，因此RAG具备RolePlay应用的参数和功能。 
  from pylmkit.app import DocRAG
from pylmkit.app import WebRAG


# 角色模板可以根据自己情况进行设计，这是一个简单例子
role_template = "{ra}\n user question: {query}"  
rag = DocRAG(
    embed_model=embed_model,
    vdb_model=vdb_model,
    llm_model=llm_model,
    corpus=docs,
    role_template=role_template,
    return_language="中文",
    online_search_kwargs={},
    # online_search_kwargs={'topk': 2, 'timeout': 20},  # 搜索引擎配置，不开启则可以设置为 online_search_kwargs={}
)
 
  Batches: 100%|███████████████████████████████████████████████████████████████████████████| 6/6 [00:06<00:00,  1.02s/it]
2023-12-02 12:20:44 - faiss.loader - INFO - Loading faiss with AVX2 support.
2023-12-02 12:20:44 - faiss.loader - INFO - Could not load library with AVX2 support due to:
ModuleNotFoundError("No module named 'faiss.swigfaiss_avx2'")
2023-12-02 12:20:44 - faiss.loader - INFO - Loading faiss.
2023-12-02 12:20:44 - faiss.loader - INFO - Successfully loaded faiss.
 
  10.在python中运行 
  while True:
    query = input("User query：")
    response, refer = rag.invoke(query, topk=10)  # 使用检索最相似的topk=10个
    print("\nAI：\n", response)
    print("\nRefer：\n", refer)
 
  User query：电机有哪些类型？


Batches: 100%|███████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 33.42it/s]


>>><<< 10

AI：
 电机主要有以下几种类型：

1. 直流电机：它是一种将直流电能转换为机械能的旋转电机。

2. 交流电机：它是一种将交流电能转换为机械能的旋转电机，最常见的类型是异步电机和同步电机。

3. 无刷电机：它是一种无需机械式转动部件的电机，通常使用直流电源或交流电源驱动。

4. 永磁电机：它使用永久磁铁产生磁场，通常用于高速旋转设备，如吹风机或电动工具。

此外，软启动器通常使用交流电机，因为它没有碳刷和整流子，所以它具有免维护、坚固、应用广的特点。在控制方面，它使用复杂控制技术来达到相当于直流电机的性能。在微处理机和功率组件发展迅速的今天，通过适当控制交流电机的电流分量，可以实现对交流电机的控制并达到类似于直流电机的性能。在某些特定的场合下，软启动器还会提供软停车功能，以避免自由停车引起的转矩冲击。在推广无刷电机的使用和维护时，我们也需要加强宣传和培训工作。

至于你提到的“为什么动力电池偏偏用的是锂电池呢？”这个问题，能量密度是一个重要的考虑因素。锂电池具有较高的能量密度，可以提供更长的行驶距离或工作时间，因此被广泛应用于电动汽车等动力系统中。同时，锂电池的充电和放电性能也较好，适合于大功率和快速充电的应用场景。当然，在选择动力电池时还需要考虑其他因素，如安全性、寿命、成本等。

Refer：
 [1] **document_test\aaa.txt**  固定磁场无刷电机

[2] **document_test\aaa.txt**  弱磁控制：当电机转速超过一定数值后，励磁电流已经相当小，基本不能再调节，此时进入弱磁控制阶段。

[3] **document_test\aaa.txt**  于环境极为恶劣的场合，如潮湿、高温、多尘、腐蚀等场合。所有这些，造成了电机更容易损坏，尤其是过载、短路、缺相、扫膛等故障出现频率最高。

[4] **document_test\aaa.txt**  机床上传统的“旋转电机 +

[5] **document_test\aaa.txt**  三、磁阻同步电动机

[6] **https://zhuanlan.zhihu.com/p/339971541**  电池，就不得不拉回正题，谈谈动力电池，目前市面上电动汽车基本上都采用的是锂离子电池（以下简称锂电池），可能会有很多朋友会问，为什么动力电池偏偏用的是锂电池呢？回答这个问题前，我们先来看看一个概念——能量密度。能量密度（Energy

[7] **document_test\aaa.txt**  定电压，以降低晶闸管的热损耗，延长软启动器的使用寿命，提高其工作效率，又使电网避免了谐波污染。软启动器同时还提供软停车功能，软停车与软启动过程相反，电压逐渐降低，转数逐渐下降到零，避免自由停车引起的转矩冲击。

[8] **document_test\aaa.txt**  控制原理

[9] **document_test\aaa.txt**  到限制。交流电机没有碳刷及整流子，免维护、坚固、应用广，但特性上若要达到相当于直流电机的性能须用复杂控制技术才能达到。现今半导体发展迅速功率组件切换频率加快许多，提升驱动电机的性能。微处理机速度亦越来越快，可实现将交流电机控制置于一旋转的两轴直交坐标系统中，适当控制交流电机在两轴电流分量，达到类似直流电机控制并有与直流电机相当的性能。

[10] **document_test\aaa.txt**  五、加强宣传培训


User query：动力电池有哪些分类？


Batches: 100%|███████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 83.53it/s]


>>><<< 10

AI：
 您好！动力电池根据不同标准有不同分类方式，常见分类如下：

1. 按照工作性质可分为：动力电池、牵引电池（含蓄电池）、起动电池；
2. 按照正极材料种类可分为：钴酸锂电池、锰酸锂电池、三元材料（NCM）电池、磷酸铁锂（LFP）电池；
3. 按照电池的形状可分为：圆柱形电池、方壳电池、软包电池。

以上是动力电池常见的分类方式，具体到上汽魔方电池，其采用的是躺式布局的锂离子电池，具有能量密度高、体积小、重量轻等优势。同时，上汽魔方电池还具有高低温性能优异、安全性好、寿命长等优势。

以上信息仅供参考，如果您还有疑问，建议咨询专业人士意见。

Refer：
 [1] **https://zhuanlan.zhihu.com/p/339971541**  一文读懂汽车动力电池 -

[2] **https://zhuanlan.zhihu.com/p/339971541**  电池，就不得不拉回正题，谈谈动力电池，目前市面上电动汽车基本上都采用的是锂离子电池（以下简称锂电池），可能会有很多朋友会问，为什么动力电池偏偏用的是锂电池呢？回答这个问题前，我们先来看看一个概念——能量密度。能量密度（Energy

[3] **document_test\aaa.txt**  固定磁场无刷电机

[4] **document_test\aaa.txt**  弱磁控制：当电机转速超过一定数值后，励磁电流已经相当小，基本不能再调节，此时进入弱磁控制阶段。

[5] **document_test\aaa.txt**  直流电动机工作原理

导体受力的方向用左手定则确定。这一对电磁力形成了作用于电枢一个力矩，这个力矩在旋转电机里称为电磁转矩，转矩的方向是逆时针方向，企图使电枢逆时针方向转动。如果此电磁转矩能够克服电枢上的阻转矩（例如由摩擦引起的阻转矩以及其它负载转矩），电枢就能按逆时针方向旋转起来。

[6] **https://zhuanlan.zhihu.com/p/339971541**  ，因此相比竞品而言 上 汽魔方电池在各个容量电池包的体积效率转换和重量效率转换都更为出色。上汽魔方电池躺式布局https://www.zhihu.com/video/1549353400738979841编辑于 2022-09-03 11:19动力电池锂电池赞同 1837 条评论分享喜欢收藏申请转载

[7] **document_test\aaa.txt**  二、认真组织电机生产企业执行强制性能效标准

[8] **document_test\aaa.txt**  机床上传统的“旋转电机 +

[9] **document_test\aaa.txt**  到限制。交流电机没有碳刷及整流子，免维护、坚固、应用广，但特性上若要达到相当于直流电机的性能须用复杂控制技术才能达到。现今半导体发展迅速功率组件切换频率加快许多，提升驱动电机的性能。微处理机速度亦越来越快，可实现将交流电机控制置于一旋转的两轴直交坐标系统中，适当控制交流电机在两轴电流分量，达到类似直流电机控制并有与直流电机相当的性能。

[10] **document_test\aaa.txt**  控制原理
 
  11.在streamlit web中运行 
  要在终端中运行：假设你的.py文件名为main.py，那么在终端运行： 
  streamlit run main.py
 
  main.py 
  # main.py
from dotenv import load_dotenv
from pylmkit import BaseWebUI
from pylmkit.llms import ChatQianfan
from pylmkit.llms import EmbeddingsHuggingFace
from langchain.vectorstores import FAISS
from pylmkit.perception.text import DocumentLoader
from pylmkit.perception.text import WebLoader
from pylmkit.app import DocRAG


load_dotenv('.env')
web = BaseWebUI(language='zh')

# load: documents
# loader = DocumentLoader(path='./document_test/aaa.txt')  # 加载一个文档
# loader = DocumentLoader(path='./document_test', show_progress=False)  # 批量加载
# docs = loader.split(chunk_size=200, chunk_overlap=50)
# docs = loader.get()
# print(len(docs))
# print(docs[-1])

# load: web
loader = WebLoader(path='https://zhuanlan.zhihu.com/p/339971541')
docs = loader.split(
    chunk_size=web.param(label="数据块大小", type='int', value=200),
    chunk_overlap=web.param(label="数据块重叠大小", type='int', value=50),
)

# rag
embed_model = EmbeddingsHuggingFace(model_name="all-MiniLM-L6-v2")  #
vdb_model = FAISS
llm_model = ChatQianfan()
role_template = "{ra}\n user question: {query}"
rag = DocRAG(
    embed_model=embed_model,
    vdb_model=vdb_model,
    llm_model=llm_model,
    corpus=docs,
    role_template=role_template,
    return_language="中文",
    online_search_kwargs={},
    # online_search_kwargs={'topk': 2, 'timeout': 20},  # 搜索引擎配置，不开启则可以设置为 online_search_kwargs={}
)

web.run(
    obj=rag.invoke,
    input_param=[{"name": "query", "label": "用户输入内容", "type": "chat"},
                 {"name": "topk", "label": "最相似topk", "type": "int", "value": 5}
                 ],
    output_param=[{'label': '结果', 'name': 'ai', 'type': 'chat'},
                  {'label': '参考', 'name': 'refer', 'type': 'refer'}
                  ]
)


 
  页面效果如下：
  
  
 
  12.GitHub项目地址 
  觉得不错，可以帮忙点个 star 哦 
  GitHub - 52phm/pylmkit: pylmkit: Help users quickly build practical large model applications!

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
docker-compose方式搭建lnmp环境——筑梦之路筑梦之路 linux系统运维国产化 docker android adb
docker-compose.yml文件#生成docker-compose.ymlcat>docker-compose.ymlnginx/conf.d/default.conf">www/index.phpecho"开始启动服务..."docker-composeup-d#获取本机ipip_addr=$(hostname-I|awk'{print$1}')echo"部署完成！"echo"访问测试页
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
C++设计模式：简单工厂、工厂方法、抽象工厂起个别名 C++算法 c++
1.工厂模式的特点在我们现实生活中，买馒头和自己蒸馒头、去饭店点一份大盘鸡和自己养鸡，杀鸡，做大盘鸡，这是全然不同的两种体验：自己做麻烦，而且有失败的风险，需要自己承担后果。买现成的，可以忽略制作细节，方便快捷并且无风险，得到的肯定是美味的食物。对于后者，就相当于是一个加工厂，通过这个工厂我们就可以得到想要的东西，在程序设计中，这种模式就叫做工厂模式，工厂生成出的产品就是某个类的实例，也就是对象。
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
Maya自定义右键菜单样例教程 holy-pills
本文还有配套的精品资源，点击获取简介：本文详细指导如何在Maya中通过脚本节点自定义右键菜单，增强工作效率和个性化工作环境。自定义右键菜单允许用户根据个人习惯调整菜单项，使之更加便捷。文章介绍了创建脚本节点、编写菜单脚本、关联菜单到视图以及保存和加载自定义菜单的具体步骤。同时提供了实际操作样例，帮助用户更好地理解和应用这一技巧。1.Maya自定义右键菜单的重要性Maya，作为三维动画制作的行业标准
RocketMQ 核心特性实战详解愤怒的代码 RocketMQ实战 rocketmq
RocketMQ核心特性实战详解本文基于RocketMQ4.x+rocketmq-spring-boot-starter2.3.1，从零搭建，逐步讲解RocketMQ11大核心特性，每一段代码都能直接跑。0.项目环境准备依赖引入在pom.xml文件添加：org.apache.rocketmqrocketmq-spring-boot-starter2.3.1配置文件application.ymlse
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

PyLMKit(5):基于网页知识库的检索增强生成RAG

基于网页知识库的检索增强生成RAG

0.项目信息

1.下载安装

2.设置API KEY

3.加载大语言模型

4.选择记忆功能

5.设计角色模板

6.加载知识库

7.加载词向量模型

8.加载向量数据库

9.加载RAG应用

10.在python中运行

11.在streamlit web中运行

12.GitHub项目地址

你可能感兴趣的:(PyLMKit-大模型应用开发,RAG,检索增强生成,langchain,pylmkit,讯飞星火大模型,百度千帆大模型,网页知识库)