txhy2018

PyLMKit(4):基于本地知识库的检索增强生成RAG

基于本地知识库的检索增强生成RAG

0.项目信息

日期： 2023-12-2
作者：小知
课题: RAG（Retrieval-Augmented Generation，检索增强生成）是一种利用知识库检索的方法，提供与用户查询相关的内容，从而增强模型答案的准确性和特异性。RAG包括本地知识库、基于网络的知识库、记忆知识库和数据库知识库。
PyLMKit设计了四种RAG功能：
- 基于本地文档的知识库DocRAG
- 基于网页的知识库WebRAG
- 基于数据库的知识库DBRAG
- 基于记忆的知识库MemoryRAG
GitHub：https://github.com/52phm/pylmkit
PyLMKit官网教程
- PyLMKit应用（online application）
- English document
- 中文文档

PyLMKit RAG架构图

1.下载安装

# 下载安装
pip install pylmkit -U --user
pip install BeautifulSoup4 --user
pip install sentence-transformers --user
pip install faiss-cpu --user

2.设置API KEY

应用哪个大模型，就提前设置好该大模型对应的 API KEY

import os


# openai chatgpt
os.environ['openai_api_key'] = ""

# 百度
os.environ['qianfan_ak'] = ""
os.environ['qianfan_sk'] = ""

# 阿里
os.environ["DASHSCOPE_API_KEY"] = ""

# 科大讯飞-星火
os.environ["spark_appid"] = ""
os.environ["spark_apikey"] = ""
os.environ["spark_apisecret"] = ""
os.environ["spark_domain"] = "generalv3"

# 智谱AI
os.environ['zhipu_apikey'] = ""

或者在.env文件中批量加载设置好的API KEY，加载方法如下：

from dotenv import load_dotenv

# load .env
# load_dotenv()

3.加载大语言模型

导入大语言模型，在本案例中使用百度千帆大模型作为例子进行介绍。

from pylmkit.llms import ChatQianfan  # 百度-千帆
from pylmkit.llms import ChatSpark  # 讯飞-星火
from pylmkit.llms import ChatZhipu  # 清华-智谱
from pylmkit.llms import ChatHunyuan  # 腾讯-混元
from pylmkit.llms import ChatBaichuan  # 百川
from pylmkit.llms import ChatTongyi  # 阿里-通义
from pylmkit.llms import ChatOpenAI  # OpenAI

llm_model = ChatQianfan()

4.选择记忆功能

PyLMKit 设计了四种记忆功能，分别如下：

MemoryHistoryLength：记忆历史长度，强调使用近期多长的记忆内容；
MemoryConversationsNumber：记忆对数数，强调使用近期N组对话作为记忆的内容；
MemorySummary：记忆摘要，强调精简提取记忆；
暂未公布

本案例使用MemoryHistoryLength记忆功能，使得大语言模型能到根据该历史记忆记住上下文内容，以便连贯回答用户的问题。(更多关于记忆的用法，可以在后续memory专题中查阅)

from pylmkit.memory import MemoryHistoryLength


memory = MemoryHistoryLength(memory_length=500, streamlit_web=False)  # 在python中运行
# memory2 = MemoryHistoryLength(memory_length=500, streamlit_web=True)  # 在streamlit web中运行

5.设计角色模板

大语言模型是一种一对多关系的模型架构，其中一表示大语言模型，而多表示下游任务，比如写作、客服、分析数据等这些都属于下游任务。
因此需要我们通过设计提示词模板去引导大语言模型高效且有质量地完成指定下游任务。

在设计角色模板之前，我们先来了解PyLMKit中一些必须固定的关键词：

{query}：表示这是用户输入的提问内容；
{search}：表示线上实时搜索引擎搜索返回的内容；
{memory}：表示记忆的内容；
{ra}：表示知识库搜索返回的内容。

下面我们来看一个角色模板的例子：

# 它们所在的位置，表示它们内容所嵌入的位置
role_template = "{memory}\n {search}\n 用户提问:{query}"

# 当然，你还可以进一步设计模板
role_template = "历史对话内容：{memory}\n 搜索的相似内容：{search} {ra}\n 请结合上述内容回答问题:{query}"

model.invoke(query="如何学习python？")

角色模板决定大语言模型回答的质量，因此角色模板需要反复打磨，以设计一个高质量的角色模板，对问题的解决效果可以达到事半功倍。

另外，值得注意的是，如果你设计的角色模板的关键词，不在[query, search, ra, memory]中，那么你需要额外添加新的变量和变量值，例如：

role_template = "{memory}\n 请为我推荐{query}的{topic}"

# 额外的关键字，可以像 topic="美食" 一样添加，多个也是一样的步骤进行添加
model.invoke(query='北京', topic="美食")

role_template = "{memory}\n 请为我推荐{query}的{topic}"

6.加载知识库

PyLMKit设计了四种RAG功能：

基于本地文档的知识库DocRAG
基于网页的知识库WebRAG
基于数据库的知识库DBRAG
基于记忆的知识库MemoryRAG

本案例介绍DocRAG和WebRAG，下面先介绍如何快速加载本地文档和网页知识库。

加载本地知识库DocumentLoader

from pylmkit.perception.text import DocumentLoader


# 加载器：可以加载一个文档，也可以批量加载指定文件夹中的文档
# loader = DocumentLoader(path='./document_test/aaa.txt')
loader = DocumentLoader(path='./document_test', show_progress=True)

# 分割器
docs1 = loader.split(chunk_size=200, chunk_overlap=50)

print(len(docs1))
print(docs1[0])

  0%|                                                                                            | 0/5 [00:00

 
   
   加载网页知识库WebLoader 
   
  from pylmkit.perception.text import WebLoader

# 加载器：可以加载一个网页，也可以批量加载网页
loader = WebLoader(path='https://zhuanlan.zhihu.com/p/339971541')
# loader = WebLoader(
#     path=[
#         'https://zhuanlan.zhihu.com/p/339971541',
#         'https://zhuanlan.zhihu.com/p/339971541',
        
#     ]
# )

# 分割器
docs2 = loader.split(chunk_size=200, chunk_overlap=50)

print(len(docs2))
print(docs2[-1])

 
  2023-12-02 12:20:31 - langchain.document_loaders.web_base - INFO - fake_useragent not found, using default user agent.To get a realistic header for requests, `pip install fake_useragent`.


44
page_content='，因此相比竞品而言 上 汽魔方电池在各个容量电池包的体积效率转换和重量效率转换都更为出色。上汽魔方电池躺式布局https://www.zhihu.com/video/1549353400738979841编辑于 2022-09-03 11:19动力电池锂电池\u200b赞同 183\u200b\u200b7 条评论\u200b分享\u200b喜欢\u200b收藏\u200b申请转载\u200b' metadata={'source': 'https://zhuanlan.zhihu.com/p/339971541', 'title': '一文读懂汽车动力电池 - 知乎', 'description': '动力电池作为电动汽车的三大件（电池、电机、电控）之一，是整个车辆系统的动力来源，一直以来被视为电动汽车发展的标志性技术，其性能好坏直接关系到车辆续航里程的长短，重要性不言而喻。今天小七带大家拨开迷雾…', 'language': 'zh'}
 
  可以将本地知识库和网页知识库融合应用。 
  docs = []
docs.extend(docs1)
docs.extend(docs2)
print(len(docs))
 
  188
 
  7.加载词向量模型 
  文本是一种非结构化的数据类型，因此需要使用词嵌入技术将文本向量化，PyLMKit提供两大类型的词向量模型调用： 
   
   使用付费的词向量模型：通过API调用词向量模型，如OpenAI的EmbeddingsOpenAI，百度千帆的EmbeddingsQianfan 
   下载开源模型到本地免费使用：在huggingface中下载模型，如EmbeddingsHuggingFace，EmbeddingsHuggingFaceBge和EmbeddingsHuggingFaceInstruct 
   
  除了通过PyLMKit调用，还支持langchain导入。 
  另外，值得注意的是，不同词向量模型的准确性不一，因此也要选择合适的词向量模型才能发挥更大的作用。 
  # 付费调用
from pylmkit.llms import EmbeddingsQianfan  # 百度-千帆-词向量模型
from pylmkit.llms import EmbeddingsOpenAI  # OpenAI-词向量模型

# 本地调用
from pylmkit.llms import EmbeddingsHuggingFace  # 使用 HuggingFace 中开源模型
from pylmkit.llms import EmbeddingsHuggingFaceBge
from pylmkit.llms import EmbeddingsHuggingFaceInstruct


# 本案例使用本地模型，为了方便使用一个小模型（下载模型一般会下载超时，需合理上网）
embed_model = EmbeddingsHuggingFace(model_name="all-MiniLM-L6-v2")

 
  G:\anzhuangqu\anaconda2023\envs\gradio_env\Lib\site-packages\tqdm\auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html
  from .autonotebook import tqdm as notebook_tqdm
2023-12-02 12:20:37 - sentence_transformers.SentenceTransformer - INFO - Load pretrained SentenceTransformer: all-MiniLM-L6-v2
2023-12-02 12:20:38 - sentence_transformers.SentenceTransformer - INFO - Use pytorch device: cpu
 
  8.加载向量数据库 
  向量数据库无疑是今年的大热点，因为RAG或者说基于本地知识库的垂直领域知识问答，这种低成本且可行的技术方案在今年特别爆火，而向量数据库作为一种能存储向量和检索相似文档中起着重要作用。 
  下面使用FAISS向量数据库进行演示。 
  from langchain.vectorstores import FAISS

vdb_model = FAISS
 
  9.加载RAG应用 
  PyLMKit设计了四种RAG功能： 
   
   基于本地文档的知识库DocRAG 
   基于网页的知识库WebRAG 
   基于数据库的知识库DBRAG 
   基于记忆的知识库MemoryRAG 
   
  RAG是基于知识库检索 + RolePlay角色扮演两部分组成，因此RAG具备RolePlay应用的参数和功能。 
  from pylmkit.app import DocRAG
from pylmkit.app import WebRAG


# 角色模板可以根据自己情况进行设计，这是一个简单例子
role_template = "{ra}\n user question: {query}"  
rag = DocRAG(
    embed_model=embed_model,
    vdb_model=vdb_model,
    llm_model=llm_model,
    corpus=docs,
    role_template=role_template,
    return_language="中文",
    online_search_kwargs={},
    # online_search_kwargs={'topk': 2, 'timeout': 20},  # 搜索引擎配置，不开启则可以设置为 online_search_kwargs={}
)
 
  Batches: 100%|███████████████████████████████████████████████████████████████████████████| 6/6 [00:06<00:00,  1.02s/it]
2023-12-02 12:20:44 - faiss.loader - INFO - Loading faiss with AVX2 support.
2023-12-02 12:20:44 - faiss.loader - INFO - Could not load library with AVX2 support due to:
ModuleNotFoundError("No module named 'faiss.swigfaiss_avx2'")
2023-12-02 12:20:44 - faiss.loader - INFO - Loading faiss.
2023-12-02 12:20:44 - faiss.loader - INFO - Successfully loaded faiss.
 
  10.在python中运行 
  while True:
    query = input("User query：")
    response, refer = rag.invoke(query, topk=10)  # 使用检索最相似的topk=10个
    print("\nAI：\n", response)
    print("\nRefer：\n", refer)
 
  User query：电机有哪些类型？


Batches: 100%|███████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 33.42it/s]


>>><<< 10

AI：
 电机主要有以下几种类型：

1. 直流电机：它是一种将直流电能转换为机械能的旋转电机。

2. 交流电机：它是一种将交流电能转换为机械能的旋转电机，最常见的类型是异步电机和同步电机。

3. 无刷电机：它是一种无需机械式转动部件的电机，通常使用直流电源或交流电源驱动。

4. 永磁电机：它使用永久磁铁产生磁场，通常用于高速旋转设备，如吹风机或电动工具。

此外，软启动器通常使用交流电机，因为它没有碳刷和整流子，所以它具有免维护、坚固、应用广的特点。在控制方面，它使用复杂控制技术来达到相当于直流电机的性能。在微处理机和功率组件发展迅速的今天，通过适当控制交流电机的电流分量，可以实现对交流电机的控制并达到类似于直流电机的性能。在某些特定的场合下，软启动器还会提供软停车功能，以避免自由停车引起的转矩冲击。在推广无刷电机的使用和维护时，我们也需要加强宣传和培训工作。

至于你提到的“为什么动力电池偏偏用的是锂电池呢？”这个问题，能量密度是一个重要的考虑因素。锂电池具有较高的能量密度，可以提供更长的行驶距离或工作时间，因此被广泛应用于电动汽车等动力系统中。同时，锂电池的充电和放电性能也较好，适合于大功率和快速充电的应用场景。当然，在选择动力电池时还需要考虑其他因素，如安全性、寿命、成本等。

Refer：
 [1] **document_test\aaa.txt**  固定磁场无刷电机

[2] **document_test\aaa.txt**  弱磁控制：当电机转速超过一定数值后，励磁电流已经相当小，基本不能再调节，此时进入弱磁控制阶段。

[3] **document_test\aaa.txt**  于环境极为恶劣的场合，如潮湿、高温、多尘、腐蚀等场合。所有这些，造成了电机更容易损坏，尤其是过载、短路、缺相、扫膛等故障出现频率最高。

[4] **document_test\aaa.txt**  机床上传统的“旋转电机 +

[5] **document_test\aaa.txt**  三、磁阻同步电动机

[6] **https://zhuanlan.zhihu.com/p/339971541**  电池，就不得不拉回正题，谈谈动力电池，目前市面上电动汽车基本上都采用的是锂离子电池（以下简称锂电池），可能会有很多朋友会问，为什么动力电池偏偏用的是锂电池呢？回答这个问题前，我们先来看看一个概念——能量密度。能量密度（Energy

[7] **document_test\aaa.txt**  定电压，以降低晶闸管的热损耗，延长软启动器的使用寿命，提高其工作效率，又使电网避免了谐波污染。软启动器同时还提供软停车功能，软停车与软启动过程相反，电压逐渐降低，转数逐渐下降到零，避免自由停车引起的转矩冲击。

[8] **document_test\aaa.txt**  控制原理

[9] **document_test\aaa.txt**  到限制。交流电机没有碳刷及整流子，免维护、坚固、应用广，但特性上若要达到相当于直流电机的性能须用复杂控制技术才能达到。现今半导体发展迅速功率组件切换频率加快许多，提升驱动电机的性能。微处理机速度亦越来越快，可实现将交流电机控制置于一旋转的两轴直交坐标系统中，适当控制交流电机在两轴电流分量，达到类似直流电机控制并有与直流电机相当的性能。

[10] **document_test\aaa.txt**  五、加强宣传培训


User query：动力电池有哪些分类？


Batches: 100%|███████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 83.53it/s]


>>><<< 10

AI：
 您好！动力电池根据不同标准有不同分类方式，常见分类如下：

1. 按照工作性质可分为：动力电池、牵引电池（含蓄电池）、起动电池；
2. 按照正极材料种类可分为：钴酸锂电池、锰酸锂电池、三元材料（NCM）电池、磷酸铁锂（LFP）电池；
3. 按照电池的形状可分为：圆柱形电池、方壳电池、软包电池。

以上是动力电池常见的分类方式，具体到上汽魔方电池，其采用的是躺式布局的锂离子电池，具有能量密度高、体积小、重量轻等优势。同时，上汽魔方电池还具有高低温性能优异、安全性好、寿命长等优势。

以上信息仅供参考，如果您还有疑问，建议咨询专业人士意见。

Refer：
 [1] **https://zhuanlan.zhihu.com/p/339971541**  一文读懂汽车动力电池 -

[2] **https://zhuanlan.zhihu.com/p/339971541**  电池，就不得不拉回正题，谈谈动力电池，目前市面上电动汽车基本上都采用的是锂离子电池（以下简称锂电池），可能会有很多朋友会问，为什么动力电池偏偏用的是锂电池呢？回答这个问题前，我们先来看看一个概念——能量密度。能量密度（Energy

[3] **document_test\aaa.txt**  固定磁场无刷电机

[4] **document_test\aaa.txt**  弱磁控制：当电机转速超过一定数值后，励磁电流已经相当小，基本不能再调节，此时进入弱磁控制阶段。

[5] **document_test\aaa.txt**  直流电动机工作原理

导体受力的方向用左手定则确定。这一对电磁力形成了作用于电枢一个力矩，这个力矩在旋转电机里称为电磁转矩，转矩的方向是逆时针方向，企图使电枢逆时针方向转动。如果此电磁转矩能够克服电枢上的阻转矩（例如由摩擦引起的阻转矩以及其它负载转矩），电枢就能按逆时针方向旋转起来。

[6] **https://zhuanlan.zhihu.com/p/339971541**  ，因此相比竞品而言 上 汽魔方电池在各个容量电池包的体积效率转换和重量效率转换都更为出色。上汽魔方电池躺式布局https://www.zhihu.com/video/1549353400738979841编辑于 2022-09-03 11:19动力电池锂电池赞同 1837 条评论分享喜欢收藏申请转载

[7] **document_test\aaa.txt**  二、认真组织电机生产企业执行强制性能效标准

[8] **document_test\aaa.txt**  机床上传统的“旋转电机 +

[9] **document_test\aaa.txt**  到限制。交流电机没有碳刷及整流子，免维护、坚固、应用广，但特性上若要达到相当于直流电机的性能须用复杂控制技术才能达到。现今半导体发展迅速功率组件切换频率加快许多，提升驱动电机的性能。微处理机速度亦越来越快，可实现将交流电机控制置于一旋转的两轴直交坐标系统中，适当控制交流电机在两轴电流分量，达到类似直流电机控制并有与直流电机相当的性能。

[10] **document_test\aaa.txt**  控制原理
 
  11.在streamlit web中运行 
  要在终端中运行：假设你的.py文件名为main.py，那么在终端运行： 
  streamlit run main.py
 
  main.py 
  # main.py
from dotenv import load_dotenv
from pylmkit import BaseWebUI
from pylmkit.llms import ChatQianfan
from pylmkit.llms import EmbeddingsHuggingFace
from langchain.vectorstores import FAISS
from pylmkit.perception.text import DocumentLoader
from pylmkit.perception.text import WebLoader
from pylmkit.app import DocRAG


load_dotenv('.env')
web = BaseWebUI(language='zh')

# load: documents
# loader = DocumentLoader(path='./document_test/aaa.txt')  # 加载一个文档
# loader = DocumentLoader(path='./document_test', show_progress=False)  # 批量加载
# docs = loader.split(chunk_size=200, chunk_overlap=50)
# docs = loader.get()
# print(len(docs))
# print(docs[-1])

# load: web
loader = WebLoader(path='https://zhuanlan.zhihu.com/p/339971541')
docs = loader.split(
    chunk_size=web.param(label="数据块大小", type='int', value=200),
    chunk_overlap=web.param(label="数据块重叠大小", type='int', value=50),
)

# rag
embed_model = EmbeddingsHuggingFace(model_name="all-MiniLM-L6-v2")  #
vdb_model = FAISS
llm_model = ChatQianfan()
role_template = "{ra}\n user question: {query}"
rag = DocRAG(
    embed_model=embed_model,
    vdb_model=vdb_model,
    llm_model=llm_model,
    corpus=docs,
    role_template=role_template,
    return_language="中文",
    online_search_kwargs={},
    # online_search_kwargs={'topk': 2, 'timeout': 20},  # 搜索引擎配置，不开启则可以设置为 online_search_kwargs={}
)

web.run(
    obj=rag.invoke,
    input_param=[{"name": "query", "label": "用户输入内容", "type": "chat"},
                 {"name": "topk", "label": "最相似topk", "type": "int", "value": 5}
                 ],
    output_param=[{'label': '结果', 'name': 'ai', 'type': 'chat'},
                  {'label': '参考', 'name': 'refer', 'type': 'refer'}
                  ]
)


 
  页面效果如下：
  
  
 
  12.GitHub项目地址 
  觉得不错，可以帮忙点个 star 哦 
  GitHub - 52phm/pylmkit: pylmkit: Help users quickly build practical large model applications!

python 科研作图_科研作图软件（11种） weixin_39875754 python 科研作图
科研作图软件（11种）科研绘图在国外已经非常流行，且被高度重视，国内科研人员也越来越重视科研方面的绘图。不少科研工作者，包括在读的博士生、研究生等可能都有这样的体会：千辛万苦得来的实验结果，不知道该如何展现给别人?曾经有位论文审稿人在自己的博文中就写道：“我审稿时看稿件的顺序是题目、摘要、图表、前言、参考文献和正文”。古语云“字如其人”，现在讲“第一印象”，说的都是形象、气质的重要作用，规范的、高
海外社媒营销：实现多账号矩阵与精准触达
在全球社交媒体用户突破50亿的当下，TikTok、Instagram、Facebook等平台已成为品牌触达海外消费者的核心战场。然而，随着平台风控升级与用户需求分化，海外社媒营销正面临两大核心挑战：多账号矩阵运营易被封禁（TikTok单月封禁超200万账号）、内容触达缺乏精准度（全球用户语言/文化/兴趣差异超300种）。亚矩阵云手机通过虚拟化环境隔离、AI行为模拟引擎、动态内容适配系统三大核心技术
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
80亿美元押注Agent！全球第一CRM收购Informatica
昨晚，全球第一CRM平台Salesforce在官网宣布，以80亿美元全资收购企业级AI驱动云数据管理领导者Informatica。根据收购协议条款，Informatica的A股和B-1类普通股持有者将每股获得25美元现金。本次收购将增强Salesforce的数据基础，这对部署强大且负责任的AIAgent至关重要。Informatica丰富的数据目录、数据集成、治理、质量与隐私保护、元数据管理和主数
集成学习中的多样性密码：量化学习器的多样性元楼集成学习学习机器学习人工智能
合集-scikit-learn(69)1.【scikit-learn基础】--概述2023-12-022.【scikit-learn基础】--『数据加载』之玩具数据集2023-12-043.【scikit-learn基础】--『数据加载』之真实数据集2023-12-064.【scikit-learn基础】--『数据加载』之样本生成器2023-12-085.【scikit-learn基础】--『数据
AGI面临突破需要清除这两朵乌云：解码智能鸿沟的终极密码
1.物理学史的镜鉴：科学革命的预兆1900年英国物理学家开尔文勋爵宣称"物理学大厦已告完成"，却未料及那两朵"光速悖论"与"紫外灾难"的乌云，最终催生了相对论与量子力学。这段历史在AI领域重现：当算力呈指数级增长，模型参数突破万亿级，我们依然无法教会AI"水杯会掉落"的常识。这种历史重演揭示着深刻规律——任何科学体系的突破往往始于对既有范式的质疑。正如爱因斯坦推翻绝对时空观，当前AI研究需要重新审
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
python画图修改字体为新罗马字体
#设置字体为新罗马字体font={'family':'serif','serif':['TimesNewRoman'],'size':20,'style':'normal'}plt.rc('font',**font)plt.rc('axes',labelsize=20)如果跑出来不是新罗马字体，那是服务器没装新罗马字体的问题，切换环境到本地就可以了。（本地一般都有新罗马字体）
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
WebView 页面在多语言环境中错位怎么办？国际化适配调试全过程 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
移动应用全球化后，WebView页面往往需要同时适配多种语言和地区设置，包括英语、中文、阿拉伯语等。尤其是当用户使用RTL（Right-to-Left，阿拉伯语、希伯来语等）语言环境时，页面容易出现布局错乱、文字溢出或控件位置异常。这类问题并不会在本地开发环境或英文/中文设置下暴露，常常等到国际用户反馈后才暴露。本文分享一次我们为多语言环境适配进行调试和修复的完整过程。背景：国际化上线后阿拉伯语用
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
JVM内存区域划分需要重新演唱 jvm
JVM内存区域划分1.JVM内存区域概述JVM的内存区域主要分为以下几个部分：程序计数器（ProgramCounterRegister）Java虚拟机栈（JavaVirtualMachineStacks）本地方法栈（NativeMethodStacks）堆（Heap）方法区（MethodArea）运行时常量池（RuntimeConstantPool）直接内存（DirectMemory）每个区域都有
Vlang编写轻量化多线程爬虫 q56731523 爬虫 typescript 开发语言前端
Vlang作为新兴语言，他简单、快速和安全让爬虫有不一样的体验。在V中，并发模型基于轻量级的协程（称为goroutines，类似于Go语言的goroutine）和通道（channels）来实现。虽然说V语言目前还在快速发展中，但它的并发特性已经可以用于构建多线程（实际上是协程）应用程序，例如网络爬虫。所以说，用V语言（Vlang）完全支持编写多线程爬虫。它提供了强大的并发模型和网络库，非常适合高效
SpringAIAlibaba正式版发布！小付爱coding ai
SpringAIAlibaba正式版发布！SpringAIAlibaba到底是个啥？没错！它还是以SpringAI为基础，深度集成阿里自己的百炼平台：支持ChatBot、工作流、多智能体应用开发模式的AI框架。简单来说就是将调用大模型抽象成一个API，可以直接调用来实现，只不过可选参数更多它的核心能力：抽象+简化+扩展SpringAIAlibaba最大的价值在于：它把调用大模型这件事，抽象成了一个
阿里也出手了！十分钟接入Spring Cloud Alibaba AI 体验JAVA微服务AI人工智能，可接通义千问等模型， Java斌十分钟学会Java AI 人工智能 java 微服务
什么是SpringAISpringAI是从著名的Python项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，「下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在」。我们可以从SpringAI的官网描述中，总结出SpringAI的几个核心的关键词：提供抽象能力简化AI应用的开发模型与向量支持AI集成与自动配置
解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- GPT源代码解析大模型与Agent智能体 A2A MCP DeepSeek A2A MCP Manus ADK
解密企业级大模型智能体AgenticAI关键技术：MCP、A2A、ReasoningLLMs-GPT源代码解析我们可以稍微看一下，这是我们GPT的基于它的源代码产生的可视化的内容。这边是model，我们在谈这个sampling的时候，本身首先就是说它这个probabilitydistribution，会有很多的参数对它进行影响。例如temperature，如果你是hightemperature的话
分布式生成 ID 策略的演进和最佳实践，含springBoot 实现（Java版本）
一、背景在单体架构中，ID通常使用数据库自增或UUID即可满足需求。但在微服务、分布式环境中，这些方式存在性能瓶颈、重复冲突、时序不全等问题。因此，分布式ID生成策略应运而生，用于确保在高并发、跨节点、异地部署的系统中，生成全局唯一、趋势递增、高性能的ID。二、演进历程单机自增ID（如数据库自增）Java原生UUID工具类生成（如雪花算法、KeyUtil等）中间件分布式协调（如Zookeeper、
基于PDF Arranger工具，实现对PDF文档的页面进行合并、拆分、排序等操作 wh3933 pdf
1.工具简介PDFArranger是一款轻量、直观、开源的PDF页面处理工具。它的主要目标是提供一个简单易用的图形用户界面（GUI），让用户可以方便地对PDF文档的页面进行合并、拆分、排序等操作。你可以把它想象成一个PDF页面的“幻灯片管理器”，所有的操作都非常直观。核心功能：合并PDF：将多个PDF文档合并成一个。拆分PDF：从一个PDF中提取部分页面，生成新的PDF。重新排序：通过拖拽（dra
Nuxt.js 静态生成中的跨域问题解决方案 m0_73882020 javascript 开发语言 ecmascript
当您运行npmrungenerate生成静态页面时，Vite的代理服务器确实无法使用，因为生成阶段是在Node.js环境中执行的构建过程。但别担心，我将为您提供一套完整的解决方案来处理构建阶段的跨域问题。核心解决方案1.构建阶段：使用服务端中转API（推荐）在构建阶段通过Nuxt的server路由中转请求，避开跨域限制：//server/api/products.tsexportdefaultde
Gemma Chatbot 架构深度剖析：从 C++ 核心到多语言推理的工程实践雷羿 LexChien LLM 人工智能 python c++LLM RAG
GemmaChatbot架构深度剖析：从C++核心到多语言推理的工程实践随着大语言模型（LLM）本地化需求日益提升，如何设计一套高效、可扩展、易于维护的本地聊天系统。GemmaChatbot以C++为推理核心，结合Python前端与多语言支持，实现了高性能与灵活性的完美结合。本文将深入剖析其程序架构、模块划分、数据流设计与工程实践细节。一、总体架构设计GemmaChatbot采用“前后端分离”与“
CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目支持音色保存本地一键整合包下载昨日之日2006 ai语音人工智能音视频语音识别
近日，阿里通义实验室发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice和CosyVoice。今天分享的这个是v3ucn大佬优化过的升级版，新增自定义音色保存，优化长文本生成以及修复上个版本错误提示的bug。一键包更新地址：CosyVoice升级版-阿里最新开源语音克隆、文本转语音项目
Android 系统开发中，如何给git未跟踪的文件打 Git Patch zzq1996 android git
Android系统开发中，如何给git未跟踪的文件打GitPatch开发云-一站式云服务平台在Git中，给未跟踪的文件(untrackedfiles)打补丁(patch)需要先将这些文件暂存(stage)，然后再生成补丁。以下是详细步骤：基本步骤添加未跟踪文件到暂存区：bashgitadd#或者添加所有未跟踪文件gitadd.生成补丁文件：bashgitdiff--cached>mypatch.p
【后端开发】Flask学习教程大雨淅淅后端开发 flask 学习 python 后端
目录一、Flask是什么？二、环境搭建，准备启航2.1安装Python2.2安装Flask库三、第一个Flask程序，初窥门径3.1导入Flask类3.2创建应用实例3.3定义路由和视图函数3.4运行应用四、深入理解Flask核心概念4.1路由系统详解4.2请求与响应处理4.3模板引擎Jinja2五、Flask扩展，增强战斗力5.1Flask-SQLAlchemy：数据库操作的得力助手5.2Fla
【后端开发】Django 大雨淅淅后端开发 sqlite 数据库后端 django
目录一、Django是什么，为何选择它？二、学习前的准备工作三、Django项目初体验四、深入Django核心概念（一）模型（Model）（二）视图（View）（三）模板（Template）（四）URL配置五、实战演练：打造一个简单博客（一）搭建博客基础框架（二）实现文章发布功能（三）展示文章列表和详情六、总结与展望一、Django是什么，为何选择它？在PythonWeb开发的广袤天地里，Djan
OpenHarmony实战—— 自定义构建函数：@Builder装饰器我命油我不有天 HarmonyOS OpenHarmony 鸿蒙开发 harmonyos openHarmony 鸿蒙开发 ArkUI 物联网装饰器构建函数
往期推文全新看点（文中附带最新·鸿蒙全栈笔记）1️⃣鸿蒙（HarmonyOS）北向开发知识点记录~2️⃣鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~3️⃣鸿蒙应用开发与鸿蒙系统开发哪个更有前景？4️⃣嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~5️⃣对于大前端开发来说，转鸿蒙开发究竟是福还是祸？6️⃣鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？7️⃣记录一场鸿蒙开发
MySQL数据库进阶(八)———查询优化与执行计划深度解析【本人】数据库数据库 mysql
前言在掌握了索引原理后，我们将深入MySQL最核心的性能优化领域——查询优化与执行计划分析。本文将从优化器工作原理到实战调优技巧，全方位提升你的SQL性能优化能力。一、查询优化的本质：从分钟级到毫秒级的蜕变查询优化是数据库系统的核心能力，MySQL通过优化器将SQL转换为高效执行计划。优化前后的性能差异可能达到千倍级：--优化前（执行时间12.8秒）SELECT*FROMordersoJOINus
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
php yaf_cg --app=www.yafapi.com --directory=D:\phpstudy_pro\WWW\www.yafapi.com --controller=Test` 到底
1.phpyaf_cg--app=www.yafapi.com--directory=D:\phpstudy_pro\WWW\www.yafapi.com--controller=Test到底是干什么的？这条命令是使用Yaf（YetAnotherFramework）框架提供的代码生成工具yaf_cg，自动生成一个基于Yaf框架的应用程序结构和代码文件。它的作用是帮助开发者快速搭建项目的基础结构，减
Kotlin - Flow 冷流、热流 Android-Flutter Kotlin例子 kotlin 开发语言 android
Kotlin-Flow冷流、热流‌KotlinFlow‌是Kotlin协程的一部分，旨在简化异步编程，提供了一种声明式的方式来处理数据流。Flow允许以非阻塞的方式处理一系列的值或事件，特别适合于处理大量数据或涉及IO操作的情况。Kotlin协程中使用挂起函数可以实现非阻塞地执行任务并将结果返回，但是只能返回单个计算结果。但如果希望有多个计算结果返回，则可以使用Flow。Flow的三大核心：1、生
前端的跨域问题
前端新手也能看懂的跨域问题详解在前端开发中，我们经常会听到“跨域问题”。尤其是在本地调试前端和后台接口时，浏览器突然抛出一堆报错信息，比如：AccesstoXMLHttpRequestat'[http://api.xxx.com/data](http://api.xxx.com/data)'fromorigin'[http://localhost:8080](http://localhost:80
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

PyLMKit(4):基于本地知识库的检索增强生成RAG

基于本地知识库的检索增强生成RAG

0.项目信息

1.下载安装

2.设置API KEY

3.加载大语言模型

4.选择记忆功能

5.设计角色模板

6.加载知识库

7.加载词向量模型

8.加载向量数据库

9.加载RAG应用

10.在python中运行

11.在streamlit web中运行

12.GitHub项目地址

你可能感兴趣的:(PyLMKit-大模型应用开发,本地知识库,检索增强生成,RAG,PYLMKIT,langchain,讯飞星火大模型,百度千帆大模型)