背太阳的牧羊人

构建高效RAG系统的常用策略

示例代码：

代码1 cleaning.py：

def clean_text(text: str) -> str:
    text = re.sub(r"[^\w\s.,!?]", " ", text)
    text = re.sub(r"\s+", " ", text)
    return text.strip()

代码2 chunking.py：

from langchain.text_splitter import RecursiveCharacterTextSplitter, SentenceTransformersTokenTextSplitter

def chunk_text(text: str, chunk_size: int = 500, chunk_overlap: int = 50) -> list[str]:
    character_splitter = RecursiveCharacterTextSplitter(separators=["\n\n"], chunk_size=chunk_size, chunk_overlap=0)
    text_split_by_characters = character_splitter.split_text(text)

    token_splitter = SentenceTransformersTokenTextSplitter(
        chunk_overlap=chunk_overlap,
        tokens_per_chunk=embedding_model.max_input_length,
        model_name=embedding_model.model_id,
    )
    chunks_by_tokens = []
    for section in text_split_by_characters:
        chunks_by_tokens.extend(token_splitter.split_text(section))

    return chunks_by_tokens


def chunk_document(text: str, min_length: int, max_length: int) -> list[str]:
    """Alias for chunk_article()."""

    return chunk_article(text, min_length, max_length)


def chunk_article(text: str, min_length: int, max_length: int) -> list[str]:
    sentences = re.split(r"(?, text)

    extracts = []
    current_chunk = ""
    for sentence in sentences:
        sentence = sentence.strip()
        if not sentence:
            continue

        if len(current_chunk) + len(sentence) <= max_length:
            current_chunk += sentence + " "
        else:
            if len(current_chunk) >= min_length:
                extracts.append(current_chunk.strip())
            current_chunk = sentence + " "

    if len(current_chunk) >= min_length:
        extracts.append(current_chunk.strip())

    return extracts

文本预处理工具

文本预处理的核心操作函数，主要有两个文件：cleaning.py 和 chunking.py。
这两个文件包含的函数就像是文本处理的"工具箱"，负责清洗和分割文本。

1. cleaning.py - 文本清洗

函数：clean_text

def clean_text(text: str) -> str:
    text = re.sub(r"[^\w\s.,!?]", " ", text)
    text = re.sub(r"\s+", " ", text)
    return text.strip()

功能解释

这个函数做了三件事：

移除特殊字符：移除除了字母、数字、空格和一些基本标点（.,!?）以外的所有字符
规范空格：将多个连续的空格替换为单个空格
去除首尾空白：去掉文本开头和结尾的空白字符

举例说明

假设我们有这样一段文本：

Hello   world! This is a #test@ with some $special% characters.

经过 clean_text 处理后，会变成：

Hello world! This is a test with some special characters.

注意以下变化：

多个空格变成了单个空格
特殊字符如 #@$% 都被替换为空格
基本标点如 .! 被保留了

这个函数的目的是让文本更干净、更标准化，便于后续处理。

2. chunking.py - 文本分块

这个文件包含了几个函数，用于将长文本分割成更小的块。

(1) chunk_text 函数

def chunk_text(text: str, chunk_size: int = 500, chunk_overlap: int = 50) -> list[str]:
    character_splitter = RecursiveCharacterTextSplitter(separators=["\n\n"], chunk_size=chunk_size, chunk_overlap=0)
    text_split_by_characters = character_splitter.split_text(text)

    token_splitter = SentenceTransformersTokenTextSplitter(
        chunk_overlap=chunk_overlap,
        tokens_per_chunk=embedding_model.max_input_length,
        model_name=embedding_model.model_id,
    )
    chunks_by_tokens = []
    for section in text_split_by_characters:
        chunks_by_tokens.extend(token_splitter.split_text(section))

    return chunks_by_tokens

功能解释

这个函数分两步进行文本分块：

第一步：按段落（双换行符 \n\n）分割文本，每块最大500字符
第二步：对每个段落进行基于 token 的分割，确保每块不超过嵌入模型的最大输入长度

举例说明

假设我们有一篇1500字符的文章，包含3个段落：

第一段：包含了大约400个字符的内容…
第二段：包含了大约600个字符的内容…
第三段：包含了大约500个字符的内容…

处理过程：

首先按段落分割，得到3个块（因为每个段落都小于500字符）
然后对每个段落进行 token 分割：
- 第一段：400字符，可能是100个 token，保持为一块
- 第二段：600字符，可能是150个 token；如果模型最大输入是128个 token，会分成两块，中间有50个 token 重叠
- 第三段：500字符，可能是125个 token，保持为一块
最终可能得到4个文本块。

(2) chunk_article 函数

def chunk_article(text: str, min_length: int, max_length: int) -> list[str]:
    sentences = re.split(r"(?, text)

    extracts = []
    current_chunk = ""
    for sentence in sentences:
        sentence = sentence.strip()
        if not sentence:
            continue

        if len(current_chunk) + len(sentence) <= max_length:
            current_chunk += sentence + " "
        else:
            if len(current_chunk) >= min_length:
                extracts.append(current_chunk.strip())
            current_chunk = sentence + " "

    if len(current_chunk) >= min_length:
        extracts.append(current_chunk.strip())

    return extracts

功能解释

这个函数更智能地分割文章：

按句子分割：首先使用复杂的正则表达式识别句子边界来按句子分割文本
贪婪合并：将句子组合成块，确保每块：
- 不超过最大长度 max_length
- 不小于最小长度 min_length
- 不会在句子中间断开

举例说明

假设我们有以下文本：

我喜欢编程。Python是一种很棒的语言。它简单易学。我每天都在使用它。机器学习是一个有趣的领域。深度学习更是令人着迷。

假设 min_length=50，max_length=100，每个句子的长度如下：

“我喜欢编程。” - 15字符
“Python是一种很棒的语言。” - 30字符
“它简单易学。” - 15字符
“我每天都在使用它。” - 20字符
“机器学习是一个有趣的领域。” - 30字符
“深度学习更是令人着迷。” - 25字符

处理过程：

第一块：添加前4个句子 = 80字符（小于 max_length=100）
第二块：添加后2个句子 = 55字符（大于 min_length=50）

最终得到两个文本块：

块1：

我喜欢编程。Python是一种很棒的语言。它简单易学。我每天都在使用它。

块2：

机器学习是一个有趣的领域。深度学习更是令人着迷。

(3) chunk_document 函数

def chunk_document(text: str, min_length: int, max_length: int) -> list[str]:
    """Alias for chunk_article()."""
    return chunk_article(text, min_length, max_length)

这只是 chunk_article 函数的一个别名，功能完全相同。

这些函数的实际应用

这些函数在项目中的作用非常关键：

清洗文本：移除噪音和不必要的字符，使文本更规范
分块处理：将长文本分成适合模型处理的小块
- 对于嵌入模型：确保不超过模型的最大输入长度
- 对于检索系统：创建合适大小的文本块，便于精确检索

这些预处理操作是构建高效 RAG（检索增强生成） 系统的基础。
通过合理的清洗和分块，可以：

提高嵌入向量的质量
增强检索的精确度
减少无关信息的干扰

简单来说，这些函数就像是文本的"切菜师傅"，它们把原始的长文本"切"成大小合适、干净整洁的小块，为后续的 AI 模型处理做好准备。

chunk_text 方法和 chunk_article 方法的区别与联系

它们都用于将长文本分割成更小的块，但采用了不同的策略和目的。

主要区别

分割策略不同

chunk_text 方法:

def chunk_text(text: str, chunk_size: int = 500, chunk_overlap: int = 50) -> list[str]:
    character_splitter = RecursiveCharacterTextSplitter(separators=["\n\n"], chunk_size=chunk_size, chunk_overlap=0)
    text_split_by_characters = character_splitter.split_text(text)

    token_splitter = SentenceTransformersTokenTextSplitter(
        chunk_overlap=chunk_overlap,
        tokens_per_chunk=embedding_model.max_input_length,
        model_name=embedding_model.model_id,
    )
    chunks_by_tokens = []
    for section in text_split_by_characters:
        chunks_by_tokens.extend(token_splitter.split_text(section))

    return chunks_by_tokens

使用两级分割策略：
1. 首先按段落（双换行符 \n\n）分割
2. 然后按 token 进一步分割
使用专业的分割器类：RecursiveCharacterTextSplitter 和 SentenceTransformersTokenTextSplitter
考虑了嵌入模型的 token 限制
默认参数：chunk_size=500（字符），chunk_overlap=50（token）

chunk_article 方法:

def chunk_article(text: str, min_length: int, max_length: int) -> list[str]:
    sentences = re.split(r"(?, text)

    extracts = []
    current_chunk = ""
    for sentence in sentences:
        sentence = sentence.strip()
        if not sentence:
            continue

        if len(current_chunk) + len(sentence) <= max_length:
            current_chunk += sentence + " "
        else:
            if len(current_chunk) >= min_length:
                extracts.append(current_chunk.strip())
            current_chunk = sentence + " "

    if len(current_chunk) >= min_length:
        extracts.append(current_chunk.strip())

    return extracts

使用正则表达式按句子分割
手动实现了贪婪合并句子的逻辑
考虑了最小长度和最大长度的约束
参数需要明确指定 min_length 和 max_length

参数不同
- chunk_text 使用字符数和重叠 token 数作为参数
- chunk_article 使用最小和最大字符长度作为参数
应用场景不同
- chunk_text 更适合用于嵌入模型处理，因为它考虑了 token 限制
- chunk_article 更适合用于生成摘要或提取，因为它保持了句子的完整性

联系

目的相同：两者都是为了将长文本分割成更小的、可管理的块

别名关系：chunk_document 是 chunk_article 的别名

def chunk_document(text: str, min_length: int, max_length: int) -> list[str]:
    """Alias for chunk_article()."""
    return chunk_article(text, min_length, max_length)

尊重文本自然边界：
- chunk_text 尊重段落边界
- chunk_article 尊重句子边界
预处理管道中的角色：它们都是文本处理管道的一部分

实际应用举例

假设有一篇包含多个段落的长文章：

人工智能正在改变世界。它影响了从医疗到金融的各个领域。

机器学习是AI的一个子领域。深度学习是机器学习中特别强大的一种方法。它基于神经网络，可以学习复杂的模式。

自然语言处理让计算机能够理解人类语言。这使得像聊天机器人这样的应用成为可能。它还支持机器翻译和情感分析。

使用 chunk_text 处理:
- 首先按 \n\n 分割成3个段落
- 然后每个段落按 token 进一步分割（如果需要）
- 可能的结果：3个或更多块，取决于每个段落的 token 数
使用 chunk_article 处理:
- 首先按句子分割成8个句子
- 然后根据 min_length 和 max_length 合并句子
- 可能的结果：2-3个块，每个块包含完整的句子

总结

chunk_text 更技术性，专注于为嵌入模型优化文本块
chunk_article 更语义性，专注于保持文本的可读性和连贯性
两者在项目中扮演互补角色，用于不同的预处理需求

同时使用 chunk_text 与 chunk_article 方法能同时使用么？

这两个方法可以同时使用，它们在不同的处理阶段有各自的优势。

同时使用的场景

多级处理：先用 chunk_article 按语义分块，再用 chunk_text 确保每块符合嵌入模型的要求
不同用途：
- 用 chunk_article 处理要展示给用户的内容
- 用 chunk_text 处理要输入到模型的内容
A/B 测试：比较两种分块方法的效果，选择更好的结果

代码示例：多级处理

假设我们有一篇长文章，需要先按语义分块，然后确保每块都适合嵌入模型处理：

from llm_engineering.application.preprocessing.operations.chunking import chunk_article, chunk_text

def process_long_document(document: str) -> list[str]:
    """
    处理长文档的两阶段分块策略：
    1. 首先使用chunk_article按语义分块，保持句子完整性
    2. 然后使用chunk_text确保每块不超过嵌入模型的限制
    """
    # 第一阶段：按语义分块，每块500-2000字符
    semantic_chunks = chunk_article(document, min_length=500, max_length=2000)
    
    # 第二阶段：确保每块适合嵌入模型
    final_chunks = []
    for chunk in semantic_chunks:
        # 如果语义块太长，进一步分割
        if len(chunk) > 1000:  # 假设1000字符是一个安全阈值
            sub_chunks = chunk_text(chunk, chunk_size=800, chunk_overlap=100)
            final_chunks.extend(sub_chunks)
        else:
            final_chunks.append(chunk)
    
    return final_chunks

# 使用示例
long_article = """
人工智能(AI)正在彻底改变我们的生活和工作方式。从智能手机上的语音助手到自动驾驶汽车，AI技术无处不在。

机器学习是AI的核心技术之一。它允许计算机从数据中学习，而无需明确编程。深度学习是机器学习的一个子集，它使用多层神经网络来模拟人脑的工作方式。这些网络可以识别模式、分类数据并做出预测。

自然语言处理(NLP)是AI的另一个重要分支。它使计算机能够理解、解释和生成人类语言。NLP技术支持了从机器翻译到情感分析的各种应用。最近的大型语言模型(LLM)如GPT和BERT在这一领域取得了突破性进展。

计算机视觉让机器能够"看到"和理解视觉世界。它在医疗诊断、安全监控和自动驾驶等领域有广泛应用。结合深度学习技术，现代计算机视觉系统可以识别物体、人脸和活动，有时甚至比人类更准确。

强化学习是AI的另一个关键领域，它专注于如何通过试错来学习最佳行动。这种方法已被用于训练AI玩游戏、控制机器人和优化系统。

尽管AI技术取得了令人印象深刻的进展，但它也面临着伦理、隐私和安全方面的挑战。确保AI的负责任发展和使用是研究人员、企业和政策制定者的共同责任。
"""

chunks = process_long_document(long_article)
for i, chunk in enumerate(chunks):
    print(f"块 {i+1} ({len(chunk)} 字符):")
    print(chunk[:100] + "..." if len(chunk) > 100 else chunk)
    print("-" * 50)

代码示例：不同用途

假设我们在构建一个 RAG 系统，需要同时为用户展示和为模型准备内容：

from llm_engineering.application.preprocessing.operations.chunking import chunk_article, chunk_text

def prepare_document_for_rag(document: str):
    """
    为RAG系统准备文档：
    1. 使用chunk_article创建用户友好的摘要块
    2. 使用chunk_text创建适合嵌入模型的块
    """
    # 为用户界面创建可读性好的块
    user_friendly_chunks = chunk_article(document, min_length=200, max_length=1000)
    
    # 为嵌入模型创建优化的块
    embedding_chunks = chunk_text(document, chunk_size=500, chunk_overlap=50)
    
    # 创建映射关系，将每个嵌入块关联到最相似的用户友好块
    chunk_mapping = {}
    for emb_chunk in embedding_chunks:
        best_match = None
        max_overlap = 0
        
        for uf_chunk in user_friendly_chunks:
            # 简单计算文本重叠度
            overlap = sum(1 for word in emb_chunk.split() if word in uf_chunk.split())
            if overlap > max_overlap:
                max_overlap = overlap
                best_match = uf_chunk
        
        chunk_mapping[emb_chunk] = best_match
    
    return {
        "user_chunks": user_friendly_chunks,  # 用于展示给用户
        "embedding_chunks": embedding_chunks,  # 用于向量数据库
        "mapping": chunk_mapping  # 关联两种块
    }

# 使用示例
document = """
检索增强生成(RAG)是一种结合了检索系统和生成AI的强大技术。它通过从外部知识库检索相关信息来增强语言模型的输出。

RAG的工作原理是首先将查询发送到检索系统，该系统从知识库中找到相关文档。然后，这些文档与原始查询一起提供给语言模型，使其能够生成更准确、更相关的回答。

这种方法解决了大型语言模型的一个关键限制：它们只能基于训练数据生成内容，而训练数据可能过时或不完整。通过RAG，模型可以访问最新和专业的信息。

实现高效的RAG系统需要几个关键组件：文档处理管道、嵌入模型、向量数据库和生成模型。文档处理包括清洗、分块和嵌入文本。向量数据库存储这些嵌入，并支持相似性搜索。

RAG系统的性能很大程度上取决于文本分块的质量。块太大会包含太多信息，可能稀释相关内容；块太小可能会丢失上下文。找到合适的平衡是构建有效RAG系统的关键。
"""

result = prepare_document_for_rag(document)
print(f"用户友好块数量: {len(result['user_chunks'])}")
print(f"嵌入模型块数量: {len(result['embedding_chunks'])}")
print("\n示例用户友好块:")
print(result['user_chunks'][0][:150] + "..." if len(result['user_chunks'][0]) > 150 else result['user_chunks'][0])
print("\n示例嵌入块:")
print(result['embedding_chunks'][0][:150] + "..." if len(result['embedding_chunks'][0]) > 150 else result['embedding_chunks'][0])

通俗解释

想象你是一个图书管理员，需要整理一本厚重的百科全书：

chunk_article 就像按章节分割：
- 你首先按照章节、段落等自然分界线将书分成几个部分
- 每个部分都是完整的、有意义的内容单元
- 这样分割出来的内容对人类读者友好，容易理解
chunk_text 就像制作索引卡片：
- 为了方便电脑检索，你需要制作标准大小的索引卡片
- 每张卡片不能太大（否则电脑处理不了）
- 卡片之间可以有一些重叠内容（确保连贯性）
同时使用两种方法就像你既为人类读者准备了章节目录，又为电脑检索系统准备了索引卡片：
- 人类可以通过章节目录轻松找到完整、连贯的内容
- 电脑可以通过索引卡片快速、精确地检索信息
- 两者之间有映射关系，当电脑找到相关索引卡片时，可以引导读者到对应的完整章节

这种组合使用的方法既满足了人类对内容连贯性和可读性的需求，又满足了 AI 模型对输入大小和格式的技术要求，是构建高效 RAG 系统的常用策略。

【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
AI周报：技术面试卷出新高度，Agent落地开启“工具觉醒”时代哪小吒圈子人工智能语言模型
一句话暴论：当面试官要求手搓FP16精度时，真正的考题是“你能否在硅基文明觉醒前跟上进化速度”。一、面试地狱难度实录（开发者生存指南）百度二面手搓FP16精度：考的不是浮点数，而是对硬件底层的敬畏（原文）腾讯夺命11连问：混元大模型面试暴露行业真相——懂原理已不够，得会调参、训推、修故障的“全栈炼丹师”（解析)NVIDIA四轮拷打实录：GPU厂面试竟考Attention优化！LightingAtt
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
预取内存和非预取内存区别 zly8865372 macos
在PCIe（PCIExpress）设备中，预取内存（PrefetchableMemory）和非预取内存（Non-PrefetchableMemory）是两种不同的内存区域类型，主要区别在于它们的访问特性、使用场景以及硬件优化方式。以下是详细对比：1.定义与核心区别特性预取内存（Prefetchable）非预取内存（Non-Prefetchable）数据访问行为允许预读（Prefetch）和缓存，数
管道魔法：高阶组合技引爆Linux数据处理效率 yhyvc 后端开发 linux 运维服务器
管道魔法：高阶组合技引爆Linux数据处理效率核心理念管道符|是Linux哲学"一个工具只做一件事"的灵魂实践。通过串联多个单一功能指令，可构建复杂的数据处理流水线。相较于图形界面操作，管道流处理1GB日志文件的效率可提升5-10倍，且资源占用降低80%。一、经典工作流深度解析网站访问日志分析TOP10IPzcataccess.log*.gz|\#解压并读取多个压缩日志awk'$7~/\/prod
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
MCP消息协议和传输协议（Java角度） sky丶Mamba LLM java 开发语言 MCP 大模型
作为Java程序员，你可以将MCP的消息协议和传输协议的关系类比为HTTP协议中“应用层”和“传输层”的分工。以下是具体解析：MCP定义了三种主流传输方式，适应不同场景需求：传输类型原理适用场景优缺点Stdio（标准输入/输出）通过本地进程的stdin/stdout通信本地命令行工具、敏感数据处理（如隐私计算）优点：简单、低延迟；缺点：仅限本地，不支持远程或高并发。SSE（Server-SentE
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
ikun-ui v0.2.7版本发布：组件功能增强与体验优化时琦旖
ikun-uiv0.2.7版本发布：组件功能增强与体验优化ikun-ui是一个基于Svelte框架构建的现代化UI组件库，专注于为开发者提供高质量、易用的前端组件。在最新发布的v0.2.7版本中，团队对多个核心组件进行了功能增强和体验优化，特别是在交互体验和视觉表现方面有了显著提升。组件功能增强工具提示与弹出框组件优化工具提示(Tooltip)和弹出框(Popover)组件新增了两项实用的交互控制
今日播报！庆衍书院郭庆旺被骗黑幕曝光，KSD2.0光伏市场不能出金不要再次踏入！法律咨询维权
社交平台有这样一种群，群里都是“理财专家”“炒股大神”“操盘高手”，不仅每天免费授课、推荐牛股，还有助理“一对一”指导具体操作。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。咨询顾问：182--71402640（电微同号）数字经济数字体育数字农业慈善投票大赛
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法 Mr.Winter` 机器人人工智能数据挖掘深度学习神经网络强化学习具身智能
目录0专栏介绍1演员-评论家架构1.1Critic网络优化1.2Actor网络优化2深度确定性策略梯度算法0专栏介绍本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学
【Python练习】056. 编写一个函数，实现简单的CSV文件解析器视睿从零开始学习机器人 python 前端服务器
056.编写一个函数，实现简单的CSV文件解析器056.编写一个函数，实现简单的CSV文件解析器示例代码示例CSV文件内容示例运行代码说明扩展功能支持自定义分隔符的示例注意事项实现CSV文件解析的方法使用标准库csv模块解析使用pandas库解析手动实现基础解析器处理复杂CSV格式性能优化建议056.编写一个函数，实现简单的CSV文件解析器以下是一个简单的Python函数，用于解析CSV文件。这个
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
基于国产手机 SoC 的多模态模型推理加速实战：GPU × NPU 协同优化全流程解析观熵智能终端Ai探索与创新实践人工智能 android NPU GPU
基于国产手机SoC的多模态模型推理加速实战：GPU×NPU协同优化全流程解析关键词多模态模型推理、NPU硬件加速、GPU并行计算、国产手机SoC、端侧部署优化、华为昇腾NPU、小米Surge芯片、高通AIEngine、异构计算加速、TFLiteNNAPI、ONNXRuntimeEP摘要随着国产智能手机SoC（如华为昇腾、vivoV系列、小米Surge、紫光展锐、联发科Dimensity）的异构计算
PHP与Web页面交互：从基础表单到AJAX实战独立开发者阿乐综合性原创前端 php 交互 Web页面表单处理 AJAX技术 AJAX
文章目录PHP与Web页面交互：从基础到高级实践1.引言2.基础表单处理2.1HTML表单与PHP交互基础2.2GET与POST方法比较3.高级交互技术3.1AJAX与PHP交互3.2使用FetchAPI进行现代AJAX交互4.文件上传处理5.安全性考量5.1常见安全威胁与防护5.2数据验证与过滤6.现代PHP与前端框架交互6.1构建RESTfulAPI6.2使用JWT进行认证7.性能优化7.1缓
互联网医院运营数据采集争实科技互联网医院医疗信息化
互联网医院运营数据采集是支撑业务优化、服务监管和决策分析的核心环节，需整合多源异构数据并确保其安全性与有效性。以下从采集内容、技术方法、挑战及解决方案等方面系统阐述：一、核心数据采集内容1.患者与业务数据基础信息：患者人口学特征、病史、过敏史等。服务记录：挂号量、问诊类型（图文/视频）、诊断量、处方量、复诊率、药品配送量。交互指标：平均就诊时长、会话响应时间、服务完成率。2.资源与效率数据医生资源
中国在远程医疗智能化方面有哪些特色发展模式？争实科技互联网医院医疗信息化
我国在远程医疗智能化领域的发展已形成多种特色模式，结合技术创新与政策支持，有效推动了医疗资源的均衡化和服务效率提升。下面我来为大家介绍六大核心发展模式。一、县域医共体+AI辅助诊断（基层赋能模式）技术整合：基层医疗机构部署AI辅助诊断系统，通过大模型优化本地疾病图谱，为医生提供实时诊疗决策支持，年辅助诊断超20万次，电子病历规范率从7.53%提升至53.02%。资源下沉：全国70%的卫生院与上级医
《Python 微服务架构实践指南：框架与工具的深度解析》清水白石008 python Python题库架构 python 微服务
《Python微服务架构实践指南：框架与工具的深度解析》开篇引入背景介绍：在现代应用开发中，微服务架构因其高扩展性、灵活性和模块化优势而备受关注。从电商平台到数据处理，微服务架构逐渐取代传统单体架构，成为开发者首选。而Python凭借其简洁优雅的语法和丰富的生态系统，为实现微服务架构提供了坚实的基础。为什么写这篇文章：作为一名资深开发者和教育者，我深切感受到许多开发者在微服务设计中的困惑。因此，本
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
RAG实战指南 Day 21：检索前处理与查询重写技术在未来等你 RAG实战指南 RAG 检索增强生成查询优化信息检索 NLP 大语言模型应用
【RAG实战指南Day21】检索前处理与查询重写技术开篇欢迎来到"RAG实战指南"系列的第21天！今天我们将深入探讨RAG系统中检索前处理与查询重写技术的核心原理和实现方法。在构建高质量RAG系统时，原始用户查询往往不够精确或完整，直接用于检索可能导致效果不佳。查询预处理和重写技术能够显著提升检索质量，是构建生产级RAG系统的关键环节。通过本篇文章，您将掌握：查询预处理的核心技术和方法查询扩展和重
鸿蒙应用App Linking优化：深度链接性能操作系统内核探秘操作系统内核揭秘 harmonyos 华为 ai
鸿蒙应用AppLinking优化：深度链接性能关键词：鸿蒙系统、AppLinking、深度链接、性能优化、路由匹配、参数解析、冷启动优化摘要：本文深入探讨鸿蒙系统下AppLinking深度链接的性能优化策略。从核心概念解析出发，详细阐述深度链接在鸿蒙架构中的实现原理，包括Ability路由机制、链接解析算法和参数传递模型。通过数学模型分析路由匹配复杂度，结合Python算法示例演示链接解析过程。基
AI人才实在太抢手！顶级科学家年薪超7000万：中高级也能过千万程序员超超人工智能 transformer 深度学习 java spring boot ai 大模型
快科技7月2日消息，据媒体报道，激烈的人工智能人才争夺战，导致一些顶尖资深研究科学家的年薪超过1000万美元（约7167万元人民币）。而典型的薪资方案则处于300万至700万美元区间，相较于2022年，这一数字实现了约50%的增长。薪酬追踪网站Levels的统计数据显示，Meta给予AI工程师的薪酬范围为18.6万至320万美元，OpenAI则在21.2万至250万美元之间；若以薪酬中位数来衡量，
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

构建高效RAG系统的常用策略

示例代码：

文本预处理工具

1. cleaning.py - 文本清洗

函数：clean_text

功能解释

举例说明

2. chunking.py - 文本分块

(1) chunk_text 函数

功能解释

举例说明

(2) chunk_article 函数

功能解释

举例说明

(3) chunk_document 函数

这些函数的实际应用

chunk_text 方法和 chunk_article 方法的区别与联系

主要区别

联系

实际应用举例

总结

同时使用 chunk_text 与 chunk_article 方法能同时使用么？

同时使用的场景

代码示例：多级处理

代码示例：不同用途

通俗解释

你可能感兴趣的:(RAG+langchain,RAG优化方法,人工智能,RAG,RAG优化,自然语言处理,数据处理)