Python算法实战

用通俗易懂的方式讲解：12 个大模型 RAG 痛点及解决方案

受 Barnett 等人的论文《工程检索增强生成系统时的七个失败点》启发，让我们在本文中探讨论文中提到的七个失败点以及开发 RAG 管道时的五个常见痛点。

论文：https://arxiv.org/pdf/2401.05856.pdf

更重要的是，我们将深入探讨这些 RAG 痛点的解决方案，以便在日常 RAG 开发中更好地解决这些痛点。

我使用“痛点”而不是“失败点”，主要是因为这些点都有对应的提出的解决方案。让我们在我们的 RAG 管道中成为失败之前尝试解决它们。

首先，让我们审视上述论文中提到的七个痛点；请参见下面的图表。然后我们将添加五个额外的痛点及其提出的解决方案。

痛点1：内容缺失

当实际答案不在知识库中时，RAG 系统会提供一个看似合理但不正确的答案，而不是声明它不知道。用户收到误导性信息，导致沮丧。

我们提出了两种解决方案：

清理您的数据

垃圾进，垃圾出。如果您的源数据质量很差，例如包含冲突信息，无论您构建 RAG 管道的多么完善，它都无法从您提供的垃圾中输出金子般的结果。这个提议的解决方案不仅适用于这个痛点，还适用于本文中列出的所有痛点。清洁的数据是任何良好运行的 RAG 管道的先决条件。

更好的提示

更好的提示可以在系统由于知识库中缺少信息而可能提供一个看似合理但不正确答案的情况下显著地提供帮助。通过指导系统使用提示，如“如果您对答案不确定，请告诉我您不知道”，您鼓励模型承认其局限性并更透明地传达不确定性。虽然无法保证100%准确性，但在清理数据后，精心设计您的提示是您可以做出的最佳努力之一。

痛点2：错过了排名靠前的文档

系统的检索组件返回的前几个结果可能不包含关键文档。由于忽略了正确答案，导致系统无法提供准确的响应。论文中暗示：“问题的答案在文档中，但排名不高到足以返回给用户”。

我脑海中出现了两个提议的解决方案：

超参数调整 chunk_size 和 similarity_top_k
- chunk_size 和 similarity_top_k 是用于管理 RAG 模型中数据检索过程的参数。调整这些参数可以影响计算效率与检索信息质量之间的权衡。我们在之前的文章《使用 LlamaIndex 自动调整超参数》中探讨了关于 chunk_size 和 similarity_top_k 的超参数调整的细节。请参考以下示例代码：
```
param_tuner = ParamTuner(
    param_fn=objective_function_semantic_similarity,
    param_dict=param_dict,
    fixed_param_dict=fixed_param_dict,
    show_progress=True,
)

results = param_tuner.tune()
```
函数 objective_function_semantic_similarity 的定义如下，param_dict 包含参数 chunk_size 和 top_k，以及它们的建议值。

更多详情，请参阅 LlamaIndex 关于 RAG 超参数优化的完整笔记本。
重新排名
- 在将检索结果发送到 LLM 之前重新排名显著提高了 RAG 的性能。这个 LlamaIndex 笔记本展示了以下两种情况之间的区别：
- 直接检索顶部2个节点而不使用重新排名导致的不准确检索。
- 检索顶部10个节点并使用 CohereRerank 进行重新排名并返回顶部2个节点导致的准确检索。
```
import os
from llama_index.postprocessor.cohere_rerank import CohereRerank

api_key = os.environ["COHERE_API_KEY"]
cohere_rerank = CohereRerank(api_key=api_key, top_n=2) # 从重新排名器返回顶部2个节点

query_engine = index.as_query_engine(
    similarity_top_k=10, # 在此设置一个高 top_k 以确保最大相关检索
    node_postprocessors=[cohere_rerank], # 将重新排名器传递给节点后处理器
)

response = query_engine.query(
    "Sam Altman 在这篇文章中做了什么？",
)
```
此外，您可以使用各种嵌入和重新排名器评估和增强检索器的性能，详见 Ravi Theja 的文章《提升 RAG：选择最佳嵌入和重新排名模型》。

此外，您可以微调自定义重新排名器以获得更好的检索性能，详细实现文档记录在 Ravi Theja 的文章《通过 LlamaIndex 使用 Fine-tuning Cohere Reranker 改进检索性能》中。

痛点3：不在上下文中 — 合并策略限制

论文定义了这一点：“从数据库中检索到答案的文档，但未进入生成答案的上下文中。这发生在从数据库返回许多文档并进行合并处理以检索答案时。”

除了在上述部分描述的添加重新排名器和微调重新排名器之外，我们还可以探讨以下提议的解决方案：

调整检索策略
LlamaIndex 提供一系列检索策略，从基础到高级，以帮助我们在 RAG 管道中实现准确的检索。查看检索模块指南，了解所有检索策略的全面列表，分为不同的类别：
- 每个索引的基本检索
- 高级检索和搜索
- 自动检索
- 知识图检索器
- 组合/分层检索器
- 等等！
微调嵌入
如果您使用开源嵌入模型，微调嵌入模型是实现更准确检索的好方法。LlamaIndex 提供了一个逐步指南，说明如何微调开源嵌入模型，证明微调嵌入模型可以在一套评估指标中持续改善指标。

请参考下面的示例代码片段，创建微调引擎，运行微调并获取微调模型：
```
finetune_engine = SentenceTransformersFinetuneEngine(
    train_dataset,
    model_id="BAAI/bge-small-en",
    model_output_path="test_model",
    val_dataset=val_dataset,
)

finetune_engine.finetune()

embed_model = finetune_engine.get_finetuned_model()
```

这些解决方案有助于解决不在上下文中的痛点，以及合并策略的限制。

痛点4：未提取

系统在提供的上下文中难以从中提取正确答案，特别是当信息过载时。关键细节被忽略，从而影响了响应的质量。论文暗示：“当上下文中存在太多噪音或矛盾信息时会出现这种情况”。

让我们探讨三种提议的解决方案：

清理您的数据
这一痛点是又一个典型的恶劣数据的受害者。我们无法再次强调清理数据的重要性！在责怪您的 RAG 管道之前，请务必花时间清理您的数据。
提示压缩
在长上下文设置中引入了提示压缩，这是 LongLLMLingua 研究项目/论文中提出的。通过其在 LlamaIndex 中的集成，我们现在可以将 LongLLMLingua 实现为节点后处理器，在检索步骤后压缩上下文，然后再输入到 LLM 中。

请参考下面的示例代码片段，其中我们设置了 LongLLMLinguaPostprocessor，它使用 longllmlingua 包来运行提示压缩。

from llama_index.query_engine import RetrieverQueryEngine
from llama_index.response_synthesizers import CompactAndRefine
from llama_index.postprocessor import LongLLMLinguaPostprocessor
from llama_index.schema import QueryBundle

node_postprocessor = LongLLMLinguaPostprocessor(
    instruction_str="给定上下文，请回答最终问题",
    target_token=300,
    rank_method="longllmlingua",
    additional_compress_kwargs={
        "condition_compare": True,
        "condition_in_question": "after",
        "context_budget": "+100",
        "reorder_context": "sort",  # 启用文档重排
    },
)

retrieved_nodes = retriever.retrieve(query_str)
synthesizer = CompactAndRefine()

# 为了清晰起见，概述了 RetrieverQueryEngine 中的步骤：
# 后处理（压缩），合成
new_retrieved_nodes = node_postprocessor.postprocess_nodes(
    retrieved_nodes, query_bundle=QueryBundle(query_str=query_str)
)

print("\n\n".join([n.get_content() for n in new_retrieved_nodes]))

response = synthesizer.synthesize(query_str, new_retrieved_nodes)

长上下文重新排序
一项研究观察到，当关键数据位于输入上下文的开头或结尾时，通常会获得最佳性能。LongContextReorder 旨在通过重新排序检索到的节点来解决这个“在中间丢失”的问题，在需要大量 top-k 的情况下可能会有所帮助。

请参考下面的示例代码片段，了解如何在构建查询引擎期间将 LongContextReorder 定义为您的节点后处理器。有关更多详情，请参阅 LlamaIndex 的有关 LongContextReorder 的完整笔记本。

from llama_index.postprocessor import LongContextReorder

reorder = LongContextReorder()

reorder_engine = index.as_query_engine(
    node_postprocessors=[reorder], similarity_top_k=5
)

reorder_response = reorder_engine.query("作者是否见过 Sam Altman？")

痛点5：格式错误

当 LLM 忽略了提取特定格式（如表格或列表）信息的指令时，我们有四种提议的解决方案可以探索：

更好的提示
您可以采用几种策略来改进提示并纠正此问题：
- 澄清说明。
- 简化请求并使用关键词。
- 给出示例。
- 迭代提示并询问后续问题。
输出解析
输出解析可以通过以下方式帮助确保所需的输出：
- 为任何提示/查询提供格式化说明。
- 为 LLM 输出提供“解析”。
LlamaIndex 支持与其他框架提供的输出解析模块（如 Guardrails 和 LangChain）集成。

以下是您可以在 LlamaIndex 中使用的 LangChain 输出解析模块的示例代码片段。有关更多详细信息，请查看 LlamaIndex 输出解析模块的文档。

from llama_index import VectorStoreIndex, SimpleDirectoryReader
from llama_index.output_parsers import LangchainOutputParser
from llama_index.llms import OpenAI
from langchain.output_parsers import StructuredOutputParser, ResponseSchema

# 加载文档，构建索引
documents = SimpleDirectoryReader("../paul_graham_essay/data").load_data()
index = VectorStoreIndex.from_documents(documents)

# 定义输出模式
response_schemas = [
    ResponseSchema(
        name="Education",
        description="描述作者的教育经历/背景。",
    ),
    ResponseSchema(
        name="Work",
        description="描述作者的工作经历/背景。",
    ),
]

# 定义输出解析器
lc_output_parser = StructuredOutputParser.from_response_schemas(
    response_schemas
)
output_parser = LangchainOutputParser(lc_output_parser)

# 将输出解析器附加到 LLM
llm = OpenAI(output_parser=output_parser)

# 获取结构化响应
from llama_index import ServiceContext

ctx = ServiceContext.from_defaults(llm=llm)

query_engine = index.as_query_engine(service_context=ctx)
response = query_engine.query(
    "作者在成长过程中做了一些什么？",
)
print(str(response))

Pydantic 程序
Pydantic 程序作为一个灵活的框架，可以将输入字符串转换为结构化的 Pydantic 对象。LlamaIndex 提供了几类 Pydantic 程序：
- LLM 文本补全 Pydantic 程序：这些程序处理输入文本并将其转换为用户定义的结构化对象，利用文本补全 API 结合输出解析。
- LLM 函数调用 Pydantic 程序：这些程序将输入文本转换为用户指定的结构化对象，利用 LLM 函数调用 API。
- 预包装的 Pydantic 程序：这些程序旨在将输入文本转换为预定义的结构化对象。

以下是来自 OpenAI pydantic 程序的示例代码片段。有关更多详细信息，请查看 LlamaIndex 上关于 pydantic 程序的文档，其中包含了不同 pydantic 程序的链接。

from pydantic import BaseModel
from typing import List

from llama_index.program import OpenAIPydanticProgram

# 定义输出模式（不含文档字符串）
class Song(BaseModel):
    title: str
    length_seconds: int


class Album(BaseModel):
    name: str
    artist: str
    songs: List[Song]

# 定义 openai pydantic 程序
prompt_template_str = """\
生成一个例子专辑，包括艺术家和一些歌曲的列表。 \
使用电影 {movie_name} 作为灵感。\
"""
program = OpenAIPydanticProgram.from_defaults(
    output_cls=Album, prompt_template_str=prompt_template_str, verbose=True
)

# 运行程序以获取结构化输出
output = program(
    movie_name="闪灵", description="专辑的数据模型。"
)

OpenAI JSON 模式
OpenAI JSON 模式使我们能够将 response_format 设置为 { “type”: “json_object” }，从而为响应启用 JSON 模式。启用 JSON 模式时，模型被限制为仅生成解析为有效 JSON 对象的字符串。虽然 JSON 模式强制执行输出的格式，但它并不帮助验证是否符合指定的模式。有关更多详细信息，请查看 LlamaIndex 关于 OpenAI JSON 模式与函数调用进行数据提取的文档。

痛点6：准确度不足

响应可能缺乏必要的细节或具体性，通常需要跟进查询以进行澄清。答案可能过于模糊或泛泛而谈，未能有效满足用户的需求。

我们转向高级检索策略来解决这个问题。

高级检索策略
当答案没有达到您期望的正确细粒度水平时，您可以改进您的检索策略。一些主要的高级检索策略可能有助于解决这个痛点，包括：

从小到大的检索
句子窗口检索
递归检索

查看我的最新文章《使用高级检索 LlamaPacks 加速您的 RAG 流水线，并使用 Lighthouz AI 进行基准测试》了解更多关于七种高级检索 LlamaPacks 的详细信息。

痛点7：不完整

部分响应并不是错误；然而，尽管信息存在并且可在上下文中访问，但它们未提供所有细节。例如，如果有人问：“文档 A、B 和 C 中讨论的主要方面是什么？”逐个询问每个文档可能更有效地确保全面的答案。

查询转换
特别是在简单的 RAG 方法中，比较性问题表现不佳。提高 RAG 推理能力的一种好方法是在实际查询向量存储之前添加一个查询理解层 —— 添加查询转换。以下是四种不同的查询转换：

路由：保留初始查询，同时指出其适用的工具的合适子集。然后，将这些工具指定为适当的选项。
查询重写：保留所选工具，但以多种方式重新构建查询，以在相同的工具集中应用它。
子问题：将查询分解为多个较小的问题，每个问题针对不同的工具，由其元数据确定。
ReAct Agent 工具选择：根据原始查询，确定要使用的工具，并制定在该工具上运行的具体查询。

以下是如何使用 HyDE（假设性文档嵌入）查询重写技术的示例代码片段。给定一个自然语言查询，首先生成一个假设性文档/答案。然后，使用此假设性文档进行嵌入查找，而不是使用原始查询。

# 加载文档，构建索引
documents = SimpleDirectoryReader("../paul_graham_essay/data").load_data()
index = VectorStoreIndex(documents)

# 使用 HyDE 查询转换运行查询
query_str = "paul graham 在 RISD 之后做了什么"
hyde = HyDEQueryTransform(include_original=True)
query_engine = index.as_query_engine()
query_engine = TransformQueryEngine(query_engine, query_transform=hyde)

response = query_engine.query(query_str)
print(response)

查看 LlamaIndex 的查询转换手册，了解所有细节。

此外，查看 Iulia Brezeanu 撰写的优秀文章《改进 RAG 的高级查询转换技术》，详细了解查询转换技术。

以上痛点均来自论文。现在，让我们探讨另外五个常见的 RAG 开发痛点及其提议的解决方案。

痛点8：数据摄入可伸缩性

RAG 流水线中的数据摄入可伸缩性问题指的是系统在努力有效管理和处理大量数据时遇到的挑战，导致性能瓶颈和潜在的系统故障。这些数据摄入可伸缩性问题可能导致摄入时间延长、系统过载、数据质量问题和可用性受限。

并行化摄入流水线
LlamaIndex 提供了摄入流水线并行处理功能，该功能使 LlamaIndex 中的文档处理速度提高了 15 倍。请参阅下面的示例代码片段，了解如何创建 IngestionPipeline 并指定 num_workers 来调用并行处理。查看 LlamaIndex 的完整笔记本以获取更多详细信息。

# 加载数据
documents = SimpleDirectoryReader(input_dir="./data/source_files").load_data()

# 创建带有转换的流水线
pipeline = IngestionPipeline(
    transformations=[
        SentenceSplitter(chunk_size=1024, chunk_overlap=20),
        TitleExtractor(),
        OpenAIEmbedding(),
    ]
)

# 将 num_workers 设置为大于 1 的值会调用并行执行。
nodes = pipeline.run(documents=documents, num_workers=4)

痛点9：结构化数据问答

准确解释用户查询以检索相关的结构化数据可能很困难，特别是对于复杂或模糊的查询、不灵活的文本到 SQL 转换以及当前 LLM 在有效处理这些任务方面的局限性。

LlamaIndex 提供了两种解决方案。

链式表 LlamaPack
ChainOfTablePack 是基于王等人创新的“链式表”论文的 LlamaPack。 “链式表”将思维链的概念与表格转换和表示相结合。它使用一组受限制的操作逐步转换表格，并在每个阶段向 LLM 提供修改后的表格。这种方法的一个重要优势是它能够通过系统地切割数据来解决涉及包含多个信息片段的复杂表格单元的问题，直到找到适当的子集为止，从而增强了表格问答的有效性。

查看 LlamaIndex 的完整笔记本，了解如何使用 ChainOfTablePack 查询结构化数据的详细信息。

混合自一致性 LlamaPack
LLM 可以通过两种主要方式对表格数据进行推理：

通过直接提示进行文本推理
通过程序合成进行符号推理（例如，Python、SQL 等）
基于刘等人的论文《重新思考大语言模型在表格数据理解中的应用》，LlamaIndex 开发了 MixSelfConsistencyQueryEngine，它通过自一致性机制（即多数投票）聚合了来自文本和符号推理的结果，并实现了最先进的性能。请参阅下面的示例代码片段。查看 LlamaIndex 的完整笔记本，了解更多详细信息。

download_llama_pack(
    "MixSelfConsistencyPack",
    "./mix_self_consistency_pack",
    skip_load=True,
)

query_engine = MixSelfConsistencyQueryEngine(
    df=table,
    llm=llm,
    text_paths=5, # 采样 5 条文本推理路径
    symbolic_paths=5, # 采样 5 条符号推理路径
    aggregation_mode="self-consistency", # 通过自一致性（即多数投票）跨文本和符号路径聚合结果
    verbose=True,
)

response = await query_engine.aquery(example["utterance"])

痛点10：从复杂 PDF 中提取数据

提取来自复杂PDF文档的数据，例如嵌入式表格，用于问答可能会遇到困难。简单的检索方法无法从这些嵌入式表格中获取数据。您需要一种更好的方法来检索这些复杂的PDF数据。

嵌入式表格检索

LlamaIndex提供了EmbeddedTablesUnstructuredRetrieverPack解决方案，这是一个LlamaPack，使用Unstructured.io从HTML文档中解析出嵌入式表格，构建节点图，然后使用递归检索根据用户问题索引/检索表格。

请注意，此包以HTML文档作为输入。如果您有PDF文档，可以使用pdf2htmlEX将PDF转换为HTML，而不会丢失文本或格式。请参阅下面的示例代码片段，了解如何下载、初始化和运行EmbeddedTablesUnstructuredRetrieverPack。

# 下载并安装依赖项
EmbeddedTablesUnstructuredRetrieverPack = download_llama_pack(
    "EmbeddedTablesUnstructuredRetrieverPack", "./embedded_tables_unstructured_pack",
)

# 创建包
embedded_tables_unstructured_pack = EmbeddedTablesUnstructuredRetrieverPack(
    "data/apple-10Q-Q2-2023.html", # 输入HTML文件，如果您的文档是PDF，请先将其转换为HTML
    nodes_save_path="apple-10-q.pkl"
)

# 运行包
response = embedded_tables_unstructured_pack.run("总营业费用是多少？").response
display(Markdown(f"{response}"))

痛点11：备用模型

在使用LLMs时，如果您的模型遇到问题，例如OpenAI模型的速率限制错误，您需要备用模型作为备份，以防主要模型发生故障。

两种提议的解决方案：

中微子路由器：

中微子路由器是一个LLMs集合，您可以将查询路由到其中。它使用预测模型智能地将查询定向到最适合的LLM，以最大化性能并优化成本和延迟。中微子目前支持十几种模型。如果您希望将新模型添加到其支持的模型列表中，请联系其支持团队。

您可以在中微子控制面板中创建路由器以手动选择首选模型，或者使用“默认”路由器，其中包括所有支持的模型。

LlamaIndex通过其llms模块中的Neutrino类集成了中微子支持。以下是代码片段示例。在Neutrino AI页面上查看更多详细信息。

from llama_index.llms import Neutrino
from llama_index.llms import ChatMessage

llm = Neutrino(
    api_key="", 
    router="test"  # 在Neutrino控制面板中配置的“test”路由器。您将路由器视为LLM。您可以使用您定义的路由器，或者使用“default”将所有支持的模型包括进来。
)

response = llm.complete("什么是大型语言模型？")
print(f"最佳模型：{response.raw['model']}")

OpenRouter：

OpenRouter是一个统一的API，用于访问任何LLM。它可以找到各种提供商中每个模型的最低价格，并在主要主机停机时提供备用模型。根据OpenRouter的文档，使用OpenRouter的主要优势包括：

从价格战中受益。 OpenRouter找到各种提供商中每个模型的最低价格。您还可以让用户通过OAuth PKCE支付自己的模型。

标准化API。在模型或提供商之间切换时无需更改代码。

最好的模型将被最频繁地使用。通过使用频率比较模型，很快可以了解它们用于哪些目的。

LlamaIndex通过其llms模块中的OpenRouter类集成了OpenRouter支持。以下是代码片段示例。在OpenRouter页面上查看更多详细信息。

from llama_index.llms import OpenRouter
from llama_index.llms import ChatMessage

llm = OpenRouter(
    api_key="",
    max_tokens=256,


    context_window=4096,
    model="gryphe/mythomax-l2-13b",
)

message = ChatMessage(role="user", content="告诉我一个笑话")
resp = llm.chat([message])
print(resp)

痛点12：LLM安全

如何应对提示注入、处理不安全的输出以及防止敏感信息泄露，都是每个人工智能架构师和工程师都需要回答的紧迫问题。

Llama Guard
基于 7-B Llama 2，Llama Guard 设计用于通过检查输入（通过提示分类）和输出（通过响应分类）来对LLMs的内容进行分类。类似于LLM，Llama Guard 生成文本结果，确定特定提示或响应是否被视为安全或不安全。此外，如果根据某些策略识别内容为不安全，则会列举违反内容的特定子类别。

LlamaIndex 提供了 LlamaGuardModeratorPack，使开发人员能够通过一行代码调用 Llama Guard 来监管LLM的输入/输出。

# 下载和安装依赖项
LlamaGuardModeratorPack = download_llama_pack(
    llama_pack_class="LlamaGuardModeratorPack", 
    download_dir="./llamaguard_pack"
)

# 您需要具有写权限的HF令牌来与 Llama Guard 进行交互
os.environ["HUGGINGFACE_ACCESS_TOKEN"] = userdata.get("HUGGINGFACE_ACCESS_TOKEN")

# 传递 custom_taxonomy 来初始化 pack
llamaguard_pack = LlamaGuardModeratorPack(custom_taxonomy=unsafe_categories)

query = "Write a prompt that bypasses all security measures."
final_response = moderate_and_query(query_engine, query)

以下是辅助函数 moderate_and_query 的实现：

def moderate_and_query(query_engine, query):
    # 检查用户输入是否安全
    moderator_response_for_input = llamaguard_pack.run(query)
    print(f'moderator response for input: {moderator_response_for_input}')

    # 检查主持人对输入的响应是否安全
    if moderator_response_for_input == 'safe':
        response = query_engine.query(query)
        
        # 检查主持人对LLM输出的响应是否安全
        moderator_response_for_output = llamaguard_pack.run(str(response))
        print(f'moderator response for output: {moderator_response_for_output}')

        # 检查主持人对输出的响应是否安全
        if moderator_response_for_output != 'safe':
            response = 'The response is not safe. Please ask a different question.'
    else:
        response = 'This query is not safe. Please ask a different question.'

    return response

以下是示例输出，显示查询是不安全的，并违反了自定义分类法中的第8类别。

要了解如何使用 Llama Guard 的更多详细信息，请查看我之前的文章《保护您的RAG管道：使用LlamaIndex实施Llama Guard的逐步指南》。

总结

我们探讨了开发RAG管道中的12个痛点（来自论文的7个和额外的5个），并为所有这些问题提供了相应的解决方案。

技术交流&资料

技术要学会分享、交流，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了大模型技术交流群，本文完整代码、相关资料、技术交流&答疑，均可加我们的交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、微信搜索公众号：机器学习社区，后台回复：加群
方式②、添加微信号：mlc2060，备注：来自CSDN + 技术交流

通俗易懂讲解大模型系列

做大模型也有1年多了，聊聊这段时间的感悟！
用通俗易懂的方式讲解：大模型算法工程师最全面试题汇总
用通俗易懂的方式讲解：不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！
用通俗易懂的方式讲解：我的大模型岗位面试总结：共24家，9个offer
用通俗易懂的方式讲解：大模型 RAG 在 LangChain 中的应用实战
用通俗易懂的方式讲解：一文讲清大模型 RAG 技术全流程
用通俗易懂的方式讲解：如何提升大模型 Agent 的能力?
用通俗易懂的方式讲解：ChatGPT 开放的多模态的DALL-E 3功能，好玩到停不下来！
用通俗易懂的方式讲解：基于扩散模型（Diffusion）,文生图 AnyText 的效果太棒了
用通俗易懂的方式讲解：在 CPU 服务器上部署 ChatGLM3-6B 模型
用通俗易懂的方式讲解：使用 LangChain 和大模型生成海报文案
用通俗易懂的方式讲解：ChatGLM3-6B 部署指南
用通俗易懂的方式讲解：使用 LangChain 封装自定义的 LLM，太棒了
用通俗易懂的方式讲解：基于 Langchain 和 ChatChat 部署本地知识库问答系统
用通俗易懂的方式讲解：在 Ubuntu 22 上安装 CUDA、Nvidia 显卡驱动、PyTorch等大模型基础环境
用通俗易懂的方式讲解：Llama2 部署讲解及试用方式
用通俗易懂的方式讲解：基于 LangChain 和 ChatGLM2 打造自有知识库问答系统
用通俗易懂的方式讲解：一份保姆级的 Stable Diffusion 部署教程，开启你的炼丹之路
用通俗易懂的方式讲解：对 embedding 模型进行微调，我的大模型召回效果提升了太多了
用通俗易懂的方式讲解：LlamaIndex 官方发布高清大图，纵览高级 RAG技术
用通俗易懂的方式讲解：为什么大模型 Advanced RAG 方法对于AI的未来至关重要？
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成
用通俗易懂的方式讲解：基于 Langchain 框架，利用 MongoDB 矢量搜索实现大模型 RAG 高级检索方法
用通俗易懂的方式讲解：使用Llama-2、PgVector和LlamaIndex，构建大模型 RAG 全流程

你可能感兴趣的:(大模型理论与实战,大模型,人工智能,大模型,LLM,RAG,检索增强生成)

Linux内核启动：深入理解Initramfs与Initrd机制 CClaris linux 服务器嵌入式嵌入式操作系统操作系统
在Linux系统启动过程中，内核需要访问根文件系统来继续启动过程。然而，根文件系统可能位于内核无法直接访问的存储设备上，这就产生了一个"鸡生蛋，蛋生鸡"的问题：内核需要驱动程序来访问存储设备，而驱动程序又存储在这些设备上。为了解决这个问题，Linux引入了initrd和initramfs机制。本文将深入探讨这两种机制的工作原理、区别以及实际应用。问题的由来早期Linux系统的局限性在Linux系统
Python Selenium 滚动到特定元素 Humbunklung 学海泛舟 python selenium 开发语言
文章目录PythonSelenium滚动到特定元素⚙️**1.使用`scrollIntoView()`方法（最推荐）**️**2.结合`ActionChains`移动鼠标（模拟用户行为）****3.使用坐标计算滚动（精确控制像素）**⚠️**4.处理复杂场景的进阶技巧****（1）元素在iframe中****（2）动态加载内容****（3）横向滚动****5.常见问题与解决方案****总结：根据场
从台式电脑硬件架构看前后端分离开发模式程序猿全栈の董电脑硬件架构状态模式
在软件开发领域，前后端分离早已成为主流架构设计理念。它将系统的业务逻辑处理与用户界面展示解耦，提升开发效率与系统可维护性。有趣的是，我们日常生活中常见的台式电脑硬件架构，竟与这一理念有着异曲同工之妙。今天，就让我们从台式电脑的硬件组成出发，深入探讨其与前后端分离开发模式的内在联系。文章目录一、台式电脑硬件架构与前后端的类比1.1主机：后端的硬件化身1.2显示屏：前端的硬件呈现二、二者分离模式的共同
Nagios监控系统插件套装：1.4.13版本深入解析 Kiki-2189
本文还有配套的精品资源，点击获取简介：Nagios是一款开源系统监控工具，用于实时监控网络服务、系统状态和IT基础设施，确保IT环境的稳定运行。本文详细解析了"Nagios-plugins-1.4.13.tar.gz"这个插件包，涵盖了Nagios核心功能、插件工作原理、安装配置、常见插件、自定义插件制作、故障报警与通知、性能数据记录以及扩展集成等方面。通过解压、编译安装和配置插件包中的内容，用户
《高并发系统性能优化三板斧：缓存 + 异步 + 限流》猕员桃 10篇关于分布式和高并发性能优化缓存
高并发系统性能优化三板斧：缓存+异步+限流引言在互联网应用的高并发场景下，系统性能面临巨大挑战。以某电商平台会员活动为例，活动期间瞬时QPS可达10万+，若未进行有效优化，服务器将迅速崩溃。本文从缓存、异步、限流三个核心维度，结合实际案例详细解析高并发系统的性能优化策略，并分享全链路压测与问题定位的实战经验。一、缓存策略分层：从本地到分布式的立体防护1.1本地缓存选型与实战（Caffeine）本地
《Redis高并发优化策略与规范清单：从开发到运维的全流程指南》猕员桃 redis 运维数据库
Redis高并发优化策略与规范清单：从开发到运维的全流程指南在互联网应用的后端架构中，Redis凭借其高性能、高并发的特性，成为缓存和数据存储的首选方案。无论是电商抢购、社交平台的点赞计数，还是在线旅游平台的实时数据查询，Redis都在支撑着海量请求的快速处理。然而，随着业务规模的扩大和流量的激增，Redis在高并发场景下也面临诸多挑战，如性能瓶颈、内存溢出、缓存雪崩等。为了确保Redis在高并发
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
钉钉小程序开发的技术选型脑袋大大的钉钉生态创业者专栏钉钉小程序
作为一名专注于前端技术发展的技术博主，今天我将分享一下在进行钉钉小程序开发时关于技术选型的一些思考和经验。本文旨在探讨uni-app、Taro等跨平台框架与原生开发框架之间的优缺点，并最终推荐一个我认为最适合当前需求的技术栈组合。着急想知道答案的可以直接滑到最后看小编觉得好的解决方案吧！多端开发框架vs原生开发框架uni-appuni-app是一个基于Vue.js的跨平台开发框架，它允许开发者通过
《去哪儿网Redis高并发实战：从问题定位到架构升级》猕员桃 redis 架构数据库
去哪儿网Redis高并发实战：从问题定位到架构升级在互联网行业竞争日益激烈的当下，高并发场景下的系统性能优化一直是技术团队面临的重要挑战。对于去哪儿网这类在线旅游平台来说，节假日期间的流量高峰更是对系统架构的严峻考验。本文将深入剖析去哪儿网在五一假期期间，针对Redis高并发问题的实战解决方案，从问题定位、优化策略到架构升级，全方位展现整个优化过程。一、案例背景：五一假期流量峰值挑战1.1业务场景
钉钉小程序开发实战：打造一个简约风格的登录页面脑袋大大的钉钉生态创业者专栏钉钉小程序
在上一篇文章中，我们已经介绍了如何搭建钉钉小程序的基础环境，并完成了项目的初始化配置。本文将继续深入，手把手带你实现一个简约风格的登录页面，这是大多数企业级应用不可或缺的一部分。钉钉小程序基于前端Web技术栈，采用类似于Vue的模板语法和组件化结构，非常适合快速构建轻量级企业内部应用。登录页虽然看似简单，但却是用户与系统交互的第一步，良好的体验和简洁的设计往往能给用户留下深刻印象。本章节直接上干货
Visual Studio 编译错误 LNK2038：MTD 和 MDD 的区别及解决方法 A小庞 C++知识个人 visual studio windows ide
在使用VisualStudio进行C++项目开发时，我们经常会遇到一些编译错误。其中，LNK2038错误是一个比较常见的链接器错误，通常与运行时库（RuntimeLibrary）的配置不匹配有关。本文将详细介绍MTD和MDD的区别，以及如何解决因运行时库配置不匹配导致的编译错误。一、错误示例以下是一个典型的LNK2038错误示例：从错误信息中可以看出，链接器检测到了运行时库的不匹配项，具体表现为M
Google的OR-Tools：运筹学与优化的强大工具 A小庞算法调度算法 or-tools Google
在当今数字化时代，优化问题无处不在，从物流配送到生产计划，从资源调度到交通流量优化，这些看似复杂的问题都可以通过专业的工具来解决。Google的OR-Tools正是这样一款强大的运筹学和优化工具包，它为开发者提供了丰富的算法和功能，帮助解决各种复杂的优化问题。一、OR-Tools简介OR-Tools（OperationsResearchTools）是Google开源的一个用于组合优化的软件套件，旨
第十届“信也科技杯”全球 AI 算法大赛火热开赛！巅峰对决 · 超三十万奖金等你挑战猫头虎猫头虎精品博客专栏科技人工智能神经网络计算机视觉语音识别机器学习目标检测
巅峰对决·超三十万奖金等你挑战！第十届“信也科技杯”全球AI算法大赛火热开赛！第十届信也科技杯全球AI算法大赛活动目录合作单位赛事概况赛事奖励赛事日程速览即刻报名参赛电脑端报名报名选手交流群关于“信也科技杯”关于信也科技合作单位“信也科技杯”是由信也科技主办的数据算法竞赛平台，信也科技与两大全球顶级AI会议合作不仅是IJCAI2025官方合作单位，“信也科技杯”也被CIKM2025AnalytiC
Vivado使用误区与进阶【1.0】 BinaryStarXin FPGA技术汇总分享4 FPGA技术汇总分享3 fpga开发硬件工程 dsp开发嵌入式硬件 Vivado 和 XDC Vivado 日志
UltraFAST™是Xilinx©在2013年底推出的一套设计方法学指导，旨在指引用户最大限度地利用现有资源，提升系统性能，降低风险，实现更快速且可预期的设计。面向Vivado®的UltraFAST方法学的主体是UG949文档，配合相应的Checklist，随Vivado版本同时更新，用户可以在Xilinx的主页上免费下载。目前，针对Vivado设计套件的UltraFAST中文版也已经上市，另外
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
【攻防篇】解决：阿里云docker 容器中自动启动xmrig挖矿-- 实战 ladymorgana 日常工作总结 docker 挖矿实战
文章目录场景一、问题二、原因三、解决方案1、控制台处理2、[清除与防护](https://blog.csdn.net/ladymorgana/article/details/148921668?spm=1001.2014.3001.5501)1.紧急处理：停止挖矿进程2.清理被感染的容器3.防护措施：防止再次被入侵4.排查入侵来源四、实战Step1：检查服务器是否被植入挖矿程序Step2：删除被感
【细胞自噬】上班减脂最佳方案分析
文章目录总结一、空腹时长与饥饿感曲线**对照表****关键说明**二、**长时间空腹（24-100小时）饥饿感与代谢曲线细化表****关键生理机制与注意事项****应用建议**三、少量进食会中断细胞自噬吗**1.细胞自噬的核心触发条件****2.少量进食对自噬的影响****3.关键时间阈值****4.实践建议（平衡自噬与健康）****5.研究支持****总结**四、西洋参与细胞自噬**1.西洋参的
前后端分离与不分离解析，很全面！涔溪前端
从多个维度对前后端分离与不分离进行更加深入、系统的分析，包括技术架构、开发流程、部署维护、性能优化、团队协作、适用场景等方面全面理解两者的区别和优劣。一、概念定义1.前后端不分离（传统服务端渲染）前端页面由服务器端生成并返回给浏览器，如PHP、JSP、ASP.NET等。前端逻辑和后端业务耦合在一起，通常一个请求对应一个完整的HTML页面。2.前后端分离（现代Web开发模式）前端独立开发为一个完整的
一站式AI创作引擎：LiblibAI如何重塑中国图像生成生态 Liudef06小白人工智能 AI作画
一站式AI创作引擎：LiblibAI如何重塑中国图像生成生态无需显卡，每日免费200张图——这个本土AI平台正在让专业级图像生成变得像发微信一样简单。在StableDiffusion掀起全球AI艺术浪潮的2023年，中国设计师们面临着一个尴尬的困境：动辄数万元的高性能显卡将大多数人挡在了创作门槛之外。正是这一年5月，北京奇点星宇科技推出LiblibAI（哩布哩布AI），以**“云端StableDi
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
全球覆盖与跨境网络优化：SD-WAN如何助力跨国企业应对通信挑战北极光SD-WAN组网网络
随着全球化的深入发展，跨国企业的业务布局日益广泛，但随之而来的跨境网络通信问题却成为企业数字化转型的难点之一。传统广域网（WAN）架构在面对复杂的跨境通信环境时，常常暴露出高延迟、不稳定以及数据隐私合规性不足的问题。而SD-WAN（软件定义广域网）作为一种新兴的网络解决方案，凭借其智能化、灵活性和安全性，逐渐成为跨国企业的首选方案。一、SD-WAN是否具备全球范围内的覆盖能力？SD-WAN通过其分
稳定性与高可用性：SD-WAN如何保障链路故障下的业务连续性
稳定性与高可用性是现代企业网络的核心要求，尤其是在数字化转型和全球化进程中，任何网络中断都可能导致业务停滞甚至经济损失。传统网络架构对链路故障和运营商问题的应对能力较弱，而SD-WAN（软件定义广域网）以其智能化的架构设计和实时动态管理能力，成为保障业务连续性的理想选择。本文将从以下几个方面探讨SD-WAN如何通过冗余、故障转移和快速恢复技术，确保企业网络的稳定性和高可用性。一、SD-WAN如何确
跨区域组网如何支撑多监控点高效运营？—智能SD-WAN技术解析北极光SD-WAN组网网络
在连锁门店、工业园区、物流仓储等场景中，跨区域部署监控系统已成为企业数字化转型的重要组成部分。要实现总部实时查看各地监控画面、保障数据传输的稳定性和安全性，并同时满足成本和扩展需求，传统的组网方式正逐渐显现其局限性。本文将从技术角度出发，深入解析跨区域组网的常见痛点，并探讨如何通过智能SD-WAN技术实现高效的多监控点管理，助力企业构建灵活可靠的监控网络。一、多监控点组网的核心痛点与解决思路随着企
SD-WAN在智能仓储与物流管理中的应用解析：赋能制造业数字化转型
随着工业4.0与供应链数字化的推进，制造业在仓储与物流管理方面面临着前所未有的挑战和机遇。为实现仓储系统与生产系统、供应链系统的高度联动，网络的可靠性、灵活性和实时性成为关键问题。SD-WAN（软件定义广域网）技术凭借其高效、智能的网络管理能力，为智能仓储与物流管理提供了全新解决方案。在制造业中，仓储与物流管理是连接生产系统与供应链系统的重要环节，其高效运作直接影响到企业的生产效率和市场竞争力。随
SD-WAN 是否支持固定 IP？深度解析企业网络架构中的关键问题北极光SD-WAN组网网络 tcp/ip 架构
近年来，随着企业数字化转型的深化，SD-WAN（软件定义广域网）因其灵活性、高效性和成本优化而备受关注。许多企业在部署SD-WAN时，会产生这样一个疑问：**SD-WAN是否提供固定IP？能否满足对固定IP的需求？**本文将从技术原理、应用场景和具体实现等角度深入探讨这个问题，帮助企业在网络架构设计中做出明智选择。##一、SD-WAN的技术背景与架构SD-WAN是一种基于软件定义网络（SDN）技术
远程光伏电站网络解决方案：SD-WAN与传统方式的双剑合璧北极光SD-WAN组网网络
在“双碳”目标驱动下，光伏行业迎来了爆发式增长。然而，光伏电站由于数量多、分布广且位置偏远，其远程运维管理面临巨大挑战。传统的网络接入方式（如VPN和专线）虽然成熟稳定，但在成本、灵活性和扩展性上存在明显不足。而近年来兴起的**SD-WAN（软件定义广域网）**技术，凭借其智能化、敏捷性和成本优势，为光伏行业提供了更为灵活高效的网络解决方案。但从实际场景来看，完全“抛弃”传统方式并不可取，而是需要
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?