Elastic 中国社区官方博客

Elasticsearch：与多个 PDF 聊天 | LangChain Python 应用教程（免费 LLMs 和嵌入）

在本博客中，你将学习创建一个 LangChain 应用程序，以使用 ChatGPT API 和 Huggingface 语言模型与多个 PDF 文件聊天。

如上所示，我们在最最左边摄入 PDF 文件，并它们连成一起，并分为不同的 chunks。我们可以通过使用 huggingface 来对 chunks 进行处理并形成 embeddings。我们把 embeddings 写入到 Elasticsearch 向量数据库中，并保存。在搜索的时候，我们通过 LangChain 来进行向量化，并使用 Elasticsearch 进行向量搜索。在最后，我们通过大模型的使用，针对提出的问题来进行提问。我们最终的界面如下：

如上所示，它可以针对我们的问题进行回答。进一步阅读

使用 LangChain 和 Elasticsearch 对私人数据进行人工智能搜索
使用 LangChain 和 Elasticsearch 的隐私优先 AI 搜索

所有的源码可以在地址 GitHub - liu-xiao-guo/ask-multiple-pdfs: A Langchain app that allows you to chat with multiple PDFs 进行下载。

安装

如果你还没有安装好自己的 Elasticsearch 及 Kibana 的话，那么请参考如下的链接：

如何在 Linux，MacOS 及 Windows 上进行安装 Elasticsearch
Kibana：如何在 Linux，MacOS 及 Windows 上安装 Elastic 栈中的 Kibana

在安装的时候，我们选择 Elastic Stack 9.x 的安装指南来进行安装。在默认的情况下，Elasticsearch 集群的访问具有 HTTPS 的安全访问。

在安装时，我们可以在 Elasticsearch 的如下地址找到相应的证书文件 http_ca.crt:

$ pwd
/Users/liuxg/elastic/elasticsearch-8.10.0/config/certs
$ ls
http.p12      http_ca.crt   transport.p12

我们需要把该证书拷贝到项目文件的根目录下：

$ tree -L 3
.
├── app.py
├── docs
│   └── PDF-LangChain.jpg
├── htmlTemplates.py
├── http_ca.crt
├── lib_embeddings.py
├── lib_indexer.py
├── lib_llm.py
├── lib_vectordb.py
├── myapp.py
├── pdf_files
│   ├── sample1.pdf
│   └── sample2.pdf
├── readme.md
├── requirements.txt
└── simple.cfg

如上所示，我们把 http_ca.crt 拷贝到应用的根目录下。我们在 pdf_files 里放了两个用于测试的 PDF 文件。你可以使用自己的 PDF 文件来进行测试。我们在 simple.cfg 做如下的配置：

ES_SERVER: "localhost" 
ES_PASSWORD: "vXDWYtL*my3vnKY9zCfL"
ES_FINGERPRINT: "e2c1512f617f432ddf242075d3af5177b28f6497fecaaa0eea11429369bb7b00"

在上面，我们需要配置 ES_SERVER。这个是 Elasticsearch 集群的地址。这里的 ES_PASSWORD 是 Elasticsearch 的超级用户 elastic 的密码。我们可以在 Elasticsearch 第一次启动的画面中找到这个 ES_FINGERPRINT：

你还可以在 Kibana 的配置文件 confgi/kibana.yml 文件中获得 fingerprint 的配置：

在项目的目录中，我们还可以看到一个叫做 .env-example 的文件。我们可以使用如下的命令把它重新命名为 .env:

mv .env.example .env

在 .env 中，我们输入 huggingface.co 网站得到的 token：

$ cat .env
OPENAI_API_KEY=your_openai_key
HUGGINGFACEHUB_API_TOKEN=your_huggingface_key

在本例中，我们将使用 huggingface 来进行测试。如果你需要使用到 OpenAI，那么你需要配置它的 key。有关 huggingface 的开发者 key，你可以在地址获得。

运行项目

在运行项目之前，你需要做一下安装的动作：

python3 -m venv env
source env/bin/activate
python3 -m pip install --upgrade pip
pip install -r requirements.txt

创建界面

本应用的界面，我们采用是 streamlit 来创建的。它的创建也是非常地简单。我们可以在 myapp.py 中看到如下的代码：

myapp.py

import streamlit as st
from dotenv import load_dotenv
from PyPDF2 import PdfReader
from htmlTemplates import css, bot_template, user_template

def get_pdf_texts(pdf_docs):
    text = ""
    for pdf in pdf_docs:
        pdf_reader = PdfReader(pdf)
        for page in pdf_reader.pages:
            text += page.extract_text()
    return text

def main():
    load_dotenv()
    st.set_page_config(page_title="Chat with multiple PDFs", page_icon=":books:")
    st.write(css, unsafe_allow_html=True)
    st.header("Chat with multiple PDFs :books:")
    user_question = st.text_input("Ask a question about your documents")
    if user_question:
        pass
    
    st.write(user_template.replace("{{MSG}}", "Hello, human").replace("{{MSG1}}", " "), unsafe_allow_html=True)
    st.write(bot_template.replace("{{MSG}}", "Hello, robot").replace("{{MSG1}}", " "), unsafe_allow_html=True)

    # Add a side bar
    with st.sidebar:
        st.subheader("Your documents")
        pdf_docs = st.file_uploader(
            "Upload your PDFs here and press on click on Process", accept_multiple_files=True)
        print(pdf_docs)
        if st.button("Process"):
            with st.spinner("Processing"):
                # Get pdf text from
                raw_text = get_pdf_texts(pdf_docs)
                st.write(raw_text)

    
if __name__ == "__main__":
    main()

在上面的代码中，我创建了一个 sidebar 用来选择需要的 PDF 文件。我们可以点击 Process 按钮来显示已经提取的 PDF 文本。我们可以使用如下的命令来运行应用：

(venv) $ streamlit run myapp.py

venv) $ streamlit run myapp.py

  You can now view your Streamlit app in your browser.

  Local URL: http://localhost:8502
  Network URL: http://198.18.1.13:8502

运行完上面的命令后，我们可以在浏览器中打开应用：

我们点击 Browse files，并选中 PDF 文件：

点击上面的 Process，我们可以看到：

在上面，我们为了显示的方便，我使用 st.write 直接把结果写到浏览器的页面里。我们接下来需要针对这个长的文字进行切分为一个一个的 chunks。我们需要按照模型的需要，不能超过模型允许的最大值。

上面我简单地叙述了 UI 的构造。最终完整的 myapp.py 的设计如下：

myapp.py

import streamlit as st
from dotenv import load_dotenv
from PyPDF2 import PdfReader
from langchain.text_splitter import CharacterTextSplitter
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from htmlTemplates import css, bot_template, user_template

import lib_indexer
import lib_llm
import lib_embeddings
import lib_vectordb

index_name = "pdf_docs"

def get_pdf_text(pdf):
    text = ""
    pdf_reader = PdfReader(pdf)
    for page in pdf_reader.pages:
        text += page.extract_text()
    return text


def get_pdf_texts(pdf_docs):
    text = ""
    for pdf in pdf_docs:
        pdf_reader = PdfReader(pdf)
        for page in pdf_reader.pages:
            text += page.extract_text()
    return text

def get_text_chunks(text):
    text_splitter = CharacterTextSplitter(
        separator="\n", 
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len
    )
    chunks = text_splitter.split_text(text)
    # chunks = text_splitter.split_documents(text)
    return chunks

def get_text_chunks1(text):
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=384, chunk_overlap=0)
    chunks = text_splitter.split_text(text)
    return chunks
        
def handle_userinput(db, llm_chain_informed, user_question):
    similar_docs = db.similarity_search(user_question)
    print(f'The most relevant passage: \n\t{similar_docs[0].page_content}')

    ## 4. Ask Local LLM context informed prompt
    # print(">> 4. Asking The Book ... and its response is: ")
    informed_context= similar_docs[0].page_content
    response = llm_chain_informed.run(context=informed_context,question=user_question)

    st.write(user_template.replace("{{MSG}}", user_question).replace("{{MSG1}}", " "), unsafe_allow_html=True)
    st.write(bot_template.replace("{{MSG}}", response).replace("{{MSG1}}", similar_docs[0].page_content),unsafe_allow_html=True)
            
def main():
    
    # # Huggingface embedding setup
    hf = lib_embeddings.setup_embeddings()

    # # # ## Elasticsearch as a vector db
    db, url = lib_vectordb.setup_vectordb(hf, index_name)

    # # # ## set up the conversational LLM
    llm_chain_informed= lib_llm.make_the_llm()

    load_dotenv()
    st.set_page_config(page_title="Chat with multiple PDFs", page_icon=":books:")
    st.write(css, unsafe_allow_html=True)
    st.header("Chat with multiple PDFs :books:")
    user_question = st.text_input("Ask a question about your documents")
    if user_question:
        handle_userinput(db, llm_chain_informed, user_question)
            
    st.write(user_template.replace("{{MSG}}", "Hello, human").replace("{{MSG1}}", " "), unsafe_allow_html=True)
    st.write(bot_template.replace("{{MSG}}", "Hello, robot").replace("{{MSG1}}", " "), unsafe_allow_html=True)
    
    # Add a side bar
    with st.sidebar:
        st.subheader("Your documents")
        pdf_docs = st.file_uploader(
            "Upload your PDFs here and press on click on Process", accept_multiple_files=True)
        print(pdf_docs)
        if st.button("Process"):
            with st.spinner("Processing"):
                # Get pdf text from
                # raw_text = get_pdf_text(pdf_docs[0])
                raw_text = get_pdf_texts(pdf_docs)
                # st.write(raw_text)
                print(raw_text)
                
                # Get the text chunks
                text_chunks = get_text_chunks(raw_text)
                # st.write(text_chunks)
                
                # Create vector store
                lib_indexer.loadPdfChunks(text_chunks, url, hf, db, index_name)


if __name__ == "__main__":
    main()

创建嵌入模型

lib_embedding.py

## for embeddings
from langchain.embeddings import HuggingFaceEmbeddings

def setup_embeddings():
    # Huggingface embedding setup
    print(">> Prep. Huggingface embedding setup")
    model_name = "sentence-transformers/all-mpnet-base-v2"
    return HuggingFaceEmbeddings(model_name=model_name)

创建向量存储

lib_vectordb.py

import os
from config import Config

## for vector store
from langchain.vectorstores import ElasticVectorSearch

def setup_vectordb(hf,index_name):
    # Elasticsearch URL setup
    print(">> Prep. Elasticsearch config setup")
    
    with open('simple.cfg') as f:
        cfg = Config(f)
    
    endpoint = cfg['ES_SERVER']
    username = "elastic"
    password = cfg['ES_PASSWORD']
    
    ssl_verify = {
        "verify_certs": True,
        "basic_auth": (username, password),
        "ca_certs": "./http_ca.crt",
    }

    url = f"https://{username}:{password}@{endpoint}:9200"

    return ElasticVectorSearch( embedding = hf, 
                                elasticsearch_url = url, 
                                index_name = index_name, 
                                ssl_verify = ssl_verify), url

创建使用带有上下文和问题变量的提示模板的离线 LLM

lib_llm.py

## for conversation LLM
from langchain import PromptTemplate, HuggingFaceHub, LLMChain
from langchain.llms import HuggingFacePipeline
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, AutoModelForSeq2SeqLM


def make_the_llm():
    # Get Offline flan-t5-large ready to go, in CPU mode
    print(">> Prep. Get Offline flan-t5-large ready to go, in CPU mode")
    model_id = 'google/flan-t5-large'# go for a smaller model if you dont have the VRAM
    tokenizer = AutoTokenizer.from_pretrained(model_id) 
    model = AutoModelForSeq2SeqLM.from_pretrained(model_id) #load_in_8bit=True, device_map='auto'
    pipe = pipeline(
        "text2text-generation",
        model=model, 
        tokenizer=tokenizer, 
        max_length=100
    )
    local_llm = HuggingFacePipeline(pipeline=pipe)
    # template_informed = """
    # I know the following: {context}
    # Question: {question}
    # Answer: """

    template_informed = """
    I know: {context}
    when asked: {question}
    my response is: """

    prompt_informed = PromptTemplate(template=template_informed, input_variables=["context", "question"])

    return LLMChain(prompt=prompt_informed, llm=local_llm)

写入以向量表示的 PDF 文件

以下是我的分块和向量存储代码。它需要在 Elasticsearch 中准备好组成的 Elasticsearch url、huggingface 嵌入模型、向量数据库和目标索引名称

lib_indexer.py


from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import TextLoader

## for vector store
from langchain.vectorstores import ElasticVectorSearch
from elasticsearch import Elasticsearch
from config import Config

with open('simple.cfg') as f:
    cfg = Config(f)

fingerprint = cfg['ES_FINGERPRINT']
endpoint = cfg['ES_SERVER']
username = "elastic"
password = cfg['ES_PASSWORD']
ssl_verify = {
    "verify_certs": True,
    "basic_auth": (username, password),
    "ca_certs": "./http_ca.crt"
}

url = f"https://{username}:{password}@{endpoint}:9200"

def parse_book(filepath):
    loader = TextLoader(filepath)
    documents = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=384, chunk_overlap=0)
    docs = text_splitter.split_documents(documents)
    return docs

def parse_triplets(filepath):
    docs = parse_book(filepath)
    result = []
    for i in range(len(docs) - 2):
        concat_str = docs[i].page_content + " " + docs[i+1].page_content + " " + docs[i+2].page_content
        result.append(concat_str)
    return result
    #db.from_texts(docs, embedding=hf, elasticsearch_url=url, index_name=index_name)

## load book utility
## params
##  filepath: where to get the book txt ... should be utf-8
##  url: the full Elasticsearch url with username password and port embedded
##  hf: hugging face transformer for sentences
##  db: the VectorStore Langcahin object ready to go with embedding thing already set up
##  index_name: name of index to use in ES
##
##  will check if the index_name exists already in ES url before attempting split and load
def loadBookTriplets(filepath, url, hf, db, index_name):
    with open('simple.cfg') as f:
        cfg = Config(f)
    
    fingerprint = cfg['ES_FINGERPRINT']
    es = Elasticsearch( [ url ], 
                    basic_auth = ("elastic", cfg['ES_PASSWORD']), 
                    ssl_assert_fingerprint = fingerprint, 
                    http_compress = True  )
   
    ## Parse the book if necessary
    if not es.indices.exists(index=index_name):
        print(f'\tThe index: {index_name} does not exist')
        print(">> 1. Chunk up the Source document")
        
        results = parse_triplets(filepath)

        print(">> 2. Index the chunks into Elasticsearch")
        
        elastic_vector_search= ElasticVectorSearch.from_documents( docs,
                                embedding = hf, 
                                elasticsearch_url = url, 
                                index_name = index_name, 
                                ssl_verify = ssl_verify)
    else:
        print("\tLooks like the pdfs are already loaded, let's move on")

def loadBookBig(filepath, url, hf, db, index_name):
    es = Elasticsearch( [ url ], 
                       basic_auth = ("elastic", cfg['ES_PASSWORD']), 
                       ssl_assert_fingerprint = fingerprint, 
                       http_compress = True  )
    
    ## Parse the book if necessary
    if not es.indices.exists(index=index_name):
        print(f'\tThe index: {index_name} does not exist')
        print(">> 1. Chunk up the Source document")
        
        docs = parse_book(filepath)
        
        # print(docs)

        print(">> 2. Index the chunks into Elasticsearch")
        
        elastic_vector_search= ElasticVectorSearch.from_documents( docs,
                                embedding = hf, 
                                elasticsearch_url = url, 
                                index_name = index_name, 
                                ssl_verify = ssl_verify)   
    else:
        print("\tLooks like the pdfs are already loaded, let's move on")

def loadPdfChunks(chunks, url, hf, db, index_name):    
    es = Elasticsearch( [ url ], 
                       basic_auth = ("elastic", cfg['ES_PASSWORD']), 
                       ssl_assert_fingerprint = fingerprint, 
                       http_compress = True  )
    
    ## Parse the book if necessary
    if not es.indices.exists(index=index_name):
        print(f'\tThe index: {index_name} does not exist')        
        print(">> 2. Index the chunks into Elasticsearch")
        
        print("url: ", url)
        print("index_name", index_name)
        
        elastic_vector_search = db.from_texts( chunks,
                                embedding = hf, 
                                elasticsearch_url = url, 
                                index_name = index_name, 
                                ssl_verify = ssl_verify)   
    else:
        print("\tLooks like the pdfs are already loaded, let's move on")

提问

我们使用 streamlit 的 input 来进行提问：

    user_question = st.text_input("Ask a question about your documents")
    if user_question:
        handle_userinput(db, llm_chain_informed, user_question)

当我们打入 ENTER 键后，上面的代码调用 handle_userinput(db, llm_chain_informed, user_question)：

def handle_userinput(db, llm_chain_informed, user_question):
    similar_docs = db.similarity_search(user_question)
    print(f'The most relevant passage: \n\t{similar_docs[0].page_content}')

    ## 4. Ask Local LLM context informed prompt
    # print(">> 4. Asking The Book ... and its response is: ")
    informed_context= similar_docs[0].page_content
    response = llm_chain_informed.run(context=informed_context,question=user_question)

    st.write(user_template.replace("{{MSG}}", user_question).replace("{{MSG1}}", " "), unsafe_allow_html=True)
    st.write(bot_template.replace("{{MSG}}", response).replace("{{MSG1}}", similar_docs[0].page_content),unsafe_allow_html=True)

首先它使用 db 进行相似性搜索，然后我们再使用大模型来得到我们想要的答案。

运行结果

我们使用命令来运行代码：

streamlit run myapp.py

我们在浏览器中选择在 pdf_files 中的两个 PDF 文件：

在上面，我们输入想要的问题：

上面的问题是：

what do I make all the same and put a cup next to him on the desk?

再进行提问：

上面的问题是：

when should you come? I will send a car to meet you from the half past four arrival at Harrogate Station.

上面的问题是：

what will I send to meet you from the half past four arrival at Harrogate Station?

你进行多次尝试其它的问题。Happy journery :)

有关 ChatGPT 的使用也是基本相同的。你需要使用 ChatGPT 的模型及其相应的 key 即可。在这里就不赘述了。

.Net之三层架构矿大测工人 .net 架构 asp.net ui 数据库
引言通常意义上的三层架构是将真个业务应用划分为：界面层（UI层）、业务逻辑层（B层）、数据访问层（D层）。对于复杂的系统分层让结构清晰，便于开发人员对系统进行整体的理解、把握；而且便于维护，系统基本的架构可以通过工具自动生成代码。当数据库发生改变时，只用重新生成代码，改动业务逻辑层的部分代码即可。三层架构分为：表现层（UI（UserInterface））、业务逻辑层（BLL（BusinessLog
Drizzle ORM：轻量级数据库工具编辑器前端
DrizzleORM：轻量级数据库工具在上一章中，我们探讨了CloudflareD1如何作为一款高性能、低成本的边缘数据库解决方案，彻底改变了我们对数据库架构的认知.但一般来说，我们很少在项目里裸写sql，所以我们需要一个能简化操作和开发的ORM工具，但市面上绝大多数的ORM对于这种ServerLess数据库的适配很差，需要解决各种依赖问题。那么在尝试了一圈后，发现Drizzle是最好的搭配方案，
企业如何用Data Agent实现数据价值效率的飞跃数据库观点资讯
作者阿里云数据库高级技术专家徐大丁(辰马)一、引言：数据价值实现的困境在数字化转型的浪潮中，数据被誉为“新时代的石油”。然而，对于大多数企业而言，这座“油田”的价值却远未被充分开采。下图简单概括了企业在数据价值效率追求上的演进路径，反映出业界对数据价值效率指标的追求。组织，技术都在不断地升级。以价值效率为牵引，从报表到洞察，从分析到预测，追求更高的效率提升和决策速度。这带来了技术架构的不断演进，从
Mybatis步骤
MyBatis:持久型框架，封装了JBDC（可以简化JDBC的开发），有ROM反射在读取数据的时候使用（之前是DAO阶段，在MyBatis是Mapper）简化步骤：1、创建数据库表2、创建项目（引入lombok,mysql,mybatis依赖,选择web），创建实体类（与数据库表对应），（在properties文件所在目录）新建yml文件（spring---dataresource---drive
基于Web门户架构的监狱内网改版实践：值班排班系统设计与信创适配探讨 bbsh2099 方案与思考 WebFuture
面向监狱内网改版场景的门户平台技术架构与智能排班实践关键词：监狱内网改版、监狱内部网站改版、值班排班系统、信创适配、智能门户架构一、场景背景与问题分析在信创国产化、等级保护合规、政务集约化趋势持续推进的背景下，传统监狱内部网站普遍面临如下问题：架构陈旧，安全漏洞频出，难以满足等级保护三级要求；不兼容国产软硬件栈，不支持国密算法与国产数据库；缺乏智能化排班系统，无法满足“岗哨轮班制”等典型排班制度；
面试官问“了解 MySQL 索引失效的场景吗？请说说” —— 深入剖析与避坑指南码里看花‌ mysql 数据库
引言：效率之殇在数据库性能优化的战场上，索引无疑是那把最锋利的武器。它能将全表扫描的“大海捞针”变为精准定位的“探囊取物”。然而，这把利器并非万能，如果使用不当，精心设计的索引可能会瞬间“哑火”，导致查询性能断崖式下跌。当面试官抛出“MySQL索引失效的场景有哪些？”这个问题时，他不仅是在考察你对索引机制的理解深度，更是在检验你的实战排障能力和对数据库底层原理的掌握程度。本文将结合原理与实践，系统
Docker容器如何实现分布式微服务：从0到1的深度解析 cda2024 docker 分布式微服务
在当今云计算和大数据时代，企业面临的最大挑战之一是如何快速、稳定地部署和管理复杂的软件应用。传统的单体架构已难以满足现代互联网应用的需求，而分布式微服务架构成为了解决这一难题的关键。但问题随之而来：如何高效地构建和管理分布式微服务？Docker容器技术的出现为这个问题带来了新的曙光。它不仅简化了应用程序的打包和部署过程，还为微服务架构提供了强大的支持。本文将深入探讨Docker容器如何实现分布式微
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
系统架构设计师论文分享-论分布式数据库技术及应用码农卿哥系统架构分布式数据库
我的软考历程摘要2023年2月，我所在的公司通过了研发纱线MES系统的立项，该项目为国内纱线工厂提供SAAS服务，旨在提高纱线工厂的数字化和智能化水平，我在该项目中担任系统架构设计师一职，负责该项目的架构设计工作。本文结合我在该项目中的实践，详细论述了分布式数据技术及其应用。在该项目中，会接入众多纱线工厂的全部设备的生产数据，数据量巨大，如果采用传统的单体关系型数据库，难以支撑起这庞大的数据。基于
20250708-02-redis通用key操作命令_笔记
一、Redis1.通用键值操作1）键的查看操作keys命令基本功能：查询当前数据库中的所有key，支持精确查询和模糊查询与memcached区别：memcached无法查询所有key，这是Redis特有的功能查询示例：keys*返回所有key（如"age"和"site"）keyssite精确查询指定keykeyss*查询以s开头的key通配符三种通配符：*：匹配任意多个字符（如key
数据集全解析：从基础概念到实践应用的完整指南
数据集全解析：从基础概念到实践应用的完整指南一、数据集的本质与核心价值1.1数据集的定义与范畴数据集（Dataset）是按照特定格式组织的一组数据的集合，它可以是结构化数据（如关系型数据库中的表格）、半结构化数据（如JSON、XML文件）或非结构化数据（如图像、文本、音频、视频等）。从表现形式看，数据集可以是一个文件（如CSV、Excel表格）、一个数据库表，也可以是分布式存储的海量数据集合（如H
如何利用AWS Lambda作为Serverless数据库进行大数据处理 AI天才研究院 AI人工智能与大数据自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术Serverless数据库一直是构建数据分析应用的主要选择之一。它能帮助客户节省运行服务所需的服务器成本、快速弹性扩展和自动伸缩能力，并且能提升整体性能，有效减少运维和开发资源投入。但是，在实际生产环境中，它们也面临着很多技术上的挑战，比如如何让Serverless数据库服务可以像传统数据库一样，做到高并发处理、实时计算等。而AWSLambda为Serverless数据
PostgreSQL WAL归档与时间点恢复(PITR)：完整技术指南
PostgreSQL的WAL(预写式日志)归档是实现时间点恢复(Point-In-TimeRecovery,PITR)的核心机制。本文深入解析WAL归档的工作原理，详细说明配置步骤，并提供完整的PITR操作流程。通过实际案例演示如何从备份恢复到指定时间点，帮助数据库管理员掌握这一关键技能，确保企业数据安全。一、WAL归档与PITR基础概念1.1WAL(预写式日志)的核心作用WAL(Write-Ah
云原生时代的日志管理：ELK、Loki、Fluentd 如何选型？
一、引言在微服务和Kubernetes普及的今天，传统的日志管理方式已经难以应对高并发、分布式架构带来的挑战。随着容器化应用数量激增，日志数据量呈指数级增长，如何高效地收集、存储、查询和分析日志，成为每个团队必须面对的问题。在这样的背景下，ELK（Elasticsearch+Logstash+Kibana）、Loki和Fluentd成为当前主流的日志解决方案。它们各有特色，适用于不同规模和技术栈的
探秘无服务器数据库：Amazon Aurora Serverless 深度解析春风十里敲代码 serverless 数据库云原生
在数字化浪潮下，数据库技术不断革新，无服务器数据库成为备受瞩目的新兴力量。其中，AmazonAuroraServerless凭借独特优势，在云数据库领域大放异彩，为现代应用开发带来全新思路。现代应用追求卓越用户体验，要求快速响应、全球可用，还要能处理海量数据。传统单体应用架构已力不从心，微服务化与无服务器架构兴起。在数据库需求上，应用不再满足于单一模式，而是需要专库专用的数据服务。比如，电商应用中
大数据领域数据产品的零售行业应用创新模式大数据洞察大数据与AI人工智能大数据零售单例模式 ai
大数据领域数据产品的零售行业应用创新模式关键词：大数据、零售行业、数据产品、应用创新、客户洞察、智能决策、数字化转型摘要：本文深入探讨了大数据技术在零售行业中的应用创新模式。我们将从零售行业数字化转型的背景出发，分析大数据产品如何重塑零售价值链，包括客户洞察、供应链优化、精准营销和智能决策等方面。文章将详细介绍相关技术原理、算法实现和实际应用案例，为零售企业提供可操作的大数据应用框架和创新思路。1
实用demo！sqlite数据库测试。只能操作数据库缓存，不能持久化的修改数据库文件。水手启航数据库 js sqlite html
sqlite数据库测试(只能操作数据库缓存，不能持久化的修改数据库文件)(只能操作数据库缓存，不能持久化的修改数据库文件)输入姓名：添加文章functionadd_article(){axios.get("sqlite3demo.db3",{responseType:'arraybuffer'}).then(function(response){letdb=newwindow.SQL.Databa
CKEditor中粘贴复杂公式的最佳实践是什么？ M_Snow umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word ueditor导入pdf ueditor导入ppt
要求：开源，免费，技术支持编辑器：ckeditor前端：vue2,vue3.vue-cli后端：asp,java,jsp,springboot,php,asp.net,.netcore功能：导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏平台：Windows,macOS,Linux,RedHat,Ubuntu,CentO
JAVA面试宝典 -《性能优化实战：从代码到架构的调优》
文章目录《性能优化实战：从代码到架构的调优》引言：性能优化是系统的“生命线”第一部分：代码级优化（微观层面）1️⃣常见性能“坑”2️⃣GC调优入门3️⃣性能分析工具推荐️第二部分：数据库性能优化1️⃣SQL优化策略2️⃣利用缓存“兜底”3️⃣MyBatisPlus实例优化第三部分：服务层调优（中观层面）1️⃣接口耗时分析2️⃣异步与线程池优化3️⃣限流与熔断️第四部分：架构级优化（宏观层面）1️⃣
个人总结 - LangChain4j应用（1）艾露z AI java langchain ai 人工智能
个人总结-LangChain4j应用（1）github：Releases·langchain4j/langchain4j·GitHub官方文档：Introduction|LangChain4j简要介绍：LangChain4j是一个旨在简化大语言模型（LLMs）与Java应用程序集成的框架。ChatandLanguageModels：LanguageModel：最简单的聊天模型，简单的接收字符串，不
怎么用快鲸AISEO实战全攻略提升百度排名？
智能SEO实战策略智能搜索引擎优化的核心在于利用先进技术手段实现策略的动态调整与优化。快鲸AISEO正是这类工具的代表，它能够深度分析搜索引擎的规则变化与用户搜索意图的演变。通过该平台，网站运营者可以高效地执行百度搜索排名优化任务，其智能算法能实时识别并推荐高潜力关键词，同时指导内容结构的优化方向，确保内容既符合搜索算法偏好，又能精准匹配用户需求。这种动态调整能力显著提升了优化的效率与精准度。实践
Coze 基础认知：知识库功能深度解析与实战应用指南 charles666666 产品经理
在当今数字化时代，企业的知识管理能力已成为其核心竞争力之一。然而，许多企业仍面临着知识散落各处、查找困难、信息过时、新员工上手慢、专家经验流失、重复解答相同问题、客户支持效率低等知识管理痛点。在智能化时代，传统知识管理方式的局限性和高昂成本逐渐凸显。而Coze知识库凭借着强大的功能和优势，成为了企业解决这些痛点的关键。一、精准定位问题企业的知识往往分散在不同的文档、邮件、网页、数据库等各个角落，员
鸿蒙arkts使用关系型数据库，使用DB Browser for SQLite连接和查看数据库数据？使用TaskPool进行频繁数据库操作周胡杰 harmonyos 数据库华为鸿蒙系统鸿蒙前端
2.下载ziphttps://sqlitebrowser.org/默认打开即可3数据库的使用搭配taskpool
【MySQL】数据库基础
接下来该文章专栏会分享MySQL数据库的一些基本知识~【MySQL】库的操作【MySQL】表的操作【MySQL】数据类型【MySQL】表的约束【MySQL】基本查询【MySQL】内置函数【MySQL】复合查询【MySQL】内外连接【MySQL】索引特性【MySQL】事务管理【MySQL】视图特性【MySQL】用户管理1.什么是数据库我们都知道用文件就可以存储数据，但是为什么还要设计个数据库？有问题
开源 AI 联网搜索工具：Open-WebSearch MCP 全新升级，支持多引擎 + 流式响应！ Aasee. 开源人工智能 javascript mcp
开源AI联网搜索工具：Open-WebSearchMCP全新升级，支持多引擎+流式响应！「让你的AI插件真正能联网」——不需要APIKey，搜索结果可控、开箱即用！大家好，我最近开源了一个AI插件开发工具——Open-WebSearchMCP。这个项目旨在解决AI在实际应用中无法联网或联网费用高昂的问题，特别适合在Claude、LangChain、RAG方案中添加“实时搜索”能力。项目亮点一览✅多
使用python使用现有word模板填充或替换数据生成word或pdf文件
要使用Python填充或替换现有Word模板中的数据并生成Word或PDF文件，您可以使用以下步骤：选择一个Python库来处理Word文件，推荐使用python-docx或python-docx-template库。这两个库都可以用来操作Word文档。使用您选择的库，打开现有的Word模板文件。根据您的需求，可以使用库提供的方法来填充或替换模板中的数据。您可以在模板中设置占位符，然后通过Pyth
2022年MySQL最新面试题 m0_54850467 面试学习路线阿里巴巴 android 前端后端
2022年MySQL最新面试题目录前言一、数据库基础知识0、概要1、平时MySQL主要用哪个版本2、数据库三大范式是什么3、MySQL有关权限的表都有哪几个4、MySQL的binlog有有几种录入格式？分别有什么区别？平时用到哪些关系型数据库和非关系数据库,可以谈谈你对它们的理解吗?5、可以简单说说你对MySQL的逻辑架构了解吗？6、了解MySQL中的MVCC是什么?7、PostgreSQL相对于
MySQL常用操作查看表描述以及表结构、连接数及缓存和性能指标
查看表描述以及表结构查看数据库名SHOWDATABASES;SELECTDATABASE();SELECTDATABASE()AScurrent_database;查看数据库中表的列表SHOWTABLES;SELECTTABLE_NAME,TABLE_COMMENTFROMINFORMATION_SCHEMA.TABLESWHERETABLE_SCHEMA='your_database_name'
Amazon Lightsail 全解析：中小企业上云
在企业数字化转型的浪潮中，越来越多的中小企业、创业团队和个人开发者开始寻求更简单、成本更可控的云服务解决方案，AWS推出了专为轻量应用打造的一站式云服务平台——AmazonLightsail。它集计算、存储、网络、数据库、容器等能力于一体，以极低的学习成本和固定月费的定价模式，帮助用户快速启动并管理Web项目、API服务、数据库应用等。本文我将带您全面了解Lightsail的功能优势、应用场景以及
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

Elasticsearch：与多个 PDF 聊天 | LangChain Python 应用教程（免费 LLMs 和嵌入）

安装

运行项目

创建界面

创建嵌入模型

创建向量存储

创建使用带有上下文和问题变量的提示模板的离线 LLM

写入以向量表示的 PDF 文件

提问

运行结果

你可能感兴趣的:(Elasticsearch,Elastic,pdf,langchain,elasticsearch,大数据,搜索引擎,数据库,全文检索)