技术狂潮AI

EmbedChain：比LangChain更加轻量化的LLM框架

一、前言

在之前的文章中，我们研究了如何使用LangChain结合大型语言模型（LLM）API来构建用户友好且直观的聊天机器人。现在，我们将探索一个新的Python包来进一步简化LangChain的实现。只需3-4行代码，我们就可以轻松地与任何外部数据进行通信！这个神奇的包叫Embedchain！⭐

这些库各有优点。我认为LangChain的性能更好，并且具备更多功能。另一方面，Embedchain则更容易使用，并且免费提供开源的语言模型。总之，这两个库都旨在为您创建专属的语言模型。

选择使用哪个库取决于你的具体需求。例如，如果您需要处理数据，在LangChain库中有20多种工具可供选择，比如与PDF文件互动或者从医疗网站Pubmed获取信息等等；同时还能够从YouTube下载视频并将其转换为文本进行对话等等——所有这些都是LangChain库所擅长的领域。而Embedchain也有其自身的优势。

综上所述，我的建议是掌握这两个库，并在不同情况下做出最佳选择。

二、EmbedChain 介绍

EmbedChain 是一个功能强大的框架，旨在简化使用任何数据集创建语言模型 (LLM) 支持的机器人的过程。它提供了一个抽象层，用于处理数据集加载、分块、嵌入创建以及矢量数据库中的存储。它使用LangChain、OpenAI的Ada嵌入模型、OpenAI的ChatGPT API和Chroma作为存储嵌入的向量数据库。

通过使用 .add 和 .add_local 函数，您可以轻松地将单个或多个数据集添加到您的机器人中。然后，您可以利用 .query 函数从添加的数据集中检索答案。

如果你想创建一个包含 YouTube 视频、PDF 格式的书籍、两篇博客文章和问答对的 Naval Ravikant 机器人，你只需添加相应的链接即可。 Embedchain 将负责剩下的工作，为你创建一个机器人。

from embedchain import App

naval_bot = App()
# 添加在线数据
naval_bot.add("https://www.youtube.com/watch?v=3qHkcs3kG44")
naval_bot.add("https://navalmanack.s3.amazonaws.com/Eric-Jorgenson_The-Almanack-of-Naval-Ravikant_Final.pdf")
naval_bot.add("https://nav.al/feedback")
naval_bot.add("https://nav.al/agi")
naval_bot.add("The Meanings of Life", 'text', metadata={'chapter': 'philosphy'})

# 添加本地资源
naval_bot.add(("谁是海军拉维坎特？", "纳瓦尔·拉维坎特是一位印度裔美国企业家和投资者。"))

naval_bot.query("海军认为人类在理解解释或概念方面拥有哪些独特的能力？")
# 答：海军认为，人类拥有在这个物理现实中最大程度地理解解释或概念的独特能力。

2.1、基本原理

Embedchain 为你抽象出以下步骤，以轻松创建 LLM 支持的应用程序：

检测数据类型并加载数据
创建有意义的块
为每个块创建嵌入
将块存储在矢量数据库中

当用户提出查询时，会发生以下过程来查找答案：

为查询创建嵌入
从向量数据库中查找与查询相似的文档
将类似文档作为上下文传递给LLM以获得最终答案

加载数据集和查询的过程涉及多个步骤，每个步骤都有自己的细微差别：

我应该如何对数据进行分块？什么是有意义的块大小？
我应该如何为每个块创建嵌入？我应该使用哪种嵌入模型？
我应该如何将块存储在矢量数据库中？我应该使用哪个矢量数据库？
我应该将元数据与嵌入一起存储吗？
我应该如何找到类似的查询文档？我应该使用哪种排名模型？

Embedchain 照顾所有这些细微差别，并提供一个简单的界面来在任何数据上创建应用程序。

三、快速开始

快速安装 embedchain：

pip install --upgrade embedchain

创建应用程序涉及 3 个步骤：

# 导入应用实例
import os
from embedchain import App

os.environ["OPENAI_API_KEY"] = "xxx"
elon_bot = App()

# 添加不同的数据源
elon_bot.add("https://en.wikipedia.org/wiki/Elon_Musk")
elon_bot.add("https://www.forbes.com/profile/elon-musk")
# 你还可以添加本地数据源，例如pdf、csv文件等。
# elon_bot.add("/path/to/file.pdf")

# 查询你的数据并获得答案
response = elon_bot.query("埃隆·马斯克今天的净资产是多少？")
print(response)
# 答：埃隆·马斯克如今的净资产是2587亿美元。

四、大语言模型

Embedchain 内置了对各种流行的大型语言模型的支持。我们为你处理集成这些模型的复杂性，使你可以通过用户友好的界面轻松自定义语言模型交互。

4.1、OpenAI

要使用 OpenAI LLM 模型，您必须设置 OPENAI_API_KEY 环境变量。您可以从OpenAI平台获取OpenAI API密钥。

获得密钥后，您可以像这样使用它：

import os
from embedchain import App

os.environ['OPENAI_API_KEY'] = 'xxx'

app = App()
app.add("https://en.wikipedia.org/wiki/OpenAI")
app.query("What is OpenAI?")

如果您希望配置 LLM 的不同参数，可以通过使用 yaml 配置文件加载应用程序来实现。

import os
from embedchain import App

os.environ['OPENAI_API_KEY'] = 'xxx'

# load llm configuration from config.yaml file
app = App.from_config(yaml_path="config.yaml")

# config.yaml
llm:
  provider: openai
  config:
    model: 'gpt-3.5-turbo'
    temperature: 0.5
    max_tokens: 1000
    top_p: 1
    stream: false

4.2、Hugging Face

使用以下命令安装相关依赖：

pip install --upgrade 'embedchain[huggingface_hub]'

首先，在环境变量中设置 HUGGINGFACE_ACCESS_TOKEN ，您可以从他们的平台获取该环境变量。

获得令牌后，使用配置 yaml 文件加载应用程序：

import os
from embedchain import App

os.environ["HUGGINGFACE_ACCESS_TOKEN"] = "xxx"

# 从config. yaml文件加载llm配置
app = App.from_config(yaml_path="config.yaml")

# config.yaml
llm:
  provider: huggingface
  config:
    model: 'google/flan-t5-xxl'
    temperature: 0.5
    max_tokens: 1000
    top_p: 0.5
    stream: false

五、Embedding 模型

Embedchain 支持以下提供商的多种嵌入模型：

5.1、OpenAI

要使用OpenAI嵌入功能，您必须设置 OPENAI_API_KEY 环境变量。您可以从OpenAI平台获取OpenAI API密钥。

获得密钥后，您可以像这样使用它：

import os
from embedchain import App

os.environ['OPENAI_API_KEY'] = 'xxx'

# 从config. yaml文件加载嵌入模型配置
app = App.from_config(yaml_path="config.yaml")

app.add("https://en.wikipedia.org/wiki/OpenAI")
app.query("What is OpenAI?")

# config.yaml
embedder:
  provider: openai
  config:
    model: 'text-embedding-ada-002'

5.2、Hugging Face

Hugging Face 支持使用 Sentence Transformer 库生成任意长度的文本文档的嵌入。下面给出了如何使用拥抱脸生成嵌入的示例：

from embedchain import App

# 从config. yaml文件加载嵌入模型配置
app = App.from_config(yaml_path="config.yaml")

# config.yaml
llm:
  provider: huggingface
  config:
    model: 'google/flan-t5-xxl'
    temperature: 0.5
    max_tokens: 1000
    top_p: 0.5
    stream: false

embedder:
  provider: huggingface
  config:
    model: 'sentence-transformers/all-mpnet-base-v2'

六、向量数据库

将矢量数据库与 Embedchain 结合使用是一个无缝过程。你需要做的就是在 YAML 配置文件中配置它。我们为下面每个受支持的数据库提供了示例：

6.1、ChromaDB

from embedchain import App

# 从yaml文件加载色度配置
app = App.from_config(yaml_path="config1.yaml")

# config1.yaml
vectordb:
  provider: chroma
  config:
    collection_name: 'my-collection'
    dir: db
    allow_reset: true

# config2.yaml
vectordb:
  provider: chroma
  config:
    collection_name: 'my-collection'
    host: localhost
    port: 5200
    allow_reset: true

6.2、Elasticsearch

使用以下命令安装相关依赖：

pip install --upgrade 'embedchain[elasticsearch]'

from embedchain import App

# 从yaml文件加载elasticsearch配置
app = App.from_config(yaml_path="config.yaml")

# config.yaml
vectordb:
  provider: elasticsearch
  config:
    collection_name: 'es-index'
    es_url: http://localhost:9200
    allow_reset: true
    api_key: xxx

6.3、OpenSearch

使用以下命令安装相关依赖：

pip install --upgrade 'embedchain[opensearch]'

from embedchain import App

# 从yaml文件加载opensearch配置
app = App.from_config(yaml_path="config.yaml")

# config.yaml
vectordb:
  provider: opensearch
  config:
    opensearch_url: 'https://localhost:9200'
    http_auth:
      - admin
      - admin
    vector_dimension: 1536
    collection_name: 'my-app'
    use_ssl: false
    verify_certs: false

6.4、Milvus

使用以下命令安装相关依赖：

pip install --upgrade 'embedchain[milvus]'

设置 Zilliz 环境变量 ZILLIZ_CLOUD_URI 和 ZILLIZ_CLOUD_TOKEN ，您可以在其云平台上找到它。

import os
from embedchain import App

os.environ['ZILLIZ_CLOUD_URI'] = 'https://xxx.zillizcloud.com'
os.environ['ZILLIZ_CLOUD_TOKEN'] = 'xxx'# 从yaml文件加载zilliz配置
app = App.from_config(yaml_path="config.yaml")

# config.yaml
vectordb:
  provider: zilliz
  config:
    collection_name: 'zilliz-app'
    uri: https://xxxx.api.gcp-region.zillizcloud.com
    token: xxx
    vector_dim: 1536
    metric_type: L2

6.5、Pinecone

使用以下命令安装pinecone相关依赖项：

pip install --upgrade 'embedchain[pinecone]'

为了使用 Pinecone 作为矢量数据库，请设置环境变量 PINECONE_API_KEY 和 PINECONE_ENV ，您可以在 Pinecone 仪表板上找到它们。

from embedchain import App

# 从yaml文件加载松果配置
app = App.from_config(yaml_path="config.yaml")

# config.yaml
vectordb:
  provider: pinecone
  config:
    metric: cosine
    vector_dimension: 1536
    collection_name: my-pinecone-index

6.6、Qdrant

为了将 Qdrant 用作矢量数据库，请设置环境变量 QDRANT_URL 和 QDRANT_API_KEY ，您可以在 Qdrant Dashboard 上找到它们。

from embedchain import App

# 从yaml文件加载qdrant配置
app = App.from_config(yaml_path="config.yaml")

# config.yaml
vectordb:
  provider: qdrant
  config:
    collection_name: my_qdrant_index

七、数据源

Embedchain 内置了12种数据源的支持。我们处理从这些数据源加载非结构化数据的复杂性，使你可以通过用户友好的界面轻松自定义你的应用程序。

7.1、CSV 文档

要添加任何 csv 文件，请将 data_type 用作 csv 。 csv 允许远程 URL 和常规文件路径。每行都包含标题，因此如果你有 age 列，则 18 将添加为 age: 18 。例如：

from embedchain import App

app = App()
app.add('https://people.sc.fsu.edu/~jburkardt/data/csv/airtravel.csv', data_type="csv")
# 或者使用本地文件路径添加
# app.add('/path/to/file.csv', data_type="csv")

app.query("总结航空旅行数据")
# 答：航空旅行数据显示了1958年、1959年和1960年7月的航班数量。1958年7月有491个航班，1959年7月有548个航班，1960年7月有622个航班。

注意：csv 文件有一个大小限制，超过该限制可能会引发错误。该限制由LLM设定。请考虑将大型 csv 文件分成较小的 csv 文件。

7.2、代码文档

要将任何代码文档网站添加为加载程序，请使用 data_type 作为 docs_site 。例如：

from embedchain import App

app = App()
app.add("https://docs.embedchain.ai/", data_type="docs_site")
app.query("什么是 Embedchain?")
# 答：Embedchain是一个平台，它利用各种组件，包括付费/专有组件，来提供被认为是最好的配置。它使用LLM（语言模型）提供程序，如OpenAI、Anthproic、Vertex_AI、GPT4ALL、Azure_OpenAI、LLAMA2、JINA和COHere。嵌入式链允许用户为他们的应用程序导入和利用这些LLM提供程序。'

其他支持的数据源类型就不一一列举了，具体可以查阅官方文档，基本上差异就是指定 data_type 属性为文档的类型即可。同时 add 方法既支持传入在线URL地址，也支持传入本地文档地址。

data_type 可选值为：
csv
docs_site
docs
mdx
notion
pdf_file
qna_pair
sitemap
text
web_page
youtube_video

八、数据类型处理

8.1、自动数据类型检测

add 方法根据你对源参数的输入自动尝试检测 data_type。因此 app.add('https://www.youtube.com/watch?v=dQw4w9WgXcQ') 足以嵌入 YouTube 视频。

此检测适用于所有格式。它基于是否是 URL、本地文件、源数据类型等因素。

8.1.1、调试自动检测

在配置yaml中设置 log_level: DEBUG 来调试数据类型检测是否正确。否则，你将不知道何时将无效的文件路径解释为原始文本。

8.1.2、强制数据类型

要忽略数据类型检测的任何问题，你可以通过将 data_type 添加为 add 方法参数来强制使用它。下面的示例向你展示了强制相应 data_type 的关键字。

强制还可以用于边缘情况，例如将站点地图解释为网页，以读取其原始文本而不是跟随链接。

8.2、远程数据类型

在远程数据类型中使用本地文件

某些 data_types 适用于远程内容并且仅适用于 URL。你可以通过使用 file: URI 方案格式化路径来传递本地文件，例如 file:///info.pdf 。

8.3、重用向量数据库

默认情况下，会在./db目录中创建一个持久化的向量数据库。您可以将应用程序拆分为两个Python脚本：一个用于创建本地的向量数据库，另一个用于重用这个本地的持久化向量数据库。当您想要对数百个文档进行索引，并单独实现聊天界面时，这非常有用。

from embedchain import App

naval_chat_bot = App()
naval_chat_bot.add("https://www.youtube.com/watch?v=3qHkcs3kG44")
naval_chat_bot.add("https://navalmanack.s3.amazonaws.com/Eric-Jorgenson_The-Almanack-of-Naval-Ravikant_Final.pdf")

你可以使用相同的代码重用本地索引，但无需添加新文档：

from embedchain import App

naval_chat_bot = App()print(naval_chat_bot.query("海军认为人类在理解解释或概念方面拥有哪些独特的能力？"))

九、自定义配置

Embedchain 开箱即用。对于高级用户，还提供配置选项。这些配置选项都是可选的并且具有合理的默认值。

你可以通过 Embedchain 提供的简单 yaml 配置来配置应用程序的不同组件（ llm 、 embedding model 或 vector database ）。以下是 yaml 配置的通用全栈示例：

app:
  config:
    id: 'full-stack-app'

llm:
  provider: openai
  config:
    model: 'gpt-3.5-turbo'
    temperature: 0.5
    max_tokens: 1000
    top_p: 1
    stream: false
    template: |
      最后使用以下上下文来回答查询。
      如果你不知道答案，就说你不知道，不要试图编造答案。

      $context

      Query: $query

      Helpful Answer:
    system_prompt: |
      扮演威廉·莎士比亚。以威廉·莎士比亚的风格回答以下问题。

vectordb:
  provider: chroma
  config:
    collection_name: 'full-stack-app'
    dir: db
    allow_reset: true

embedder:
  provider: openai
  config:
    model: 'text-embedding-ada-002'

针对上面 yaml 配置中每个键的含义解释如下：

app 部分：

config:
id （字符串）：全栈应用程序的 ID 或名称。

llm 部分：

provider （字符串）：语言模型的提供者，设置为“openai”。你可以在我们的文档中找到 llm 提供商的完整列表。
model （字符串）：正在使用的特定型号，“gpt-3.5-turbo”。
config:
temperature （Float）：控制模型输出的随机性。较高的值（接近 1）使输出更加随机。
max_tokens （整数）：控制响应中使用的令牌数量。
top_p （Float）：控制单词选择的多样性。较高的值（接近 1）使单词选择更加多样化。
stream （布尔值）：控制是否将响应流式传输回用户（设置为 false）。
template （字符串）：模型用于生成响应的提示的自定义模板。
system_prompt （字符串）：模型在生成响应时遵循的系统提示，在本例中，它设置为莎士比亚的风格。

vectordb 部分：

provider （字符串）：矢量数据库的提供者，设置为“色度”。你可以在我们的文档中找到矢量数据库提供商的完整列表。
config:
collection_name （字符串）：数据库的初始集合名称，设置为“full-stack-app”。
dir （字符串）：数据库的目录，设置为“db”。
allow_reset （布尔值）：表示是否允许重置数据库，设置为true。

embedder 部分：

provider （字符串）：嵌入器的提供者，设置为“openai”。你可以在我们的文档中找到嵌入模型提供程序的完整列表。
config:
model （字符串）：用于文本嵌入的特定模型，“text-embedding-ada-002”。

十、References

[1]. Embedchain GitHub: https://github.com/embedchain/embedchain

[2]. Data Platform for LLMs: https://app.embedchain.ai/

你可能感兴趣的:(LLM应用实战,AI应用实战,AI工具实战,1024程序员节,langchain,embedchain,LLM框架)

Manus联创澄清：我们并未使用MCP技术耶耶Norsea 网络杂烩人工智能
摘要近日，Manus联创针对外界关于其产品可能涉及“沙盒越狱”的疑问进行了正式回应。公司明确表示并未使用Anthropic的MCP（模型上下文协议）技术，并强调MCP是一个旨在标准化应用程序与大型语言模型（LLM）之间上下文交互的开放标准。此外，Manus联创宣布了开源计划，以增强透明度和社区参与。季逸超也确认他们没有采用MCP技术，进一步澄清了相关质疑。关键词沙盒越狱,MCP技术,开源计划,透明
【Servlet】深入解析 Servlet 启动过程 —— 原理分析、代码实战及在 JDK 和 Spring 中的应用工一木子原理分析 Servlet java servlet
深入解析Servlet启动过程——原理分析、代码实战及在JDK和Spring中的应用在JavaWeb开发中，Servlet是一种用于创建动态Web应用程序的核心技术。作为JavaEE（现在是JakartaEE）的基础，Servlet在处理客户端请求、生成响应等方面发挥着重要作用。理解Servlet的启动过程，不仅能帮助我们调试和优化应用，还能为深入掌握JavaWeb开发的核心原理打下坚实基础。本文
手把手教你学Simulink实例：基于Simulink的三相桥式全控整流电路设计与仿真实例小蘑菇二号手把手教你学 MATLAB 专栏手把手教你学 Simulink 单片机嵌入式硬件 matlab simulink
目录手把手教你学Simulink实例：基于Simulink的三相桥式全控整流电路设计与仿真实例一、背景介绍二、所需工具和环境三、步骤详解步骤1：创建Simulink模型步骤1.1：打开Simulink并新建模型步骤2：添加电源模块步骤2.1：添加三相交流电源步骤3：设计三相桥式全控整流电路步骤3.1：添加可控硅模块步骤3.2：连接三相桥式全控整流电路步骤4：添加负载模块步骤4.1：添加电阻性负载步
30KPA42CA双向二极管：精准电压控制，卓越性能 GR6692 二极管物联网数据库管理员 python eclipse
30KPA42CA双向TVS瞬态抑制二极管二极管产品已经跟我们的生活有着密不可分的联系了，TVS瞬态抑制二极管，是一种高效能保护二极管，产品体积小、功率大、响应快等诸多优点，产品应用广泛。TVS瞬态抑制二极管30KPA42CA，是一种二极管形式的高效能被动保护器件贴片TVS瞬态抑制二极管详情简介TVS瞬态抑制二极管30KPA42CA极性(单双向)：双向VRWM(V)电压：42V最大箝位电压@IPP
垃圾收集算法与收集器 HBryce24 JVM jvm
在JVM中，垃圾收集（GarbageCollection,GC）算法的核心目标是自动回收无用对象的内存，同时尽量减少对应用性能的影响。以下是JVM中主要垃圾收集算法的原理、流程及实际应用场景的详细介绍：一、标记-清除算法（Mark-Sweep）原理标记阶段：从GCRoots（如栈引用、静态变量）出发，遍历对象图，标记所有存活对象。清除阶段：扫描堆内存，回收未被标记的对象所占用的内存（直接释放，不整
高纯氢能源在线监测分析系统组成和作用 GUOYUGRA 人工智能算法机器学习
高纯氢能源在线监测分析系统是一种用于实时监测和分析高纯氢气(H₂)质量、成分和浓度的设备系统，广泛应用于氢气生产、储存、运输及使用的各个环节。随着氢能源作为清洁能源的逐渐普及，对氢气的质量要求越来越高，尤其是在燃料电池、电解水制氢、氢气储存和输送等应用领域，必须确保氢气的纯度和成分符合严格的标准和要求。该系统的主要作用是实时监测高纯氢气中的杂质成分(如氧气、氮气、水蒸气、二氧化碳等),确保氢气的质
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
STM32应用(六)一阶卡尔曼滤波代码和简单应用 2401_87557129 stm32 嵌入式硬件单片机
STM32应用(五)基于输入捕获的超声波HC-SR04模块使用1.一阶卡尔曼滤波代码实现1.1Kalman滤波代码1.1.1Kalman.c文件#include"Kalman.h"voidKalman\_Init(){kfp.Last_P=1;kfp.Now_P=0;kfp.out=0;kfp.Kg=0;kfp.Q=0;kfp.R=0.01;}/\*\*\*卡尔曼滤波器\*@paramKalman
深入学习Nginx：从入门到实践小码快撩 nginx 学习运维
引言Nginx，全名“EngineX”，是一款高性能的HTTP和反向代理服务器，由俄罗斯程序员IgorSysoev开发。以其轻量级、高并发处理能力和稳定性而闻名于世，广泛应用于负载均衡、动静内容分离、API网关、缓存服务以及静态文件服务等多个场景。本文旨在为读者提供一份详尽的Nginx技术学习指南，助您快速掌握并应用这一强大工具。。一、事件驱动模型在Nginx中，事件驱动模型是其高效处理并发连接的
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
卡尔曼滤波算法从理论到实践：在STM32中的嵌入式实现 DOMINICHZL STM32 算法 stm32 嵌入式硬件
摘要：卡尔曼滤波（KalmanFilter）是传感器数据融合领域的经典算法，在姿态解算、导航定位等嵌入式场景中广泛应用。本文将从公式推导、代码实现、参数调试三个维度深入解析卡尔曼滤波，并给出基于STM32硬件的完整工程案例。一、卡尔曼滤波核心思想1.1什么是卡尔曼滤波？卡尔曼滤波是一种最优递归估计算法，通过融合预测值（系统模型）与观测值（传感器数据），在噪声干扰环境下实现对系统状态的动态估计。其核
ffplay 使用文档介绍码流怪侠 FFmpeg ffplay 播放器音视频直播转码
ffplayffplay是一个简单的媒体播放器，它是FFmpeg项目的一部分。FFmpeg是一个广泛使用的多媒体框架，能够解码、编码、转码、复用、解复用、流化、过滤和播放几乎所有类型的媒体文件。ffplay主要用于测试和调试，因为它提供了一个命令行界面，可以方便地查看媒体文件的详细信息，如视频帧、音频波形等。它支持多种视频和音频格式，并且可以实时显示解码过程中的统计信息。使用文档原文地址：http
IEC104协议解析上海研博数据后端
一、IEC104协议核心特性与应用场景IEC104（IEC60870-5-104）是电力系统中广泛使用的通信协议，基于TCP/IP实现主从站（SCADA与RTU/变电站设备）的实时数据交互‌。其核心功能包括：1.四遥操作‌：‌遥测‌（YC）：采集电压、电流等模拟量数据（如类型标识0x0D）‌。遥信‌（YX）：监测开关状态等数字量信号（如M_SP_NA_1单点遥信）‌。遥控‌（YK）：远程控制断路器
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Elasticsearch 入门教学：从零开始掌握分布式搜索引擎格子先生Lab 搜索引擎 elasticsearch 分布式
引言Elasticsearch是一个开源的分布式搜索引擎，基于ApacheLucene构建，能够实现近乎实时的数据搜索和分析。它广泛应用于日志分析、全文搜索、数据可视化等场景。本文将带你从零开始学习Elasticsearch，掌握其基本概念、安装配置、数据操作及搜索功能。1.Elasticsearch简介1.1什么是Elasticsearch？Elasticsearch是一个分布式的RESTful
【LLM】预训练的具体流程 FOUR_A LLM python 人工智能深度学习大模型
分词器训练预训练模型：就像你已经学会了一些基础知识的“大脑”，我们可以在这个基础上继续学习新东西。比如，有些模型已经学会了英语，但中文学得不够好。中文预训练：为了让这个“大脑”更好地理解中文，我们需要用大量的中文数据继续训练它。分词器（Tokenizer）：它的作用是把一句话拆分成一个个小单元（比如词语或字）。比如，“我喜欢学习”会被拆成“我/喜欢/学习”。这些拆分后的单元会被转换成数字，方便模型
递推和递归_一文学会递归递推 HR刀姐递推和递归
递归算法和递推算法无论是在ACM竞赛还是项目工程上都有着极为广泛的应用，但想要完全掌握两者的思想并不容易，对于刚刚接触编程的人来说更是这样，我在初次接触递归递推时就吃了很多的苦头，除了当时对编程语言不太熟悉之外，最大的原因就是难以理解其中的思想，本文将二者结合代码分别讲解，力求以"理论+实践"的方式使读者明白两种算法。一箭双雕，一文双递。一.递归和递推的区别学习递归递推的一个容易遇到的问题就是混淆
zookeeper程序员指南 weixin_30326741 java 运维 shell
1简介本文是为想要创建使用ZooKeeper协调服务优势的分布式应用的开发者准备的。本文包含理论信息和实践信息。本指南的前四节对各种ZooKeeper概念进行较高层次的讨论。这些概念对于理解ZooKeeper是如何工作的，以及如何使用ZooKeeper来进行工作都是必要的。这几节没有代码，但却要求读者对分布式计算相关的问题较为熟悉。本文的大多数信息以可独立访问的参考材料的形式存在。但是，在编写第一
一体化便携式气象站：从农业到环保，助力各行各业发展 tianhe8888_ 气象站便携式气象站气象监测站
【TH-PQX5】随着科技的飞速进步，气象监测技术也在不断创新与发展。一体化便携式气象站，作为气象监测领域的佼佼者，以其小巧、便捷、功能全面的特点，正逐渐成为各行各业不可或缺的监测工具。从农业到环保，从科研到应急，一体化便携式气象站正以其独特的优势，助力各行各业的发展。一、一体化便携式气象站的基本概述一体化便携式气象站是一种集多种气象要素监测于一体的便携式设备。它通常包括温度传感器、湿度传感器、风
个人NAS方案，终端字符界面浏览器耶耶耶耶耶~ 其它 NAS
文章目录前言需求分析Linux配置smb服务-Linux服务端配置-windows客户端配置Linux安装流媒体服务在终端界面中浏览网页references前言个人nas需要满足的需求：可以通过浏览器访问nas中的文件、图片、视频支持像访问本地分区一样访问nas，对应用程序来讲文件在nas和本地是透明的需求分析硬件方面可用arm开发版+外置大硬盘软件方面采用Linux系统+一系列服务程序实现总结一
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
opencv借助ffmpeg读取sdp文件进行rtp拉流 20231019 诗筱涵 rtsp 用简单代码实现功能 OpenCV rtp
20231019ffmpeg装起来很快编译命令g++rtp_ffmpeg_test.cpp-ooutput$(pkg-config--libsopencv4)代码如下#include#include#include#includeusingnamespacestd;usingnamespacecv;intmain(intargc,char**argv){cout>frame;if(frame.em
12.【线性代数】——图和网络 sda42342342423 math 线性代数
十二图和网络（线性代数的应用）图graph={nodes,edges}graph=\{nodes,edges\}graph={nodes,edges}1.关联矩阵2.AAA矩阵的零空间，求解Ax=0Ax=0Ax=0电势3.ATA^TAT矩阵的零空间，电流总结电流图结论图graph={nodes,edges}graph=\{nodes,edges\}graph={nodes,edges}13245n
异步处理方式之信号（一）:基础知识和signal函数说明叨陪鲤 Linux高级网络编程 openswan源码分析 Linux上的信号异步信号处理 signal sigaction
文章目录1.引言2.信号的概念2.1信号操作之忽略信号2.2信号操作之捕捉信号2.3信号操作之执行系统默认操作2.4常见的信号3.函数signal3.1signal函数介绍3.2signal函数示例3.3signal函数的限制1.引言信号是一种软中断。很多比较重要的应用程序都需要处理信号。信号提供了一种异步处理事件的方法，例如：终端用户输入中断键，会通过信号机制终止一个程序等。早期的信号存在丢失的
如何使用element-ui进行主题的切换呢小段hy ui
我们在使用element-ui框架的时，有很多时候主题的配色都是我们不喜欢的，那这个时候element-ui的组件库就帮助我们推出了一套主题定制，用来帮助我们切换主题，方法也很简单在项目中改变sass变量首先在项目中src文件创建一个style文件在文件中进行以下配置：/*改变主题色变量*/$--color-primary:#2ca471;/*改变icon字体路径变量，必需*/$--font-pa
FastAPI 自定义参数验证器完全指南：从基础到高级实战 qcidyu 文章归档安全性数据校验 Web开发 API设计 Field函数参数验证 FastAPI
title:FastAPI自定义参数验证器完全指南：从基础到高级实战date:2025/3/11updated:2025/3/11author:cmdragonexcerpt:本教程深入探讨FastAPI中自定义参数验证器的使用，特别是通过Field函数进行数据校验。从基础概念到高级用法，通过详细的代码示例、课后测验和常见错误解决方案，帮助初学者快速掌握FastAPI中自定义参数验证器的核心知识。
TTP/HTTPS、TCP/IP 协议、RPC、Socket 通信机制种豆走天下 https tcp/ip rpc
1.TTP/HTTPSTTP(HTTP)和HTTPS（HypertextTransferProtocolSecure）是基于TCP/IP协议的应用层协议，主要用于客户端和服务器之间的数据传输。HTTP（超文本传输协议）：这是用于web页面和服务器之间通信的标准协议。它是无状态的、无连接的协议，数据是以纯文本形式传输的。HTTPS（超文本传输安全协议）：它是HTTP协议的安全版本，通过SSL/TLS
【UI自动化框架设计思路】runner：如何运行框架小怪兽长大啦 UI自动化测试技术分享 ui 自动化运维
一、简介**功能：**自动化测试的运行器，负责整合UI识别与UI操作、读取配置文件并执行测试用例步骤。参数：config_pth：配置文件的路径（字符串类型）。说明：Runner类是整个自动化测试流程的核心入口点，通过加载配置文件并结合UI操作类，执行测试用例的步骤。它将配置管理、UI操作和测试执行整合为一个完整的自动化测试流程。二、代码解析1.init方法**功能：**初始化Runner类，加载
【UI自动化技术思路分析】【总纲】UI自动化代码完整设计思路小怪兽长大啦 UI自动化测试技术分享 ui 自动化运维
一、自动化框架散装思路代码结构如下所示️UIAutomationTools：UI自动化操作工具app：业务功能代码ui_automation.py：为Android设备提供UI自动化操作的工具类case：测试用例case_template.csv：UI测试用例步骤config：配置文件login:登录相关的ICON图标路径icon_config.yaml：图片路径配置文件runner：运行器con
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb