hqc888688

关于信息抽取的整理总结(上)

动机

自然语言处理的课上老师介绍了关于信息抽取的相关内容，结合老师课件提到的相关文献，写一篇整体的总结将本类文献进行汇总，以便后续根据研究需要引用和深入阅读文献。

1. 信息抽取概述

1.1 信息抽取定义

一般意义上，信息抽取的定义为：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术[1]。

1.2 信息抽取的任务

实体识别与抽取
实体消岐
关系抽取
事件抽取

2. 实体识别与抽取

实体的识别和抽取根据应用的不同可以分为命名实体识别和开放域实体识别

2.1 实体识别

命名实体识别的主要任务是识别出待处理文本中七类命名实体，分别为人名、机构名、地名、时间、日期、货币和百分比。
在这七类当中，时间、日期、货币、百分比相对而言其构成具有很明显的规律，识别起来相对容易，但是剩下的三类由于用字灵活，所以识别难度很大。命名实体的内部构成和外部语言环境具有一些特征，无论何种方法,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征。
考虑到每一类命名实体都具有不同的特征,不同类别的实体适合用不同的识别模型[2]：
- 人名:用基于字的模型描述其内部构成
- 地名和机构名:用基于词的模型描述

同时利用MEMM、HMM、CRF等序列标注工具计算特征权重。

2.2 开放域实体抽取

相对于实体识别而言，该领域目前更具有研究前景和价值。开放域实体抽取的特点在于不限定实体类别，不限定目标文本。

基本任务
给定某一类别的实体实例，从网页中抽取同一类别其他实体实例
例如给定<中国,美国,俄罗斯>(称为“种子”)，找出其他国家<德国,英国,法国……>

基本思路在于种子词与目标词在网页中具有相同或者类似的上下文（包括网页结构和上下文）。因此需要首先利用种子词提取模板，随后利用模板提取更多同类实体。处理该问题的主流框架为：

Created with Raphaël 2.1.0 开始种子抽取器/抽取模板候选打分器结果

2.3 开放域实体抽取的主要方法

基于Query Log的抽取方法[3]
通过分析种子实例在查询日志中的上下文学得模板,再利用模板找到同类别的实例.基本方法为构造候选与种子上下文向量,计算相似度。
基于Web Page的抽取方法[4]
该文献的动机源于处理列表型文件即在同一个网页中，种子和目标实体具有相同的网页结构。整个系统主要分为三个模块。
爬取模块(Fetcher)：把种子送到搜索引擎,把返回的前100个网页抓取下来作为语料
抽取模块(Extractor)：针对单个网页学习模板,再使用模板抽取候选实例
排序模块(Ranker)：利用种子、网页、模板、候选构造一个图,综合考虑网页和模板的质量,使用Random Walk算法为候选打分并排序
融合多个数据源的抽取方法[5]
采用网页、查询日志、维基百科多种数据源，针对不同数据源,选取不同特征分别进行实例扩展,对结果进行融合，针对不同数据源选取不同的模板和特征，使用不同特征计算候选的置信度。

3 实体消岐

3.1 实体消岐定义

命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体，确定一个实体指称项所指向的真实世界实体，这就是命名实体消歧。
针对方法的不同可以分为基于聚类的实体消岐和基于实体链接的实体消岐。

3.2 基于聚类的实体消岐

基本思路为同一指称项具有近似的上下文，利用聚类算法进行消歧。其核心问题在于选取何种特征对于指称项进行表示，根据特征的不同，共有如下几种方法

基于词袋模型[6]
利用待消歧实体周边的词来构造向量，利用向量空间模型来计算两个实体指称项的相似度,进行聚类。
基于语义特征[7]
词袋模型没有考虑词的语义信息，本文利用SVD分解挖掘词的语义信息，利用词袋和浅层语义特征，共同来表示指称项，利用余弦相似度来计算两个指称项的相似度。
基于社会化网络[8]
不同的人具有不同的社会关系，利用实体的社会化关联信息所表现出来的网页链接特征，对网页进行聚类，从而实现网页内的人名聚类消歧。
基于Wikipedia[9]
Wikipedia中相关实体具有链接关系，这种链接关系反映条目之间的语义相关度。在维基百科当中，语义关联度最高的概念会共同链接更多的概念[11]。

$s r (a, b) = log ( m a x ( A , B ) ) - log ( A \cap B ) log ( W ) - log ( m i n ( A , B ) )$
其中，A、B表示概念a、b的链接数，W表示维基百科中总共实体的个数。
文献[9]用实体上下文的维基条目对于实体进行向量表示，利用维基条目之间的相关度计算指称项之间的相似度，从而解决数据稀疏问题
基于多源异构知识[10]
仅仅考虑Wikipedia一种知识源，覆盖度有限。知识源中存在大量的多源异构知识，挖掘和集成多源异构知识可以提高实体消歧的性能。该文献利用维基百科、Wordnet、Web网页库（挖掘社会关联）三种知识源，利用语义图来表示多源异构数据。在语义图中，利用语义图的边表示显示语义关联，利用语义图的机构表示隐藏语义关联。

基于聚类的方法主要集中在语义表示上，但也有挑战，首先是消岐目标难以确定，第二是缺乏实体的显式表示。

3.3 基于链接的实体消岐

其基本目标在于给定实体指称项和它所在的文本，将其链接到给定知识库中的相应实体上。主要的步骤分为两步：

候选实体的发现
给定实体指称项，链接系统根据知识、规则等信息找到实体指称项的候选实体
候选实体的链接
系统根据指称项和候选实体之间的相似度等特征，选择实体指称项的目标实体

3.3.1 候选实体的发现

主要有两种方法：

利用维基百科信息
利用Wikipedia中锚文本的超级链接关系、利用Wikipedia中的消歧页面、利用Wikipedia中的重定向页面。
利用上下文信息[12]
文献[12]主要利用上下文获取缩略语候选实体。缩略语指称项具有很强的歧义性,但它的全称往往是没有歧义的。在实体指称项文本中,缩略语的全称出现过。利用人工规则抽取实体候选。

3.3.2 候选实体链接

基本方法:计算实体指称项和候选实体的相似度,选择相似度最大的候选实体.

3.3.2.1 单一实体链接

BOW模型[13, 14]
基于词袋子模型计算相似度。将实体指称项上下文文本与候选实体上下文文本表示成词袋子向量形式，通过计算向量间的夹角确定指称项与候选实体相似度，系统选择相似度最大的候选实体进行链接。
加入候选实体的类别特征[15]
针对候选实体的文本内容可能太短,会导致相似度计算的不准确的问题，文献[15]加入指称项文本中的词与候选实体类别的共现特征。例:除了计算待消歧文本和实体Wikipedia文本John Williams (composer)的相似度外，还考虑当前文本中的词语与Music, Art等类别（实体所属类别）的共现信息。利用SVM分类器进行选择，利用特征为文本相似度和指称项文本中词与候选实体类别的共现信息。
加入候选实体的流行度等特征[16]
针对传统的方法仅仅是计算实体指称项与候选实体的相似度，忽略了候选实体的背景知识与先验信息，如实体本身的流行度、实体与指称项的关系等问题，本文考虑实体的背景知识，将实体的背景知识融入到实体链接的过程，实体的背景知识和先验信息主要有
实体流行度:实体e在知识库中的概率P(e)
名称的知识:指称项s指向实体e的概率P(s|e)
上下文知识:实体e出现在特定上下文环境c的概率P(c|e)

3.3.2.2 协同实体链接
该方法主要针对同一篇文档中实体之间具有语义相关性，因此利用Pairwise优化策略。

1 C 2 | S o | \sum s \neq s' \in S 0 r (y s, y s') + 1 | S o | \sum s \in S o ω T f s (y s)

前一项为任意两个目标实体之间的语义相关度，后一项为实体指称项到目标实体的语义相似度。即在进行实体链接的时候，不仅考虑链接可能最大化，也要一篇文档中实体之间的语义相关性更大。
针对目标实体之间的语义相似度的计算方法有两种：一是利用实体类别重合度计算目标实体语义相似度[17]；二是利用实体之间链接关系计算目标实体语义相似度[18]。

基于图的协同链接[19]
Pairwise策略只考虑两两实体关系，结果不是最优的，采用图方法，全局考虑目标实体之间的语义关联。该图由两种关系组成，该指称项文本与实体文本的相似度,由传统的VSM模型得到和实体之间的语义关系，利用目标实体之间的链接关系计算实体之间的语义相关度。
基于深度学习的方法[20]
传统的方法中，计算待消歧实体上下文和目标实体语义相似度的方法(点乘、余弦相似度、KL距离等)可扩展性差，没有考虑各个概念间的内在联系。在协同过滤的方法中，计算待消歧实体上下文和目标实体语义相似度也是基础工作。文献提出提出利用深度学习的方法自动联合学习实体和文档的表示,进而完成实体链接任务。
跨语言实体链接[21]
给定一种语言的实体指称项和其所在的上下文，将其链接到另外一种语言的知识库中，传统方法要先翻译成目标语言，可能产生错误传递，需要大量的句子级平行的双语训练语料。本文利用双语隐含主题模型将实体指称项与候选实体映射到同一个主题空间中，每一个隐含主题有两种不同的分布，分别对应两种不同语言，处于同一个主题分布下的两种不同语言的词的分布具有一些共性。
结构化数据中的实体链接[22]
结构化数据没有上下文，任务与传统的实体链接不同，主要利用实体的流行度和实体共现类型去消歧。
社交数据中的实体链接[23]
社交媒体(Twitter)是一种重要的信息来源，社交媒体的上下文较短，语言表述不规范。文献利用tweet的用户信息和tweet的交互信息进行链接。

目前实体链接方法主要是如何更有效挖掘实体指称项信息，如何更准确地计算实体指称项和实体概念之间的相似度。难点在于未登录实体的处理。

参考文献

[1] Grishman R. Information extraction: Techniques and challenges[M]//Information extraction a multidisciplinary approach to an emerging information technology. Springer Berlin Heidelberg, 1997: 10-27.
[2] Wu Y, Zhao J, Xu B, et al. Chinese named entity recognition based on multiple features[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005: 427-434.
[3] Paşca M. Weakly-supervised discovery of named entities using web search queries[C]//Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. ACM, 2007: 683-690.
[4] Wang R C, Cohen W W. Language-independent set expansion of named entities using the web[C]//Data Mining, 2007. ICDM 2007. Seventh IEEE International Conference on. IEEE, 2007: 342-350.
[5] Pennacchiotti M, Pantel P. Entity extraction via ensemble semantics[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 238-247.
[6] Baldwin B, Bagga A. Coreference as the foundations for link analysis over free text databases[C]//Proceedings of the COLING-ACL. 1998, 98: 19-24.
[7] Pedersen T, Purandare A, Kulkarni A. Name discrimination by clustering similar contexts[M]//Computational Linguistics and Intelligent Text Processing. Springer Berlin Heidelberg, 2005: 226-237.
[8] Bekkerman R, McCallum A. Disambiguating web appearances of people in a social network[C]//Proceedings of the 14th international conference on World Wide Web. ACM, 2005: 463-470.
[9] Han X, Zhao J. Named entity disambiguation by leveraging wikipedia semantic knowledge[C]//Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009: 215-224.
[10] Han X, Zhao J. Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 50-59.
[11] Milne D, Witten I H. Learning to link with wikipedia[C]//Proceedings of the 17th ACM conference on Information and knowledge management. ACM, 2008: 509-518.
[12] Zhang W, Sim Y C, Su J, et al. Entity linking with effective acronym expansion, instance selection and topic modeling[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2011:1909-1914.
[13] Honnibal M, Dale R. DAMSEL: The DSTO/Macquarie system for entity-linking[C]//Proceedings of the Second Text Analysis Conference. ==NIST==, 2009.
[14] Bikel D, Castelli V, Florian R, et al. Entity linking and slot filling through statistical processing and inference rules[C]//Proceedings of the Second Text Analysis Conference. ==NIST==, 2009.
[15] Bunescu R C, Pasca M. Using Encyclopedic Knowledge for Named entity Disambiguation.[C]// Eacl 2006, Conference of the European Chapter of the Association for Computational Linguistics, Proceedings of the Conference, April 3-7, 2006, Trento, Italy. 2006:9–16.
[16] Han B, Baldwin T. Lexical normalisation of short text messages: Makn sens a# twitter[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 368-378.
[17] Cucerzan S. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. ACL, 2007, 7: 708-716.
[18] Kulkarni S, Singh A, Ramakrishnan G, et al. Collective annotation of Wikipedia entities in web text[C]//Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2009: 457-466.
[19] Han X, Sun L, Zhao J. Collective entity linking in web text: a graph-based method[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. ACM, 2011: 765-774.
[20] He Z, Liu S, Li M, et al. Learning Entity Representation for Entity Disambiguation[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics. ACL, 2013: 30-34.
[21] Zhang T, Liu K, Zhao J. Cross Lingual Entity Linking with Bilingual Topic Model[C]//Proceedings of the International Joint Conference on Artificial Intelligence. Morgan Kaufmann, 2013.
[22] Shen W, Wang J, Luo P, et al. LIEGE:: link entities in web lists with knowledge base[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012: 1424-1432.
[23] Shen W, Wang J, Luo P, et al. Linking named entities in tweets with knowledge base via user interest modeling[C]//Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2013: 68-76.

使用 Tokenizers 分割文本：深入了解与实践 AWsggdrg python
在开发应用自然语言处理（NLP）模型时，一个常见的需求是将文本拆分为较小的块，通常称为“tokens”。现代语言模型对tokens的数量有限制，因此在处理长文本时，我们需要仔细计算tokens以避免超过限制。本文将介绍如何使用不同的tokenizer来分割文本，并提供实用代码示例。技术背景介绍自然语言处理中的tokenization是指将文本拆分为更小的、可管理的单元，称为tokens。使用tok
Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
深入理解旋转位置编码（RoPE）及其在大型语言模型中的应用 tangjunjun-owen 语言模型-多模态大模型语言模型人工智能自然语言处理 RoPE 旋转位置编码
文章目录前言一、旋转位置编码原理1、RoPE概述2、复数域内的旋转1、位置编码生成2、应用位置编码二、RoPE的实现细节1、RotaryEmbedding类设计2、apply_rotary_pos_emb函数3、demo_apply_rotary_pos_emb函数三、完整RoPE代码Demo前言随着自然语言处理（NLP）领域的快速发展，预训练的语言模型如BERT、GPT系列、PaLM、Qwen等
python LTP 安装 failed building wheel for pyltp Waldenz NLP Python LTP python ltp wheel failed building wheel
LTP（LanguageTechnologyPlatform）语言技术平台。LTP提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。主页GitHubpyltpwin10pip直接安装pyltp时的各种报错，Faildbuildingwheelforpyltp或者Runningsetup.pybdist_wheelforpyltp...error
面向 Data+AI 的统一数据目录探索 | Data Infra NO.22 回顾（含资料发布）数据库
随着生成式人工智能（GenerativeAI）的崛起，从图像生成、自然语言处理到个性化推荐系统，生成式AI技术正迅速改变着各行各业的面貌。而在这场变革背后，数据的管理和治理显得尤为重要。对于企业来说，数据不仅是基础资源，更是构建AI应用和增强业务能力的关键。ApacheGravitino（incubating）与Databend作为数据领域两个知名的开源项目，正通过各自的创新技术和实践，为数据管理
[python][whl]pyltp的whl格式文件所有版本下载地址汇总 FL1623863129 Python python 开发语言
pyltp：Python中的中文自然语言处理工具在数字化时代，自然语言处理（NLP）成为了与机器进行交互的关键技术。对于中文，由于其独特的语言结构和复杂性，专门的工具和库显得尤为重要。pyltp正是这样一个为中文NLP任务设计的Python库，它封装了LTP（LanguageTechnologyPlatform）的核心功能，使得开发者能够轻松地在Python环境中进行中文文本的处理和分析。pylt
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话一只蜗牛儿 java 大数据自然语言处理
在当今的信息化时代，数据成为了重要的资源。特别是文本数据，随处可见，如社交媒体、新闻网站、技术文档、客户反馈等，这些都包含着大量的潜在信息。因此，如何从海量的文本中提取有价值的信息，成为了大数据分析领域的重要课题。Java作为一种高效、灵活的编程语言，在大数据文本分析与自然语言处理（NLP）中发挥着至关重要的作用。本文将介绍如何利用Java开发大数据文本分析和自然语言处理（NLP）应用，带领你从文
未登录词 Out-of-Vocabulary, OOV risc123456 nlp
未登录词oov未登录词（Out-of-Vocabulary,OOV）是指在训练数据中没有出现过的词汇，但在测试数据或实际应用中却出现了。未登录词是自然语言处理（NLP）任务中常见的挑战之一，因为它们可能导致模型无法正确处理或理解这些词汇，从而影响模型的性能。以下是一些关于未登录词的详细解释和处理方法：###未登录词的来源1.**罕见词**：在训练数据中出现次数非常少的词，可能在训练过程中被忽略或未
使用Google Vertex AI Search进行企业级高级搜索 hgSdaegva 人工智能 python
技术背景介绍GoogleVertexAISearch（前称为EnterpriseSearchonGenerativeAIAppBuilder）是GoogleCloud提供的VertexAI机器学习平台的一部分。VertexAISearch允许组织快速建立由生成式AI驱动的搜索引擎，为客户和员工提供服务。它基于各种GoogleSearch技术，包括语义搜索，通过使用自然语言处理和机器学习技术来推断内
使用OpenAI Chat模型进行自然语言处理的实战指南 GEAWfaacc 自然语言处理 easyui 人工智能 python
在本文中，我们将详细介绍如何利用OpenAI的Chat模型进行自然语言处理任务。我们将涵盖从API配置到实际应用的一整套流程，并提供可运行的代码示例来帮助大家上手。如果你对AI对话模型的实际应用感兴趣，那么这篇文章将非常适合你。一、技术背景介绍OpenAI的Chat模型是一类专门用于对话任务的预训练语言模型。它们可以处理多种输入类型，支持丰富的功能调用，适用于各种自然语言处理场景。从翻译到对话生成
大语言模型原理与工程实践：预训练数据构建 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：预训练数据构建1.背景介绍大语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到情感分析，再到机器翻译，几乎无所不能。这些模型的成功很大程度上依赖于预训练数据的质量和规模。预训练数据的构建不仅影响模型的性能，还决定了模型的泛化能力和应用范围。在本文中
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
大语言模型原理与工程实践：案例介绍 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：案例介绍作者：禅与计算机程序设计艺术近年来，随着深度学习技术的快速发展，大语言模型（LargeLanguageModel，LLM）在自然语言处理领域取得了突破性进展，展现出强大的文本生成、理解和推理能力。从智能对话到机器翻译，从代码生成到诗歌创作，LLM正在深刻地改变着我们与信息交互的方式，并为人工智能应用开拓了更广阔的空间。1.背景介绍1.1大语言模型的兴起大语言模型的
Jetbrains Ai Assistant插件越来越好用了 Ai 编码 Ai编码工具人工智能 android
在IntelliJIDEA中，JetBrainsAI是JetBrains集成的人工智能功能，旨在提高开发效率，辅助开发者更智能地编写、优化和理解代码。JetBrainsAI作为IntelliJIDEA的一部分，通过自然语言处理和机器学习技术，提供了许多智能代码建议和自动化功能。点击这里：获取JetbrainsAiAssistant插件以下是JetBrainsAI在IntelliJIDEA中的一
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集。数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
探索LangChain中OpenAI模型的token级log probabilities jkgSFS langchain easyui 前端 python
在AI模型的开发和调试中，了解每个生成token的概率是非常有用的。这些信息可以帮我们理解模型的决策过程，识别可能的错误。本篇文章将介绍如何通过LangChain与OpenAI整合来获取这些token级的logprobabilities。技术背景介绍什么是LogProbabilities？在自然语言处理中，logprobabilities是一种对token生成概率的度量。通常，这个值越高，表示生成
使用VolcEngine Maas Chat进行语言模型对话的入门指南 dagGAIYD 语言模型人工智能自然语言处理 python
技术背景介绍VolcEngineMaasChat模型提供了一种便捷的方式进行对话接口的设计与实现，特别是对于自然语言处理(NLP)应用。通过简单的API调用，开发者可以轻松集成强大的AI对话能力到他们的应用中。本文将指导您如何使用VolcEngineMaasChat进行对话交互。核心原理解析VolcEngineMaasChat利用大语言模型来处理和生成自然语言，在接收到用户的输入后，模型会通过分析
使用ModelScope实现高效句嵌入生成 dagGAIYD python
技术背景介绍在自然语言处理（NLP）任务中，向量化文本（嵌入）是许多下游任务（如语义搜索、文本分类、问答系统等）的核心步骤之一。通过将文本转换为密集向量表示，我们可以在高维向量空间中构建更加高效的表示和检索算法。ModelScope是阿里云开源的一个模型和数据集管理平台，提供了大量预训练模型，涵盖了各种领域和任务。ModelScopeEmbeddings是一个与LangChain社区集成的工具类，
Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
AI 对程序员的冲击剖析程序员WANG 工具人工智能机器学习语言模型
摘要随着人工智能（AI）技术的飞速发展，其影响力已逐渐渗透到各个行业，程序员群体也面临着前所未有的冲击。本文深入探讨AI对程序员在编程工作模式、技能需求以及职业发展路径等方面带来的冲击，并分析程序员应对这些冲击的策略与方向，旨在为程序员在AI时代的职业发展提供参考。一、引言AI技术近年来取得了突破性进展，其在自然语言处理、机器学习、深度学习等领域的应用日益广泛。在软件开发领域，AI不再仅仅是辅助工
WebRover：专为训练大型语言模型和 AI 应用程序而设计的 Python 库数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
从自然语言到提示词：编程范式的革命 AI天才研究院计算机软件编程原理与应用实践大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
从自然语言到提示词：编程范式的革命关键词：编程范式、自然语言处理、提示词编程、人工智能、算法原理摘要：随着人工智能技术的不断发展，编程范式正经历着从自然语言处理向基于提示词的人工智能编程模式的转变。本文旨在探讨这一转变的背景、动机、原理及其在软件开发实践和工程方法论中的影响。文章将逐步分析自然语言处理和提示词编程的核心概念，讲解算法原理和数学模型，并通过实际案例展示编程范式转变的应用效果。第一部分
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
多头潜在注意力（MLA）是怎么来的，什么原理，能用简单的示例解释么百态老人学习
多头潜在注意力（Multi-HeadLatentAttention，简称MLA）是一种改进的注意力机制，旨在提高自然语言处理（NLP）模型的推理效率和性能。其核心思想是通过低秩联合压缩键（Key）和值（Value），减少推理过程中所需的内存和计算资源，从而实现更高效的处理。MLA的原理在传统的多头注意力机制（MHA）中，每个输入token的键和值需要被缓存，这导致了巨大的内存开销。具体来说，对于每
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
Transformer模型全面解析：工作原理、应用与未来展望* 泰山AI AI大模型应用开发 transformer
概述：深入探讨Transformer模型的工作原理，分析其在NLP领域的应用场景，并展望其未来发展趋势。本文为您提供关于Transformer模型的全面指南。正文Transformer模型全面解析：工作原理、应用与未来展望在人工智能的浪潮中，Transformer模型以其强大的性能和广泛的应用场景，成为了自然语言处理（NLP）领域的一颗璀璨明星。本文将对Transformer模型进行深入剖析，从工
一切皆是映射：Transformer架构全面解析 AI天才研究院计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
背景介绍自2017年，Transformer（自注意力机制）架构的问世以来，它已经成为自然语言处理（NLP）领域的主流技术之一。Transformer架构的出现，使得自然语言处理的任务变得更加简单、高效，同时也为许多其他领域提供了灵感。通过深入剖析Transformer，我们可以更好地理解其核心概念、原理和实际应用场景。这篇文章将全面解析Transformer架构，从核心概念到实际应用，帮助读者深
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多