SunJW_2017

知识图谱学习系列之二：命名实体识别1（技术及代码）

命名实体识别，Named Entity Recognition，简称NER。指的是构建合适的模型，从给定的数据（常常是文本）中得到所需实体的过程。

文章目录

1、什么是命名实体
2、NER的关键
3、NER的研究现状
4、基于条件随机场NER模型训练

4.1 数据集介绍
4.2 任务说明及语料库预处理

1、字符转换
2、时间词合并
3、人名合并
4、大粒度词合并

4.3 训练流程

4.3.1 定义映射文件及处理函数
4.3.2 调用sklearn_crfsuite

特征模板与特征函数
模型的训练及其他

5、备注

1、什么是命名实体

命名实体指的就是所有以名称来作为标识的实体。在有的资料¹中，将命名实体分为三大类（实体类、时间类和数字类）七小类（人名、地名、机构名、时间、日期、货币和百分比）。

随着技术的发展以及语言习惯的更新，上述分类方法可能并不适用于所有场景，根据具体业务的不同，可以增减适当的实体种类。

2、NER的关键

明白了什么是实体之后，也就很容易搞懂什么是实体的识别了。在进行实体识别的过程中，有两个问题是十分关键的：

实体边界的确认
实体类别的判断

这两个关键问题也是很好理解的。

所谓实体边界的确认，指的是对一个句子中的实体词进行正确的划分。例如在句子江泽民同志发表新年讲话中，一个好的识别算法必须将实体词江泽民进行正确的标记，而不是在其他的位置进行划分。

所谓实体类别的判断，仍以上例说明，算法必须判定江泽民为人名实体，而不是其他类型的实体。

在解释第一个关键问题时说到，一个好的算法应该能够对句子中每个字进行正确的标记以区分该字是否为实体；进一步，如果是实体，还需表明该词在实体词中的位置信息，比如，是实体词的第一个字，还是中间位置的字，还是最后一个字。读者不难理解这些标记对于实体边界确认的重要性。

最简单的表示法有B-I-O表示法，即B表示实体的起始字，I表示实体的其他字，O表示非实体字。按照这种方法，上面的句子贴标签后表示如下（每个字均对应一个标签）：

江泽民同志发表新年讲话
B I I O O O O O O O O

这种方法最简单，问题也是显而易见的：实体的末尾字不容易得到区分。在实践中发现，如果语料库采用上述方式进行标记，在进行机构实体识别时可能产生错误，具体表现为，将机构实体末尾字的下一个字（也可能两个或多个，视具体情况而定）也贴上I标签，从而得到错误的实体名称。

另外一种相对复杂的表示方法可以表示为B-M-E-S-O，类似地，B表示实体的开始字(Begin)，M表示实体的中间字(Middle)，E表示实体的末尾字(End)，S为实体只有一个字时的标记（Single，在中文任务中并不常见），O表示非实体字。上述句子采用这种表示方法得到的结果是：

江泽民同志发表新年讲话
B M E O O O O O O O O

当然，还有其他的方法，但目的都是一致的，这里不过多介绍了。

3、NER的研究现状

在吴军老师的《数学之美》一书中对中文分词有这样的总结²：这个问题属于已经解决的问题，不是什么难题了。人们再怎么花精力去研究，所得到的提升也是有限的。现在来看，这也是学术界对NER的研究热情并不是十分高涨的原因之一了。

另一个原因，个人认为则是语料库的限制。为了比较算法的性能，学术界一般采用固定的语料库，而如果将其研究成果进行落体实施，那么语料库的选取则是一个需要考量的问题。大部分公司可能都不会花精力去构建一个本领域的预料库来训练算法，只能利用现有的语料库，那么，再优秀的算法最后也可能是落得个“巧妇难为无米之炊”的下场。

一般来说，现在的NER工作的“标配”是BiLSTM+CRF³，即“双向长短记忆网络”+“条件随机场”模型，也有人提出新的改进方法⁴。关于CRF的理论性介绍，可以参考我的另一篇翻译博客。

事实上，单纯根据CRF或者BiLSTM也可以做NER（文章最后附上单独采用CRF模型的NER数据及代码），但单纯根据CRF的弊端在于需要人工手动设置特征模板，特征模板决定了特征函数，特征函数的输出对于CRF的工作效果有至关重要的影响。而单独根据BiLSTM进行NER虽然不需要进行什么手工操作，但是我们知道BiLSTM进行的实质上就是一个分类工作，而它在分类时是单独对每个字进行操作的，也就是说，不会利用到上下文已经分好的类标签，这就容易出现一种逻辑错误，比如M标签在E标签后面，B后面接O等情况。

4、基于条件随机场NER模型训练

本部分将说明如何基于条件随机场进行以及现有的工具包来训练一个粗糙的NER模型，主要参考了这篇博客，在此表示感谢。

4.1 数据集介绍

采用了标注后的人民日报1998年1月语料库进行训练，该语料库的前五行展示如下：

19980101-01-001-001/m  迈向/v  充满/v  希望/n  的/u  新/a  世纪/n  ——/w  一九九八年/t  新年/t  讲话/n  （/w  附/v  图片/n  １/m  张/q  ）/w  
19980101-01-001-002/m  中共中央/nt  总书记/n  、/w  国家/n  主席/n  江/nr  泽民/nr  
19980101-01-001-003/m  （/w  一九九七年/t  十二月/t  三十一日/t  ）/w  
19980101-01-001-004/m  １２月/t  ３１日/t  ，/w  中共中央/nt  总书记/n  、/w  国家/n  主席/n  江/nr  泽民/nr  发表/v  １９９８年/t  新年/t  讲话/n  《/w  迈向/v  充满/v  希望/n  的/u  新/a  世纪/n  》/w  。/w  （/w  新华社/nt  记者/n  兰/nr  红光/nr  摄/Vg  ）/w  
19980101-01-001-005/m  同胞/n  们/k  、/w  朋友/n  们/k  、/w  女士/n  们/k  、/w  先生/n  们/k  ：/w

关于语料库中各个标注的含义，网上有很多说明，可以参考这里，本文不再赘述。

4.2 任务说明及语料库预处理

任务： 作为一个简单的实践，目标是从给定的句子中抽取出人名、地名、机构名和时间四类实体。

预处理： 预处理的最终目的是将预料库中每一个字符与其所属的实体标签进行一一对应，举例如下：

国家主席江泽民 1 9 9 8 年的讲话
O O O O B_Per I_Per I_Per B_T I_T I_T I_T I_T O O O

即：对于不属于实体的词（字），以O进行标记；对于实体词，不但要标记类别（如上例中的Per表示人名，T表示时间），而且要标记实体边界。

要做到这一点，我们进行的主要步骤包括：

字符转换
时间词进行合并
人名进行合并
大粒度词的合并

下面一一进行说明。

1、字符转换

将一个字符串中的全角字符（如果有的话）转换为半角字符。实现函数为q_to_b(str)。

2、时间词合并

语料库中存在类似１２月/t ３１日/t的文本，这里应该将其合并为１２月３１日/t。实现这个功能的函数是process_t(words)。

存在的问题：例如对文本１９９８年/t 新年/t，也会按照上面的形式进行合并，而这并不是我们想要的。

3、人名合并

语料库中的中文人名都是按姓、名分开标注的：江/nr 泽民/nr，因此将其合并：江泽民/nr。实现这个功能的函数是process_nr(words)。

存在的问题：由于外国人名在本语料库中不区分姓和名，因此只占一个词，如果连续的多个中国人名中间存在一个外国人名而且它们之间没有标点间隔时，会出错。举例如下：

#有标点间隔时不会出错
a =  '卢/nr  嘉锡/nr  、/w  布赫/nr  、/w  铁木尔·达瓦买提/nr  、/w  吴/nr  阶平/nr  、/w  宋/nr  健/nr'
print(process_nr(a.split())
#输出为：['卢嘉锡/nr', '、/w', '布赫/nr', '、/w', '铁木尔·达瓦买提/nr', '、/w', '吴阶平/nr', '、/w', '宋健/nr']

b = '卢/nr  嘉锡/nr    布赫/nr    铁木尔·达瓦买提/nr    吴/nr  阶平/nr   宋/nr  健/nr'
print(process_nr(b.split()) 
# 结果错误
#输出为：['卢嘉锡/nr', '布赫铁木尔·达瓦买提/nr', '吴阶平/nr', '宋健/nr']

4、大粒度词合并

将预料库中以“[]”括起来的词进行合并，并以大粒度的标签进行标注，例如对于[香港/ns 普通话/n 台/n]nt，处理为：香港普通话台/nt，实现这个功能的函数是process_k(words)。

4.3 训练流程

经过上述预处理之后，该语料仍不能直接进行计算，还需要进行以下操作：

4.3.1 定义映射文件及处理函数

定义一个_maps字典，其功能是根据语料库中词的词性来对应其实体属性，内容如下：

_maps = {u't': u'T',
         u'nr': u'PER',
         u'ns': u'LOC',
         u'nt': u'ORG'}

_maps的键为词性，值为实体标签。

有了映射文件，接下来对语料库中的所有词的词性进行替换，这一步通过pos_to_tag(p)函数实现。

此时，每个词都有对应的实体标签了，接下来确定实体的边界，即对一个实体中首字贴上B_，非首字贴上I_。这个功能通过tag_perform(tag, index)函数实现。

至此，我们得到的数据应该包含每个单字以及与之对应的实体标签，当然，还有一些函数用于对语料库中的数据进行批量处理，具体内容及说明可以看代码注释。标签一共有9种：O，B_PER，I_PER，B_T，I_T，B_LOC，I_LOC，B_ORG，I_ORG。

4.3.2 调用sklearn_crfsuite

sklearn_crfsuite是一个python工具包，它将CRF的功能进行了包装，并且使用了类似于sklearn的模型语法，使用户可以在python环境下训练、保存自己的CRF模型。

特征模板与特征函数

特征模板的含义从字面上理解最好：就是产生你所需要的特征的一个“模具”。它就是一个框架，可以在你所输入的数据中提取出指定的特征。

在代码中，这个功能是通过extract_feature(word_gram)函数实现的。该函数中有一行代码如下：

feature = {u'w-1': word_gram[0], u'w': word_gram[1], u'w+1': word_gram[2],
           u'w-1:w': word_gram[0]+word_gram[1], u'w:w+1': word_gram[1]+word_gram[2],
           u'bias': 1.0}

这个字典中的内容就是特征模板了。可以看出这里一共用了5个模板来“制造”特征，分别是：当前字、当前字的前一个字、当前字的后一个字、前一个字与当前字的组合，当前字与后一个字的组合。

有了模板之后，就可以对语料提取特征了。将这一组模板想象为一个窗口，然后将其沿着语料进行移动，移动到一个字w处时，通过该模板自然就获取了w-1、w+1、w-1:w、w:w+1的内容。如果这些内容第一次出现，就将它们加入到一个集合中，否则不添加。遍历整个语料库后，得到的该集合中的内容就是所有的特征函数的输入。例如，我得到的模型的该集合前几个内容是：

['w-1: ', 'w:迈', 'w+1:向', 'w-1:w:迈', 'w:w+1:迈向', 'bias', 'w-1:迈', 'w:向', 'w+1:充', 'w-1:向', 'w:充', 'w+1:满', 'w:满', 'w+1:希', 'w-1:满', 'w:希', 'w+1:望', 'w:w+1:希望',...]

其中的每一个元素都可以理解为一种“现象”，满足这种现象，那么该函数在该字出的输出为1，否则为0。比如对于第一个字迈，显然它满足前5个现象，即w-1:，w:迈，w+1:向，w-1:w:迈，w:w+1:迈向。因此这5个特征函数的输出为1，其余的输出均为0。

对语料库中的每一个字都要计算其在所有特征函数下面的值，因此总的计算次数为 $m * N$ ，其中 $m$ 为特征函数的个数， $N$ 为语料库大小。

模型的训练及其他

模型的训练与sklearn十分相似，首先声明一个模型实例，然后喂入数据，训练之后的实例有predict属性可以用来进行预测，详见代码。

这里应用的只是sklearn_crfsuite中一小部分功能，用户还可以查看特征转移的概率以及利用交叉验证等功能，具体可以查看原始文档。

5、备注

训练好的基于CRF的NER模型、数据以及详细地训练流程已经上传到github上了，欢迎下载、查看、运行。

后续会增加BiLSTM模型，总结完善学习BiLSTM及CRF理论的笔记。

百度百科：*命名实体识别*词条 ↩︎
《数学之美》（第二版），第四章：谈谈分词。吴军著 ↩︎
https://arxiv.org/abs/1508.01991 ↩︎
https://arxiv.org/abs/1802.05365 ↩︎

NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
【无标题】Python学习心得 w180316 python
在当今数字化的时代，编程已经成为不可或缺的技能。我选择学习Python语言，是被它的简洁、高效和广泛的应用场景所吸引。经过一段时间的学习，我有了许多深刻的体会和感悟。Python语言给我的第一印象就是简洁易懂。它的语法相对简单，结构清晰，不像一些其他编程语言那样有复杂的规则和晦涩的符号。这使得初学者能够更快地入门，减少了学习门槛和压力。比如，在Python中，变量的定义不需要明确指定数据类型，而是
基于 Python 的图书管理系统（源码）
摘要：本论文详细阐述了利用Python语言开发一个简易图书管理系统的过程。该系统具备图书信息录入、删除、修改、查询以及借阅管理等核心功能，可有效提升图书管理的效率与便捷性。通过阐述系统的需求分析、设计思路、代码实现及测试过程，展示了Python在小型管理系统开发中的应用潜力，为相关领域的软件开发提供了有益参考。关键词：Python编程；图书管理系统；数据结构；代码实现一、引言（一）研究背景随着数字
基于Python的旅游数据可视化应用
摘要本文详细介绍了一个功能完善的基于Python语言开发的旅游行业数据可视化分析应用系统。该系统采用Pandas这一强大的数据处理库进行数据清洗、转换和预处理工作，确保数据质量可靠。在可视化展示方面，系统整合了Matplotlib和Seaborn两大主流可视化库，通过丰富的图表类型直观呈现数据分析结果。特别值得一提的是，所有可视化图表均采用统一的绿色主题配色方案，这种设计不仅美观大方，更能突出体现
【华为OD机试真题 2025B卷】784、跳格子2 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KJ.JK OJ+最新华为OD机试 (C++Java Py C JS)华为od c++java 华为OD机试真题 2025B卷跳格子2
文章目录一、题目题目描述输入输出样例1样例2样例3样例4二、代码与思路参考C++语言思路C++代码Java语言思路Java代码Python语言思路Python代码C语言思路C代码JS语言思路JS代码作者：KJ.JK订阅本专栏后即可解锁在线OJ刷题权限专栏介绍：最新的华为OD机试题目总结，使用C++、Java、Python、C语言、JS五种语言进行解答，每个题目的思路分析都非常详细，支持在线OJ评测
从数据到智慧：AI原生知识库构建的完整技术栈解析 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 大数据 ai
从数据到智慧：AI原生知识库构建的完整技术栈解析关键词AI原生知识库、知识图谱、向量数据库、大语言模型、RAG技术、知识工程、智能问答系统摘要在人工智能飞速发展的今天，构建能够真正理解、组织和应用知识的系统已成为企业数字化转型的核心竞争力。本文将深入剖析AI原生知识库的完整技术栈，从数据采集与预处理，到知识表示与建模，再到存储架构与检索增强生成技术，全方位解读如何将原始数据转化为可行动的智慧。我们
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
知识图谱系列（2）：知识图谱的技术架构与组成要素程序员查理 #知识图谱知识图谱架构人工智能 AI Agent RAG
1.引言知识图谱作为一种强大的知识表示和组织方式，已经在搜索引擎、推荐系统、智能问答等多个领域展现出巨大的价值。在之前的上一篇文章中，我们介绍了知识图谱的基础概念与发展历程，了解了知识图谱的定义、核心特征、发展历史以及在AI发展中的地位与作用。要深入理解和应用知识图谱，我们需要进一步探索其内部的技术架构和组成要素。知识图谱不仅仅是一个简单的数据结构，而是一个复杂的技术体系，涉及知识的表示、存储、查
Complete-Python-Bootcamp项目：Python标准库核心模块详解常樱沙Vigour
Complete-Python-Bootcamp项目：Python标准库核心模块详解Complete-Python-Bootcamp项目地址:https://gitcode.com/gh_mirrors/co/Complete-Python-BootcampPython标准库是Python语言自带的一组功能强大的模块和包集合，它为开发者提供了开箱即用的各种功能。本文将深入解析Complete-Py
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
AI驱动下的企业学习平台，如何重构员工发展与HR角色 weixin_54980836 人工智能学习重构
近期，JoshBersin官方网站分享了一篇关于L&D领域AI深度变革的文章，文章所描绘的并非仅仅是新工具的涌现，而是一场触及L&D本质与HR战略价值的深刻革命。当Docebo坚定走向“AI原生”，当Sana以知识图谱重构组织智慧，它们揭示的正是我们HR从业者必须直面的未来——AI驱动的学习已不再是效率的提升，而是组织能力与人才价值创造方式的根本性进化。一、超越自动化：AI原生平台对学习本质的重构
Python语言数据结构详解与应用
Python语言数据结构详解与应用——从生活场景到代码实战的知识旅程1.引入与连接：从“整理房间”到“管理数据”想象你有一间书房：书架上的书按顺序摆放（想找第3本？直接数到第3层！）→这像列表（List），有序且可调整。墙上的固定相框（一旦挂好，照片不能换）→这像元组（Tuple），不可变但安全。抽屉里的钥匙盒（每把钥匙对应一个抽屉）→这像字典（Dict），用“键”快速定位“值”。桌面的马克杯（没
GNN--知识图谱（逐步贯通基础到项目实践）峙峙峙图神经网络知识图谱人工智能
原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：A–>B，A为B的基础铺垫知识，通过深入学习A对B有更好的理解01.LinearAlgebraforLinearLayerofNN从线性代数行列变换的角度看神经网络中的线性层线性代数矩阵乘法，可以理
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
构建智能企业知识管理平台：动态知识图谱与语义检索系统 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据知识图谱人工智能 ai
构建智能企业知识管理平台：动态知识图谱与语义检索系统关键词：知识管理平台、动态知识图谱、语义检索、知识图谱构建、语义检索算法摘要：本文详细探讨了构建智能企业知识管理平台的核心技术，重点介绍了动态知识图谱和语义检索系统的原理与实现。通过分析知识图谱的构建方法和语义检索算法，结合实际案例，展示了如何利用这些技术提升企业的知识管理水平。文章内容包括背景介绍、核心概念、算法原理、系统架构设计、项目实战以及
从维基百科到知识图谱：用 DSPy、OpenAI 和 TiDB 构建 GraphRAG 的奇妙旅程步子哥 AGI通用人工智能知识图谱 tidb 人工智能
在信息爆炸的时代，如何快速从海量数据中提取有用信息，成为了技术发展的重要方向。传统的RAG（Retrieval-AugmentedGeneration）方法虽然在信息检索领域表现出色，但随着需求复杂度的提升，GraphRAG（基于知识图谱的RAG）逐渐成为更优的解决方案。本文将带您一步步了解如何利用DSPy、OpenAI和TiDBVectorDatabase，从维基百科数据构建一个GraphRAG
GitHub每周最火火火项目（6.30-7.6） FutureUniant Github周推 github microsoft 人工智能 ai 计算机视觉
1.NanniCoder/MediaCrawler项目名称：MediaCrawler项目介绍：该项目采用Python语言开发，专注于多平台媒体内容的爬取工作。从用途来看，它能够精准抓取小红书笔记、抖音视频、快手视频、B站视频、微博帖子、百度贴吧帖子及评论、知乎问答文章等各类媒体平台的内容。在使用场景方面，对于新媒体运营者而言，可借助它批量采集行业内多平台的热门内容、竞品动态，为自身内容创作、运营策
Go与Python爬虫对比及模板实现
go语言和Python语言都可选作用来爬虫项目，因为python经过十几年的累积，各种库是应有尽有，学习也相对比较简单，相比GO起步较晚还是有很大优势的，么有对比就没有伤害，所以我利用一个下午，写个Go爬虫，虽说运行起来没啥问题，但是之间出错的概率太高了，没有完备的模版套用得走很多弯路，这就是为啥go没有python受欢迎的原因。为何Go爬虫远没有Python爬虫流行？1、历史生态差距Python
GraphRAG革命性突破！美国Cedars-Sinai医疗中心揭秘：知识增强大模型如何重塑阿尔茨海默病基因研究与治疗？ DeepSeek-大模型系统教程人工智能大模型 chatgpt 语言模型 ai 大模型学习大模型教程
摘要：随着阿尔茨海默病患者人数不断攀升，Cedars-Sinai医学中心通过知识图谱和AI技术，打造了AlzKB阿尔茨海默病知识库，用以推动新型病因和药物的发现。本文详解这些前沿工具如何结合，赋能专业人士实现高效科研转化，为认知障碍领域带来突破正文据估计，690万65岁及以上的美国人患有阿尔茨海默病。如果没有重大的医学突破，预计到2060年，美国这一数字将上升到1380万，到2050年全球将上升到
PythonOCC【快速入门】
目录简单介绍环境小例子简单介绍pythonOCC也就是opencascade的python封装版本，是由tpaviot制作并发行的。pythonOCC是python语言构架的3DCAD/CAE/PLM开发框架，它提供了如下功能：复杂曲面的操作，信息转换（STEP,IGES,STL格式），用户界面可视化（基于wxpython库或者qt库），jupyternootbook生成等。环境https://a
Python 爬虫实战：DOTA2 比赛数据全量采集（含赛事战报解析与数据库存储西攻城狮北 python 爬虫数据库
一、引言DOTA2作为一款全球知名的多人在线战术竞技游戏，拥有庞大的玩家群体和丰富的比赛数据。这些数据对于电竞分析师、数据研究员、游戏玩家等具有极高的价值。通过爬取DOTA2比赛数据，可以深入了解比赛详情、战队表现、选手数据等信息，为电竞行业提供数据支持。二、开发环境搭建（一）编程语言与工具选择选择Python语言，利用其丰富的库和简洁语法，高效完成爬虫开发任务。搭配PyCharm集成开发环境，享
零基础学python张志强pdf_零基础学Python weixin_39707725
前言第一篇Python语言基础第1章进入Python的世界1.1Python的由来1.2Python的特色1.3第一个Python程序1.4搭建开发环境1.4.1Python的下载和安装1.4.2交互式命令行的使用1.5Python的开发工具1.5.1PyCharm的使用1.5.2EclipseIDE的介绍1.5.3EditPlus编辑器环境的配置1.6不同平台下的Python1.7小结1.8习题
如何成为一名合格的 Prompt 工程师？ csdn_tom_168 AI 人工智能 ai prompt
以下为基于行业实践与最新趋势的Prompt工程师成长体系，结合技术能力、实战经验与职业发展三个维度构建的完整路径：一、核心能力模型构建1.基础认知能力领域知识融合掌握垂直领域知识图谱（如医疗术语、法律条文），通过RAG技术实现专业语料注入案例：设计医疗诊断Prompt时需理解ICD-11疾病分类标准模型原理理解熟悉主流模型特性（如GPT-4长文本处理优势、Claude3的逻辑推理强项），针对性设计
python语言视频格式转换工具程序代码ZXQZQ EYYLTV python 开发语言
importsubprocessimportosimporttkinterastkfromtkinterimportfiledialog,messagebox,ttkimportthreadingimportreclassVideoConverter:def__init__(self,ffmpeg_path):self.ffmpeg_path=ffmpeg_pathdefconvert_video
python截取文件后缀_怎么用Python来读取和处理文件后缀？ weixin_39962770 python截取文件后缀
最近在弄一个项目分析的时候，看到有一个后缀为”.sqlite”的数据文件，由于以前没怎么接触过，就想着怎么用python来打开并进行数据分析与处理，于是稍微研究了一下。SQLite是一款非常流行的关系型数据库，由于它非常轻盈，因此被大量应用程序采用。像csv文件一样，SQLite可以将数据存储于单个数据文件，以便方便的分享给其他人员。许多编程语言都支持SQLite数据的处理，python语言也不例
农业物联网平台中的灌溉系统研究 sj52abcd 农业物联网和人工智能物联网数据分析 python 大数据毕业设计
研究目的本研究旨在开发一个基于Python语言的农业物联网平台，整合土壤墒情监测与精准灌溉系统，通过现代信息技术手段实现农业生产的智能化管理。系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。具体目标包括：1)构建实时土壤墒情监测网络，通过物联网传感器采集土壤温湿度、电导率等关键参数
现代 JavaScript (ES6+) 入门到实战（八）：总结与展望 - 成为一名现代前端开发者
恭喜你坚持到了最后！在过去的七篇文章中，我们一起踏上了一段从“传统”到“现代”的JavaScript进化之旅。我们告别了那些曾经让我们头疼的“怪异行为”，拥抱了一套更强大、更优雅、更符合工程化思想的工具集。现在，是时候回顾我们的旅程，并展望前方的道路了。一、我们的进化之路：知识图谱回顾让我们将学到的核心知识点串联起来，形成一张清晰的“进化图谱”。如果你错过了之前的任何一篇，可以点击链接回顾：第一篇
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d