SiYuanFeng

自然语言处理第十章信息抽取复习

信息抽取

信息抽取复习重点：
信息抽取概述
- 从任务内容分为：
- 从处理文档类型分为：
- 从发展时间和处理文档分为：
实体识别与抽取
- 限定域命名实体识别
- - 基于规则或字典的方法：规则模版（字典）+匹配
  - 统计学习方法：特征工程+算法（PRanking / margin/ SVM/LR……）
  - 神经网络的方法：
开放域命名实体识别
- 开放式命名实体抽取方法（实例扩展方法）：
- - 开放式命名实体抽取过程：
  - 开放域实体抽取存在的问题：
实体消歧
- 实体消歧任务：
- 实体消歧的难点
- 实体消歧方法
- - 基于聚类的实体消歧
  - 基于实体链接的实体消歧
关系抽取(重点)
- 限定域关系抽取
- - 规则方法：
  - 基于统计的抽取方法
  - 基于神经网络的抽取方法
- 非限定域关系抽取(重点)
- - 利用知识库(远程监督的方法)
  - - 远程监督的优势与问题
  - 非限定域关系抽取(生成式抽取)
  - 无监督开放式中文实体关系抽取
事件抽取
- 事件抽取相关概念：
- 传统事件抽取

信息抽取复习重点：

实体关系抽取，和事件抽取

掌握实体关系抽取的基本过程

限定域的抽取方法

非限定域的抽取过程：
【弱监督的抽取过程，无监督的抽取过程，感知监督的抽取过程，远程监督的方法(优势，局限) 基本技术思路，改进后可以解决哪些问题？】

事件抽取：基本的元概念，基本的过程就可以了。过程包含哪些要素

信息抽取概述

信息抽取：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术

从任务内容分为：

实体识别和抽取（Named Entity Recognition，NER）
实体消歧（entity resolution）
关系抽取（Relation Extraction，RE）
事件抽取（Event Extraction，EE）

从处理文档类型分为：

结构化数据(Structured Data)：一般指带有严格格式信息的数据，如:数据库中的表格，以及XML数据等等。
半结构化数据(Semi.-structured Data)：指带有一定格式信息，但又不
很明确的数据，如网页、论文、邮件等
无结构数据(Un-structured Data): 主要指完全没有结构信息的自由文本
(Free Text)

从发展时间和处理文档分为：

限定域信息抽取：处理的文档给定（无结构信息的自由文本），抽取
的实体，实体关系，事件类型给定。
开放域信息抽取: 针对互联网范围，实体，关系和事件的类型不确定

实体识别与抽取

限定域命名实体识别任务：

限定实体类别：限定识别七类命名实体
（人名、机构名、地名、时间、日期、货币和百分比）
限定目标文本：封闭文本语料（有标注）

开放域实体抽取任务：

不限定实体类别：可以是任何类型的实体。如维基百科条目等
不限定目标文本：大规模开放语料。如 Web页面，真实世界信息（无标注）

限定域命名实体识别

限定实体类别：限定识别七类命名实体
（人名、机构名、地名、时间、日期、货币和百分比）
限定目标文本：封闭文本语料（有标注）

NER可以分成两个子任务：

（1）发现命名实体（实体边界识别）
（2）分类命名实体（确定实体类别）

基于规则或字典的方法：规则模版（字典）+匹配

选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法

如： Email的表现形式通常为 [email protected]
如：日期的表现形式通常为xxxx年-xx月- xx日
主要问题：
-（1）规则依赖于具体语言、领域和文本风格，难以涵盖所有的语言现象，泛化性性弱
-（2）规则构造成本高，构建周期长，迁移性差

统计学习方法：特征工程+算法（PRanking / margin/ SVM/LR……）

转成序列标注问题
NER可以分成两个子任务：
（1）发现命名实体（实体边界识别）
（2）分类命名实体（确定实体类别）
利用命名实体的内部构成和外部语言环境具有的一些特征采用不同的识别模型
主要问题：特征工程

如：
1、实体边界识别：{B(Begin，实体的起始词)、I(Inside，实体的内部词)、O(非实体)}
2、确定实体类别：{PER(人名实体)、LOC(地点实体)、 ORG(组织实体))}

神经网络的方法：

用序列标注方法解决。
优势 : 神经网络可自动提取特征
模型：CNN+RNN，RNN+CRF ，BERT 等
利用BERT，实验中命名实体识别可达到 96%以上的准确

开放域命名实体识别

特点：

不限定实体类别：可以是任何类型的实体。如维基百科条目等
不限定目标文本：大规模开放语料。如 Web页面，真实世界信息（无标注）

任务
给定某一类别的实体实例，从大规模开放语料中抽取同一类别其他实体实例
抽取思想
种子与目标词有相同类型，所以种子词与目标词在网页中具有相同或者类似的上下文或网页结构

开放式命名实体抽取方法（实例扩展方法）：

从种子词出发，通过分析种子实体在语料中的上下文特征得到模板，根据模板得到更多的候选实体，选置信度高的实体作新种子进行迭代，返回置信度高的候选实体做结果输出。

关键：
• 如何选高质量种子
• 如何计算置信度

针对不同数据源的特点设计方法，其针对性、灵活性很强

开放式命名实体抽取过程：

种子处理
负责选取和处理高质量的种子（如，选“上海”为种子）
生成模板
根据种子词从日志等语料中归纳出其语境模板
实体抽取
按照模板从大规模语料中扩展抽取同语境实体（如，根据上述种子，从新的语料中抽出“长沙”、“青岛”、“南宁”等）
计算抽取实体的置信度并按置信度排序
结果过滤
过滤掉置信度低的实体

开放域实体抽取存在的问题：

初始信息少，语义类别难以确定。在没有给定语义类别标签情况下，种子实体可能会同时属于多个语义类，使得目标语义类别的确定非常困难
目前模板主要包括自定义的语义模板及简单统计得到的上下文模板。这类模板与特定的数据格式和上下文密切相关对语义类别的描述能力有限
目前实体抽取数据源有普通网页、查询日志、维基百科等，这些数据源的质量层次不齐，严重影响了实体抽取的性能；对文档的预处理效果也会影响抽取性能，如，分词问题：未知实体往往在分词过程中被分开等。
缺乏公认的评测，造成不同方法之间横向可比性差。

实体消歧

歧义：一个实体指称项可对应到多个真实世界实体（或实体概念）
同指（ coreference）：表示两个或两个以上的词或短语指向相同对象

实体消歧任务：

确定一个实体指称项所指向的真实世界实体（或实体概念）包含实体消歧(Disambiguation)和共指消解(Co-reference Resolution)

实体消歧的难点

实体消歧目标不明确
指称项的歧义性
指称项的多样性

实体消歧方法

对于单语言实体消歧，目前主要有：

实体聚类消歧法
实体链接消歧法

基于聚类的实体消歧

基本思想：同一指称项具有近似的上下文利用聚类算法进行消歧

把所有实体指称项按其指向的目标实体进行聚类，使每一个实体指称项对应到一个单独的类别

基于实体链接的实体消歧

实体链指的目标是将文本中的指称项正确链接到知识库中正确的目标实体（一个实体名通常会指代知识库中的多个实体。）

实体链接消歧法主要步骤

候选实体的发现：给定实体指称项，链接系统根据知识、规则等信息找到实体指称项的所有候选实体
候选实体的链接：系统根据指称项和候选实体之间的相似度等特征，选择相似度㘁大的候选实体

关系抽取(重点)

限定域关系抽取

规则方法：

人工编制各种识别关系的规则，利用规则来识别。成本高，覆盖面底。
基本思想：首先构建规则，通常信息为：词汇、句法、语义等分析时，用模式匹配文本片段

优缺点
优点：准确度比较高（一旦匹配，基本正确）；
缺点：召回率与准确率呈跷跷板，准确率高时，覆盖性难以保证规则的构建需要“专家级”人参与，且工作量巨大

基于统计的抽取方法

基本思想：将关系实例转换成高维空间中的特征向量或直接用离散结构来表示，在标注语料库上训练生成分类模型，然后再识别实体间关系

基于特征向量方法:
将各种有效的词法、句法、语义等特征集成起来产生描述实体语义关系的各种局部特征和简单的全局特征
关键问题：特征选取，即从自由文本及其句法结构中抽取出各种特征。主要有最大熵模型和支持向量机等模型
基于核函数方法:
挖掘反映语义关系的结构化信息及如何有效计算结构化信息之间的相似度
卷积树核方法：用两个句法树之间的公共子树的数目来衡量它们之间相似度

基于神经网络的抽取方法

设计合理的网络结构，从而捕捉更多的特征信息，进而准确的进行关系分类

单一关系抽取（流水线）：给出实体，抽取出两个实体的关系.
联合抽取：同时进行实体识别和关系的抽取

单一关系抽取指先对自然语言文本进行进行实体标记给出实体，然后根据标记好实体的句子进行关系的分类

联合关系抽取指同时进行实体识别和关系的抽取

非限定域关系抽取(重点)

限定域的实体关系抽取任务需要预先定义关系类型体系，然而定义一个全面的实体关系类型体系是很困难的。非限定域实体关系抽取技术不先定义关系类别，关系类别自动获取

特点：

文本：有噪音、有冗余的海量网络数据(Web Page、Wikipedia、Query Log )
不限定关系类别

非限定域关系抽取任务分为：

利用知识库：利用已有知识库中现有实体关系作为辅助信息来进行实体关系抽取
- 特点：实体之间关系不限定，但实体间关系明确，主要根据知识库中的关系定义
- 实现方法： Bootstrapping 和 Distant Supervision（远程监督）
开放域抽取
- 特点：实体间关系不明确，根据任务需关系类别自动获取

利用知识库(远程监督的方法)

现有的有监督的关系数据库太小
解决方法：利用知识库中现有实体关系作为辅助信息来进行实体关系抽取

远程监督的优势与问题

远程监督的提出使得快速、大规模构建关系抽取数据集变为了可能。
远程监督最大的问题在于样本噪声：
- 远程监督强假设引入了许多假正例噪声。(本身不包含关系但被标注了)
- 由于知识库的不完备，造成了很多假负例噪声。(本身包含关系但知识库中没有)

处理噪声的几种思路：

隐式处理噪声：在训练过程中，通过对bag中的样本进行软加权等方式来降低标签噪声样本的影响，这类方法一般需要特殊设计的模型，但效果普遍较好
显式处理噪声：在进行模型训练前，先通过一定的方式来检测噪声样本并进行处理，得到一个处理后的数据集，并用这个数据集训练一个关系抽取模型。这类方法一般比较难，普遍采用强化学习等方式进行。但这类方法的优点在于应用性比较强，可以将处理好的数据集应用于任何一个模型中，从而提升模型的关系抽取效果。
外部信息辅助：可以认为远程监督的标签是一种比较弱的监督信息，在此基础上可以加入一些外部的辅助信息，如将图谱补全任务加入进行联合学习；或者加入一些无监督、弱监督的信息等，来辅助进行关系抽取，消除噪声的影响。

非限定域关系抽取(生成式抽取)

利用bart和t5

无监督开放式中文实体关系抽取

UnCORE的核心思想是从大规模网络文本中获取候选三元组集合，然后对候选集进行挖掘处理，从中提取正确的关系三元组。

输入：大规模网页
输出：是从网页文本中抽取的关系三元组

基本思想：
将采集的大规模网页文本语料进行预处理（预处理模块）；通过分析语料特点制定候选三元组的抽取规则并从语料中抽取候选三元组集合（生成候选三元组模块）；由于抽取的候选集包括大量的噪音条目，所以要对候选集做进一步处理以得到正确的三元组。去噪方法主要通过用采集到的关系指示词作为去噪条件；具体方法：①确定关系指示词的去噪条件（生成关系指示词词表模块）② 用该条件去噪并对一些不全的三元组做补全等后处理（后处理模块），最后得到正确的三元组。

事件抽取

事件的定义：事件是发生在某个特定的时间点或时间段、某个特定的地域范围内，由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变
事件基本元素：时间，地点，人物，原因，结果

主要研究如何从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来（从无结构化数据中抽取结构化事件信息

事件抽取相关概念：

事件描述（Event Mention）：是指对一个客观发生的具体事件进行的自然语言形式的描述，通常是一个句子或者句群
事件触发词（Event Trigger）：是指一个事件描述中㘁能代表事件发生的词，是决定事件类别的重要特征，往往是动词或者名词
事件元素/论元角色（Event Argument）：是指事件中的参与者，是组成事件的核心部分，它与事件触发词构成了事件的整个框架
元素角色（Argument Role）：是指事件元素与事件之间的语义关系，也就是事件元素在相应的事件中扮演什么角色
事件类别（Event Type）：事件元素和触发词决定了事件的类别

传统事件抽取

给定事件类型，给定语料，抽取指定的事件

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

自然语言处理 第十章 信息抽取 复习