Zemun

知识图谱思想

知识图谱

现有
诸如Wikidata、Yago、DBpedia，富含海量世界知识，并以结构化形式存储
2019 年年底，图灵奖获得者 Bengio 曾指出，我们正处于从以感知智能为代表的深度学习“系统一”，向以认知智能为代表的深度学习 “系统二”过渡的时期
在这个过程中，知识图谱技术起到了关键性的作用。近年来，图网络的蓬勃发展也印证了这一趋势
引入人类的知识是人工智能的重要研究方向之一
知识表征和推理受到了人类解决问题方法的启发，旨在为智能系统表征知识，从而获得解决复杂问题的能力
最近，知识图谱作为一种结构化的人类知识，同时受到了学术界和工业界人士的极大关注
每个节点代表现实世界中的某个实体，它们的连边上标记实体间的关系
知识图谱是一种对于事实的结构化表征，它由实体、关系和语义描述组成
实体可以是真实世界中存在的对象，也可以是抽象的概念；关系则表示实体之间的关联；实体及其关系的语义描述包含定义良好的类型和属性
这些结构化的知识已被广泛应用于搜索引擎、问答系统等自然语言处理应用中
术语知识图谱和知识库几乎是同义词，只有很微小的差别
在逻辑学和人工智能领域，知识表征经历了漫长的发展历史。用图进行知识表征的思想最早可以追溯到 Richens 在 1956 年提出的语义网（Semantic Net），而符号逻辑知识则可以追溯到 1959 年的通用问题求解器
起初，知识库被用于基于知识的推理的问题求解系统。MYCIN 是被用于医学诊断的、最著名的基于规则的专家系统之一，它拥有一个包含约 600 条规则的知识库
在这之后，人类知识表征研究社区在基于框架的语言、基于规则的表征以及混合表征方面都取得了一定的研究进展。大约在这一时期的末期，旨在集成人类知识的 Cyc 计划，开始了
资源描述框架（RDF）和网络本体语言（OWL）相继发布，成为了语义网的重要标准。接着，人们也发布了诸如 WordNet、DBpedia、YAGO 和 Freebase 这样的开放的知识库或本体
Stokman 和 Vries 于 1988 年提出了现代意义上的以图的形式组织知识的思想。然而，知识图谱的概念开始盛行还要等到2012 年谷歌首次在其搜索引擎中引入知识图谱，此时它们提出了被称为Knowledge Vault的知识融合框架，从而构建大规模知识图谱
当我们考虑知识图谱的图结构时，可以将其视为一个图
当涉及形式语义问题时，它又可以作为对事实进行解释和推理的知识库
知识可以通过资源描述框架（RDF）被表示为一种事实三元组的形式，如（头实体，关系，尾实体）或（主语，谓语，宾语），例如（爱因斯坦，是…获奖者，诺贝尔奖）
知识也可以被表征为一种有向图，其节点代表实体，边代表关系
研究人员做了大量工作，通过描述通用语义表征或本质特征来为知识图谱给出定义
然而，知识图谱至今仍没有被广为接受的正式定义。Paulheim 定义了 4 种知识图谱的标准
Ehrlinger 和 Wo ̈ß 分析了一些现有的定义，并提出了如下所示的定义 1，它强调了知识图谱的推理引擎
定义 1（Ehrlinger 和 Wo ̈ß）：知识图谱会获取信息并将其集成到一个本体中，使用一个推理器产生新的知识
Wang 等人在定义 2 中提出了一个多关系图的定义
知识图谱是由实体和关系构成的多关系图，实体被视为节点而关系被视为各种不同类型的边
受到之前这些工作的启发，我们将一个知识图谱定义为 G = {E,R,F}，其中 E、R、F分别是实体、关系和事实的集合。事实可以被表示为一个三元组 (h,r,t) ∈ F
知识图谱研究分类
知识表征学习（KRL）
知识表征学习是知识图谱领域的关键研究问题，它为许多知识获取任务和下游应用打下了基础
我们将 KRL 分为 4 个层面：表征空间、打分函数、编码模型和辅助信息
学习实体和关系的低维分布嵌入是表征学习的关键问题
现有的工作主要使用的是向量、矩阵、张量空间等实值点空间（如图 3a 所示），同时也会使用复杂向量空间（如图 3b 所示）、高斯空间（如图 3c 所示）以及流形（如图 3d 所示）等其它类型的空间
打分函数被用来衡量事实的合理性，它在基于能量的学习框架中也被称为能量函数。基于能量的学习旨在学习输入为 x、参数为 θ 的能量函数 E_θ(x)，它将确保正样本比负样本有更高的得分。在本文中，统一将其称为打分函数
典型的用于衡量事实合理性的打分函数分为两类：即基于距离的打分函数（如图 4a 所示）和基于相似度的打分函数（如图 4b）。基于距离的打分函数通过计算实体之间的距离衡量事实的合理性，通过实体间关系实现 h + r ≈ t 这种加法变换的思想被广泛使用。基于语义相似度的打分函数通过语义匹配衡量事实的合理性，它通常采用乘法公式在表征空间中将头实体变换得与尾实体相近
编码模型通过特定的模型架构（如线性/双线性模型、因子分解模型、神经网络）编码实体和关系之间的相互作用
线性模型通过将头实体投影到接近尾实体的表征空间中，将关系表示为一个线性/双线性映射。因子分解旨在将关系型数据分解到低秩矩阵中，从而进行表征学习。神经网络则通过非线性神经激活映射和更加复杂的网络结构对关系型数据进行编码
图 5：神经编码模型示意图。（a）多层感知机，和（b）卷积神经网络将三元组输入到全连接层中，并且进行卷积操作，从而学习到语义表征。（c）图卷积网络作为知识图谱编码器，生成实体和关系的嵌入。（d）RSN 有差别地对“实体-关系序列”和跳跃关系进行编码
为了促进更有效的知识表征，多模态嵌入将诸如文本描述、类型约束、关系路径以及视觉信息等外部信息与知识图谱本身融合在了一起
在知识图谱研究社区中，知识表征学习是非常重要的。总的来说，想要研发一个新的知识表征学习模型需要回答以下 4 个问题：（1）选择怎样的表征空间；（2）如何度量特定空间中的三元组合理性；（3）用怎样的编码模型编码关系的相互作用；（4）是否要利用辅助信息
最常用的表征空间是欧氏点空间，它将实体嵌入到向量空间中，并且通过向量、矩阵或张量对相互作用进行建模。人们也研究了其它的表征空间（包括复杂向量空间、高斯分布、流形空间、群）
相对于欧氏点空间，流形空间的优势在于它能够松弛基于点的嵌入；高斯嵌入可以表达出实体和关系之间的不确定性，以及多重关系语义；复杂向量空间中的嵌入可以有效地建模不同的关系连接模型，特别是对称/反对称模式
在编码实体的语义信息和获取关系属性时，表征空间起着非常重要的作用
当我们研发一个表征学习模型时，应该选择合适的表征空间，该表征空间被精心设计以匹配编码方式的特性，并且能够在表达能力和计算复杂度之间达到平衡
采用基于距离的度量的打分函数会用到相应的转化原则，而基于语义匹配的打分函数则会采用成分级别的操作
编码模型（尤其是神经网络）在对于实体和关系的相互作用建模的过程中起到了关键作用。双线性模型也受到了很多研究人员的关注，一些张量分解技术与此相关。其它方法则引入了文本描述、关系/实体类型，以及实体图像等辅助信息
知识获取
知识获取旨在根据非结构化的文本构建知识图谱、补全一个现有的知识图谱，发现并识别出实体和关系。构建好的大型知识图谱对于很多下游应用是很有用的，可以赋予基于知识的模型常识推理的能力，因此为实现人工智能打下基础
知识获取的主要任务包括关系抽取、知识图谱补全、以及其它面向实体的获取任务，如实体识别和实体对齐。大多数方法单独地形式化定义知识图谱补全和关系抽取。然而，这两种任务也可以被整合到一个统一的框架中
Han 等人基于互注意力机制提出了一种联合学习框架，这种互注意力机制被用于知识图谱和文本之间的数据融合，该框架同时解决了根据文本进行知识图谱补全和关系抽取的问题。此外，还有一些任务也与知识补全有关（例如，三元组分类和关系分类）。在本节中，我们将完整地回顾知识补全、实体发现和关系抽取三步知识获取技术
知识图谱补全（KGC）
由于大多知识图谱具有不完整性，人们研发知识补全技术将新的三元组添加到一个新的知识图谱中。典型的子任务包括链接预测、实体预测和关系预测。下面我们给出面向任务的定义 3
定义 3：给定一个不完整的知识图谱 G=（E，R，F），知识图谱补全旨在推理出缺失的三元组 T={（h，r，t）|（h，r，t）∉ F}
初期的知识图谱补全研究重点关注为三元组预测学习低维嵌入。在本文中，我们将其称为基于嵌入的方法
然而，大多数这些方法都不能获取多级关系。因此，最近的工作转而探索多级关系路径并引入了逻辑关系，我们分别将其称为关系路径推理和基于规则的推理。三元组分类是知识图谱补全的一个辅助任务，它被用来评价事实三元组的正确性
实体发现
实体发现可以从文本中获取面向实体的知识，并且在各个知识图谱之间进行知识融合。根据具体情况，可以将实体发现任务分为几种不同的类别
我们以一种序列到序列（Seq2Seq）的方式探究实体识别任务；而实体分类任务则重点讨论的是有噪声的类型标签和零样本分类；实体消歧和对齐任务会学习统一的嵌入，它们提出迭代式的对齐模型解决对齐种子实体数量有限的问题。但是如果新对齐的实体性能很差，它将会面临误差累积的问题
关系抽取
关系抽取是自动构建大型知识图谱的关键任务，该任务将从朴素文本中抽取出未知的关系事实，并将他们添加到知识图谱中
由于缺乏带有标签的关系型数据，远程监督（Distant Supervision）技术（又称弱监督或自监督）使用启发式匹配，假设在关系型数据库的监督下，包含相同实体的句子可能表达相同的关系，从而创建训练数据
Mintz 等人将远程监督用于关系分类任务，他们用到的文本特征包括词法和句法特征、命名实体标签，以及连接词特征。传统的方法高度依赖于特征工程，而最近的一种方法则探索了特征之间的内在联系。深度神经网络也正在改变知识图谱和文本的表征学习
关系抽取任务在远程监督的假设下会遇到带有噪声的模式，特别是在不同领域之间进行远程监督时。因此，对于弱监督关系抽取来说，减小带噪声标签的影响是非常重要的（例如，通过多示例学习将多个句子组成的包作为输入，使用注意力机制在示例上进行软选择从而减少带噪声的模式，基于强化学习的方法将示例选择表示为硬性决策。另一个原则是，尽可能学习到更加丰富的表征。由于深度神经网络可以解决传统特征抽取方法中的误差传播问题，该领域一直被基于深度神经网络的模型所主导
时序知识图谱
现有的知识图谱研究大多数都关注的是静态知识图谱，其中事实不会随着时间而变化，然而目前对知识图谱的时序动态变化的研究则较少。然而，由于结构化的知识仅仅在特定的时间段内成立，所以时序信息是非常重要的，而事实的演化也会遵循一个时间序列
近期的研究开始将时序信息引入知识表征学习和知识图谱补全任务。为了与之前的静态知识图谱产生对比，我们将其称为时序知识图谱。为了同时学习时序嵌入和关系嵌入，人们进行了大量的研究工作
时序信息嵌入
在与时序有关的嵌入中，我们通过将三元组拓展成时序四元组 (h,r,t,τ) 来考虑时序信息。其中 τ 提供了关于事实何时成立的额外的时序信息。Leblay 和 Chekol 利用带有时间标注的三元组研究了时序范围预测问题，并简单地拓展了现有的嵌入方法。例如，将 TransE 拓展为基于向量的 TTransE 定义如下
实体动态
现实世界中的事件会改变实体的状态，并因此影响相应的关系。为了提升时间范围预测的性能，上下文时序剖面模型将时序范围预测形式化定义为了状态变化检测问题，利用上下文学习状态和状态变化向量
Know-evolve是一种深度演化知识网络，它研究了实体和它们演化后的关系的知识演化现象。人们使用了一种多变量时序点过程对事实的发生进行建模，研发出了一种新型的循环网络学习非线性时序演化的表征
为了获取节点之间的相互作用，RE-NET 通过基于循环神经网络的编码器和邻居聚合器对事件序列进行建模。具体而言，他们使用循环神经网络来获取时序实体相互作用的信息，并且通过邻居聚合器将同时发生的相互作用进行聚合
时序关系依赖
在关系链中，沿着时间线存在时序依赖关系。例如，“在…出生 →从…毕业 → 在…工作 → 在…去世”。Jiang 等人提出了基于时间的嵌入，这是一种带有时序正则化的联合学习框架，从而引入时间顺序和一致性信息
时序逻辑推理
研究人员还研究了时序推理的逻辑规则。Chekol 等人探究了在非确定性时序知识图谱上进行推理的马尔科夫逻辑网络和概率软逻辑。RLvLR-Stream 则考虑闭合时间路径规则，并从知识图谱流中学习规则的结构进行推理
基于知识图谱的应用
对于人工智能应用来说，丰富的结构化知识是很有用的。但是如何将这些符号化的知识融合到现实世界应用的计算框架中仍然是一大挑战。本节将介绍一些近期的基于深度神经网络的知识驱动方法在自然语言理解（NLU）任务上的应用
自然语言理解
基于知识的自然语言理解通过被注入统一语义空间的结构化知识提升了语言表征的性能。最近，该领域由知识驱动的研究进展利用了显式的事实知识和隐式的语言表征，并探索了许多自然语言理解任务
Chen 等人提出了在两个知识图谱（即一个基于槽（slot-based）的语义知识图谱和基于单词的词法知识图谱）上的双图随机游走技术，从而考虑口语理解中的槽间关系。Wang 等人通过加权的单词-概念嵌入实现的基于知识的概念模型增强了短文本表征学习。Peng 等人融合了外部知识库，从而为短社交文本的事件分类任务构建了异构信息图谱
问答系统
基于知识的问答（KG-QA）系统使用来源于知识图谱的事实回答自然语言问题。基于神经网络的方法在分布式语义空间中表征问题和答案，也有一些方法进行了符号知识注入，从而实现常识推理
通过将知识图谱作为外部智能来源，简单的事实型问答系统或单一事实问答系统就可以回答设计单个知识图谱事实的简单问题。Bordes 等人通过将知识库作为外部记忆，将记忆网络用于简单的问答
这些基于神经网络的方法将神经编码器-解码器模型结合起来，获得了性能的提升。但是想要处理复杂的多级关系还需要能够处理多级常识推理的、更加专用的网络设计。结构化的知识提供了富含信息的常识观察，并作为一种关系型归纳偏置存在，它促进了最近关于多级推理的符号和语义空间之间的常识知识融合的研究
推荐系统
研究人员通过协同过滤对推荐系统进行了广泛的研究，该方法使用了用户的历史信息。然而，这种方法往往不能解决稀疏性问题和冷启动问题。将知识图谱作为外部信息引入可以为推荐系统赋予常识推理的能力
通过注入基于知识图谱的辅助信息（例如，实体、关系和属性），研究人员在用于提升推荐性能的嵌入正则化方面做了大量工作。还有一些工作考虑到了关系路径和知识图谱的结构，KPRN 将用户和商品之间的交互看做知识图谱中的实体-关系路径，并且使用 LSTM 获取序列的依赖性，从而在路径上进行用户喜好预测
但与现实世界快速增长的知识量相比，知识图谱覆盖度仍力有未逮
近年来，基于知识图谱的研究主要关注的是，通过将实体和关系映射到低维向量中，获取它们的语义信息，从而实现知识表征学习（KRL）或知识图谱嵌入（KGE）
具体的知识获取任务包括知识图谱补全（KGC）、三元组分类、实体识别，以及关系抽取
基于知识的模型得益于异构信息、丰富的知识表征本体和语义，以及多种语言知识的集成。因此，在常识理解能力和推理能力取得进步的同时，诸如推荐系统和问答系统等许多真实世界中的应用也走向了繁荣
微软的 Satori 和谷歌的知识图谱等现实世界中的产品，已经展现出了提供更多高效服务的强大能力
由于知识规模巨大而人工标注昂贵，这些新知识单靠人力标注添加几无可能完成
为了尽可能及时准确地为知识图谱增添更加丰富的世界知识，研究者们努力探索高效自动获取世界知识的办法，即实体关系抽取技术
具体来说，给定一个句子和其中出现的实体，实体关系抽取模型需要根据句子语义信息推测实体间的关系
例如，给定句子：“清华大学坐落于北京近邻”以及实体“清华大学”与“北京”，模型可以通过语义得到“位于”的关系，并最终抽取出（清华大学，位于，北京）的知识三元组
实体关系抽取是一个经典任务，在过去的20多年里都有持续研究开展，特征工程、核方法、图模型曾被广泛应用其中，取得了一些阶段性的成果。
随着深度学习时代来临，神经网络模型则为实体关系抽取带来了新的突破
面向自然语言文本序列已经有很多神经网络类型，例如循环神经网络（RNN、LSTM)、卷积神经网络（CNN）和Transformer等，这些模型都可以通过适当改造用于关系抽取
最初，工作 [1，2] 首次提出使用CNN对句子语义进行编码，用于关系分类，比非神经网络方法比性能显著提升
[1] ChunYang Liu, WenBo Sun, WenHan Chao, Wanxiang Che. Convolution Neural Network for Relation Extraction. The 9th International Conference on Advanced Data Mining and Applications (ADMA 2013).

[2] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, Jun Zhao. Relation Classification via Convolutional Deep Neural Network. The 25th International Conference on Computational Linguistics (COLING 2014).
工作 [3，4] 将RNN与LSTM用于关系抽取；此外，工作 [5] 提出采用递归的神经网络对句子的语法分析树建模，试图在提取语义特征的同时考虑句子的词法和句法特征，这个想法也被不少后续工作的进一步探索
[3] Dongxu Zhang, Dong Wang. Relation Classification via Recurrent Neural Network. arXiv preprint arXiv:1508.01006 (2015).

[4] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. The 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016).

[5] Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. The 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2012).
这些神经网络模型均取得了优异的实验结果，且相互之间没有显著的性能差异。这是否意味着关系抽取问题就此解决了呢？实际上并非如此。SemEval-2010 Task-8的任务设定为，对预先定义好的关系类别标注大量的训练和测试样例，样例都是相对简单的短句，而且每种关系的样例分布也比较均匀。然而，实际应用中往往面临很多挑战：
数据规模问题
人工精准地标注句子级别的数据代价十分高昂，需要耗费大量的时间和人力
在实际场景中，面向数以千计的关系、数以千万计的实体对、以及数以亿计的句子，依靠人工标注训练数据几乎是不可能完成的任务
学习能力问题
在实际情况下，实体间关系和实体对的出现频率往往服从长尾分布，存在大量的样例较少的关系或实体对
神经网络模型的效果需要依赖大规模标注数据来保证，存在”举十反一“的问题
如何提高深度模型的学习能力，实现”举一反三“，是关系抽取需要解决的问题
复杂语境问题
现有模型主要从单个句子中抽取实体间关系，要求句子必须同时包含两个实体
实际上，大量的实体间关系往往表现在一篇文档的多个句子中，甚至在多个文档中
如何在更复杂的语境下进行关系抽取，也是关系抽取面临的问题
开放关系问题
现有任务设定一般假设有预先定义好的封闭关系集合，将任务转换为关系分类问题
这样的话，文本中蕴含的实体间的新型关系无法被有效获取
如何利用深度学习模型自动发现实体间的新型关系，实现开放关系抽取，仍然是一个”开放“问题
所以说，SemEval-2010 Task-8这样的理想设定与实际场景存在巨大鸿沟，仅依靠神经网络提取单句语义特征，难以应对关系抽取的各种复杂需求和挑战。我们亟需探索更新颖的关系抽取框架，获取更大规模的训练数据，具备更高效的学习能力，善于理解复杂的文档级语境信息，并能方便地扩展至开放关系抽取

参考资料
https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247498221&idx=1&sn=fff0dd48d9a2bdccdde186ea47be39d2&chksm=e9e1f066de9679708f65338fd1355c8a303c46193b22d065c1ae208543ca867ddc3bda605a06&mpshare=1&scene=23&srcid=06286ETmdTrhb82d63RKPitG&sharer_sharetime=1624864764530&sharer_shareid=ef75ef93b41a494e33a752c1e94197a3#rd
知识图谱从哪里来：实体关系抽取的现状与未来
总结
为了更及时地扩展知识图谱，自动从海量数据中获取新的世界知识已成为必由之路。以实体关系抽取为代表的知识获取技术已经取得了一些成果，特别是近年来深度学习模型极大地推动了关系抽取的发展。但是，与实际场景的关系抽取复杂挑战的需求相比，现有技术仍有较大的局限性。我们亟需从实际场景需求出发，解决训练数据获取、少次学习能力、复杂文本语境、开放关系建模等挑战问题，建立有效而鲁棒的关系抽取系统，这也是实体关系抽取任务需要继续努力的方向
我们课题组从2016年开始耕耘实体关系抽取任务，先后有林衍凯、韩旭、姚远、曾文远、张正彦、朱昊、于鹏飞、于志竟成、高天宇、王晓智、吴睿东等同学在多方面开展了研究工作。去年在韩旭和高天宇等同学的努力下，发布了OpenNRE工具包 [33]，经过近两年来的不断改进，涵盖有监督关系抽取、远程监督关系抽取、少次学习关系抽取和文档级关系抽取等丰富场景。此外，也花费大量科研经费标注了FewRel （1.0和2.0）和DocRED等数据集，旨在推动相关方向的研究
[33] Xu Han, Tianyu Gao, Yuan Yao, Deming Ye, Zhiyuan Liu, Maosong Sun. OpenNRE: An Open and Extensible Toolkit for Neural Relation Extraction. The Conference on Empirical Methods in Natural Language Processing (EMNLP 2019).
本文总结了我们对实体关系抽取现状、挑战和未来发展方向的认识，以及我们在这些方面做出的努力，希望能够引起大家的兴趣，对大家有些帮助。期待更多学者和同学加入到这个领域研究中来。当然，本文没有提及一个重要挑战，即以事件抽取为代表的复杂结构的知识获取，未来有机会我们再专文探讨
https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247499899&idx=1&sn=8da9fa9d4b3e8f455487488f9561bbf8&chksm=e9e1c9f0de9640e694a12d329cc8b5a826d929273f3b02c03d61878e8a48421482790e0e3c47&mpshare=1&scene=23&srcid=0628x7Bunpnfia6whib5tbzy&sharer_sharetime=1624864731837&sharer_shareid=ef75ef93b41a494e33a752c1e94197a3#rd
知识图谱前沿跟进
探索方向
更大规模的训练数据
神经网络关系抽取需要大量的训练数据，但是人工标注这些训练数据非常费时昂贵。为了自动获取更多的训练数据训练模型，工作 [16] 提出了远程监督（Distant Supervision）的思想，将纯文本与现有知识图谱进行对齐，能够自动标注大规模训练数据
[16] Mike Mintz, Steven Bills, Rion Snow, Daniel Jurafsky. Distant Supervision for Relation Extraction without Labeled Data. The 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2009).
远程监督的思想并不复杂，具体来说：如果两个实体在知识图谱中被标记为某个关系，那么我们就认为同时包含这两个实体的所有句子也在表达这种关系。
再以（清华大学，位于，北京）为例，我们会把同时包含“清华大学”和“北京”两个实体的所有句子，都视为“位于”这个关系的训练样例。
远程监督的这种启发式标注规则是把双刃剑，它是自动标注训练数据的有效策略，但其过强的设定不可避免地产生错误标注
例如对于知识图谱中（清华大学，校长，邱勇）这个三元组事实，句子“邱勇担任清华大学校长”可以反映“清华大学”与“邱勇”之间“校长”的关系；但是句子“邱勇考入清华大学化学与化学工程系”以及“邱勇担任清华大学党委常委”并不表达“校长”关系，但却会被远程监督的启发式规则错误地标注为“校长”关系的训练实例
虽然远程监督思想非常简单也存在很多问题，不过它为更多收集训练数据开启了新的纪元。受到这个思路的启发，很多学者积极考虑如何尽可能排除远程监督数据中的噪音标注的干扰
从2015年开始，基于远程监督与降噪机制的神经关系抽取模型得到了长足的发展，工作 [17] 引入了多实例学习方法，利用包含同一实体对的所有实例来共同预测实体间关系
[17] Daojian Zeng, Kang Liu, Yubo Chen, Jun Zhao. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).
林衍凯等人工作 [19] 提出句子级别注意力机制，对不同的实例赋予不同的权重，用以降低噪音实例造成的影响
[19] Yi Wu, David Bamman, Stuart Russell. Adversarial Training for Relation Extraction. The 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017).
工作 [20] 引入对抗训练来提升模型对噪音数据的抵抗能力。工作 [21] 则构建了一套强化学习机制来筛除噪音数据，并利用剩余的数据来训练模型
[20] Jun Feng, Minlie Huang, Li Zhao, Yang Yang, Xiaoyan Zhu. Reinforcement Learning for Relation Classification from Noisy Data. The 32th AAAI Conference on Artificial Intelligence (AAAI 2018).
[21] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, Maosong Sun. FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation. The 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP 2018).
总结来说，已有对远程监督的降噪方法可以兼顾了关系抽取的鲁棒性与有效性，也具有较强的可操作性和实用性。不过，使用已有知识图谱对齐文本来获取数据训练关系抽取模型，再利用该模型来抽取知识加入知识图谱，本身就有一种鸡生蛋与蛋生鸡的味道。不完善的知识图谱对齐所得到的文本训练数据也将是不完善的，对那些长尾知识而言，仍难以通过这种远程监督机制来得到训练实例。如何提出更有效的机制来高效获取高质量、高覆盖、高平衡的训练数据，仍然是一个值得深入思考的问题
更高效的学习能力
即使通过远程监督等办法能够自动获取高质量的训练数据，由于真实场景中关系和实体对的长尾分布特点，绝大部分的关系和实体对的可用样例仍然较少
而且，对于医疗、金融等专业领域的专门关系，受限于数据规模的问题可用样例也很有限
而神经网络模型作为典型的data-hungry技术，在训练样例过少时性能会受到极大影响。因此，研究者们希望探索有效提升模型学习能力的方法，以更好地利用有限训练样例取得满意的抽取性能
实际上，人类可以通过少量样本快速学习知识，具有“举一反三”的能力。为了探索深度学习和机器学习“举一反三”的能力，提出了少次学习（Few-shot learning）任务。通过设计少次学习机制，模型能够利用从过往数据中学到的泛化知识，结合新类型数据的少量训练样本，实现快速迁移学习，具有一定的举一反三能力
过去少次学习研究主要集中于计算机视觉领域，自然语言处理领域还少有探索
韩旭同学等的工作 [21] 首次将少次学习引入到关系抽取，构建了少次关系抽取数据集FewRel，希望推动驱动自然语言处理特别是关系抽取任务的少次学习研究
关系抽取少次学习问题仅为每种关系提供极少量样例（如3-5个），要求尽可能提高测试样例上的关系分类效果
[21] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, Maosong Sun. FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation. The 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP 2018).
FewRel论文工作初步尝试了几个代表性少次学习方法包括度量学习（Metric learning）、元学习（Meta learning）、参数预测（Parameter prediction）等，评测表明即使是效果最佳的原型网络（Prototypical Networks）模型，在少次关系抽取上的性能仍与人类表现相去甚远
为了更好解决远程监督关系抽取的少次学习问题，高天宇同学等的工作 [22] 提出了基于混合注意力机制的原型网络，同时考虑实例级别和特征级别的注意力机制，在减少噪音标注影响的同时，能更好地关注到句中的有用特征，实现高效少次学习
[22] Tianyu Gao, Xu Han, Zhiyuan Liu, Maosong Sun. Hybrid Attention-based Prototypical Networks for Noisy Few-Shot Relation Classification. The 33th AAAI Conference on Artificial Intelligence (AAAI 2019).
工作 [23] 则提出多级匹配和整合结构，充分学习训练样例之间的潜在关联，尽可能挖掘为数不多的样例中的潜在信息
[23] Zhi-Xiu Ye, Zhen-Hua Ling. Multi-Level Matching and Aggregation Network for Few-Shot Relation Classification. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).
工作 [24] 则采用了预训练语言模型BERT来处理关系抽取中的少次学习问题，基于海量无监督数据训练的BERT，能够为少次学习模型提供有效的语义特征，在FewRel数据上取得了超过人类关系分类的水平
[24] Livio Baldini Soares, Nicholas FitzGerald, Jeffrey Ling, Tom Kwiatkowski. Matching the Blanks: Distributional Similarity for Relation Learning. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).
在对少次学习关系抽取探究的过程中，课题组的高天宇同学等进一步发现两个长期被忽视的方面 [25]：要将少次学习模型用于生产环境中，应具备从资源丰富领域迁移到资源匮乏领域（low-resource domains）的能力，同时还应具备检测句子是否真的在表达某种预定义关系或者没有表达任何关系的能力。为此他们提出了FewRel 2.0，在原版数据集FewRel的基础上增加了以下两大挑战：领域迁移（domain adaptation）和“以上都不是”检测（none-of-the-above detection）
[25] Tianyu Gao, Xu Han, Hao Zhu, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou. FewRel 2.0: Towards More Challenging Few-Shot Relation Classification. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).
对于领域迁移挑战，FewlRel 2.0 采集了大量医疗领域的数据并进行标注，要求关系抽取模型在原语料进行训练后，还可以在这些新领域语料上进行少次学习。对于“以上都不是”检测，FewRel 2.0 在原N-way K-shot设定（给定N个新类型，每个类型给定K个训练样本）上，添加了一个“以上都不是”选项，大大增加了分类和检测难度
初步实验发现，以往有效的模型（包括基于BERT的模型）在这两大挑战任务均有显著性能下降。尽管高天宇同学等在FewRel 2.0论文中也尝试了一些可能的解决思路：例如对于领域迁移尝试了经典的对抗学习方法，模型性能得到了一定的提升；对于“以上都不是”检测，提出了基于BERT next sentence prediction task的BERT-PAIR模型，可以在”以上都不是”挑战取得一点效果。但这两大挑战依然需要更多创新探索
总结来说，探索少次学习关系抽取，让关系抽取模型具备更强大高效的学习能力，还是一个非常新兴的研究方向，特别是面向关系抽取的少次学习问题，与其他领域的少次学习问题相比，具有自身独有的特点与挑战。不论是基于已有少次学习技术作出适于NLP和关系抽取的改进，还是提出全新的适用于关系抽取的少次学习模型，都将最大化地利用少量标注数据，推动关系抽取技术的落地实用
更复杂的文本语境
现有关系抽取工作主要聚焦于句子级关系抽取，即根据句内信息进行关系抽取，各类神经网络模型也擅长编码句子级语义信息，在很多公开评测数据能够取得最佳效果
而在实际场景中，大量的实体间关系是通过多个句子表达的。文本中提到多个实体，并表现出复杂的相互关联
根据从维基百科采样的人工标注数据的统计表明，至少40％的实体关系事实只能从多个句子中联合获取
用于知识表征和推理的数值化计算需要连续的向量空间，从而获取实体和关系的语义信息。然而，基于嵌入的方法在复杂逻辑推理任务中有一定的局限性，但关系路径和符号逻辑这两个研究方向值得进一步探索。在知识图谱上的循环关系路径编码、基于图神经网络的信息传递等具有研究前景的方法，以及基于强化学习的路径发现和推理对于解决复杂推理问题是很有研究前景的
在结合逻辑规则和嵌入的方面，近期的工作将马尔科夫逻辑网络和 KGE 结合了起来，旨在利用逻辑规则并处理其不确定性。利用高效的嵌入实现能够获取不确定性和领域知识的概率推理，是未来一个值得注意的研究方向
为了实现多个实体间的跨句关系抽取，需要对文档中的多个句子进行阅读推理，这显然超出了句子级关系抽取方法的能力范围。因此，进行文档级关系抽取势在必行
文档级关系抽取研究需要大规模人工标注数据集来进行训练和评测。目前文档级关系抽取数据集还很少
工作 [26，27] 构建了两个远程监督的数据集，由于没有进行人工标注因此评测结果不太可靠
[26] Chris Quirk, Hoifung Poon. Distant Supervision for Relation Extraction beyond the Sentence Boundary. The 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2017).

[27] Nanyun Peng, Hoifung Poon, Chris Quirk, Kristina Toutanova, Wen-tau Yih. Cross-Sentence N-ary Relation Extraction with Graph LSTMs. Transactions of the Association for Computational Linguistics (TACL 2017).
BC5CDR [28] 是人工标注的文档级关系抽取数据集，由1,500篇PubMed文档构成是生物医学特定领域，且仅考虑“化学诱导的疾病”关系，不一定适合用来探索文档级关系抽取的通用方法
[28] Chih-Hsuan Wei, Yifan Peng, Robert Leaman, Allan Peter Davis, Carolyn J. Mattingly, Jiao Li, Thomas C. Wiegers, Zhiyong Lu. Overview of the BioCreative V Chemical Disease Relation (CDR) Task. The 5th BioCreative Challenge Evaluation Workshop (BioC 2015).
工作 [29] 提出使用阅读理解技术回答问题的方式从文档中提取实体关系事实，这些问题从”实体-关系“对转换而来
[29] Omer Levy, Minjoon Seo, Eunsol Choi, Luke Zettlemoyer. Zero-Shot Relation Extraction via Reading Comprehension. The 21st Conference on Computational Natural Language Learning (CoNLL 2017).
由于该工作数据集是针对这种方法量身定制的，也不那么适用于探索文档级关系抽取的通用方法。
这些数据集或者仅具有少量人工标注的关系和实体，或者存在来自远程监督的噪音标注，或者服务于特定领域或方法，有这样或那样的限制
为了推动文档级关系抽取的研究，姚远同学等 [30] 提出了DocRED数据集，是一个大规模的人工标注的文档级关系抽取数据集，基于维基百科正文和WikiData知识图谱构建而成，包含5,053篇维基百科文档，132,375 个实体和53,554 个实体关系事实，是现有最大的人工标注的文档级关系抽取数据集
[30] Yuan Yao, Deming Ye, Peng Li, Xu Han, Yankai Lin, Zhenghao Liu, Zhiyuan Liu, Lixin Huang, Jie Zhou, Maosong Sun. DocRED: A Large-Scale Document-Level Relation Extraction Dataset. The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019).
文档级关系抽取任务要求模型具有强大的模式识别、逻辑推理、指代推理和常识推理能力，这些方面都亟待更多长期的研究探索
更开放的关系类型
现有关系抽取工作一般假设有预先定义好的封闭关系集合，将任务转换为关系分类问题。然而在开放域的真实关系抽取场景中，文本中包含大量开放的实体关系，关系种类繁多，而且关系数量也会不断增长，远超过人为定义的关系种类数量
在这种情况下，传统关系分类模型无法有效获取文本中蕴含的实体间的新型关系。如何利用深度学习模型自动发现实体间的新型关系，实现开放关系抽取，仍然是一个”开放“问题
为了实现面向开放领域的开放关系抽取，研究提出开放关系抽取（Open Relation Extraction，OpenRE）任务，致力于从开放文本抽取实体间的任意关系事实
开放关系抽取涉及三方面的“开放”：首先是抽取关系种类的开放，与传统关系抽取不同，它希望抽取所有已知和未知的关系
其次是测试语料的开放，例如新闻、医疗等不同领域，其文本各有不同特点，需要探索跨域鲁棒的算法
第三是训练语料的开放，为了获得尽可能好的开放关系抽取模型，有必要充分利用现有各类标注数据，包括精标注、远程监督标注数据等，而且不同训练数据集的关系定义和分布也有所不同，需要同时利用好多源数据
在前深度学习时代，研究者也有探索开放信息抽取（Open Information Extraction，OpenIE）任务。开放关系抽取可以看做OpenIE的特例。当时OpenIE主要通过无监督的统计学习方法实现，如Snowball算法等。虽然这些算法对于不同数据有较好的鲁棒性，但精度往往较低，距离实用落地仍然相距甚远
最近，吴睿东同学等的工作 [31] 提出了一种有监督的开放关系抽取框架，可以通过”关系孪生网络“（Relation Siamese Network，RSN）实现有监督和弱监督模式的自由切换，从而能够同时利用预定义关系的有监督数据和开放文本中新关系的无监督数据，来共同学习不同关系事实的语义相似度
具体来说，关系孪生网络RSN采用孪生网络结构，从预定义关系的标注数据中学习关系样本的深度语义特征和相互间的语义相似度，可用于计算包含开放关系文本的语义相似度
而且，RSN还使用了条件熵最小化和虚拟对抗训练两种半监督学习方法进一步利用无标注的开放关系文本数据，进一步提高开放关系抽取的稳定性和泛化能力
基于RSN计算的开放关系相似度计算结果，模型可以在开放域对文本关系进行聚类，从而归纳出新型关系
[31] Ruidong Wu, Yuan Yao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Open Relation Extraction: Relational Knowledge Transfer from Supervised Data to Unsupervised Data. 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP 2019).
高天宇同学等人工作 [32] 则从另一个角度出发，对于开放域的特定新型关系，只需要提供少量精确的实例作为种子，就可以利用预训练的关系孪生网络进行滚雪球（Neural SnowBall），从大量无标注文本中归纳出该新型关系的更多实例，不断迭代训练出适用于新型关系的关系抽取模型
[32] Tianyu Gao, Xu Han, Ruobing Xie, Zhiyuan Liu, Fen Lin, Leyu Lin, Maosong Sun. Neural Snowball for Few-Shot Relation Learning. The 34th AAAI Conference on Artificial Intelligence (AAAI 2020).
总结来说，开放域关系抽取在前深度学习时代取得了一些成效，但如何在深度学习时代与神经网络模型优势相结合，有力拓展神经网络关系抽取模型的泛化能力，值得更多深入探索
统一的框架
已有多个知识图谱表征学习模型被证明是等价的。例如，Hayshi 和 Shimbo 证明了 HoIE 和 ComplEx 对于带有特定约束的链接预测任务在数学上是等价的。ANALOGY 为几种具有代表性的模型（包括 DistMult、ComplEx，以及 HoIE）给出了一个统一的视角。Wang 等人探索了一些双线性模型之间的联系。Chandrahas 等人探究了对于加法和乘法知识表征学习模型的几何理解
大多数工作分别使用不同的模型形式化定义了知识获取的知识图谱补全任务和关系抽取任务。Han 等人将知识图谱和文本放在一起考虑，并且提出了一种联合学习框架，该框架使用了在知识图谱和文本之间共享信息的互注意力机制。不过这些工作对于知识表征和推理的统一理解的研究则较少
然而，像图网络的统一框架那样对该问题进行统一的研究，是十分有意义的，将填补该领域研究的空白
可解释性
知识表征和注入的可解释性对于知识获取和真实世界中的应用来说是一个关键问题。在可解释性方面，研究人员已经做了一些初步的工作。ITransF 将稀疏向量用于知识迁移，并通过注意力的可视化技术实现可解释性。CrossE 通过使用基于嵌入的路径搜索来生成对于链接预测的解释，从而探索了对知识图谱的解释方法
然而，尽管最近的一些神经网络已经取得了令人印象深刻的性能，但是它们在透明度和可解释性方面仍存在局限性。一些方法尝试将黑盒的神经网络模型和符号推理结合了起来，通过引入逻辑规则增加可解释性
毕竟只有实现可解释性才可以说服人们相信预测结果，因此研究人员需要在可解释性和提升预测知识的可信度的方面做出更多的工作
可扩展性
可扩展性是大型知识图谱的关键问题。我们需要在计算效率和模型的表达能力之间作出权衡，而只有很少的工作被应用到了多于 100 万个实体的场景下。一些嵌入方法使用了简化技术降低了计算开销（例如，通过循环相关运算简化张量的乘积）。然而，这些方法仍然难以扩展到数以百万计的实体和关系上
类似于使用马尔科夫逻辑网络这样的概率逻辑推理是计算密集型的任务，这使得该任务难以被扩展到大规模知识图谱上。最近提出的神经网络模型中的规则是由简单的暴力搜索（BF）生成的，这使得它在大规模知识图谱上不可行。例如 ExpressGNN 试图使用 NeuralLP 进行高效的规则演绎，但是要处理复杂的深度架构和不断增长的知识图谱还有很多研究工作有待探索
知识聚合
全局知识的聚合是基于知识的应用的核心。例如，推荐系统使用知识图谱来建模用户-商品的交互，而文本分类则一同将文本和知识图谱编码到语义空间中。不过，大多数现有的知识聚合方法都是基于注意力机制和图神经网络（GNN）设计的
得益于 Transformers 及其变体（例如 BERT 模型），自然语言处理研究社区由于大规模预训练取得了很大的进步。而最近的研究发现，使用非结构化文本构建的预训练语言模型确实可以获取到事实知识。大规模预训练是一种直接的知识注入方式。然而，以一种高效且可解释的方式重新思考只是聚合的方式也是很有意义的
自动构建和动态变化
现有的知识图谱高度依赖于手动的构建方式，这是一种开销高昂的劳动密集型任务。知识图谱在不同的认知智能领域的广泛应用，对从大规模非结构化的内容中自动构建知识图谱提出了要求
近期的研究主要关注的是，在现有的知识图谱的监督信号下，半自动地构建知识图谱。面对多模态、异构的大规模应用，自动化的知识图谱构建仍然面临着很大的挑战
目前，主流的研究重点关注静态的知识图谱。鲜有工作探究时序范围的有效性，并学习时序信息以及实体的动态变化。然而，许多事实仅仅在特定的时间段内成立
考虑到时序特性的动态知识图谱，将可以解决传统知识表征和推理的局限性

参考文献

[9] Shu Zhang, Dequan Zheng, Xinchen Hu, Ming Yang. Bidirectional Long Short-Term Memory Networks for Relation Classification. The 29th Pacific Asia Conference on Language, Information and Computation (PACLIC 2015).

[10] Minguang Xiao, Cong Liu. Semantic Relation Classification via Hierarchical Recurrent Neural Network with Attention. The 26th International Conference on Computational Linguistics (COLING 2016).

[11] Kun Xu, Yansong Feng, Songfang Huang, Dongyan Zhao. Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).

[12] Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng, Zhi Jin. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths. The 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP 2015).

[13] Yang Liu, Furu Wei, Sujian Li, Heng Ji, Ming Zhou, Houfeng Wang. A Dependency-Based Neural Network for Relation Classification. The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2015).

[14] Yan Xu, Ran Jia, Lili Mou, Ge Li, Yunchuan Chen, Yangyang Lu, Zhi Jin. Improved Relation Classification by Deep Recurrent Neural Networks with Data Augmentation. The 26th International Conference on Computational Linguistics (COLING 2016).

你可能感兴趣的:(知识图谱,人工智能,自然语言处理)

不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
不神话大模型，不做技术乌托邦，用"传统IT+AI积木"实现企业智能转型人工智能
一、开篇：AI革命的务实辩证法在技术狂热与落地鸿沟并存的AI时代，灵燕智能体开发平台提出"三轮驱动法则"：•不颠覆的智慧：MySQL、知识图谱库、MQ等传统中间件构成数字地基•不空想的创新：大模型仅承担"认知苦力"，在人类设计的思考链中定向发力•不取巧的工程：通过D2R映射、低代码工具、元数据治理实现可落地的智能装配二、核心价值：智能开发的工业流水线技术要素原子化拆解将复杂需求分解为可执行的"技术
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi