AI科技大本营

肖仰华：知识图谱构建的三要素、三原则和九大策略 | AI ProCon 2019

演讲嘉宾 | 肖仰华（复旦大学教授、博士生导师，知识工场实验室负责人）

编辑 | Jane

出品 | AI科技大本营（ID：rgznai100）

近两年，知识图谱技术得到了各行各业的关注，无论是企业公司还是开发者个人，都对这项技术有着极大的了解与使用需求。在近日的 AI开发者大会（AI ProCon 2019）的知识图谱技术专题，演讲嘉宾为开发者们分享了该领域技术应用的实践经验与未来发展趋势。

其中，复旦大学教授、博士生导师，知识工场实验室负责人肖仰华教授从知识图谱目前所面临的机遇与挑战出发，分析了大规模知识图谱自动化构建的三个要素、三大原则和五个环节，并重点讲解了知识图谱落地的九大构建策略，这将帮助开发者聚焦知识图谱的主流方向，助力企业构建自己的知识图谱。

以下为肖仰华教授的演讲内容实录，AI科技大本营（ID：rgznai100）整理：

首先非常开心能有机会再次在 CSDN 和大家分享我们在知识图谱的构建和应用方面的工作和一些思考。今天给大家带来的题目是《知识图谱构建与应用 In Practice》。

凡是做知识图谱工作的都有一个体会：最近知识图谱的研究特别火热，大家可以看到大量知识图谱的论文和成果，但真正把这些来自大公司或者名校的论文或技术成果拿到自己的应用场景中时，就会切实感受到各种各样的问题，“技术还是别人家的技术”，尤其在知识图谱领域中更是如此。

但学术界的成果真的没有可取之处吗？其实不然。还是有一些非常实用的方法、经验可以借鉴的。所以，今天我就想跟大家分享在知识图谱的构建和应用这个问题中，真正能够有效解决问题的一些思路、策略和方法，也就是我题目中“In Practice”的核心。

知识图谱是什么？知识图谱为什么重要？今天因为时间有限，这个问题就不细展开了。我认为知识图谱是一个大规模的应用，实际上是知识工程在大数据时代再次复现的产物，这就是我对知识图谱的定位。知识图谱能解决什么问题？很多，比如，知识图谱可以让机器实现语言认知、人工智能、与数据驱动一道成为另外一种解决问题的范式，比如应用在搜索、决策、问答、支持等等，具体内容可以在这本新书中《知识图谱概念与技术》看到。

一、知识图谱作为大数据知识工程的典型代表，以自动化知识获取为其根本特征

今天想传达的第一个观点是，知识图谱实际是一个大数据知识工程的典型产物，是以自动化知识获取为其根本特征。知识图谱既不是NLP也不是语义网，作为这一产物有其独特的价值，即自动化知识获取。为什么这么说？我们可以想一下传统方法是怎么做知识工程的？是依靠专家，专家描述这个事件，把本体定义出来，专家来书写知识，这是一种完全手工的做法。如果说今天做知识图谱的你还在走传统知识工程的老路的话，那你做的就不是我们这个大数据时代的知识图谱，你所做的图谱本质也就不是一个知识图谱，它仍是一个传统的小规模的网络。知识图谱之所以是知识图谱，其根本的特征就是以自动化知识获取为它的根本特征。

知识图谱脱胎于符号主义。符号主义的概念中“智能”的本质就是符号的操作和运算，这是图灵奖以及诺贝尔获得者Newell和Simon的观点，这个观念又被叫做知识+推理。传统的知识工程应用很多都是有限制的，大部分都在规则明确、边界清晰、应用封闭的场景中取得了巨大成功，如石油、医疗、化工等领域。这些领域看起来是垂直封闭的，但实际上绝大部分都不是真正封闭的，在金融领域，与很多因素都有关系，比如跟天气有关，台风一来农作物产量自然下降，相应的公司股票就要下跌，这些都决定了很多领域都不是绝对封闭的。

传统知识工程为什么有这样苛刻的条件呢？因为它是极依赖人的一种做法，称之为典型的自上而下的做法，后来看到很多人也在呼应这种说法。何为自上而下？就是依赖专家，首先依赖专家制作知识表，还需要知识工程师把专家的知识变成计算机处理的知识，还需要人的反馈。这样很重度的人工参与，会导致知识的获取和知识的应用都非常困难。

我个人有一个观点：工业智能化能否成功决定了认知智能是否成功。所以，传统知识工程到了互联网时代就不再适应整个互联网应用的需要，互联网应用的特点，以谷歌搜索这样的互联网应用为例，它的基本特点是大规模开放性，我们永远不知道用户下一个搜索的关键字是什么，目前很多应用推理其实非常简单，互联网搜索大部分使用的还是简单的推理。

而我们认为知识图谱之所以出现，实际上是因为这个时代的需要。互联网时代需要新的知识图谱，另外大数据时代的到来也给大规模自动化的知识获取提供了机遇。基于传统知识图谱，我们现在拥有什么？有新的算力，有前所未有的海量数据，有花样繁多的深度学习模型，所以算法、算力和数据都是现在有而过去所没有的。

这个新的机遇使大规模自动化的自动获取成为可能。一方面，现在发展了大量自下而上的自动化知识获取，自下而上的过程就是从数据中自动挖掘得到知识图谱。比如最早从互联网网页，后来从电商购物记录、搜索日志、网页中获取大数据，我们能不能从这些数据中获取简单知识图谱？其实整个知识图谱就代表着这种趋势，用一些模型算法从数据中自动挖掘一些简单的知识表示。

此外，还有众包平台，各种各样的众包平台帮助我们获得知识；高质量的UGC，在互联网上使用问答、社区、维基等用户数据，使得我们构建高质量知识库成为可能。因此，大数据时代的到来势必需要与这个时代相适应的新的知识表示，这就是知识图谱为什么出现的根本原因。而知识图谱的出现，一方面是因为时代的需要，另一方面也是因为这个时代创造了它必要的存在条件，这个时代给它提供了海量数据、算力和算法。

可以说知识图谱的出现说明了一点，就是大规模自动化知识获取已经成为可能，我们延着知识图谱这个趋势有望突破传统知识库的规模和质量上的瓶颈，正因为传统知识库在规模和质量上的瓶颈有望被突破，所以，我们认为知识图谱的到来很有可能是整个认知智能时代到来的一个序曲。我们很有可能将要迎接的是一个大知识的时代，好比我们曾经从小数据进入到大数据时代，我们很有可能正在经历从过去传统的小规模知识表示向以知识图谱为代表的，各种各样大规模知识图谱为代表的大知识时代的到来。

以上想给大家传达知识图谱很重要，同时知识图谱之所以成为知识图谱，必须是依赖自动化获取，还靠人工构建显然不行的。

现在很多的互联网知识图谱动辄数千万、数百亿的实体，依靠人工如何构建？根本不可能。现在大家都知道知识图谱很好，知识图谱有望解决人工智能很多问题，是人工智能实现的一个非常重要的保障。那么问题来了，我们到底怎样做到知识图谱的自动化获取？其实这是所有人都想做到的。谁不想获得数据得到图谱，基于图谱形成认知能力，赋能各种应用场景，这是梦寐以求的事，但难在怎么实现自动化的知识获取？

实现自动化的知识获取，接下来分享一些我们的经验。

二、大规模知识图谱的自动化、高质量构建：关键要素、基本原则、关键技术

1、知识图谱构建的三个核心要素

首先，知识图谱构建有三个非常核心的要素：规模、质量、成本。

其次，知识图谱的整个构建生命周期涉及五个非常重要的环节。第一个环节是抽取，如果你有结构化的数据就可以做自动抽取，但很多时候没有结构化的数据，比如我们有大量存在的非结构化的文本数据，怎么做结构化数据的抽取？获取之后，第二环节是纠错、第三环节是补全，第四是更新，第五是精化，最后知识的对与错还需要交给人来验证。

当前各种各样的应用场景中，整个图谱构建到底面临的基本形势是什么？我认为要从两方面谈起：挑战和机遇。

现在整个图谱构建面临的挑战是什么？一是需求多样，因为数据来源的多样性，有的要做抽取，有的要处理半结构化数据，有的可能是结构化数据做转换就可以了，所以知识图谱构建的需求是多样的；第二是规模往往要求很大；第三，知识图谱构建之后所支撑的业务很庞大；第四，构建知识图谱的数据本身很稀疏，尤其是高质量数据；第五，知识分布不均匀，有一些知识样本很多，有一些知识很少；第六，质量低下，有很多“脏”数据或错误数据；第七，资源有限，没有哪家公司的资源是无限的，即便像华为这样规模的企业，越大的公司资源越有限，它的任务也就越多。

我们的机会在哪儿？是不是一点机会没有？不是，我们也有机会把知识图谱自动化构建做好，特别是在垂直领域，尤其是传统行业。首先，工业场景中专家知识是很丰富的；第二，很多行业虽然没有标准数据、结构化数据，但文本数据还是很多的，尤其是在医疗、金融、工业等领域的应用场景中；第三，有些场景，特别是头部企业中，用户行为数据很多，像电商、搜索，用户有着非常丰富的搜索行为数据、购物记录数据；第四，现在有很多深度学习模型，这也是一个机会；第五，现在已经存在一些高质量图谱、行业词典，并不是从零开始；第六，各种方法并存，我们现在不缺方法，现在各种技术图书中都是在讲方法，问题在于方法这么多，关键是怎么做选择，怎么做合并，怎么做组合，我们能不能把这些方法组合到一起变成一道“大餐”，是一件非常重要的事。

2、知识图谱的构建方式

正因为面临这些挑战和机遇，我们需要怎样的知识图谱构建方式？

首先是普适，尽量采用普适的方式，如图模型，建模能力强，可解释；二是轻量，大部分都是做一些小模型；第三，还要廉价，如果在自己的业务中评估需要几千万来做数据标注，这也是不现实的；还有，能不能采用无监督，端到端的方式；现在有这么多的数据，不单单是抽取文本数据，如何用行为数据驱动，也是非常重要的。我们有这么多思路，还需要演化出具体的策略，接下来就和大家分享一下我们的具体策略。

3、构建知识图谱的九大策略

第一，端到端 VS Pipeline？

现在设计了很多方法。一种方法是走流水线的方法，但每一步都有可能出错，最后不可收拾，这就是Pipeline的做法，它会带来错误的传播和累计。而我们需要端到端的，这就是深度学习的好处，深度学习不是一点好处没有，好处在于它是端到端的框架。如果在达到同样效果的前提下，显然端到端的方法完胜Pipeline。

第二，无监督 VS 有监督？

我们希望是无监督，无监督才有可能帮我们降低成本。实际上。现在特别迫切需要无监督的方法。无监督能做吗？其实是可以做的。我们最近在很多落地的案例里，知识图谱构建过程中大量的采用了无监督的方法，比如做一个领域的词汇挖掘，绝大多数领域的智能挖掘，就是词汇知识的挖掘。为什么？比如说让在座的所有人，大家都是做IT的，如果我强迫你转业到电力行业，你做的第一件事肯定是从学习这个领域的词汇开始；比如，你以前从没有学过深度学习，现在你开始学深度学习，第一件事肯定是从这个领域的专业词汇知识开始学习，什么是深度学习、卷机、泛化等术语的学习。所以，能不能让机器尽快学会这个领域的词汇，词汇之间的关联，也就是词汇知识挖掘，往往是某一个领域知识图谱构建的第一步，也是整个领域智能化的第一步。

有哪些思路？很多领域有很多文本文档，现在基本上可以做到只要有足量文本，就能从文本中把词汇、缩略词、同义词、上位词、下义词以及一些定义都可以学习出来，但这依赖大量的统计特征。除了这个思路，还充分应用了外部的领域知识来做校正，这是综合的办法，从而避免了数据标注。不用数据标注，基本上一个新领域90%以上词汇挖掘都是可以做到，这就是一个无监督的概念图谱构建。

第三个，数据驱动 VS 文本抽取？

刚才讲到，现在一想到图谱构建，很多人就会想到从文档中抽取数据，但是大家不要忘了，其实很多领域除了文本数据还有很多用户的数据，用户数据对于构建图谱来说很重要，这里我举几个案例。

首先是基于搜索的数据，很多企业有知识管理平台，有用户的搜索日志，其实通过用户的搜索日志就能构建很多图谱，比如在华为的平台中就可以知道高思是华为的数据库，然后就可以把它挖掘出来，因为高思的人都点各种各样的数据库，所以高思就是数据库公司；其次，还发现点AI的人也点了人工智能，点了人工智能也点了AI，所以这两个词是同义词，这都是基于搜索的用户行为数据

还有电商行为，我们也会从电商的搜索日志里挖掘，因为用户买东西可能不单单搜一种，这几种数据间十有八九是有关联的，比如电饭煲、调味罐他们是有关联的，都属于厨房用品，如果你有用户的行为数据是可以做图谱构建的；还可以利用购物车中的数据，这是电商领域中最宝贵的数据，买了A也买了B？其实往往是有原因的，一个人买了维生素C又买了感冒灵，肯定感冒了，这几样东西一起买一定有道理，我就可以把上面的关联挖掘出来；如果对购物篮数据做充分的挖掘，就可以知道这几种物品为什么在一起，就构建出了场景图谱。

这其中还有一个非常重要的趋势，大数据的统计观点、语义观点将是从事大数据领域一个非常重大的机会。我们不缺数据，我们从数据中挖掘统计关联已经做了很多年，但现在一个非常重要的任务就是探究这些统计关联到底意味着什么？这将是摆在在座各位面前非常重要的任务，谁先解决这个问题就能率先洞察用户的动机和需求，也就可以给你的用户提供更好的服务，这是我们在很多头部场景做了很多业务后发现的一个非常重大的机会，但这才刚刚开始，还有很多事情要做。

如何做互联网热点驱动的主动更新？

要解决这个问题，首先你会发现并不是图谱中所有实体都需要更新，只有那些热门的实体才需要更新，才需要给一个比较高频率的更新，所以，我们要利用互联网的热点数据来驱动更新。大家可以试想，比如秦始皇，这个词条一般不需要更新，除非他又从坟墓里爬出来了，但如果哪个明星离婚了，他的相关信息就要更新了，所以我们要充分利用互联网的热点来驱动我只是图谱的更新，只为互联网的热点实体驱动知识图谱更新，可以先从所有新闻平台的TOP10中找实体种子，看提到了哪些事例，优先更新这些实体就可以了，同时又避免了全量更新所付出的代价。

第四，统计模型+符号知识 VS 单一的统计模型？

肯定选前者。如果能把符号知识用上，很多统计模型最后的准确率是可以提升一个档次的。举个例子，我们做 Entity Typing，给特朗普打很多的标签，比如他是竞选人、他是总统，以前还做过商人、节目主持人，我们希望给特朗普尽可能全的打上标签，也是先通过一些文本、深度模型找到他候选的概念，再进一步就利用很多符号知识，如来自概念图谱中实体的概念、概念与概念之间的关系等符号知识，概念之间的关系可以帮我们构造很多DH。我们知道，如果X是一个人，他就不可能是一本书，如果X是一个政治人物，那他一定是个人物，这就是概率与概率之间的互斥和兼容关系，就能构成（下图）右边的公式，这是融合出来的对概念标签的一个约束。

还可以利用概念知识构造注意力。我们利用概念知识，一大助力是可以在“对”和“错”的概念标签中做选择，另一大帮助是在高质量和低质量的概念标签中做选择，细节我不多讲了，我希望告诉大家一点，实际中，你可以在你构建知识图谱构建时，用上你已经建好的大量的知识库。

第五，间接知识引导 VS 直接数据驱动？

选间接知识引导。我们注意到以前的关系获取或者关系分类，一般建模成一个分类模型，把比尔盖茨和迈克尔分到一个关系，以前是把这个关系当一个ID，用他的ID信息。但事实上，我们有那么多的文本数据，是否能利用文本数据先去挖一挖关系，挖掘这个主题的上下文主题词，来增强这个关系的描述，这就是我们的基本思路。

什么是间接知识引导？先从舆论上挖掘知识，把这个关系的主题词挖掘出来，利用这个关系的主题词增强这个关系的描述，再输入到我们深度模型中。以前就是所有的数据输进去，现在是先挖掘一下这些有用的知识，甚至还可以做一些筛选，选择高质量的知识，提升效果，从实验结果上来看，还是很支撑这一想法的。

再进一步的看这个例子，也是跟文本生成有关系。我们经常会打很多概念标签，以前的模型是很暴力的数据驱动，数据进去，结果出来，现在怎么做？我们有没有可能先去挖掘一个Pattern。我们发现，实体的概念标签都具有一些很常见的Pattern，并且是符合一定的语法Pattern，如都是一个<修饰词>加<核心词>，中间加一个<介词>。

在深度学习趋势之前，我们从文本中挖掘语法、语义Pattern的工作做了很多，现在为什么把以前做的东西都扔掉呢？能不能拿来用呢？我们不要把十年前做的成果都抛弃，其实那时候做的工作还是很有用的。

先通过语料把这些Pattern挖掘出来，之后的输入就不单单是原始输入了，还包括这些Pattern也作为输入进入模型中。所以，最终工作包含两步：先挖Pattern，再把Pattern输入到深度模型中，用来增强和提升我们生成的效率。

第六，图模型 VS 其他模型

我们选择图模型，表达能力强，普适、可解释，图模型也是非常常用的方法。比如在知识补全过程中，我们运用了基于图模型的方法，可以在模型上做很多细微的调整，基于图模型的方法在真正落地时达到95%以上的准确率是不难的，但如果用深度模型做到95%以上是很难很难的，而且我也不知道这个“黑盒子”，没机会调控它，我们实际中构建一个数千万知识图谱的时候都是用基于图模型的方法。

在纠错过程中也是选择了图模型。比如存在一个反向错误，纠错的问题就可以建模成图上三边的问题。

图模型还可以应用于领域知识图谱精化中。在电商平台场景中，（如下图所示）显示的所有词都是关于女性的衣服，在话题上都是同一个话题，现在要把它区分开来是非常困难的，细粒度的主题区分，需要很多很精细的模型来区分，虽然它在主题上都是关于女性衣服的修饰，但它在类别上是完全不同的，这种很细粒度的划分也是图模型可以做的。

第七，利用专家构建的知识自动标注样本 VS 手动标注样本

显然是前者。很多自动化构建知识图谱时都已经有一个专家构建的小规模图谱，此时，你可以利用专家构建的小规模图谱做自动样本标注，也是现在利用知识图谱构建样本在做的工作。

第八，复合架构 VS 单一模型的选择

显然也是前者。还有生成+验证也是一个非常好的框架，很多时候，我们面临一个非常大的挑战，当你需要更多数据时，可以在生成阶段把更多内容吸纳进来，然后再紧跟一个非常精细的验证，来表示它的准确率。

第九，有众包 VS 无众包

一定是选择有众包。知识图谱一定要做最后的验证，而验证一定要众包化。

三、自动化知识图谱构建技术与落地是可行的

最后，总结一些主要结果：

第一，大规模自动化知识获取现在基本可行，在通用领域F-score已接近0.9；

第二，知识图谱探索式交互系统现在做的越来越炫，基本上从空间、时间和语义三个维度做交互都没有任何问题，还有落地案例越来越多。

所以我们说基于自动化知识图谱构建的技术，实现知识图谱的一些落地，现在应该说是基本可行的。

（*本文为 AI科技大本营整理文章，转载请微信联系作者 1092722531）

你可能感兴趣的:(AI)

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
ffmpeg录屏 _洛_神音视频音视频
qt+ffmpeg屏幕录制软件完整工程链接：https://download.csdn.net/download/weixin_42538789/85013858测试代码#include#include"screencapture.h"#includeusingnamespacestd;intmain(intargc,char*argv[]){QCoreApplicationa(argc,argv
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
DeepSpeed-Chat：Reward Model【奖励模型】 u013250861 #LLM/训练 RL/强化学习排序强化学习
第二阶段：奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(SFT)。但是，RM和SFT微调之间存在几个关键差异：训练数据差异：对于SFT微调，数据是查询（query）和答案（answer）拼接在一起。然而，对于RM微调，每批数据由两个查询-答案对组成，即具有高分答案和低分答案的相同查询。这也导致了如下所述的第二个差异。训练目标差异：对于RW，训练目标是pairwiserankingsco
springboot自定义封装线程池工具类 k&p Java spring boot java spring
1.首先配置线程池的配置文件，在此处定义线程池的核心线程数等核心参数：/***核心线程数=cpu核心数+1*/privatefinalintcore=Runtime.getRuntime().availableProcessors()+1;@AutowiredprivateThreadPoolPropertiesthreadPoolProperties;@Bean(name="threadPool
WPF 控件保存图片显示不全的问题，和后台代码添加控件不能显示的问题 lijiaweizuishuai WPF WPF 控件截图
这几天研究自动生成货物标签，想着在WPF中做一个自定义标签生成控件，然后点击那个标签控件生成打印，本来是个挺简单的功能，WPF控件保存图片有现成的API方法。没想到是个坑。现在把他填一下有两种解决方案1、https://blog.csdn.net/u012366767/article/details/81461432这是一种还有一种是我发现当一个控件想生成图片的时候是根据当前图片上层最近的一个Pa
83.为什么Object类型可以用来打开窗口 C#例子 WPF例子军训猫猫头 wpf c#ui
在WPF中，打开和关闭窗口时使用object类型是完全可行的，任何窗口类型都可以通过object类型来操作，只要正确地将其转换为Window类型。为什么可以使用object类型？Window是所有窗口的基类：在WPF中，所有窗口类型（如MainWindow、SettingsWindow等）都继承自Window类。因此，任何窗口实例都可以被隐式地转换为object类型，因为object是C#中所有类
高效利用AI处理大型编程任务大囚长大模型人工智能
在大型编程任务中，通过将任务细分为适合AI上下文处理能力的子任务并整合生成目标应用，已成为当前AI辅助开发的主流方法。一、任务分解的核心策略模块化功能拆分通过分层架构设计将系统拆分为独立模块（如用户认证、支付接口、数据存储），每个模块的代码量控制在AI模型的上下文窗口内（如ClaudeMax的200k窗口可处理约2万行代码）。例如开发电商系统时，可分解为「购物车逻辑」「库存管理」「订单流水」等子模
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
AWE大会来袭：家电圈上演“无限战争” 互联网江湖人工智能大数据 microsoft
文：互联网江湖作者：刘致呈3月19日，一年一度的中国家电及消费电子博览会AWE如期而至。每次大会，大小品牌方都会携自己的新品亮相，是家电圈的“春晚”。这次的看点除了AI外，还有一个有意思的点，就是部分品牌开始向大家电进军。比如追觅科技，在高端扫地机器人市场上取得一番成绩之后，表示要开始做冰箱、空调、洗衣机了。无独有偶，主攻厨电赛道的方太，也开始进军冰箱板块；还有石头科技，也有洗烘一体的洗衣机。这些
看完荣耀CEO李健的“阿尔法战略”，我愈发的怀念赵明了互联网江湖人工智能大数据物联网
文：互联网江湖作者：刘致呈赵明辞任一月余，新官上任第一把火来了。灯光打在身上，新任荣耀CEO李建站在台上宣布，荣耀就此将成为一家AI终端生态公司。李健身后的屏幕上，映出一行字：“HONORALPHAPLAN”。这就是荣耀未来的新方向：“阿尔法战略”。所谓“阿尔法战略”，其实核心就一句话，荣耀要转型成为“生态公司”。第一把火就要给重新定位战略，李健这把火烧得很猛，分量很足。向着生态转型并没有错，华为
黑客攻击deepseek服务原理解析大囚长大模型机器学习黑客帝国人工智能
黑客可通过操纵大模型的连续对话上下文回顾机制，构造恶意请求以触发模型进入无限思考循环或超长上下文处理，从而形成对对话服务的DoS攻击（拒绝服务攻击）。这一攻击方式的核心在于利用大模型对上下文处理机制的脆弱性，通过极低的攻击成本实现资源耗尽。一、攻击原理与实现路径无限推理循环攻击通过输入特定构造的提示词（如“树中两条路径之间的距离”），诱导模型陷入无限思考链（Chain-of-Thought,CoT
CentOS7下安装python3.8 讓丄帝愛伱 Linux 编程语言
查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py
【机会约束、鲁棒优化】机会约束和鲁棒优化研究优化【ccDCOPF】研究（Matlab代码实现）科研_G.E.M. matlab 概率论开发语言
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述机会约束、鲁棒优化与ccDCOPF研究综述1.机会约束规划（ChanceConstrainedProgramming,CCP）在电力系统中的应用2.鲁棒优化（RobustOptimization,RO）在电力系统中的应用3.机会约束与鲁棒优化的协同方法
进制转换（R转十）（1290. 二进制转换十进制、1292. 十六进制转十进制、1291. 八进制转十进制、1405. 小丽找潜在的素数）是帅帅的少年东方博宜OJ题库解析算法 c++数据结构
题单地址：题单中心-东方博宜OJ这里以二进制转十进制为例（按位加权求和法）1290.二进制转换十进制问题描述请将一个25位以内的2进制正整数转换为1010进制！输入一个25位以内的二进制正整数。输出该数对应的十进制。样例输入111111111111111111111111输出16777215解析：按位加权(2^n)求和法。#includeusingnamespacestd;intmain(){st
GTC 2025 中文在线解读扫地的小何尚人工智能 NVIDIA GPU 深度学习机器学习
GTC2025中文在线解读｜CUDA最新特性与未来[WP72383]NVIDIAGTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA企业开发者社区邀请KenHe、YipengLi两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库
Flutter Dart 异步支持全面解析顾林海 Flutter系列教程 flutter android 开发语言 dart 前端
引言在Flutter开发中，Dart语言提供了强大的异步支持机制。异步编程能够让程序在执行耗时操作（如网络请求、文件读写等）时，不会阻塞主线程，从而保证用户界面的流畅性和响应性。本文将详细介绍Dart中常见的异步编程方式，包括Future、async/await和Stream，并结合代码示例进行说明。1.同步与异步的概念同步编程在同步编程中，程序按照代码的顺序依次执行，当遇到耗时操作时，程序会阻塞
如何在数据库中存储小数：FLOAT、DECIMAL还是BIGINT？ NightSkyWanderer 数据库 Go 后端 mysql 数据库
前言这里还是用前面的例子:在线机票订票系统的数据表设计。此时已经完成了大部分字段的设计，可能如下:CREATETABLEflights(flight_idINTAUTO_INCREMENTPRIMARYKEY,flight_numberVARCHAR(10),departure_airport_codeVARCHAR(3),arrival_airport_codeVARCHAR(3));考虑到还需
网络安全-信息收集 One_Blanks 网络安全网络安全
声明学习视频来自B站UP主泷羽sec，如涉及侵权马上删除文章。笔记的只是方便各位师傅学习知识，以下网站只涉及学习内容，其他的都与本人无关，切莫逾越法律红线，否则后果自负。目录X一、Whois信息1.思路2.工具3.社工库二、搜索1.Google、bing、baidu三、Github四、搜索引擎FOFA：[https://fofa.info/](https://fofa.info/)360网络空间测
Flutter异步编程详解 2401_84121663 程序员 flutter
//耗时操作的方法:bigComputeFuturebigCompute(intinitalNumber)async{inttotal=initalNumber;for(vari=0;i<1000000000;i++){total+=i;}returntotal;}//点击按钮调用的方法:calculatorvoidcalculator()async{intresult=awaitbigCompu
用 pytorch 从零开始创建大语言模型（零）：汇总墨绿色的摆渡人用 pytorch 从零开始创建大语言模型 pytorch 语言模型人工智能
用pytorch从零开始创建大语言模型（零）：汇总本系列官方代码库：https://github.com/rasbt/LLMs-from-scratch/tree/main官方书籍：BuildaLargeLanguageModel(FromScratch)本系列文章：用pytorch从零开始创建大语言模型（一）：理解大型语言模型用pytorch从零开始创建大语言模型（二）：待更新用pytorch从
企业微信机器人与DeepSeek结合实现交互的应用案例老胖闲聊办公自动化企业微信机器人交互
以下是一个结合企业微信机器人与深度求索（Deepseek）AIGC模型的交互式应用实现示例，包含完整代码及逐行注释：1.实现架构用户消息->企业微信服务器->自建服务端->DeepseekAPI->处理响应->返回企业微信群2.完整实现代码（deepseek_wechat_bot.py）#-*-coding:utf-8-*-importosimportjsonimportrequestsfromf
开源文档管理系统教程戚逸玫Silas
开源文档管理系统教程document-management-systemOpenKMisaOpenSourceDocumentManagementSystem项目地址:https://gitcode.com/gh_mirrors/do/document-management-system1.项目的目录结构及介绍openkm/├──src/│├──main/││├──java/││└──resour
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
Java面试黄金宝典5 ylfhpy Java面试黄金宝典 java 面试开发语言职场和发展算法
1.ConcurrentHashMap和HashTable有哪些区别原理HashTable：它继承自Dictionary类，是Java早期提供的线程安全哈希表。其线程安全的实现方式是对每个方法都使用synchronized关键字进行同步。例如，在调用put、get等方法时，整个HashTable会被锁定，其他线程必须等待当前线程释放锁后才能访问该方法。javaimportjava.util.Has
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点 DKPT #系统架构设计师系统架构学习
以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU、内存、I/O设备）存储系统（Cache、RAID、虚拟内存）指令系统与流水线技术操作系统进程与线程管理（调度算法、死锁）内存管理（分页、分段、虚拟内存）文件系统与磁盘管理数据库系统关系数据库（SQ
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio