AI科技大本营

结合Flink，国内自研，大规模实时动态认知图谱平台——AbutionGraph |博文精选

作者 | Raini

出品 | 北京图特摩斯科技（www.thutmose.cn）

(*点击阅读原文，查看作者更多精彩文章）

Flink：目前最受关注的大数据技术，最活跃 Apache 项目之一。

AbutionGraph：北京图特摩斯科技自研的国内首个准实时多维图形数据库，首个将实时/离线/指标聚合/图挖掘/AI框架等热门技术线深度整合在一起的认知图谱平台，本文仅对实时性的相关优势做分析。

AbutionGraph 具有以下主要特征：

为分析而设计——AbutionGraph 是为准实时的OLAP工作流的探索性分析而构建，它支持各种过滤、聚合和查询等类；
快速的交互式查询——AbutionGraph 的低延迟数据摄取架构允许事件在它们创建后毫秒内可被查询到；
高可用性——AbutionGraph 的数据在系统更新时依然可用，规模的扩大和缩小都不会造成数据丢失；
可扩展——AbutionGraph 已实现每天能够处理数十亿事件和TB级数据。

AbutionGraph 典型应用场景包括深度关系探索、关联分析、路径搜索、特征抽取、数据聚类、社区检测、知识图谱、用户画像等，适用业务领域有如网络安全、电信诈骗、金融风控、广告推荐、社交网络和智能机器人等。

引言

大数据时代的到来，为收集数据带来了新的契机。传统基于Hadoop生态的离线数据存储计算方案已在业界形成统一的默契，当能够收集到的数据越来越多时，受制于离线计算的时效性制约，越来越多的数据应用场景已从离线转为实时。

随着物联网时代的逼近，“万物互联”的概念以及人工智能技术的发展一定程度的促进了知识图谱技术的发展，从2017年到2020年，知识图谱技术的使用率增长了400%，但目前市场上多以Neo4j和JanusGraph两款图形数据库为主进行业务拓展，它们难以做到稍大吞吐的准实时应用。MIT的一个性能测试报告显示，在一个8节点的集群上，Cassandra后端的单点摄入量为3.6w/s，Hbase的单点摄入量为6w/s，而今我们需要应对数倍于此摄入量的行业应用，比如一批物联网设备，一家银行、一个省级电信运营商、一款手机APP的实时交互事件等的数据量可轻松过亿，将这些交互数据抽象成图形数据存储与计算需要我们的数据存储后端具有强大的吞吐量与稳定性，同时要求计算框架能够快速的依据历史记录得出业务指标结果。

AbutionGraph实时数据分析平台以此为背景进行设计与构建。其实现结合了实时数据流、实时指标计算、数据仓库的大吞吐等优势为一体，其端到端的架构可以直接从输入到输出进行映射，相当于一个纯经验的事物，流经数据库时，AbutionGraph内部自动做了关联计算、指标汇总等，即查即用，从而绕开数据直接解决问题，充分发挥了用大数据解决问题的作用。

既往平台的问题

AbutionGraph之所以要实现大规模准实时图形数据分析平台，是因为以往的图形数据存储平台大多数都为离线式系统，少量的实时系统也存在一些问题。比如：

较高的延迟，导入数据无法满足准实时查询的要求；
流式数据导入性能不足，无法支撑大规模的在线数据实时摄入，IO出现瓶颈；
批量导入数据前需要将原始数据依据Schema规整为gson/gxml等指定文件格式，数据ETL大多是高延迟且多日多步的；
此外，以往平台支持的数据源较为单一，无法多源数据同时入库。

实时技术选型

Apache Flink相比于Apache Spark，目前Spark的生态总体更为完善一些，且在机器学习的集成和应用性暂时领先。但作为下一代大数据引擎的有力竞争者-Flink在流式计算上有明显优势，Flink在流式计算里属于真正意义上的单条处理，每一条数据都触发计算，而不是像Spark一样的Mini Batch作为流式处理的妥协。Flink的容错机制较为轻量，对吞吐量影响较小，而且拥有图和调度上的一些优化，使得Flink可以达到很高的吞吐量。而Strom的容错机制需要对每条数据进行ack，因此其吞吐量瓶颈也是备受诟病。

鉴于如上3个通用的实时计算技术的比较，AbutionGraph选用了具有竞争力的下一代大数据技术Flink作为实时数据接入源，同时也是国内首个使用Flink作为数据源的图数据库，且为此实现了一些常用的消息组件接口：Kafka-2.0、Kafka-0.10、RocketMQ、ActiveMQ、Socket等，使用Flink作为与AbutionGraph的实时数据接入时，您可以不关注数据源有多少种，它支持任意多的不同消息组件同时对已有图形增量更新。

Ps：（AbutionGraph与Flink的结合使用可以很轻量，在单机环境下，您甚至都不需要安装部署它就可以使用这些功能，不必担心新的技术体系使系统变得臃肿）

鉴于Spark在离线批量计算、分布式机器学习的“王者”地位，技术生态也非常的完善。AbutionGraph顺其自然的将Spark作为离线计算（OLAP）平台，可将图形数据轻易的转变为Spark DataFrame/GraphFrame，反之，也可以将Spark DataFrame直接转换到AbutionGraph的图形中，这种数据源有别于Flink-即如上所说这是大批量的数据入库。此外，AbutionGraph还基于Spark构建了一个世界最丰富的分布式图挖掘算法库-AbutionGCS，它目前包含13大类60余种图算法。

实时存储结构

有了实时计算框架Flink作为多源数据的接入口，我们可能更关心数据在AbutionGraph中存储的优势在哪。

主流存储结构分析

市面上的图数据库一般采用B+树、LSM树、链表、哈希表等存储结构。No-SQL数据库一般采用LSM树，即日志结构合并树(Log-Structured Merge-Tree)作为数据结构，HBase也不例外，尽管这么做会使得读取效率在所难免地有一定下降，但换来的是高效得多的写入性能。众所周知，RDBMS一般采用B+树作为索引的数据结构，B+树对于数据读操作能很好地提高性能，但对于数据写，效率不高。这也是No-SQL数据库性能优越于传统MySQL类数据库的原因之一。

图形数据存储

我们暂且将企业应用程序中产生的每一条数据成为一个发生的事件，譬如张三与李四之间的一次通话计为一个事件，推荐系统使用到的数据本身也天然是事件关系图，比如在人和人之间做用户推荐，或者在人与物之间做物品推荐等等，都围绕着发生的事件去做业务拓展。在将每一条事件数据描述成某些实体之间的关系时，我们可以使用刚才所说的树形结构或是链表，因为那是传统且经过反复验证了的方案。

基于使用的存储结构，传统图数据库还需要在此之上构建完善的并发控制机制来管理对图中顶点/边的并发访问。这使得他们不得不在每次操作中存储一部分额外的信息（例如乐观并发控制需要的读写集、多版本并发控制产生的多份数据）或是触及一些需要竞争的资源（例如悲观并发控制中的锁），而这些都会或多或少地在访问图数据库中的数据对象时引入一定开销。

做算法的同学相信都知道有一种结构它也可以存储图形，就是邻接矩阵，我们一般在推荐系统中会遇到比较多，它面向的是一整个的大图做大量的机器学习算法迭代，得到满意的结果同时也消耗了大量的计算资源，所以邻接矩阵不适合作为永久的数据存储结构，我们只关注它在内存中的临时性能，以及它灵活可变的阵列值，且可以依据横纵坐标快速定位到行列值（即实体/关系的属性值）。

鉴于树型存储与矩阵存储的优劣势，AbutionGraph的存储设计充分的借鉴了两者的优势，采用一种新颖的架构-“动态分布式维度数据模型”，基于关联数组进行图形数据的存储，提供了的统一存储框架，该框架包含传统数据库（即SQL）和非传统数据库（即NoSQL）。

对于传统数据库的特性

存储形式举例：

普通维度的事件数据存储：

张三 -(于2020.1.1 09:00:00, 通话1分钟)-> 李四

张三 -(于2020.1.1 09:09:00, 通话2分钟)-> 李四

张三 -(于2020.1.1 11:00:00, 通话3分钟)-> 李四

张三 -(于2020.1.1 12:00:00, 通话5分钟)-> 李四

以小时为维度的统计事件存储：

张三 -(于2020.1.1 09:00:00到2020.1.1 09:59:59, 通话2次，共3分钟)-> 李四

张三 -(于2020.1.1 11:00:00到2020.1.1 11:59:59, 通话1次，共3分钟)-> 李四

张三 -(于2020.1.1 12:00:00到2020.1.1 12:59:59, 通话2次，共5分钟)-> 李四

以天为维度的统计事件存储：

张三 -(于2020.1.1 00:00:00到2020.1.1 24:59:59, 通话4次，共11分钟)-> 李四

如上所示，AbutionGraph将每一个事件以类似于传统表的形式按行存储，每一个事件又可依据该行数据的时间属性扩展出多个维度的时间序列聚合属性，即将一维（一行）数据--(深度挖掘为)-->多维（多行）数据，举例：张三今天给李四打了4次电话，这是4个事件（4行数据）。假如我们深度分析这些事件，我们还可以得到另一个维度-今天张三给李四打了4次电话，这个4次在今天这个维度里实时汇总，我们可即查即用，而不像以前需要将4个时间都提取出来后再汇总计算，即“多维度”数据模型。

AbutionGraph将存储与计算相结合，AbutionGraph中的每个点和边可以同时作为计算和存储的并行处理单元，就像我们实时汇总张三与李四的通话事件，我们不仅可以在原有维度上拓展出一个以天为汇总单位的维度，亦可以拓展出以小时、年、月为单位的维度，只要张三与李四发生通话，将立刻将汇总值更新到对应时间序列区间的维度值中。通过这种方式，图不再是静态的数据存储集合，而是一个大规模并行处理引擎。把存储后计算所耗费的大资源转变为实时计算所耗费的小资源，把离线型图数据库做成一个实时的业务型平台。即“动态”数据模型。

虽然这是种传统的行存储形式，但是您以图形三元组（实体，边属性，实体）的存储形式思考一下，仔细观察示例事件，有没有发现它们其实并不传统，张三/李四是实体，通话的次数/通话时长不就是边的属性嘛！如果您再用矩阵的思维取思考这些示例事件，张三/李四可不就是矩阵中横纵实体坐标轴中的一员嘛，而边属性就是两个实体交互所产生的具体值了。

对于非传统数据库的特性

AbutionGraph会自然的产生一个通用Schema，该Schema可用于完全索引并快速查询数据集中的每个唯一字符串，而无需像JanusGraph那样再显式的去构建数据属性索引来提高查询效率，AbutionGraph可以很友好的规避这些繁琐且不灵活的开发步骤。

AbutionGraph通过使用NoSQL的架构优势，您还可以直接像使用Hbase（实时读写的大数据OLTP引擎）那样直接将其作为一个Key-Value大数据库使用，且支持所有的Hbase功能，该特性把AbutionGraph定位为一个实时的交互图数据库平台。但Hbase的一个不足之处是无法满足超大规模的事件同时IO，可能单台服务器6w次/s即到瓶颈。

AbutionGraph的多维数据存储模式中，我们采用RoaringBitmap（一种高效的搜索技术）来快速检索基于时间序列的维度事件，加上AbutionGraph的实时属性汇总特性，对于了解Druid（准实时的多维数据仓库技术-OLAP引擎）的用户，您完全可以将AbutionGraph定位为一款相似技术，且支持所有的Druid功能，即数据仓库+知识存储平台。相较于Hbase，Druid加入的计算模型，实时性略有降低，但解决了超大规模的事件同时IO的瓶颈，更适合于大规模实时且永不停止的应用。

AbutionGraph的数据存储结构如下图所示：

鉴于AbutionGraph动态分布式维度数据存储模型的种种特性，使它可以像Druid一样对大规模的在线数据实时存储与汇总计算，又可以像Hbase一样快速的对事件保存与查询，又同时兼具传统数据库的表模式到多维三元组矩阵的映射，在面向小量事件数据的时候，AbutionGraph可以与Hbase特性相当，在面向大量事件数据的时候，AbutionGraph可以与Druid特性相当。AbutionGraph尝试结合这些独特的处理技术（稀疏线性代数，关联数组，分布式数组和三重存储/ NoSQL数据库）的优势，以提供可解决数据库和计算系统的统一问题，即大数据相关的问题。它可以直接表示复杂的关系（稀疏矩阵或图结构）。因此，使用AbutionGraph来开发复杂数据场景比于其他图数据库具有更大的效率优势。

不管场景如何，AbutionGraph都具备了一款准实时的知识图谱平台的条件，意味着可对任意数据量的事件进行存储与快速查询。这使得AbutionGraph顺理成章的成为国内第一个使用Apache Flink作为超大大规模实时事件流接入的端到端知识图谱平台，AbutionGraph在毫秒-秒之内完成图形生成后就立即可查询。

Apache Flink 在中国的应用

随着 Flink 社区的快速发展，其技术也逐渐走向成熟。Apache Flink 能够以高吞吐低延时的优异实时计算能力帮助企业和开发者实现数据算力升级，支持海量数据的亚秒级快速响应。在 2019 年末，国内已经有大量的本土互联网公司开始采用 Apache Flink 作为主流的实时计算解决方案。同时，在全球范围内，优步、网飞、微软和亚马逊等国际互联网公司也逐渐开始使用 Apache Flink。

AbutionGraph+Flink：物联网时代的应用利器

1）数据据时代的知识图谱

大数据时代的到来，催生了以知识图谱为代表的大规模知识表示，同时也为其发展奠定了必要的基础。今天这个时代谈知识工程跟 20 世纪谈专家系统有什么不同？最大的不同点是我们有前所未有的大数据、前所未有的机器学习能力以及前所未有的计算能力。这三个技术的合力作用使我们可以摆脱对专家的依赖，使实现大规模自动化知识获取成为可能，这也是大数据知识工程的根本。这一种知识获取，本质上可以称为自下而上的获取。

显然，这种数据驱动的知识获取方式与人工构建的知识获取方式完全不同。前者可以实现大规模自动化知识获取，无须高昂的人力成本。相对于人工构建的知识获取方式，数据驱动的知识获取方式是一种典型的自下而上的做法，是相对务实、实用的做法。大数据时代所发展出来的众包技术使得知识的规模化验证成为可能。知识获取的众多环节均可以受益于众包技术。比如，训练知识抽取模型时可以通过众包获取标注样本，从而构建有效的有监督抽取模型。

在知识图谱技术的引领下，各种各样的知识表示将在不损失质量的前提下逐步提升规模，从小规模的知识表示变成大规模的知识表示，最终应对大规模开放性给知识工程带来的巨大挑战。

2）物联网时代的知识图谱

随着5G和垂直行业的成熟商用，网络需要接入更多设备、处理海量数据、满足低时延业务需求。通信技术的升级换代一直是推动社会创新发展的重要力量，5G技术的到来，通信产业开启了全新的时代，也代表着人们真正迈进物联网时代，“万物互联”已是大势所趋，一大批的智能设备正在倍速的加入到互联网中，在云管端均发生了深刻变化，从移动互联到万物智联，从消费互联网到产业互联网，从单一领域创新到跨产业融合创新。然而，物联网要实现智能化，仍面临众多挑战：网络中互联的传感器产生数据量大，数据变化迅速，这对数据库的摄入量、可靠性和实时性要求很高，而且数据之间往往相互关联、查询频繁。

AbutionGraph的出现，就是为了解决传统离线式图形数据库所不能满足的的这些新业务要求。不管是在物联网领域或是金融风控、欺诈检测中，AbutionGraph在结合图处理引擎后还可以提供其所需的关联数据的高效复杂查询与计算能力。

-End-

技术的道路一个人走着极为艰难？

一身的本领得不施展？

优质的文章得不到曝光？

别担心，

即刻起，CSDN 将为你带来创新创造创变展现的大舞台，

扫描下方二维码，欢迎加入 CSDN 「原力计划」！

（*本文为AI科技大本营授权文章，转载请微信联系1092722531）

◆

精彩推荐

◆

点击阅读原文，或扫描文首贴片二维码

所有CSDN 用户都可参与投票和抽奖活动

加入福利群，每周还有精选学习资料、技术图书等福利发送

推荐阅读

2019，不可错过的NLP“高光时刻”
4万程序员学了10万次的课程，今天，曝光背后的讲师！
机器学习模型五花八门不知道怎么选？这份指南告诉你
300多局点，数据接入量超过2TB/S，华为用AI优化数据中台 | BDTC 2019
“一百万行Python代码对任何人都足够了”
达摩院 2020 预测：感知智能的“天花板”和认知智能的“野望”
详解CPU几个重点基础知识
在以太坊上开发 Dapp 的瓶颈和门槛有哪些？ | 博文精选

你点的每个“在看”，我都认真当成了AI

element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
今日联对0306 诗图佳得
自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.1、试对肖老师联：烟销皓月临江浒，夜笼寒沙梦晚舟。耀哥求正2、试对萧老师联:烟销浩月临江浒，雾散乾坤解汉城。秀霞习作请各位老师校正3、自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.4、试对肖老师垫场联：烟销皓月临江浒，雾锁寒林缈葉丛。小智求正[抱拳]5、试对肖老师联：烟销皓月临江浒；风卷乱云入峰巅。一一五品6
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

结合Flink，国内自研，大规模实时动态认知图谱平台——AbutionGraph |博文精选

2019，不可错过的NLP“高光时刻”

4万程序员学了10万次的课程，今天，曝光背后的讲师！

机器学习模型五花八门不知道怎么选？这份指南告诉你

300多局点，数据接入量超过2TB/S，华为用AI优化数据中台 | BDTC 2019

达摩院 2020 预测：感知智能的“天花板”和认知智能的“野望”

详解CPU几个重点基础知识

在以太坊上开发 Dapp 的瓶颈和门槛有哪些？ | 博文精选

你可能感兴趣的:(结合Flink，国内自研，大规模实时动态认知图谱平台——AbutionGraph |博文精选)