BAAIBeijing

2021年，别再只沉迷于GANs 和 Transformer，GNN爆发已经从CV蔓延到物理化学

作者：Sergei Ivanov

编译：周寅张皓、梦佳、贾伟

GNN，又可以被理解为Neural Networks for Graph，由于图非欧结构的限制，如何设计图数据上的神经网络一直困扰着学界，因此在数年前该领域一直较为沉寂。

但近年来，深度学习模型的成功将一系列成功验证的机制迁移到图数据上，创造了诸如GCN，Graph Attention，Graph Pooling等等模型。伴随着理论方法进步的，是蓬勃的应用发展。

在2020年，GNN频繁登上各大会议热词榜，由于图类型数据的普遍存在，图神经网络在各种学科的场景得到应用——诸如计算机视觉、推荐系统、组合优化；甚至药物研发、物理、化学等，且在多个领域都有较大的效果提升。

在前几天我们推送了一篇Michael Bronstein 等人对2020年GNN发展的复盘文章：「全方位复盘GNN，12位学者寄望2021年大爆发」。

今天，我们再推荐著名图机器学习专家 Sergei Ivanov 对图机器学习的发展，供大家参考。

Sergei Ivanov：

今年年初，图形神经网络(GNNs)成为一个流行词。作为这一领域的研究人员，我感到非常自豪(至少不感到羞愧) 。但事实并非总是如此: 三年前，当我和同事们交谈时，他们沉迷于GANs 和 Transformers，他们对我印象是，我正在研究一些稀奇古怪的小众问题。但现在看，这个领域已经基本上成熟了，在这里，我为大家总结最近看到的 GNN 的顶级应用。

GNN + 推荐系统

图的出现源于电子商务平台上，用户与产品的交互，许多公司将 GNN 用于产品推荐。

一个标准的使用案例是，利用某种形式的负采样损失去学习节点嵌入，来建模用户和项目的图，然后利用knn去实时抽取给定用户相类似的项目。Uber Eats[1] 是第一个应用这种pipeline的公司，它通过图神经网络 GraphSage[2] 为用户推荐食品和餐馆。

食品推荐，由于地理等因素的限制，图相对会较小。有些公司在GNN的使用上，可以达到数十亿个边的规模。其中之一，便是阿里巴巴[3]。

阿里巴巴在拥有数十亿用户和产品的庞大网络上进行图嵌入和 GNN 。构建这样的图可能是一场工程噩梦，但是使用Aligraph pipeline，只需要5分钟就可以构建一个包含400M 节点的图！AliGraph [4] 支持高效的分布式图存储、优化的采样操作符和内置 GNNs。目前，它被部署在阿里的多个产品的推荐和个性化检索当中。

阿里巴巴、亚马逊和许多其他电子商务公司使用 GNN 来辅助推荐系统

同样，Pinterest提出了PinSage模型[5]，该模型使用个性化PageRank有效地对邻域进行采样，并通过聚合每个邻域来有效地更新节点嵌入。后续的PinnerSage [6]扩展了这一框架，可以嵌入内容，来针对用户的不同喜好。

其他案例还包括在亚马逊上检查有关知识图谱和GNN的应用[7]，以及Fabula AI使用GNN进行伪造新闻检测的研究[8]。显然，GNNs对于推荐的意义重大，如果来自用户互动的信号足够强的话。

GNN+推荐系统 · 参考资料

[1]Uber Eats 详解：https://eng.uber.com/uber-eats-graph-learning/

[2]GraphSage开源：https://github.com/williamleif/GraphSAGE

[3] 阿里巴巴如何将图用在十亿级用户/产品：https://arxiv.org/abs/1803.02349

[4] AliGraph 解决噩梦：https://arxiv.org/abs/1902.08730

[5] PinSage：https://arxiv.org/abs/1806.01973

[6] PinnerSage的详细介绍：https://medium.com/pinterest-engineering/pinnersage-multi-modal-user-embedding-framework-for-recommendations-at-pinterest-bfd116b49475

[7] 亚马逊的知识图谱应用：https://www.amazon.science/blog/building-product-graphs-automatically

[8] Fabula AI 的伪造新闻检测：https://arxiv.org/abs/1902.06673

组合优化

在金融、物流、能源、生命科学和硬件设计等等各个领域都需要解决组合优化（CO）的问题。这些问题大多数是用图表示的。因此，在过去的一个世纪里，大量的研究都集中在从算法层面更有效地解决 CO 问题; 然而，机器学习驱动的现代计算革命提供了一种新的引人注目的学习方法来解决这些问题。

谷歌大脑团队使用 GNN 来优化新硬件[9](比如谷歌TPU[10])的功耗、面积和性能。计算机芯片是一个存储和逻辑部件的图，每个部件的坐标和类型不同。确定每个部件的位置，同时遵循密度和路由阻塞的限制，是一个费力的过程，也是电气工程师操盘的艺术。团队利用GNN 模型，与策略和价值 RL 函数相结合，能够生成优化的电路芯片匹配布局，甚至优于手工设计的硬件布局[11]。

与围棋相比，芯片部件布局是一个无比复杂的问题

另一种方法采用了不同的路径，将机器学习模型集成到现有的求解器中。例如，Gasse 等人提出了一个学习分支定界变量选择策略的图网: 这是混合整数线性规划(MILP)求解器的关键步骤。通过这种方式，学习到的表示去最小化求解器的运行时间，并且在推理时间和决策质量之间达到了很好的平衡。

在 DeepMind 和 Google 最近的一项工作中，图网络被用于 MILP 求解器相关的两个关键子任务: 联合变量赋值和限定目标值。他们的神经网络方法比现有的包括谷歌生产包装和规划系统在内的海量数据集上的求解器快2-10倍。

更多的内容可以参考最近新出的综述文章[14]。

GNN+组合优化 · 参考资料

[9] 谷歌使用GNN优化TPU，https://ai.googleblog.com/2020/04/chip-design-with-deep-reinforcement.html

[10] 云张量处单元TPU，https://cloud.google.com/tpu/docs/tpus

[11] 如何利用GNN来优化芯片电路布局，https://arxiv.org/abs/2004.10746

[12] Gasse等人提出的分支定界变量选择策略，https://arxiv.org/abs/1906.01629

[13] DeepMind & Google 的组合优化研究，https://arxiv.org/abs/2012.13349

[14] 组合优化研究综述，https://arxiv.org/abs/2003.03600

GNN+CV

世界上的对象是紧密相连的，包含这些对象的图像也可以受益于 GNN。感知图像的方法之一是通过场景图（scene graphs）[15]，一组物体在图像中出现，它们之间的关系也随之呈现。场景图在图像检索、理解和推理、字幕、视觉问题回答和图像生成等方面都有着广泛的应用，该方法可以大大提升模型的性能。

在 Facebook 的一项工作[16]中，可以把一个流行的 CV 数据集 COCO 中的物体放在画布上，指定物体的位置和大小，然后创建一个场景图。然后对图进行 GNN 编码，以确定每个对象的嵌入，然后与 CNN 一起，生成对象的遮罩、边框和外观。因此，最终用户可以简单地在图中添加新的节点(指定该节点的相对位置和大小) ，以便 GNN/CNN 用这些对象生成图像。[17]

利用场景图生成图像。用户可以在画布的任何地方放置一个对象(“ river”标记为红色; 从中心移动到右下角) ，来反映图像中的这些变化(图像中生成的河流也移动到右下角)。

CV 中的另一个图来源是两个相关图像的匹配ーー这是一个经典的问题，过去是用手工的描述符来实现的。3D 图形公司 Magic Leap 发布了名为 SuperGlue 的 GNN 架构[18]，可以在实时视频中进行图匹配，用于3D 重建、位置识别、定位和映射(SLAM)等任务。

SuperGlue 由一个基于注意力机制的 GNN 组成，它可以学习图像关键点的表示，这些关键点进一步输入到进行匹配的最佳传输层。该模型在现代 GPU 上进行实时匹配，可以很容易地集成到现代 SLAM 系统中。

图与计算机视觉相关研究当然还有更多，可以参考这篇综述文章[19]。

GNN+CV · 参考资料

[15] 李飞飞等人提出的 Scene Graphs，详解博客：https://cs.stanford.edu/~danfei/scene-graph/

[16] Facebook对场景图进行GNN编码, https://arxiv.org/abs/1909.05379

[17] 同上，视频讲解（需要）：https://www.youtube.com/watch?v=V2v0qEPsjr0

[18] Magic Leap 的SuperGlue架构详解：https://arxiv.org/abs/1911.11763

[19] 图与计算机视觉的综述文章：https://arxiv.org/abs/2010.00130

GNN+物理/化学

将粒子或分支之间的相互作用表示为图，然后使用GNN去预测系统的属性，这逐渐成为生命科学中的重要研究方法。

Facebook和CMU的Open Catalyst Project [20]，目标是找到新的方法来存储可再生能源（例如太阳能或风能），其中一种方案是通过化学反应将这些能量转化为燃料（例如氢气）的化学能。

但这里一个问题在于，怎么能够找到一种新的高效且低成本的催化剂，来驱动这个化学反应。目前已知的方法DFT相对比较昂贵。

Open Catalyst项目目前开源了一个最大的催化剂数据集，以及DFT弛豫和GNN基线[21]，以期望找到新的低成本的催化剂分子。

吸附物（小连接分子）和催化剂表面的初始状态和松弛状态的示例。为了找到一对吸附剂-催化剂的松弛状态，必须执行昂贵的DFT模拟，这可能需要几天的时间。Zitnick et al. 2020

DeepMind的研究人员在[22] 中，使用GNN来模拟复杂粒子系统（例如水或沙子）的动力学过程，通过预测每个步骤、每个粒子的相对运动，从而重建出整个系统的运动状态，并进一步了解控制运动的基本规律。

例如可以利用这种方法来了解玻璃化转变问题[23]，这个问题是固体理论中比较有趣的未解问题之一。

当然，使用GNN，不仅仅可以模拟过渡过程中的动力学，还可以更好地了解，粒子如何根据距离和时间相互影响。

此外，美国的物理实验室Fermilab，目前正尝试将GNN应用到CERN的大型粒子对撞机（LHC）的结果分析上，目标则是去处理数百万个图像，并从中发现与新粒子有关的图像。[24]

有关GNN在粒子物理学中的更多应用，可以参考这篇综述文章[25]。

GNN+物理/化学 · 参考资料

[20] Open Catalyst Project 的介绍：https://opencatalystproject.org/

[21] Open Catalyst Project 的开源：https://github.com/Open-Catalyst-Project/ocp

[22] DeepMind模拟水的动力学系统：https://arxiv.org/abs/2002.09405

[23] DeepMind利用GNN来理解玻璃的动力学：https://deepmind.com/blog/article/Towards-understanding-glasses-with-graph-neural-networks

[24] 费米实验室利用GNN来发现新粒子：https://news.fnal.gov/2020/09/the-next-big-thing-the-use-of-graph-neural-networks-to-discover-particles/

[25] GNN在粒子物理学中应用的综述：https://arxiv.org/abs/2007.13681

05 GNN+药物开发

制药公司每年都会投入数十亿美元的研发资金，用来寻找药物开发的新模式。

在生物学中，图可以用来表示各种规模的相互作用。

例如在分子水平，图的边可以是，分子中原子之间的键或蛋白质中氨基酸残基之间的相互作用。

而在更大范围内，图可以表示更复杂的结构（例如蛋白质、mRNA、代谢物等）之间的相互作用。

根据抽象的水平不同，这些图可以用在目标识别、分子特性预测、高通量筛选、新型药物设计、蛋白质工程，以及药物再利用等。

药物开发不同阶段中，GNN有哪些用途[26]

或许利用GNN进行药物开发，最有希望的可能就是MIT等单位发表在《Cell》上的一篇文章[26]。

在这篇文章中，他们训练了一个被称为Chemprop的深度GNN模型，用来预测分子是否表现出抗生素特性（对细菌大肠杆菌的生长抑制作用）。

研究人员仅在FDA批准的药物库中的2500个分子对Chemprop进行了训练。

该模型能够从一个更大的数据集（例如 Drug Repurposing Hub）中筛选出 Halicin分子。

有趣的是，之前大家普遍认为Halicin分子是一种用于糖尿病治疗的分子，它的结构与已知的抗生素差别非常大。但是经过实验室（在小鼠身上）的临床试验，表明Halicin是一种广谱抗生素。

另一方面，研究人员也针对其他神经网络模型进行了基准测试，结果表明了GNN学习功能的强大之处。

Chemprop另外一个值得关注的地方在于，与许多GNN模型不同，它有5个层，1600个隐藏维，远远超过用于此类任务的其他典型的GNN模型。

当然，Chemprop只是最近【AI+药物发现】中的一项研究，有关此类主题的更多成果，可以参考这篇综述文章[27]以及一篇博客文章。

GNN+药物开发 · 参考资料

[26] MIT等发表在《Cell》上，利用GNN进行药物开发：https://arxiv.org/abs/2012.05716

[27] AI+药物发现的综述文章：https://doi.org/10.1016/j.cell.2020.01.021

原文链接：https://medium.com/criteo-labs/top-applications-of-graph-neural-networks-2021-c06ec82bfc18

点击左下角“阅读原文”，了解更多！

ultralytics 是什么？博刻 AI 学习笔记 python
ultralytics是一个用于计算机视觉任务的Python库，专注于提供高效、易用的目标检测、实例分割和图像分类工具。它最著名的功能是实现YOLO（YouOnlyLookOnce）系列模型，特别是最新的YOLOv8。1.YOLO是什么？YOLO是一种流行的目标检测算法，以其速度快和精度高而闻名。YOLO的核心思想是将目标检测问题转化为一个回归问题，直接预测目标的边界框和类别。YOLOv8是YOL
《Python 动画：实现多种不同速度的炫酷烟花效果》后端工匠之道 python 开发语言新手入门表白表白代码爱心烟花
《Python动画：实现多种不同速度的炫酷烟花效果》前言烟花绽放是一个经典的视觉效果，通过Python和Matplotlib，我们可以轻松实现动态的烟花动画效果。本篇文章将教你如何实现多个不同速度、位置的烟花动画，让它们在屏幕上绚丽绽放，占满整个画布。效果预览本代码的最终效果如下，完整代码底部获取：多个烟花随机从屏幕不同位置升空。烟花绽放时，粒子以随机颜色和方向扩散。不同烟花有快有慢，呈现出真实的
python主要是做什么的-Python到底可以干什么?主要应用领域 weixin_37988176
如果说挑选一门编程语言进行学习，你会选择哪个?当然是Python。Python是一门简单的编程语言，适合初学者学习，也是很多人都喜欢的语言，那么Python到底可以干什么?Python语言在学术上是非常受欢迎的，不是计算机专业的人，都可以学习Python。这个语言的前景是不可限量的，语法是非常容易理解的，很多人可以减去学习的负担，没有压力。Python到底可以干什么?主要应用领域：1、Linux运
C++ 与机器学习：构建高效推理引擎的秘诀 salsm C++编程魔法师 c++机器学习开发语言
随着深度学习模型逐渐从研究走向生产环境，推理能力成为部署中的关键环节。模型的推理引擎需要以极低的延迟快速处理输入数据，同时最大化地利用硬件资源。虽然Python被广泛用于模型的训练和开发，但C++却在推理领域独占鳌头，其性能优势和硬件控制能力无可替代。在这篇文章中，我们将从为什么选择C++、构建高效推理引擎的细节，以及相似的开源项目三个方面深入探讨如何利用C++打造高效的机器学习推理引擎。目录为什
使用 C++ 和函数式编程构建高效的 AI 模型 salsm C++编程魔法师 c++人工智能
引言现代AI开发常常使用Python，但在底层实现中，C++仍是不可或缺的语言，尤其是在性能敏感的场景下。将C++与函数式编程结合，可以打造高效、模块化的AI模型，同时提高代码的可读性和可维护性。本文将深入探讨如何利用现代C++和函数式编程的强大特性，优化AI模型的构建流程，并提升整体性能。函数式编程在C++中的角色函数式编程（FunctionalProgramming）是一种强调不可变数据和纯函
《深入Python子域名扫描：解锁网络空间的隐藏宝藏》乐茵安全 python_study python php 开发语言
Python子域名扫描：探索网络世界的隐藏边界在当今数字化的时代，网络安全和网络探索变得愈发重要。网络就像一个广阔无垠的宇宙，隐藏着无数的秘密和潜在的威胁。而子域名扫描，就是在这个庞大的网络宇宙中寻找线索、探索未知领域的一把钥匙。Python，作为一门强大且灵活的编程语言，在网络安全的各个领域都有着广泛的应用。其中，利用Python进行子域名扫描，不仅可以帮助我们发现目标域名下的更多信息，还能在渗
C/C++炫酷烟花③（完整代码） Want595 C/C++趣味编程 c++开发语言
系列专栏《Python趣味编程》《C/C++趣味编程》《HTML趣味编程》《Java趣味编程》写在前面C/C++语言实现新春烟花动画的完整代码。
从简单到深刻的认知发展 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知发展，人工智能，深度学习，神经网络，机器学习，自然语言处理，计算机视觉1.背景介绍认知发展是人类从简单到复杂的思维方式演进的过程，它涉及感知、记忆、语言、推理和决策等多个方面。随着人工智能技术的飞速发展，我们开始尝试用计算机模拟人类的认知能力，构建能够学习、理解和解决复杂问题的智能系统。从早期的符号逻辑到如今的深度学习，人工智能的发展经历了多个阶段。早期的人工智能研究主要集中在规则和逻辑推理上
【八】python装饰器模式無欲無为 python设计模式 python 装饰器模式开发语言
文章目录8.1装饰器模式简介8.2装饰器模式作用8.3装饰器模式构成8.3.1装饰器模式包含以下几个核心角色：8.3.2UML类图8.4装饰器模式python代码实现8.4.1基本装饰器的使用8.4.2多个装饰器的执行顺序8.4.3带返回值的装饰器的使用8.4.4装饰器模式-关联类模式8.4.5装饰器模式-无参数8.4.6装饰器模式-接收原函数参数8.4.7装饰器模式-装饰器自带函数8.4.8装饰
python爬虫爬取拉勾网招聘信息 2401_84692405 程序员 python 爬虫数据挖掘
print('showId',show_id)print(“typeofresult”,type(position_result))total_count=position_result[‘totalCount’]没有符合条件的工作，直接返回iftotal_count==0:returnremain_page_count=math.ceil(total_count/JOBS_COUNT_ONE_P
一文看尽C、C++、Java与Python的优势与应用禁小默 python java c语言
前言编程语言的选择直接影响到开发效率、系统性能以及开发者的工作体验。C、C++、Java和Python是当前最受欢迎的四种编程语言，它们各自有着不同的设计哲学、应用领域及开发者社区。在这篇博客中，我们将深入对比这四种语言的特点，帮助大家根据项目需求做出合理的选择。1.历史背景与语言设计理念C语言C语言由DennisRitchie于1972年在贝尔实验室开发，最初用于系统编程和操作系统的开发。C语言
python - 日志库 01Coding python python 开发语言
文章目录python日志库logging库第三方库-logurupython日志库python中用作记录日记，默认分为六种日志级别(括号为级别对应的数值)NOTSET(0)DEBUG(10)：详细信息，只有诊断问题时才需要INFO(20)：当程序运行时期望的一些信息WARNING(30)：软件运行正常，但是可能会有一些预期之外的事情发生ERROR(40)：由于一些严重问题导致软件一些功能出现问题C
python日志库 Happinessคิดถึง Python学习 python 开发语言
更新时间：2023-03-10官方提供的logging封装成以日期命名。参考：logging和logurulogging封装类使用importosimportloggingimportreimporttimefromlogging.handlersimportTimedRotatingFileHandler#logspathdefault：/logs/classsetup_log:def__ini
大数据和智能数据应用架构系列教程之：大数据与人工智能 AI天才研究院 AI实战大数据AI人工智能 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍概述“大数据”是指海量、高维、多样化的数据集合。随着人类对数据处理和管理的需求越来越复杂，越来越依赖机器学习、人工智能等新兴技术。在过去的一段时间里，越来越多的人开始关注到“大数据”这一颗龙头。如今，“大数据”已经成为一个新的名词，它既包含了大量的数据，也带来了巨大的价值。因此，研究、开发、应用“大数据”技术也逐渐成为各行各业的专业人才需求。在这个快速发展的
python日志模块写入不同文件_Python实用教程系列——Logging日志模块吴跃湘
那个百分十先生：Python实用教程系列——异常处理zhuanlan.zhihu.com上篇文章讲述了Python中的相关异常的知识，包括异常的种类以及异常的处理方式，以及使用实例的方式说明了一些常用异常的处理。这次，我们来讲述一下Python中的另一个实用的教程，日志相关的知识。很多的小伙伴在平时写代码的时候，基本上使用的都是使用print()函数来进行一些日志的打印，使用print()来进行一
Python 日志记录工具logging 酒酿小圆子～ Python python 运维
文章目录1.日志的作用2.日志的级别3.几个重要的概念3.1Logger记录器3.2Handler处理器3.3Formatter格式化器3.4Filter过滤器4.常见示例4.1常见示例1：Logging日志记录4.2常见示例2：函数化示例(避免重复日志)4.3多进程环境下往同一个文件写日志日志对于系统开发的开发、调试和运行整个过程中都起着很重要的作用，调试阶段需要查看日志来明确问题所在，运行阶段
Python常用库 - logging日志库小菠萝测试笔记
logging的简单介绍用作记录日志，默认分为六种日志级别（括号为级别对应的数值）NOTSET（0）DEBUG（10）INFO（20）WARNING（30）ERROR（40）CRITICAL（50）special在自定义日志级别时注意不要和默认的日志级别数值相同logging执行时输出大于等于设置的日志级别的日志信息，如设置日志级别是INFO，则INFO、WARNING、ERROR、CRITICA
【python学习】loguru日志库用法大全！附代码示例 NLP仙人 python python 学习开发语言
Loguru是一个用于Python的简单且强大的日志库。它的目标是使日志记录变得简单和优雅，同时提供许多有用的功能。Loguru的主要特点包括：简单易用：不需要复杂的配置，开箱即用。丰富的功能：支持异步日志、日志文件轮转、日志格式化、过滤器等。优雅的语法：通过logger对象的直接方法调用记录日志。下面通过代码演示Loguru的几个最核心的功能：安装Loguru可以通过pip安装Loguru：pi
【Python】使用pygame库实现新年烟花 Nerous_ python pygame 开发语言
祝大家金蛇衔财，蛇来运转首先，确保你已经安装了pygame库。如果还没有安装，可以通过以下命令安装：pipinstallpygame接下来是烟花效果的Python代码：importpygameimportrandomimportmathimportsys#初始化pygamepygame.init()#设置窗口尺寸和颜色WIDTH,HEIGHT=800,600screen=pygame.displa
LEETCODE | PYTHON | 63 | 不同路径Ⅱ Angelawlc leetcode-python leetcode python 算法
LEETCODE|PYTHON|63|不同路径Ⅱ1.题目一个机器人位于一个mxn网格的左上角（起始点在下图中标记为“Start”）。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角（在下图中标记为“Finish”）。现在考虑网格中有障碍物。那么从左上角到右下角将会有多少条不同的路径？网格中的障碍物和空位置分别用1和0来表示。来源：力扣（LeetCode）链接：https://leet
Scala在大数据和分布式计算领域的应用与优势夜色呦 scala 大数据开发语言
大数据和分布式计算是当今信息技术领域的热点话题，它们处理着海量数据并需要高效的计算能力。Scala，作为一种多范式编程语言，因其在并发编程和函数式编程方面的优势，成为大数据和分布式计算领域的理想选择。本文将探讨Scala在这些领域的应用，并分析其带来的优势。1.大数据和分布式计算的挑战在大数据时代，数据量呈指数级增长，传统的数据处理方法已经无法满足需求。分布式计算提供了一种解决方案，通过在多个物理
python动态全局缓存配置 king9666 python 缓存
在内存中缓存配置，但提供手动或自动刷新机制。使用文件的修改时间戳（mtime）来判断文件是否更新，只有在文件更新时重新读取importosimportjson_cached_config=None_cached_config_mtime=Nonedefread_config():global_cached_config,_cached_config_mtimeconfig_file=os.path
THULAC-Python 使用教程时昕海Minerva
THULAC-Python使用教程THULAC-PythonTHULAC-Python:由清华大学开发的中文词法分析工具包，提供中文分词和词性标注功能。项目地址:https://gitcode.com/gh_mirrors/th/THULAC-Python项目介绍THULAC（THULexicalAnalyzerforChinese）是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词
图文详解 MapReduce on YARN Shockang 大数据技术体系大数据 mapreduce yarn
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文权威版本——《Hadoop权威指南第3版》1.作业提交MRrunJob从RM获取新的作业ID作业客户端检査作业的输出说明，计算输入分片并将作业资源(包括作业JAR、配置和分片信息)复制到HDFS。通过调用R
【Python】探索自然语言处理的利器：THULAC 中文词法分析库详解技术无疆 Python 人工智能自然语言处理人工智能 python 数据挖掘机器学习深度学习神经网络
THULAC（THULexicalAnalyzerforChinese）是清华大学开发的一款中文词法分析工具，集成了分词和词性标注两大功能。THULAC拥有强大的分词能力和高效的词性标注，适用于多种中文文本处理场景。该工具能够在保证高准确率的同时保持较快的处理速度，非常适合大规模中文数据处理。⭕️宇宙起点THULAC的特点安装与配置1.使用pip安装2.使用GitHub源码安装♨️使用方法1.分词
Mongodb 慢查询日志分析 - 1 草明 mongodb mongodb python 数据库
Mongodb慢查询日志分析使用mloginfo处理过的日志会在控制台输出,显示还是比较友好的.但是如果内容较大,就不方便查看了,如果可以导入到excel就比较方便筛选/排序.但是mloginfo并没有提供生成到excel的功能.可以通过一个python脚本辅助生成:importpandasaspdimportre#定义文件路径mloginfo_output_file="mloginfo_outp
Python软件打包工具Pyinstaller 码农NoError 人工智能 python 自然语言处理智能对话智能闲聊人工智能
需求：我们需要把自己使用python开发好的程序发给朋友体验一下这就需要让朋友安装python的解释器，安装程序所需要的python包，最最最重要的是还要考虑版本兼容问题，特别麻烦。此时如果我们能给别人一个exe软件直接双击运行就好多了，那么就需要用到今天介绍的python程序打包工具pyinstaller了。1、安装pyinstaller首先安装pyinstaller，使用安装命令：pipins
python 循环语句金箍一梦何来愁 python
while循环while循环的格式while条件:条件满足时，做的事情1条件满足时，做的事情2条件满足时，做的事情3...(省略)...demoi=0whileiwhile嵌套的格式while条件1:条件1满足时，做的事情1条件1满足时，做的事情2条件1满足时，做的事情3...(省略)...while条件2:条件2满足时，做的事情1条件2满足时，做的事情2条件2满足时，做的事情3...(省略)..
每日一道算法题移除元素 BraveOxCow 算法题算法数据结构
题目27.移除元素-力扣（LeetCode）PythonclassSolution:defremoveElement(self,nums:List[int],val:int)->int:whilevalinnums:fornuminnums:ifnum==val:nums.remove(num)breakreturnlen(nums)classSolution:defremoveElement(s
每日一道算法题成绩排序 BraveOxCow 算法 python 开发语言
题目成绩排序_牛客题霸_牛客网(nowcoder.com)Pythonn=int(input())flag=int(input())ans=[]for_inrange(n):name,score=input().split('')ans.append([name,int(score)])ans.sort(key=lambdax:x[1],reverse=notflag)foreinans:prin
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

2021年， 别再只沉迷于GANs 和 Transformer，GNN爆发已经从CV蔓延到物理化学

GNN + 推荐系统

组合优化

GNN+CV

GNN+物理/化学

05

GNN+药物开发

你可能感兴趣的:(神经网络,大数据,编程语言,python,机器学习)

2021年，别再只沉迷于GANs 和 Transformer，GNN爆发已经从CV蔓延到物理化学