stay_foolish12

2020年最值得收藏的60个AI开源工具

原本链接:https://www.infoq.cn/article/2uabiqaxicqifhqikeqw

本文，InfoQ梳理了60个2019年至今GitHub上热门的开源工具，献给那些对新征程满怀期待的开发者们。

Flair (顶级 NLP 库）

2018 年是 NLP 井喷的一年。像 ELMo 和谷歌 BERT 这样的库层出不穷，正如 Sebastian Ruder 所言，“NLP 高光时刻已经来临”，并且这种趋势一直延续到了 2019 年。Flair 是另一款出色的 NLP 库，技术先进、简单易懂、操作方便。

Flair 由 Zalando Research 开发及开源，是基于 Pytorch 的 NLP 框架。Flair 允许用户将最先进的自然语言处理模型应用于文本，例如命名实体识别（NER），词性标注（PoS），意义消歧和分类。

项目地址：https://github.com/flairNLP/flair

face.evoLVe（高性能人脸识别库）

如今，计算机视觉中人脸识别算法在数据科学领域应用极为广泛。face.evoLVe 是一款基于 Pytorch 的“高性能人脸识别库”。为相关人脸分析和应用提供了综合功能，包括：

人脸对齐（人脸检测、特征点定位、仿射变换等）；
数据预处理（例如，数据增广、数据平衡、归一化等）；
各种骨干网（例如，ResNet、IR、IR-SE、ResNeXt、SE-ResNeXt、DenseNet、LightCNN、MobileNet、ShuffleNet、DPN等）；
各种损失函数（例如，Softmax、Focal、Center、SphereFace、CosFace、AmSoftmax、ArcFace、Triplet等等）；
提高性能的技巧包（例如，训练改进、模型调整、知识蒸馏等）。

简而言之，该库可以帮助研究人员和工程师快速开发高性能深度人脸识别模型和算法，方便实际使用和开发部署。

项目地址：

https://github.com/ZhaoJ9014/face.evoLVe.PyTorch

YOLOv3

YOLO 是一款超快、超精准目标检测框架。自发布以来迭代更新的几个版本一次比一次更好。

该库是 YOLOv3 在 TensorFlow 中实现的完整数据管道。它可用在数据集上来训练和评估自己的目标检测模型。其核心亮点包括：

有效的tf.数据管道
重量转换器
极速GPU 非极大值抑制
全训练管道
K-means算法选择Anchor先验框

项目地址：

https://github.com/wizyoung/YOLOv3_TensorFlow

FaceBoxes（高精度 CPU 实时人脸检测器）

计算机视觉领域最大的挑战之一就是掌握计算资源，不是每个人都有多个 GPU。

FaceBoxes 是一种新的人脸检测方法，使用 CPU 速度和精准度均表现良好。FaceBoxes 通过 PyTorch 实现。包含安装、训练和评估人脸检测模型的代码。

项目地址：

https://github.com/zisianw/FaceBoxes.PyTorch

Transformer-XL （谷歌 AI 团队开源的 NLP 框架）

Transformer-XL 是由谷歌 AI 团队开源的 NLP 模型 Transformer 的升级版。建模长期依赖关系是 NLP 领域的棘手问题。RNN 和 Vanilla Transformers 也常被用来建模长期依赖关系，但效果都并不理想。谷歌 AI 团队开发的 Transformer-XL 解决了这一问题。这款库的亮点包括：

Transformer-XL学习的长期依赖关系比RNN长约80%，比vanilla长约450%
Transformer-XL在语言建模任务的评估期间比vanilla Transformer快1800多倍。
基于建模长期依赖关系的能力，Transformer-XL在长序列上具有更好的困惑度（在预测样本方面更准确）。

项目地址：https://github.com/kimiyoung/transformer-xl

StyleGAN （生成超逼真人脸）

下图这些人看起来是不是很逼真？但他们其实并不是真人。这些“人脸”都是由 StlyeGAN 算法生成的。近几年 GAN 热度不减，但是 StyleGAN 在某些方面甚至优于 GAN。

虽然 GANs 自发明以来一直在稳步改进，但 StyleGAN 的进程仿佛更快些。开发人员提出了两种新的、自动化方法来量化这些图像的质量，同时也开放了大量高质量的人脸数据集。

关键资源如下：

项目地址：https://github.com/NVlabs/stylegan

GPT-2（OpenAI 语言模型）

OpenAI 今年 11 月终于发布了 15 亿参数完整版本 GPT-2。这款语言模型被不少人认为是 2019 年“最强通用 NLP 模型”。

GPT-2 可以生成连贯的文本段落，刷新了 7 大数据集基准，并且能在未经预训练的情况下，完成阅读理解、问答、机器翻译等多项不同的语言建模任务。

项目地址：https://github.com/openai/gpt-2

SC-FEGAN （涂鸦人脸编辑生成对抗网络）

SC-FEGAN 听起来像另一款 GAN 库，没错，这的确是基于 GAN 的人脸照片涂鸦编辑。SC-FEGAN 与 StyleGAN 的算法一样出色。

你可以用开发者训练好的深度神经网络来编辑所有类型的人脸照片。SC-FEGAN 非常适合使用直观的用户输入与草图和颜色生成高质量的合成图像。

项目地址：https://github.com/JoYoungjoo/SC-FEGAN

LazyNLP （用于创建海量文本数据集）

LazyNLP 的使用门槛很低——用户可以使用它爬网页、清洗数据或创建海量单语数据集。

据开发者称，LazyNLP 可以让你创建出大于 40G 的文本数据集，比 OpenAI 训练 GPT-2 时使用的数据集还要大。

项目地址：https://github.com/chiphuyen/lazynlp

Subsync 自动将视频与字幕同步

是不是经常会因为字幕与视频不同步而抓狂？这个库能解决这一问题。Subsync 能使字幕与视频自动同步（与哪种语言无关），字幕与视频中的正确起始点对齐。该算法是在 Python 快速傅里叶变换技术上建立的。

Subsync 在 VLC 媒体播放器中同样表现出色。该模型的训练时间只需 20 到 30 秒（取决于视频长度）。

从这样

变成这样

FFHQ：Style-GAN 论文中用于训练生成逼真人脸的数据集，分辨率 1024×1024 的 70,000 张高质量 PNG 图像，在年龄，种族和图像背景方面存在广泛差异。

项目地址：https://github.com/smacke/subsync

FFHQ（用于训练生成逼真人脸的数据集）

Style-GAN 论文中用于训练生成逼真人脸的数据集，包含 7 万张分辨率 1024×1024 的高质量 PNG 图像，各年龄段、各种族人群都有，图像背景也各不相同。

项目地址：https://github.com/NVlabs/ffhq-dataset

BigGAN（BigGAN 的 PyTorch 实现）

不少人对计算机视觉着迷都是因为 GAN。GAN 是几年前由 Ian Goodfellow 发明的，现在已经发展成一个完整的研究体系。

2018 年 DeepMind 提出了 BigGAN 概念，但是等了很久才等到 BigGAN 的 PyTorch 实现。这款库也包含了预训练模型（128×128、 256×256 以及 512×512）。仅需一行代码就可安装：

pip install pytorch-pretrained-biggan

复制代码

项目地址：https://github.com/huggingface/pytorch-pretrained-BigGAN

SPADE（英伟达开源的绘图工具）

SPADE 是英伟达（NVIDIA）新开源的绘图工具。利用生成对抗网络，根据几根简单的线条就能生成栩栩如生的图像。

项目地址：https://github.com/NVlabs/SPADE

SiamMask（实时在线目标跟踪与目标分割统一架构）

这款库是基于《Fast Online Object Tracking and Segmentation: A Unifying Approach》论文提出的。

SiamMask 是一款实时在线目标跟踪与目标分割统一框架。技术简单、通用、快速高效。它可以对目标实时跟踪。此款库还包含预训练模型。

项目地址：https://github.com/foolwood/SiamMask

DeepCamera 世界首个自动机器学习深度学习边缘 AI 平台

ARM GPU 上的深度学习视频处理监控，用于人脸识别以及更多方法。将数码相机变成人工智能相机。使用 ARM GPU / NPU 的边缘 AI 生产级平台，利用 AutoML。面向开发人员/儿童/家庭/中小企业/企业/云的第一个世界级边缘人工智能全栈平台，由社区烘焙。

整个 DeepCamera 概念基于自动机器学习（AutoML），所以训练新模型甚至不需要任何编程经验。

主要亮点：

人脸识别
人脸检测
通过移动程序控制
目标检测
运动检测

OpenAI Sparse Transformer (NLP 框架）

Sparse Transformer 是一款预测序列中一下项的深度神经网络。它包含文本、图片甚至音频。该算法使用深度学习中非常流行的注意力机制从序列中提取模式的时长是以前的 30 倍。

OpenAI 提出的这款模型可以使用数百个层对数万个元素的序列进行建模，在多个域中实现先进的性能。

项目地址：https://github.com/openai/sparse_attention

NeuronBlocks （微软 NLP 深度学习工具包）

NeuronBlocks 是一款由微软开发的 NLP 入门工具包。可以帮助数据科学团队创建端到端神经网络通道。这款工具包的设计初衷是为了减少为 NLP 任务创建深度学习网络模型的成本。

CenterNet（使用中心点探测的计算机视觉）

CenterNet 是一种目标探测方法。总体来讲，探测算法是在图像上将目标以轴对称的框形式框出。大多成功的目标检测器都先观察出目标位置，然后对该位置进行分类，这些方法听起来似乎很合理，但是实际上还需要进行后期处理。

CenterNet 这种方法构建模型时将目标作为一个点。基本上讲，检测器采用关键点评估的方式来识别所有框中的中心点。CenterNet 已经被证明比我们从前了解的其他边界框技术更快、更精准。

项目地址：https://github.com/xingyizhou/CenterNet

BentoML（部署模型工具包）

了解并学习如何部署机器学习模型成为数据科学家必须掌握的技能。BentoML 是一款为数据科学家设计的 Python 库，帮助他们包装和部署机器学习模型。这款工具包可以让你在 5 分钟内将笔记本上的模型走向生产 API 服务。BentoML 服务可以很容易地部署到众多主流平台上，例如 Kubernetes、Docker、Airflow、AWS、Azure 等。

项目地址：https://github.com/bentoml/BentoML

InterpretML（微软深度学习可解释性框架）

InterpretML 是由微软开源的用于训练可解释模型和解释黑箱系统的包。可解释性在以下几个方面至关重要：

调试模型：为什么我的模型会出错？

检测偏见：我的模型会区别对待目标吗？

人类与 AI 合作：我怎样才能理解和信任模型的决策？

合规性：我的模型符合法律规定吗？

高风险应用：医疗健康、金融、司法等…

微软研究人员开发可解释增强机（EBM）算法帮助提高可解释性。此 EBM 技术有较高的精准度和可理解性。Interpret ML 不仅局限于使用 EBM 算法，它同样支持 LIME、线性模型和决策树等方法。

可使用下列代码安装 InterpretML：

pip install numpy scipy pyscaffoldpip install -U interpret

复制代码

项目地址：https://github.com/interpretml/interpret

Tensor2Robot （谷歌研究团队开发的存储库）

Tensor2Robot (T2R) 是一款用于大规模深度神经网络训练、评估和推理的库。此存储库包含分布式机器学习和强化学习基础结构。

项目地址：

https://github.com/google-research/tensor2robot

Generative Models in TensorFlow 2 (在 Tensorflow 2 中实现大量生成模型)

这是一个在 Tensorflow 2 中实现大量生成模型的小项目。图层和优化器都是使用 Keras。这些模型是针对两个数据集实现的：fashion MNIST 和 NSYNTH。编写网络的目的是尽可能简单和一致，同时具有可读性。因为每个网络都是自包含在 notebook 中的，所以它们应该可以在 colab 会话中轻松运行。

该存储库包含多个生成模型的 TF 实现，包括：

生成对抗网络（GAN）
自动编码器
变分自动编码器（VAE）
VAE-GAN等

STUMPY（时间序列数据挖掘）

STUMPY 是一个功能强大且可扩展的 Python 库，可用于各种时间序列数据挖掘任务。

STUMPY 旨在计算矩阵轮廓，矩阵轮廓是一个向量，它存储时间序列中任何子序列与其最近邻居之间的 z-normalized 欧几里德距离。

以下是此矩阵配置文件帮助我们执行的一些时间序列数据挖掘任务：

异常发现
语义分割
密度估计
时间序列链（时序有序的子序列模式集）

使用以下代码可以通过 pip 直接安装 STUMPY：

pip install stumpy

复制代码

项目地址：https://github.com/TDAmeritrade/stumpy

MeshCNN 通用深度神经网络

MeshCNN 是一款用于 3D 三角网格的通用深度神经网络。这些网格可用于 3D 形状分类或分割等任务。MeshCNN 框架包括直接应用于网格边缘的卷积，池化和解除层：

卷积神经网络（CNN）非常适合处理图像和视觉数据。 CNN 近年来风靡一时，随着图像相关应用的涌现而兴起：物体检测、图像分割、图像分类等，随着 CNN 的进步，这些都变成了可能。

项目地址：https://github.com/ranahanocka/MeshCNN

XLNet 大型 NLP 框架

继 BERT 之后，谷歌又推出了一个用于 NLP 框架——XLnet。这是一款以 Transformer-XL 为核心的框架，从论文的结果来看，XLnet 在问答、文本分类、自然语言理解等任务上大幅超越 BERT。开发者放出了预训练模型帮助用户更好地使用 XLNet。

项目地址：https://github.com/zihangdai/xlnet

MMAction 视频动作理解工具包

MMAction 是一个基于 Pytorch 的开源视频动作理解工具包，该工具包采用模块化设计，支持多种流行的物体检测和实例分割算法，并且可以灵活地进行拓展，在速度和显存消耗上也具有优势。

MMAction 可执行下列任务：

在剪辑视频中识别动作；
完整视频中的时序行为检测（通常理解为动作定位）；
完整视频中的时空行为检测

项目地址：https://github.com/open-mmlab/mmaction

Keras 实现 CRAFT 文本检测

CRAFT 的主要思路是先检测单个字符（character region score）及字符间的连接关系（affinity score），然后根据字符间的连接关系确定最终的文本行。CRAFT 可以用于处理任意方向文本、曲线文本、畸变文本等。

CRAFT 的网络结构与 EAST 的网络结构相似：特征提取主干网络部分采用的是 VGG-16 with batch normalization；特征 decode 模块与 U-Net 相似，也是采用自顶向下的特征聚合方式；网络最终输出两个通道特征图，即 region score map 和 affinity score map。

项目地址：https://github.com/clovaai/CRAFT-pytorch

TRAINS 自动化 AI 实验管理器和版本控制器

TRAINS 能记录和管理多种深度学习研究工作负载，并且几乎不需要集成成本。TRAINS 最大的优点就是它是免费的开源项目。工程师只需要编写两行代码就可以将 TRAINS 完全集成到用户场景中。TRAINS 与现有主要框架无缝集成，包括：PyTorch、TensorFlow、Keras 等，并支持 Jupyter 笔记本。

可按照如下代码安装 TRAINS:

 pip install trains

复制代码

添加可选的云存储支持（S3/GoogleStorage/Azure）：

将下列两行代码添加到你的代码中：

from trains import Tasktask = Task.init(project_name="my project", task_name="my task")

复制代码

项目地址：https://github.com/allegroai/trains

谷歌研究足球环境

“谷歌研究足球环境”是一款由谷歌研究团队开发足球游戏。这款游戏可以用于训练人工智能技术系统，让它能够解决复杂的任务。

这款游戏在开发时高度模拟还原了一场真实的足球赛事，包括进球、犯规、角球、点球和越位等事件。开发团队认为足球能够在人工智能强化学习方面提供巨大的帮助，因为它需要在短期控制和已经学习到的概念之间做出自然的平衡，例如精准的传球和高水平的战略。

项目地址：https://github.com/google-research/football

Multi Model Server

Multi Model Server（MMS）是一个灵活且易于使用、用任何 ML/DL 框架都可进行深度学习模型训练的工具。使用 MMS Server CLI 或预配置 Docker 图像来设置 HTTP 端点来处理模型推理请求。

项目地址：

https://github.com/awslabs/multi-model-server

Kaolin（让 3D 深度学习研究更简单的 PyTorch 库）

Kaolin 的核心是一套可以操控 3D 内容的有效几何函数。它可以将以多边形网格、点云、有符号距离函数或体元栅格形式实现的张量 3D 数据集装入 PyTorch。

以 PyTorch 库形式实现的 Kaolin 能够简化 3D 深度学习模型的准备工作，将原来所需的 300 行代码减少到只需 5 行。像这样的工具可以让众多领域的研究人员受益，比如机器人、自动驾驶汽车、医学成像和虚拟现实等。

项目地址：https://github.com/NVIDIAGameWorks/kaolin

使用 PyTorch 实现 3D Ken Burns

手动创建 Ken Burns 效果非常耗时，而且十分复杂。现有的方法需要从多个角度获取大量的输入图像。用起来并不理想。使用 PyTorch 实现 3D Ken Burns，在给定单个输入图像的情况下，它会通过虚拟摄像机扫描和缩放动画来对静态图像进行动画处理，并使其受到运动视差的影响。

项目地址：https://github.com/sniklaus/3d-ken-burns

Plato 腾讯开源的图计算框架

这款由腾讯开源的图计算框架 Plato 可以高效地支撑腾讯超大规模社交网络图数据的各类计算，且性能达到了学术界和工业界的顶尖水平，比 Spark GraphX 高出 1-2 个数量级，使得许多按天计算的算法可在小时甚至分钟级别完成，也意味着腾讯图计算全面进入了分钟级时代。同时，Plato 的内存消耗比 Spark GraphX 减少了 1-2 个数量级，意味着只需中小规模的集群（10 台服务器左右）即可完成腾讯数据量级的超大规模图计算，打破了动辄需要上百台服务器的资源瓶颈，同时也极大地节约了计算成本。

项目地址：https://github.com/tencent/plato

Tokenizer

这是一款由 hugging face 发布的可帮助 NLP 进行词语切分的文本工具。Tokenizer 可在 20 秒编码 1GB 文本，适用 Rust、Python 和 Node.js。在 NLP 模型训练中，词语标记和切分往往是一大难题。Tokenizer 能够训练新的词汇，并且进行标记。

推荐通过 Composer 来安装：

composer require nette/tokenizer

复制代码

项目地址：https://github.com/nette/tokenizer

DeeperForensics-1.0

商汤研发部门与新加坡南洋理工大学合作，设计了一个新的大规模基准 DeeperForensics-1.0 来检测人脸伪造，该基准是同类产品中最大的，质量和多样性都很高，比其他数据集更加接近现实世界场景。100 位计算机专家对 DeeperForensics-1.0 中包含的视频子集质量进行排名时，报告指出与其他流行的 Deepfake 检测语料库相比，DeeperForensics-1.0 在规模上的真实性均领先。研究人员称 DeeperForensics-1.0 是同类产品中最大的，拥有 60000 多个视频，其中包含大约 1760 万帧。

项目地址：

https://github.com/EndlessSora/DeeperForensics-1.0

亚马逊基于 mxnet 的开源库 AutoGluon

亚马逊 AWS 推出新的基于 mxnet 的开源库 AutoGluon，这是一个新的开源库，开发人员可以使用该库构建包含图像、文本或表格数据集的机器学习应用程序。只需三行代码就可以自动生成高性能模型，让调参、神经架构搜索等过程实现自动化，无需研究人员人工决策，大大降低了机器学习模型的使用门槛。

项目地址：https://github.com/awslabs/autogluon

Lyft Flyte

Flyte 是一款由美国网约车公司 Lyft 开源的自家的云本地机器学习和数据处理平台。Flyte 是一个结构化编程和分布式处理平台，用于高度并发、可伸缩和可维护的工作流。

项目地址：https://github.com/lyft/flyte

Manifold

Uber 开源的 Manifold 是一种与模型无关的视觉工具，它可以显示特征分布的差异（即所观察到的现象的可测量属性）。Manifold 的性能比较视图可比较模型和数据子集的预测性能。它也是米开朗基罗机器学习平台的一部分，该平台已帮助各种产品团队分析了无数的 AI 模型。

项目地址：https://github.com/uber/manifold

NNI (神经网络智能)

NNI (Neural Network Intelligence) 是一个轻量但强大的工具包，帮助用户自动进行特征工程、神经网络架构搜索、超参调优以及模型压缩。

NNI 管理自动机器学习 (AutoML) 的 Experiment，调度运行由调优算法生成的 Trial 任务来找到最好的神经网络架构和/或超参，支持各种训练环境，如本机、远程服务器、OpenPAI、Kubeflow、基于 K8S 的 FrameworkController（如，AKS 等)，以及其它云服务。

项目地址：https://github.com/microsoft/nni

GPipe

GPipe 是一个分布式机器学习库，使用同步随机梯度下降和流水线并行技术进行训练，适用于任何由多个序列层组成的 DNN。重要的是，GPipe 让研究人员无需调整超参数，即可轻松部署更多加速器，从而训练更大的模型并扩展性能。核心 GPipe 库是在 Lingvo 框架下开源的。

项目地址：https://github.com/tensorflow/lingvo

PyText

PyText 是一个基于 PyTorch 构建的 NLP 建模（基于深度学习）框架，核心功能可以支持文本分类、序列标注等神经网络模型。PyText 可以简化工作流程，加速试验，同时还能促进大规模部署。

项目地址：https://github.com/facebookresearch/pytext

Reformer PyTorch 中有效的 Transformer

该款 Reformer Transformer 架构改变了 NLP 的“版图”。它催生了大量的 NLP 框架，例如 BERT、XLNet 和 GPT-2 等。但是我们过去所了解的 Transformer 框架的规模都是巨大的，成本也非常高，让很多想要学习和实现它们的人望尘莫及。

GitHub 上包含了 Reformer 的 PyTorch 实现。该项目的作者提供了一个简单但有效的示例并开放了整个代码，用户可以根据需求搭建自己的模型。

可按照下列指令将 Reformer 安装在机器上：

pip install reformer_pytorch

复制代码

项目地址：

https://github.com/lucidrains/reformer-pytorch

PandaPy （将成为新的最受欢迎的 Python 库）

如果您正在处理一个带有混合数据类型（int、float、datetime、str 等）的机器学习项目，那么您应该尝试使用 PandaPy 而不是 Pandas。对于这些数据类型，它比 Pandas 少消耗近三分之一的内存。

用 pip 安装 PandaPy：

!pip3 install pandapy

复制代码

项目地址：https://github.com/firmai/pandapy

AVA 阿里巴巴智能可视分析框架

AVA 由蚂蚁金服 AntV & DeepInsight、新零售技术事业群 FBI、盒马 Kanaries 等阿里巴巴集团内多个核心数可视化技术和产品团队联合共建。

AVA 是为了更简便的可视分析而生的技术框架。其名称中的第一个 A 具有多重涵义：它说明了这是一个出自阿里巴巴集团（Alibaba）技术框架，其目标是成为一个自动化（Automated）、智能驱动（AI driven）、支持增强分析（Augmented）的可视分析解决方案。

演示案例：

项目地址：

https://github.com/antvis/AVA/blob/master/zh-CN/README.zh-CN.md

fast-neptune（加速机器学习项目进程）

fast-neptune 是一个能帮你快速记录启动实验时所需的所有信息的库，可在 Jupyter 笔记本上运行。可再现性已经成为了机器学习中的关键一环，对于实验研究和现实应用都至关重要。我们希望在现实应用中得到可靠的结果，跟踪每个测试参数的设置及其结果。

fast-neptune 在 pypi 上可用，所以只需简单运行下列指令：

pip install fast-neptune

复制代码

项目地址：https://github.com/DanyWind/fast_neptune

ergo

ergo 是从拉丁语“我思故我在 Cogito ergo sum”中而来，这是一款能让 Keras 机器学习更加简单的命令行工具。它可以：

用最少数量的代码在数秒内构建新项目；
编码样本、导入和优化 CSV 数据集并且用这些来训练模型；
在训练中可视化模型结构、损失和精准函数；
借助差分推理决定每个输入特征如何影响精准度；
从服务器导出一个简单的 REST API 来使用模型。

项目地址：https://github.com/evilsocket/ergo

哪吒

这是华为诺亚方舟实验室自研的预训练语言模型，在一些 NLP 任务上取得了 SOTA 的表现。这一模型基于 BERT，可以在普通的 GPU 集群上进行训练，同时融合了英伟达和谷歌代码的早期版本。哪吒模型已有四种中文的预训练模型，分别是 base、large 和对应的 mask 和全词 mask 类型。

项目地址：

https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA

TinyBERT

TinyBERT 同样是由华为诺亚方舟实验室开源的预训练语言模型，这是一个通过蒸馏方法获得的 BERT 模型。相比原版的 BERT-base，TinyBERT 比它小了 7.5 倍，推理速度则快了 9.4 倍。无论是在预训练阶段还是特定任务学习阶段，TinyBERT 的性能都更好。

项目地址：

https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

Metaflow

Metaflow 是 Netflix 机器学习基础架构的关键部件，主要用于加速数据科学工作流的构建和部署，Netflix 希望通过开源 Metaflow 简化机器学习项目从原型阶段到生产阶段的过程，进而提高数据科学家的工作效率。在过去两年中，Metaflow 已在 Netflix 内部用于构建和管理从自然语言处理到运营研究的数百个数据科学项目。

Metaflow 也可以与当前主流的 Python 数据科学库一起使用，包括 PyTorch、Tensorflow 和 SciKit Learn。

项目地址：https://github.com/Netflix/metaflow

ZEN

ZEN 是由创新工场 AI 工程院和香港科技大学联合研究的一款基于 BERT 的中文预训练模型。在中文任务中，ZEN 不仅性能优于 BERT，也比之前中文预训练模型更好。ZEN 对高概率成词的 n-gram 添加了独有的编码和向量表示，此模型可以提供更强的文本的编码能力和理解能力。

项目地址：https://github.com/sinovation/zen

Megatron-LM

Megatron 是一款强大的 transformer。目前，它支持 GPT2 和 BERT 混合精度的模型并行、多模训练。我们的代码库能有效地训练一个在 512 个 GPU 上让 8-way 和 64-way 数据并行的 72 层、83 亿参数 CPT2 语言模型。

研发团队发现更大的语言模型能够在短短 5 次训练中超越当前 GPT2 15 亿参数 wikitext。为了训练 BERT，存储库在 3 天内训练了 64 个 V100 GPU 上的 BERT Large。最终的语言建模 perplexity 为 3.15，SQuAD 为 90.7。

项目地址：https://github.com/NVIDIA/Megatron-LM

RoughViz

RoughViz 是一款很棒的 JavaScript 数据可视化库，能够生成手绘草图或可视化数据，基于 D3v5、roughjs 和 handy。可以按下列指令安装 RoughViz：

npm install rough-viz

复制代码

项目地址：https://github.com/jwilber/roughViz

T5 Text-to-Text Transfer Transformer

T5 是谷歌研发的一款文本到文本转换框架，基于 Transformer。该框架在多个 benchmarks 上的总结、问题回答、文本归类任务表现突出。开发团队已经在 GitHub 上开源了 T5 相关数据集、预训练模型以及所有代码。T5 为文本到文本任务的模型训练和微调提供了非常实用的模块，开发者可以将它用于未来的模型开发工作中。

项目地址：

https://github.com/google-research/text-to-text-transfer-transformer

Ultra-Light and Fast Face Detector

这是一个超级轻量级的人脸检测模型，也是非常实用的计算机视觉应用，它的模型大小仅有 1MB，堪称现象级的开源发布。

项目地址：

https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB

NVIDIA Few-Shot viv2vid

vid2vid 能够将输入的视频语义标签转换为非常逼真的视频输出，比如可以输入姿势、谈话内容，生成一套完整动作的视频。

项目地址：https://github.com/NVlabs/few-shot-vid2vid

腾讯分布式消息中间件 TubeMQ

TubeMQ 是腾讯开源的分布式消息中间件系统，专注服务大数据场景下海量数据的高性能存储和传输。相比 Kafka 依赖于 Zookeeper 完成元数据的管理和实现 HA 保障不同，Tube MQ 系统采用的是自管理的元数据仲裁机制方式进行，Master 节点通过采用内嵌数据库 BDB 完成集群内元数据的存储、更新以及 HA 热切功能，负责 Tube MQ 集群的运行管控和配置管理操作，对外提供接口等；通过 Master 节点，Tube MQ 集群里的 Broker 配置设置、变更及查询实现了完整的自动化闭环管理，减轻了系统维护的复杂度。

项目地址：https://github.com/Tencent/TubeMQ

SandDance 数据可视化工具

SandDance 是微软研究院推出的以 Web 为基础的数据视觉化应用，并且提供了触控式的界面，实现使用者和 3D 信息图表进行互动，更加特别的是可以以不同的角度不同的方式呈现分析结果，使用户可以通过可视化的方式更加直观的接受数据信息。

项目地址：https://github.com/microsoft/SandDance

NeuralClassifier（NLP）神经分类器

神经分类器的设计是为了快速实现分层多标签分类任务的神经模型，这在现实场景中更具有挑战性和普遍性。一个突出的特点是神经分类器目前提供了多种文本编码器，如 FastText、TextCNN、TextRNN、RCNN、VDCNN、DPCNN、DRNN、AttentiveConvNet、Transformer encoder 等。它还支持其他文本分类场景，包括二进制类和多类分类。

项目地址：

https://github.com/Tencent/NeuralNLP-NeuralClassifier

基于深度学习的 CTR 预测算法库 DeepCTR-Torch

这是一个免费的 Python 库，使用 Pyforest 可在一行代码中导入所有 python 数据科学库。Pyforest 目前可导入包括 pandas、numpy、matplotlib 等等众多的数据科学库。

Pyforest 的使用方式也非常简单，只要使用 pip install pyforest 在您的计算机上安装库，就可以使用了。您可以在一行代码中导入所有流行的用于数据科学的 python 库：

from pyforest import *

复制代码

项目地址：https://github.com/8080labs/pyforest

暂无评论

这道面试题，出错率90%

田维常

面试

深度解析！滴滴内部开源Spring IoC和AOP源码小册

Java架构追梦

Java spring 架构 aop ioc

获奖名单｜七日更挑战成功！

InfoQ写作平台

奖品活动专区七日更

Linux进程知识干货|收藏

赖猫

c++ Linux 后台开发运维

数字货币交易所开发的功能与特点

系统开发咨询：I76-883I-5I52 邓森

千里公路建设尽收眼底，3D可视化监测管养运，领导都惊呆了

一只数据鲸鱼

物联网数据可视化 3D可视化公路建设智慧交通

四年三次获奖，PostgreSQL再度荣获“年度数据库”桂冠！

PostgreSQLChina

数据库 postgresql 开源

掏空各大厂面试题库的“380JAVA面试题（性能优化+微服务+并发编程+开源框架+分布式）”跳槽大厂必备！

Java成神之路

Java 程序员架构面试编程语言

软件测试--中间件介绍

测试人生路

软件测试中间件

如何防止短信验证码接口被恶意调用攻击？

香芋味的猫丶

短信短信防刷接口安全验证码

区块链数字货币交易所开发的简介

系统开发咨询：I76-883I-5I52 邓森

Flink SQL 实战：双流 join 场景应用

Apache Flink

flink 流计算

智慧公安防控管理平台搭建，重点人员管控系统解决方案

t13823115967

智慧公安

有没有听说过通达快递？

escray

极客时间极客大学课程作业大作业架构师训练营第 1 期

Python的GIL

yunson

Python GIL

敏捷团队的质量保障赋能

BY林子

质量保障质量赋能敏捷测试

电商平台如何激发内容生态

马踏飞机747

内容内容分发网络电商

我参与阿里巴巴 ASoC-Seata 的一些感悟

阿里巴巴云原生

阿里云开发者云原生感悟 seata

程序员修炼之路：你该知道的 7 个必经阶段

阿里巴巴云原生

阿里云程序员云原生自我思考成长笔记

智慧社区管理平台建设，智慧平安小区整体解决方案

t13823115967

智慧社区安防系统平台开发

Tyk 和 Apache APISIX 性能横评

飞狐

性能测试 APISIX

美团四面，offer已拿；分享个人面经以及刷题经验！

Java成神之路

Java 程序员架构面试编程语言

对冲基金的子基金模式vs集中管理

9527

智慧社区安防系统平台开发，平安智慧小区建设方案

WX13823153201

智慧社区安防系统平台开发

纵观 ActiveX 平台的兴衰史，看开发控件的技术演变

Geek_Willie

SpreadJS activex

浅析整洁架构之道(一) 为什么需要整洁架构

御剑

架构 DDD 整洁架构 The Clean Architecture Robert C. Martin

别再问我“阿里架构师和普通程序员的区别了！”看完这篇文章之后你就知道自己差在哪了！

Java成神之路

Java 程序员架构面试编程语言

2020年11期券商App行情刷新及交易体验评测报告

BonreeAPM

APM 数据 AIOPS 证券

7 天开发后台系统技术小结

老魚

程序员全栈建站

国外低代码平台趟过那些坑，对国内低代码企业有哪些启示？

DT极客

LINUX SHELL脚本攻略

田维常

写下你的想法，一起交流







你可能感兴趣的:(ppython,自然语言处理,2020年,AI,工具库,目标检测,NLP)

医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
TCP通讯开发注意事项及常见问题解析
文章目录一、TCP协议特性与开发挑战二、粘包与拆包问题深度解析1.成因原理2.典型场景与实例验证3.系统化解决方案接收方每次读取10字节2.丢包检测与验证工具3.工程化解决方案四、连接管理关键实践1.超时机制设计2.TIME_WAIT状态优化3.异常处理最佳实践五、高性能TCP开发优化1.缓冲区调优指南2.心跳机制实现3.高并发配置六、安全传输增强七、总结与最佳实践一、TCP协议特性与开发挑战TC
Kotlin main函数
main()函数来仔细看看main()函数。实际上，它就是一个很常见的函数：你可以对它做任何你能对普通函数做的事。唯一的不同是：它是程序的入口点（entrypoint）。这意味着程序的执行从调用这个函数开始。我们来拆解一下main()的结构：funmain(){}代码解释：fun是关键字，表示我们正在定义一个函数；main是函数名。这个名字不能改：比如如果你改成Main()，程序可能会编译成功，但
从Prompt到结构建模：如何以数据驱动重构日本语言学校体系？以国际日本语学院为例 semantist@语校语言学校Prompt模板集 prompt 人工智能数据集 github 知识图谱数据结构 ai
从Prompt到结构建模：如何以数据驱动重构日本语言学校体系？以国际日本语学院为例系列说明500所日本语言学校结构化建模实战，第8篇。每篇拆解1所学校在Prompt-QA系统中的建模策略，分享工程经验，本项目持续在HuggingFace上同步更新，欢迎AI工程师们关注。语言学校不是黑箱：为何要建模？在日本，每一所语言学校背后都隐藏着复杂的法律结构、招生路径与教学机制。但多数申请者、中介甚至部分行政
32、Swift 中的行为设计模式：命令与策略模式详解 win55 精通Swift 2：从入门到实践 Swift 行为设计模式命令模式
Swift中的行为设计模式：命令与策略模式详解1.行为设计模式概述行为设计模式解释了对象之间如何相互交互，描述了不同对象如何相互发送消息以实现特定功能。常见的行为设计模式有以下九种：-责任链模式（Chainofresponsibility）：用于处理各种请求，每个请求可能会委托给不同的处理程序。-命令模式（Command）：创建可以封装操作或参数的对象，以便稍后或由不同组件调用。-迭代器模式（It
一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
大模型开源王炸！Kimi K2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容 transformer chatgpt 深度学习 lstm kimi Agent AIGC
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十七开源王炸！KimiK2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入一、架构
避免mac进入休眠状态 NextStepPeng
不要进入休眠状态：当你临时不希望电脑进入休眠状态时，可以使用caffeinate命令让电脑时刻清醒。当你需要其恢复正常时，按下⌃Control-C即可停止该命令。image.png参考：https://sspai.com/post/45534
马斯克AI大模型Grok开源了！
2024年3月18日，马斯克的AI创企xAI兑现承诺，正式发布了此前备受期待大模型Grok-1。代码和模型权重已上线GitHub:https://github.com/xai-org/grok-1截止目前，Grok已经在GitHub上获得了35.2k颗Star，还在不断上升中。Grok官方博客介绍：https://x.ai/blog/grok-os遵照Apache2.0协议开放了Grok-1混合专
网络爬虫——python爬取豆瓣评论 SSeaflower 爬虫 python 开发语言
网络爬虫——python爬取豆瓣评论一、网络爬虫概述1.1网络爬虫定义网络爬虫，又被称为网络蜘蛛（WebSpider）、网络机器人等。它根据网页地址（URL）爬取网页内容，网页地址（URL）就是我们在浏览器中输入的网站链接。例如：https://www.baidu.com；https://movie.douban.com/。网络爬虫不仅能够复制网页信息和下载音视频，还可以做到网站的模拟登录和行为链
git常用命令行和注意事项捂耳听雨
第一部分：免密码推送1，命令配置gitconfig--globaluser.name"这里换上你的用户名"gitconfig--globaluser.email"这里换上你的邮箱"2.生成秘钥ssh-keygen-trsa-C"这里换上你的邮箱"，需要确认四次3.在系统用户目录下生成两个文件，分别是id_rsa(私钥)和id_rsa.pub(公钥)4.进入github的设置页面，点击SSHandG
JAVA无人系统台球室源码自助开台约球交友系统源码小程序
全域无人化运营革命：JAVA无人系统台球室源码解析（支持茶室/棋牌/KTV多业态）在共享经济与无人化浪潮的推动下，全球自助娱乐市场规模突破千亿美元，传统台球室、棋牌室面临人力成本高、运营效率低、用户粘性弱等痛点。JAVA无人系统台球室源码以SpringBoot+MyBatisPlus+MySQL为核心技术栈，通过Uni-app跨端开发实现小程序/H5/APP全渠道覆盖，集成AI裁判、社交裂变、多支
WordPiece、BPE详解及代码
1.BPE是干什么用的？WordPiece字面理解是把word拆成piece一片一片，其实就是这个意思。WordPiece的一种主要的实现方式叫做BPE（Byte-PairEncoding）双字节编码。“loved”,“loving”,“loves"这三个单词。其实本身的语义都是“爱”的意思，但是如果我们以单词为单位，那它们就算不一样的词，在英语中不同后缀的词非常的多，就会使得词表变的很大，训练速
maven本地仓库清缓存py脚本就叫飞六吧 maven 缓存 spring
清_remote.repositories、以及.lastUpdated缓存文件，避免换仓库or私服的时候一直往旧地方去download从而引起的failtodownlown问题importosimportsysdefdelete_maven_metadata_files(directory):"""递归删除指定目录下的_remote.repositories和.lastUpdated文件:par
Prompt：开启与AI高效对话的钥匙
解密Prompt：开启与AI高效对话的钥匙一、什么是Prompt？——AI的“使用说明书”想象一下，你正在指挥一位无所不知但毫无主动性的“实习生”——人工智能（AI）。你不能指望它“心领神会”，你必须给出清晰、具体的指令，它才能准确地完成你想要的任务。这个指令，就是Prompt（提示或提示词）。简单来说，Prompt是你向AI（如大型语言模型LLM）发出的文本或问题，用以引导它生成特定的、高质量的
晨语问安2020年5月24日求索大伟
『晨语问安5.24』从俭入奢易，从奢入俭难。没有人愿意一直生活在一个特定的环境中，总愿意让生活充满起伏和激情，但是久居兰室不闻其香，久居鲍市不闻其臭，生活的惯性会让自己不愿意离开现有的环境，尤其是比较优越的环境更难以放弃，尤其是从富贵到贫贱更是无法接受。一切都可以改变，关键是个体的顿悟，一个节点的顿悟，让自己真正感知到生活的真谛，让精神状况得以翻天覆地的改变，就能用无比的激情投入到崭新的生活当中，
BPE（字节对编码）和WordPiece 是什么 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法人工智能 transformer 深度学习
BPE（字节对编码）和WordPiece是什么BPE（字节对编码）和WordPiece是自然语言处理中常用的子词分词算法，它们通过将文本拆分为更小的语义单元来平衡词汇表大小和表达能力。BPE（BytePairEncoding，字节对编码）原理初始化：将文本按字符（或Unicode字节）拆分为最小单元，形成初始词汇表。统计合并：迭代合并最频繁出现的相邻字符对，形成新的子词单元，直到达到预设的词汇表大
PTA浙大版《C语言程序设计（第3版）》题目集.2 Xiao 竹 zi c语言算法数据结构
习题4-10猴子吃桃问题#includeintmain(){intn,m=1;scanf("%d",&n);for(inti=1;iintmain(){intn,a=1,b=1,i;scanf("%d",&n);if(n==1){printf("1");}else{for(i=3;(a+b)intmain(){charc;intre=0,t,flag=0;scanf("%d%c",&re,&c);
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
AI人工智能领域多模态大模型的发展历程回顾 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
AI人工智能领域多模态大模型的发展历程回顾关键词：AI人工智能、多模态大模型、发展历程、技术演变、应用场景摘要：本文旨在全面回顾AI人工智能领域多模态大模型的发展历程。通过对不同阶段核心概念、算法原理、数学模型等方面的深入剖析，结合实际项目案例，探讨其在各个领域的应用场景。同时，推荐相关的学习资源、开发工具和重要论文著作，最后总结多模态大模型的未来发展趋势与挑战，并对常见问题进行解答。1.背景介绍
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
abp 上如何使用getstoredproccommand_如何使用Chainlink VRF在以太坊上生成随机数何堤森 abp
随机数和区块链一直很难达到“一致”(译者注：区块链要求确定性，而随机数正相反)。到目前为止，区块链上还没有可验证的随机函数。原因是：交易被旷工出块后，需要网络上的多个节点来确认才算真实有效。就要求每个节点验证时都必须得出相同的结果。如果函数是随机的(每次运行的结果不一样)，则每个节点将得出不同的结果，从而导致交易得不到确认。有一些解决(变通)方法[1]可以生成一些伪随机生成[2]，但到目前为止，已
Failed to fetch http://packages.ros.org.ros/ubuntu/dists/xenial/InRelease
尝试了将地址修改成http://packages.ros.org/ros/ubuntu/dists/xenial/InRelease，更差；尝试了sudorm-f/etc/apt/sources.list.d/ros-latest.list/binary-amd64/Packages不建议这么做。过了一阵子，自己好了！！！！总结：查看自己网络连接，或者等一会再update，自己就好了。
HKUST-Aerial-Robotics/VINS-Mono 测试过程中遇到的问题 Kris_u Linux linux
ubuntu18.041、sudoapt-getupdate失败:GPGerror:http://packages.ros.org/ros/ubuntubionicInRelease:详细错误信息：Thefollowingsignatureswereinvalid:EXPKEYSIGF42ED6FBAB17C654OpenRoboticsW:Failedtofetchhttp://packages
“闭门造车”之多模态思路浅谈：自回归学习与生成 PaperWeekly 回归学习数据挖掘人工智能机器学习
©PaperWeekly原创·作者|苏剑林单位|科学空间研究方向|NLP、神经网络这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。在前文《“闭门造车”之多模态思路浅谈：无损》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重
疫情时期，如何让自己每天保持好心情铿锵玫瑰陈满霞
2020年2月13日星期四雨疫情特殊时期，在日记星球这一期的21天蜕变之旅每晚的微课分享上多了一个环节，有我们的宣传委员秀娥老师为大家分享健康知识。昨晚秀娥老师分享的健康主题是《音乐的力量》。在这个肺炎非常时期，很多人都宅在家很长时间了，接下来还要宅多久我们也不知道，为了让宅在家里每天都能保持好心情，秀娥老师给了我们几个好建议。听音乐，现在用手机、电脑或者电视听音乐都是非常方便的，找一些熟悉的经典
Online Judge PTA 字符串排序 Flocx Online Judge PTA 数据结构 c++c语言
字符串排序描述输入n个字符串，将这n个字符串从小到大排序后输出。输入第一行是一个整数n，表示有n个字符串，接下来n行，每行一个字符串。1usingnamespacestd;#defineMAX_STRINGS100#defineMAX_LENGTH21voidsortStrings(char(*arr)[MAX_LENGTH],intn);intmain(){intn;charstrings[MA
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
Actor - Critic：AI人工智能领域的新宠儿
Actor-Critic：AI人工智能领域的新宠儿关键词：强化学习、Actor-Critic、策略梯度、价值函数、深度强化学习、A2C、A3C摘要：Actor-Critic是强化学习领域的一种重要算法框架，它结合了策略梯度方法和价值函数方法的优点，成为近年来人工智能领域的热门研究方向。本文将用通俗易懂的方式介绍Actor-Critic的核心概念、工作原理、实现方法以及实际应用，帮助读者理解这一强大
知识表示与推理：AI智能的核心技术 AIGC应用创新大全人工智能 easyui 前端 ai
知识表示与推理：AI智能的核心技术1.引入与连接：AI如何"思考"世界？想象一下，当你询问智能助手："我明天需要带伞吗？"它如何得出答案？它需要理解"带伞"与"天气"的关系，需要获取天气预报信息，需要推断明天的天气状况，最终综合这些"知识"给出建议。这一看似简单的过程，背后正是AI的核心能力：知识表示（如何"记住"信息）和推理（如何"思考"问题）。从Siri到AlphaGo，从推荐系统到自动驾驶，
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

2020年最值得收藏的60个AI开源工具

Flair (顶级 NLP 库）

face.evoLVe（高性能人脸识别库）

YOLOv3

FaceBoxes（ 高精度 CPU 实时人脸检测器 ）

Transformer-XL （谷歌 AI 团队开源的 NLP 框架）

StyleGAN （生成超逼真人脸）

GPT-2（OpenAI 语言模型）

SC-FEGAN （涂鸦人脸编辑生成对抗网络）

LazyNLP （用于创建海量文本数据集）

Subsync 自动将视频与字幕同步

FFHQ（用于训练生成逼真人脸的数据集）

BigGAN（BigGAN 的 PyTorch 实现）

SPADE（英伟达开源的绘图工具）

SiamMask（实时在线目标跟踪与目标分割统一架构）

DeepCamera 世界首个自动机器学习深度学习边缘 AI 平台

OpenAI Sparse Transformer (NLP 框架）

NeuronBlocks （微软 NLP 深度学习工具包）

CenterNet（使用中心点探测的计算机视觉）

BentoML（部署模型工具包）

InterpretML（微软深度学习可解释性框架）

Tensor2Robot （谷歌研究团队开发的存储库）

Generative Models in TensorFlow 2 (在 Tensorflow 2 中实现大量生成模型)

STUMPY（时间序列数据挖掘）

MeshCNN 通用深度神经网络

XLNet 大型 NLP 框架

MMAction 视频动作理解工具包

Keras 实现 CRAFT 文本检测

TRAINS 自动化 AI 实验管理器和版本控制器

谷歌研究足球环境

Multi Model Server

Kaolin（让 3D 深度学习研究更简单的 PyTorch 库）

使用 PyTorch 实现 3D Ken Burns

Plato 腾讯开源的图计算框架

Tokenizer

DeeperForensics-1.0

亚马逊基于 mxnet 的开源库 AutoGluon

Lyft Flyte

Manifold

NNI (神经网络智能)

GPipe

PyText

Reformer PyTorch 中有效的 Transformer

PandaPy （将成为新的最受欢迎的 Python 库）

AVA 阿里巴巴智能可视分析框架

fast-neptune（加速机器学习项目进程）

ergo

哪吒

TinyBERT

Metaflow

ZEN

Megatron-LM

RoughViz

T5 Text-to-Text Transfer Transformer

Ultra-Light and Fast Face Detector

NVIDIA Few-Shot viv2vid

腾讯分布式消息中间件 TubeMQ

SandDance 数据可视化工具

NeuralClassifier（NLP）神经分类器

基于深度学习的 CTR 预测算法库 DeepCTR-Torch

评论

更多内容推荐

如何整理出我们自己的可视化工具集？

Facebook 开源深度学习框架 Pythia，支持视觉和语言多任务处理

并行图像分类：在 Azure HDInsight Spark 上使用 Cognitive Toolkit 与 TensorFlow

2018 年最值得关注的 10 个机器学习开源项目

对 PyTorch BERT 模型进行微调，并将其部署到 Amazon SageMaker 上的 Amazon Elastic Inference

万里挑一！热门机器学习开源资源最强盘点

英特尔开源计算机视觉数据标签工具 CVAT，加速数据注释

神经机器翻译模型演进三部曲

谷歌用于图像识别的机器学习模型已移植至 TensorFlow 并已开源

PyTorch 1.0 宣布用于研究和生产 AI 项目

融会贯通：Sparrow RecSys 中的电影相似推荐功能是如何实现的？

Facebook 开源深度学习项目 Torchnet

机器学习的 11 个开源项目

43 丨深度学习（下）：如何用 Keras 搭建深度学习网络做手写数字识别？

谷歌借助 ELECTRA 实现更高效的 NLP 模型预训练

WXSS 特性之样式

云上 AI 服务：云 AI 能从哪些方面帮助构建智能应用？

腾讯开源 ML-Images，超越谷歌成业内最大多标签图像数据集

FaceBoxes（高精度 CPU 实时人脸检测器）