An frazer

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）

摘要：本文将对 Capsule 进行分析。整体上来看，Capsule 算法的细节不是很复杂，对照着它的流程把 Capsule 用框架实现它基本是没问题的。所以，困难的问题是理解 Capsule 究竟做了什么，以及为什么要这样做，尤其是 Dynamic Routing 那几步。

论文原网址：请戳
根据论文完成的部分代码

整体上来看，Capsule 算法的细节不是很复杂，对照着它的流程把 Capsule 用框架实现它基本是没问题的。所以，困难的问题是理解 Capsule 究竟做了什么，以及为什么要这样做，尤其是 Dynamic Routing 那几步。

众所周知，Capsule 给人的感觉就是“似乎有太多人为约定的内容”，没有一种“虽然我不懂，但我相信应该就是这样”的直观感受。所以尽可能将 Capsule 的来龙去脉思考清楚，使我们能觉得 Capsule 是一个自然、流畅的模型，甚至对它举一反三。

虽然都是先分析了动态路由的结果，然后指出输出是输入的某种聚类，这个“从结果到原因”的过程多多少少有些望文生义的猜测成分。但这次则反过来，直接确认输出是输入的聚类，然后反推动态路由应该是怎样的，其中含糊的成分大大减少。

Capsule框架

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第1张图片

图1：Capsule框架的简明示意图

与其说 Capsule 是一个具体的模型，倒不如说 Capsule 是一个建模的框架，而框架内每个步骤的内容，是可以自己灵活替换的，而 Hinton 所发表的论文，只是一个使用案例。
这是一个怎样的框架呢？

特征表达

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第2张图片

图2：Capsule的每个特征都是向量，并且通过聚类来递进

当然，对于关注新闻的读者来说，这已经不是什么新消息。可能读者会有疑问：用向量来表示特征有什么稀奇的，本来神经网络的特征输入不就是一个向量吗？

原来神经网络（MLP）的每一层输入是一个向量，然后输出是，我们就将 x 的每一个分量都看成一个特征，那么每个特征都是标量了。
而所谓的特征向量化后，那么每一层的输入变成了，然后输出是，这时候的输入 x 也看成是 n 个特征，但每个特征都是一个 dx 维向量；输出 y 则看成是 k 个特征，每个特征是一个 dy 维向量。

换一个角度看，其实就是说 MLP 每一层的输入输出由单个的向量变成了向量的集合（矩阵）。
或者我们可以将它换一个名称，叫做“特征的分布式表示”。也许有读者看到了“分布式表示”，会想起 NLP 中的词向量。
没错，词向量一开始确实叫做“分布式表示”（Distributed Representation），当看到 Capsule 的这一特点，第一反应也就是词向量。

同时也可以用词向量代替 one hot 来表示一个词，这样表达的信息就更为丰富了，而且所有的词都位于同一向量空间，方便后续处理。
此外，事实上图像中早也有这样的例子，众所周知彩色图像一般有 RGB 三个通道，每个通道 256 个选择，所以一共可以表达 256 的三次方，即 16777216 种颜色（约 1700 万）。
为什么不直接用 1700 万个数字来分别表示这 1700 种颜色，而要分开 3 组，每组 256 个数字呢？

这其实也是一种分布式表示，这样可以更好地表达色彩的多样性。比如红色的相近颜色是什么色？也许有人说橙色，也有人说紫色，也有可能是粉红，单一一个数字难以表达多种的相似性，而分组后则可以。
更进一步说，我们在对图像不断进行卷积操作时，所得结果的通道维度，其实就是图像特征的一种分布式表示了。

特征组合

Capsule 的第二个特点，是通过聚类来组合特征。

组合与表达

通过将底层特征组合为上层的特征，是跟我们的认知规律是相符的。在NLP中，我们有“字–>词–>句–>段”的层层组合；在图像中，我们也有“点–>线–>面–>体”的层层组合。
面对新事物（上层特征），我们总会将它分解为我们熟悉的一些事物（底层特征），然后脑海里将这些事物映射到这个新事物（特征组合）。
对于我们来说，这个分解和组合的过程，不一定有什么目的，而只是为了用我们自己的方式去理解这个新事物（在大脑中形成良好的特征表达）。

这也就能理解 Hinton 诟病深度学习、发展 Capsule 的原因之一了，因为他觉得现在深度学习的模型针对性太强，比如 MNIST 分类模型就只能做单个数字的识别，多个数字的识别就要重新构建数据集、重新设计并训练模型。
而事实上，我们的根本目的并不是单纯地做任务，而是通过任务形成良好的、普适的特征表达，这样才有可能形成真正的人工智能。

特征间聚类

那么，怎么完成这个组合的过程呢？试想一下，两个字为什么能成为一个词，是因为这两个字经常“扎堆”出现，而且这个“堆”只有它们俩。这就告诉我们，特征的聚合是因为它们有聚类倾向，所以 Capsule 把聚类算法融入到模型中。
要注意，我们以前所说的聚类，都是指样本间的聚类，比如将 MNIST 的图片自动聚类成 10 个类别，或者将 Word2Vec 训练而来的词向量聚类成若干类，聚类的对象就是一个样本（输入）。
而 Capsule 则设想将输入本身表示为若干个特征向量，然后对这些向量进行聚类（特征间的聚类），得到若干中心向量，接着再对这些中心向量聚类，层层递进，从而完成层层抽象的过程。这是一种特征间的聚类。
现在问题就来了。既然是聚类，是按照什么方法来聚类的呢？然后又是怎么根据这个聚类方法来导出那个神奇的 Dynamic Routing 的呢？后面我们会从K-Means出发来寻根问底，现在让我们先把主要思路讲完。

特征显著性

通过特征的组合可以得到上层特征，那如何对比特征的强弱程度呢？
Capsule 的答案是：模长。这就好比在茫茫向量如何找出“突出”的那个？只需要看看谁更高就行了。因此通过特征向量的模长来衡量它自己的“突出程度”，显然也是比较自然的选择。
此外，一个有界的度量也是我们希望的，因此我们对特征向量做一个压缩：

压缩的方案并不唯一，这里就不展开了。不过我在实验过程中，发现将 1 替换为 0.5 能提升性能。

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第3张图片

图3：Capsule通过特征向量的聚类，来刻画特征的组合特性
为了突出模长的这一含义，也需要在设计模型的时候有所配合。如图，尽管 v1 所代表的类所包含的特征向量 u1,u2,u4,u8 的模长均比较小，但因为成员多（“小弟多”），因此 v1 的模长也能占优（“势力大”）。
这说明，一个类要突出，跟类内向量的数目、每个类内向量本身的模长都有关联。后面我们也会看到 Capsule 是如何体现这一点的。

K-Means新探

既然本文不断强调 Capsule 是通过聚类来抽象特征的，那么就有必要来细谈一下聚类算法了。Capsule 所使用的聚类算法，其实是 K-Means 的变种。
聚类算法有很多，理论上每种聚类算法都是可能的，然而要将聚类算法嵌入到 Capsule 中，还需要费上一点周折。

聚类目标

K-Means 聚类本质上是一种“中心聚类方法”——聚类就是找类别中心。为了定义中心，我们就需要一个相近程度的度量，常用的是欧氏距离，但这并不是唯一的选择。
所以这里我们干脆在一个更加一般的框架下介绍 K-Means：K-Means 希望把已有的数据 u1,u2,…,un 无监督地划分为 k 类，聚类的方法是找出 k 个聚类中心 v1,v2,…,vk，使得类内间隔最小：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第4张图片

这里 d 代表了相近程度的度量，所以这个式子的意思很简单，就是说每个 ui 只属于跟它最相近的那一类，然后将所有类内距离加起来，最小化这个类内距离：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第5张图片

显然，聚类的结果依赖于 d 的具体形式，这其实就告诉我们：无监督学习和有监督学习的差别，在于我们跟模型“交流”的方法不同。
有监督学习中，我们通过标注数据向模型传达我们的意愿；在无监督学习中，我们则通过设计适当的度量 d 来完成这个过程。

求解过程

怎么去最小化 L 来求出各个中心呢？如果读者不希望细细了解推导过程，可以跳过这一节，直接看下一节。
因为 L 中有 min 这个操作，所以直接求它的梯度会有困难（不是不能求，而是在临界点附近不好处理），事实上有很多类似的问题没能得到很好的解决，都是因为它们的 loss 中有 min。
然而，这里我们可以“软化”这个 L，使得它可以求导。因为我们有一个很漂亮的公式：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第6张图片

如果取 K=1，显然括号里边就是 softmax 的分母，这也就是 softmax 的由来了——它是“soft”加“max”——“软的最大值”。
而我们有：

因此我们就得到：

现在这个近似的 loss 在全局都光滑可导了，因此我们可以尝试求它的梯度。

这里：

我们已经指明了是对 j 所在的维度来归一化。为了求出一个极小值，我们希望让 ∂L/∂vj=0，但得到的方程并不是简单可解的。因此，可以引入一个迭代过程，假设是 vj 的第 r 次迭代的结果，那么我们可以让：

如果可以从上述方程解出，那么就可以从中得到一个迭代格式。

欧氏距离

现在就可以把我们选择的度量代入（8）式进行计算了。我们可以看一个最基本的例子，这时候就有：

从而我们可以解出：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第7张图片

如果取 K→+∞，那么非 0 即 1，所以上式就是说（读者可以自己证明一下）是距离最近的那些 ui 的平均值。
这就得到了我们平时说的 K-Means 聚类算法。

内积相似度

欧氏距离并不适合用在 Capsule 中，这是因为欧氏距离得到的中心向量是类内的向量的平均，这样类内向量越多，也不会导致中心向量的模越长，这不满足我们前面说的“小弟越多，势力越大”的设计。
什么距离比较适合呢？在论文 Dynamic Routing Between Capsules 中有一段话：

The initial coupling coefficients are then iteratively refined by measuring the agreement between the current output vjvj of each capsule, jj, in the layer above and the prediction û j|i made by capsule ii. The agreement is simply the scalar product aij=vj⋅u^j|i…

对应到本文，大概的意思是用内积⟨ui,vj⟩作为相似度的度量，也就是说，d(ui,vj)=−⟨ui,vj⟩。但仔细思考就会发现问题，因为这样的 d 是无下界的。
无下界的函数我们不能用来做 loss，所以我一直被这里困惑着。直到有一天，我觉得可以将 vj 先归一化，然后再算内积，这样一来实际上是：

现在对于固定的 ui，不管 vj 怎么变，d(ui,vj) 就有下界了。所以这样的 d 是可以用来作为 loss，代入（8）式算，最终得到的结果是：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第8张图片

注意这结果只能说明和的方向是一样的，但不能说明它们两个是相等的。然而，我们确实可以简单地取：

如果取 K→+∞ 的极限，那么就是说是距离最近的那些 ui 的和。
由于现在是求和，就可以体现出“小弟越多，势力越大”的特点了。注意，这里和欧氏距离那都出现了“最近”，两个最近的含义并不一样，因为所选用的 d 不一样。

动态路由

经过漫长的准备，Dynamic Routing 算法已经呼之欲出了。
按照第一部分，我们说 Capsule 中每一层是通过特征间聚类来完成特征的组合与抽象，聚类需要反复迭代，是一个隐式的过程。我们需要为每一层找到光滑的、显式的表达式：

才能完成模型的训练。动态路由就是通过迭代来写出这个（近似的）显式表达式的过程。

基本步骤

假设 Capsule 的输入特征分别为 u1,u2,…,un，然后下一层的特征向量就是 v1,v2,…,vk，它就是前一层 n 个向量聚为 k 类的聚类中心，聚类的度量是前面的归一化内积，于是我们就可以写出迭代过程：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第9张图片

这个版本是容易理解，但由于存在 arg⁡max 这个操作，我们用不了梯度下降，而梯度下降是目前求模型其他参数的唯一方法。为了解决这个问题，我们只好不取 K→+∞ 的极限，取一个常数 K>0，然后将算法变为：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第10张图片

然而这样又新引入了一个参数 K，咋看上去 K 太大了就梯度消失，K 太小了就不够准确，很难确定。不过后面我们将会看到，直接让 K=1 即可，因为 K=1 的解空间已经包含了任意 K 的解。最终我们可以得到：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第11张图片

有意思的是，最后导出的结果，不仅跟 Hinton 的原始论文 Dynamic Routing Between Capsules 有所出入，跟我前一篇介绍也有出入。
其中，最明显的差别是在迭代过程中用 vj/‖vj‖ 替换了 squash(vj)，仅在最后输出时才进行 squash。实验表明这有助于提升特征的表达能力，它在我的前一文的数字实验（单数字训练，双数字预测）中，能达到 95% 以上的准确率（原来是 91%）。

三种症状

这样就完了？远远还没有。我们还要解决好几个问题。

如何做好类别初始化？因为聚类结果跟初始化有关，而且好的初始化往往是聚类成功的一大半。现在我们要将聚类这个过程嵌入到模型中，作为模型的一部分，那么各个应该怎么选取呢？

如果同一初始化，那么无法完成聚类过程；如果随机初始化，那又不能得到确定的聚类结果，就算类中心向量不变，但是类的顺序也可能变化。
如何识别特征顺序？我们知道，聚类的结果跟样本的顺序是无关的，也就是说，如果将输入向量的顺序打乱，聚类的结果还是一样的。
对于样本间的聚类，这是一个优点；然而如果是特征间的聚类，那么就有可能不妥了，因为不同顺序的特征组合可能代表不同的含义（就好比词序不同，句子含义也会不同），如果都给出一样的结果，那么就丧失了特征的序信息了；
如何保证特征表达能力？动态路由将上层 Capsule 作为底层 Capsule 的聚类结果，每个类可能包含多个特征向量，但如果仅仅用类中心向量整个类的整体特征（上层特征），会不会降低了上层 Capsule 的特征表达能力？

一个对策

有意思的是，以上三个问题都可以由同一个方法解决：加变换矩阵。
首先，为了模型的简洁性，我们将所有 ui 的和平均分配到每个类中作为。那怎么分辨出各个不同的类呢？我们在输出到每个类之前，给每个类都配一个变换矩阵 Wj，用来分辨不同的类，这时候动态路由变成了：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第12张图片

这就是我前一篇介绍中所说的共享权重版的 Capsule。细细斟酌就会发现，引入训练矩阵 Wj 是个非常妙的招数，它不仅让聚类算法在同一初始化时仍能分辨出不同的类，而且通过 Wj 可以改变 ui 的维度，从而也就改变了聚类后的中心向量的维度，这样也就能保证中心向量的特征表达能力。
此外还有一个好处，那就是⟨Wjui,Kvj⟩=⟨(KWj)ui,vj⟩，也就是说它相当于把前面的参数 K 也包含了，从而我们可以放心设 K=1 而不用担心准确性不够——如果有必要，模型会自己去调整 Wj 达到调整 K 的效果。
现在只剩下最后一个问题了：识别输入特征的顺序。跟识别每一个类一样，我们也可以给每个输入都配一个变换矩阵 W̃i，用来分辨不同位置的输入，这样一来动态路由变为：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第13张图片

如果觉得这样太累赘，那么可以把 WjW̃i 替换成一个整体矩阵 Wji，也就是对每对指标 (i,j) 都配上一个变换矩阵，这样的好处是整体更简单明了了，缺点是矩阵数目从 n+k 个变成了 nk 个：

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第14张图片

这便是全连接版的动态路由。然而并不是每次我们都要分辨不同位置的输入，对于变长的输入，我们就很难给每个位置的输入都分配一个变换矩阵，这时候共享版的动态路由就能派上用场了。总的来说，全连接版和共享版动态路由都有其用武之地。
!

从中文分词到动态路由（Chinese Word Segmentation===>Dynamic Routing）_第15张图片

图4：Capsule的变换矩阵可能的所在之处

结语

个人认为，Capsule 的确是新颖的、有前景的的研究内容。也许它不一定（但也是有可能的）是未来的发展方向。Geoffrey Hinton 大胆地将聚类的迭代过程融入到神经网络中，因此诞生了 Capsule，那是不是说，可以考虑将其他比较直观的算法也融入到里边，从而造就其他有意思的玩意？让我们拭目以待。

易 AI - 使用 TensorFlow 2 Keras 实现 AlexNet CNN 架构 CatchZeng
原文：https://makeoptim.com/deep-learning/yiai-alexnet-implementation前言网络结构实现SequentialSubclassingDemo小结参考前言上一篇笔者使用如何阅读深度学习论文的方法阅读了AlexNet。为了加深理解，本文带大家使用TensorFlow2Keras实现AlexNetCNN架构。网络结构image从上一篇可以得到Al
论文学习记录之Deep-learning seismic full-waveform inversion for realistic structuralmodels 摘星星的屋顶论文深度学习人工智能
一、ABSTRACT—摘要标题：Deep-learningseismicfull-waveforminversionforrealisticstructuralmodels（用于真实结构模型的深度学习地震全波形反演）作者：BinLiu1,SenlinYang2,YuxiaoRen2,XinjiXu3,PengJiang2,andYangkangChen4（和SeisInvNet有共同作者，应该是同
论文学习记录之SeisInvNet（Deep-Learning Inversion of Seismic Data）摘星星的屋顶论文人工智能
目录1INTRODUCTION—介绍2RELATEDWORKS—相关作品3METHODOLOGYANDIMPLEMENTATION—方法和执行3.1方法3.2执行4EXPERIMENTS—实验4.1数据集准备4.2实验设置4.3基线模型4.4定向比较4.5定量比较4.6机理研究5CONCLUSION—结论1INTRODUCTION—介绍地震勘探是根据地震波在大地中的传播规律来确定地下地层结构的一种
易 AI - 机器学习计算机视觉基础 CatchZeng
原文：http://makeoptim.com/deep-learning/yiai-cv计算机视觉表达黑白图灰度图彩色图操作卷积均值滤波归一化统一量纲加速模型训练梯度下降GPU浮点运算小结参考链接上一篇讲解了机器学习数据集的概念以及如何收集图片数据集。收集到的数据是被训练的对象，那么怎么表示这些数据呢？数据又需要被怎么操作呢？本文为大家讲解计算机视觉基础，帮助大家在后面的课程中更好地理解和训练模
【Pytorch】Transposed Convolution bryant_meng pytorch 人工智能 python 反卷积逆卷积
文章目录1卷积2反/逆卷积3MaxUnpool/ConvTranspose4encoder-decoder5可视化学习参考来自：详解逆卷积操作–Up-samplingwithTransposedConvolutionPyTorch使用记录https://github.com/naokishibuya/deep-learning/blob/master/python/transposed_convo
2-EagleC: A deep-learning framework for detecting a full range of structural variations from bulk... 怎么不是呐
Hi-C技术：检测人类基因组结构变异（SVs）的一种有前景的方法。目前严重缺乏能够使用Hi-C数据进行全范围SV检测的算法,只能以低于最佳的分辨率识别染色体间易位和远程染色体内SVs（>1mb）。本文开发了一个深度学习模型，结合了深度学习和集成学习策略的框架，以高分辨率预测全范围的SVs——EagleC在癌症基因组中认识了许多先前未知的融合事件，也发掘了已知致癌基因的新型调控机制，这些发现为癌症分
用数据玩点花样！如何构建skim-gram模型来训练和可视化词向量机器之心V php 人工智能
本文介绍了如何在TensorFlow中实现skim-gram模型，并用TensorBoard进行可视化。GitHub地址：https://github.com/priya-dwivedi/Deep-Learning/blob/master/word2vec_skipgram/Skip-Grams-Solution.ipynb本教程将展示如何在TensorFlow中实现skim-gram模型，以便为
Deep-learning 斗战胜佛oh
图卷积网络在药物研发中的应用综述尽管深度学习在很多领域在过去的几年取得了一定的成功，但是在分子信息和药物发现领域成功的应用依然有限。适用于深层架构的结构化数据方面的最新进展为药物研究开辟了新的范例。该篇从四个角度阐述了图神经网络在药物发现和分子信息领域的应用。1）分子属性和活性预测；2）相互作用预测；3）合成预测；4）从头药物设计。最后总结了药物相关问题的代表性应用。讨论将图卷积网络应用于药物发现
用BERT进行机器阅读理解 javastart 自然语言
这里可以找到带有代码的Github存储库:https://github.com/edwardcqian/bert_QA。本文将讨论如何设置此项功能.机器（阅读）理解是NLP的领域，我们使用非结构化文本教机器理解和回答问题。https://www.coursera.org/specializations/deep-learning?ranMID=40328&ranEAID=J2RDoRlzkk&ra
停车场车位检测思路梳理杂七杂八的
输入列表图像，在工具台中输出图像defshow_images(self,images,cmap=None):输入的是某一张图片和给图片的name，make_write表示是否需要yyyyafafaffadfsfgf10.fhttps://github.com/priya-dwivedi/Deep-Learning/tree/master/parking_spots_detector/train_d
AI - Ubuntu 机器学习环境 (TensorFlow GPU, JupyterLab, VSCode) CatchZeng
原文：https://makeoptim.com/deep-learning/tensorflow-gpu-on-ubuntu介绍所需软件安装前GCCNVIDIApackagerepositoriesNVIDIAmachinelearningNVIDIAGPUdriverCUDAToolKitandcuDNNTensorRTMiniconda虚拟环境安装TensorFlow安装JupyterLab
deep-learning(1) - 随手记录的知识点 Laniakea_01d0
业界通常认为第一层是隐藏层的第一层AI会遇上工程类问题Padding补零操作，可以保证卷积核在每块区域都进行卷积，迭代次数越多，更有效果，提取特征更好生成器和迭代器，存在的意义，一般我们需要对一个数组进行操作的时候，我们要遍历出来操作，比如一亿个参数，我们不可能一次性全部取出来，一个一个的去取，这就是生成器存在的意义。Dataloader加载数据到内存Next（iter（a））转换成0，1转换成正
易 AI - AlexNet 论文深度讲解 CatchZeng
原文：https://makeoptim.com/deep-learning/yiai-paper-alexnet论文地址阅读方式ImageNetClassificationwithDeepConvolutionalNeuralNetworks使用深度卷积神经网络的ImageNet分类Abstract摘要1Introduction1简介2TheDataset2数据集3TheArchitecture
AI - Mac M1 机器学习环境 (TensorFlow, JupyterLab, VSCode) CatchZeng
原文https://makeoptim.com/deep-learning/mac-m1-tensorflowXcodeCommandLineToolsHomebrewMiniforge下载AppleTensorFlow创建虚拟环境安装必须的包安装特殊版本的pip和其他包安装Apple提供的包(numpy,grpcio,h5py)安装额外的包安装TensorFlow测试JupyterLabVSCo
易 AI - 机器学习卷积神经网络（CNN） CatchZeng
原文：http://makeoptim.com/deep-learning/yiai-cnn卷积神经网络结构输入层隐藏层输出层TensorFlow中定义卷积神经网络模型宏观理解卷积神经网络全连接采样卷积小结上一篇介绍了如何在TensorFlow中加载数据集。从本文开始将以王者荣耀为例，介绍卷积神经网络（CNN）。由于涉及的内容较多，本文主要先介绍以下内容：卷积神经网络结构TensorFlow中定义
易 AI - 使用 TensorFlow Object Detection API 训练自定义目标检测模型 CatchZeng
原文：https://makeoptim.com/deep-learning/yiai-object-detection前言目标检测位置发展史传统方法（候选区域+手工特征提取+分类器）RegionProposal+CNN（Two-stage）端到端（One-stage）TensorFlowObjectDetectionAPI安装依赖项安装API工程创建数据集图片标注创建TFRecord模型训练下载
AI - Mac 机器学习环境 (TensorFlow, JupyterLab, VSCode) CatchZeng
原文：https://makeoptim.com/deep-learning/mac-tensorflowCondaAnacondaMiniconda创建虚拟环境安装tensorflow检查安装JupyterLab启动安装其他依赖JupyterLab运行tensorflow安装VSCodeVSCode运行tensorflow小结延伸阅读在MacM1机器学习环境讲述了如何在M1芯片的Mac搭建机器学
NLP(新闻文本分类)——数据读取与数据分析浩波的笔记 NLP 机器学习 python nlp
初始数据importpandasaspddf_train=pd.read_csv('E:/python-project/deep-learning/datawhale/nlp/news-data/train_set.csv/train_set.csv',sep='\t')df_test=pd.read_csv('E:/python-project/deep-learning/datawhale/n
AI - Apple Silicon Mac M1 原生支持 TensorFlow 2.6 GPU 加速（tensorflow-metal PluggableDevice） CatchZeng
原文：http://makeoptim.com/deep-learning/tensorflow-metal前言系统要求当前不支持XcodeCommandLineToolsHomebrewMiniforge创建虚拟环境安装Tensorflowdependencies首次安装升级安装安装Tensorflow安装metalplugin安装必须的包测试JupyterLabVSCode延伸阅读参考前言几天
易 AI - ResNet 论文深度讲解 CatchZeng
原文：https://makeoptim.com/deep-learning/yiai-paper-resnet论文地址阅读方式DeepResidualLearningforImageRecognition图像识别的深度残差学习Abstract摘要1Introduction1简介2RelatedWork2相关工作3.DeepResidualLearning3.深度残差学习3.1.ResidualL
Windows安装PyTorch-CPU Ann剑安装PyTorch pytorch windows python
看了好多大佬的教程，终于给自己老旧电脑成功安装了PyTorch本电脑安装的软件PyTorch=1.12.1anaconda版本为conda4.8.2（anaconda自行安装）开始前以管理员方式运行anacondaprompt一、安装PyTorch一、安装PyTorch（1）创建环境为deep-learning，也可以为PyTorch（就是一个名字）。指定Python版本condacreate-n
transformer(Bert)的多头注意力对每一个head进行降维的分析想赚钱的雷大
背景：在用keras的multiattention模块做实验的时候，发现学习参数随着头数的增多而增多，与transformer中的实现不太一致结果：本着想了解透彻的思路去网上搜索了一番，第一篇我就觉得整理的不错，附上链接：http://www.sniper97.cn/index.php/note/deep-learning/note-deep-learning/4002/总结一下：一言蔽之的话，大
nvidia 3060 + cuda + cudnn + tf 代码&诗 tensorflow python 深度学习
参考：https://eipi10.cn/deep-learning/2019/11/28/centos_cuda_cudnn/1.环境版本：CentOSLinuxrelease7.8.2003(Core)Tensorflow-gpu2.5nvidia3060cuda11.2.2cudnn-11.32.环境检查：lscpi|grep-invidia#要有nvidia设备3.首先安装nvidia-3
identifier “THCudaCheck“ is undefined 的解决方法莫说相公痴 Machine Learning Python Pytorch 深度学习 pytorch 人工智能
THCudaCheck在pytorch1.11.0版本被移除了，可以看文档https://www.exxactcorp.com/blog/Deep-Learning/pytorch-1-11-0-now-available解决方法是将THCudaCheck替换成C10_CUDA_CHECK
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》永恒的记忆2019 科研论文 python 机器学习人工智能
一、文章信息《TrafficAccident’sSeverityPrediction:ADeep-LearningApproach-BasedCNNNetwork》，2019年Access上的一篇文章。二、摘要基于交通事故特征的权重，提出了基于特征矩阵的灰色图像(FM2GI)算法，将交通事故数据的单一特征关系转换为包含并行组合关系的灰色图像作为模型的输入变量，网络模型是基于CNN。（也就是说这篇文
通过 MQTT 检测对象和传输图像 woshicver python opencv vnc cv opengl
在本文中，我们将学习如何使用open-cv和YOLO对象检测器每五秒捕获/保存和检测图像中的对象。然后我们将图像转换为字节数组并通过MQTT发布，这将在另一个远程设备上接收并保存为JPG。我们将使用YoloV3算法和一个免费的MQTT代理YoloV3算法：https://viso.ai/deep-learning/yolov3-overview/#:~:text=What's%20Next%3F-
DNN(Deep-Learning Neural Network) sherlock31415931 ML 神经网络深度学习人工智能 tensorflow numpy
DNN(Deep-LearningNeuralNetwork)接下来介绍比较常见的全连接层网络（fully-connectedfeedfowardneruralnetwork）名词解释首先介绍一下神经网络的基本架构，以一个神经元为例输入是一个向量，权重（weights）也是一个矩阵把两个矩阵进行相乘，最后加上偏差（bias），即w1*x1+w2*x2+b神经元里面会有一个激活函数（activati
AlexNet详解 tt丫深度学习人工智能深度学习神经网络 AlexNet
入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。✨完整代码在我的github上，有需要的朋友可以康康✨GitHub-tt-s-t/Deep-Learning:Storesomeofyourownin-depthlearningcode,whichiscurrentlyintheupdatestage.Thecontentcovers:each
论文解读：ProteinBERT: a universal deep-learning model of protein sequence and function wangpan007 生信论文神经网络 python编程深度学习神经网络 python
目录1.研究背景2.研究数据2.1预训练的蛋白质数据集2.2蛋白质基准数据集3.研究方法3.1序列和标注编码3.2蛋白质序列和注释的自我监督预训练3.3对蛋白质基准进行监督微调3.4深度学习框架4.结果4.1预训练可以改善蛋白质模型4.2ProteinBERT在不同的蛋白质基准上达到了近乎最先进的结果4.4全局注意力机制的理解5.结论作者单位：耶路撒冷希伯来大学发表期刊：《Bioinformati
【U-Net2015】U-Net: Convolutional Networks for Biomedical Image Segmentation mage Segmentation 不会声调的博er 深度学习 caffe 计算机视觉
U-Net:ConvolutionalNetworksforBiomedicalmageSegmentation生物医学图像语义分割的卷积神经网络arXiv:1505.04597v1[cs.CV]18May2015文章地址：https://arxiv.org/abs/1505.04597代码地址：https://github.com/Jack-Cherish/Deep-Learning/tree/
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方