阿泽的学习笔记

【Graph Embedding】LINE：大规模信息网络的嵌入方法

今天的这篇论文是 MSRA 2015 年的工作——《LINE: Large-scale Information Network Embedding》，截至目前共有 1900 多引用，主要的是如何在大尺度网络中应用 Embedding 技术。

1. Introduction

之前介绍的 DeepWalk 采用分布式并行方式来训练模型，但如果在硬件资源有限的条件下该如何训练出一个拥有百万结点和数十亿条边的网络呢？针对这种情况，MSRA 的同学们提出了一种可以应用于这种大规模网络计算的新型算法——LINE。LINE 适用于任何类型的网络结构，无论是有向图还是无向图，以及是否加权（DeepWalk 只适用于有向网络）。LINE 能够在单台服务器上训练数小时即可完成数百万结点和数十亿条边的网络训练。

2. LINE

2.1 First-order

很多 NetWork Embedding 算法只观察到了节点的链路表示，这种关系只具有 first-order 相似性，并没有捕捉到节点间更多的关系。这篇论文将在 first-order 的基础上探讨节点的 second-order 相似性。

second-order 并不是通过节点间的连接强弱来判定的，而是通过节点的共享邻域结构来确定的。作者通过利用节点的共享邻居来评估节点的相似性，这个想法来源于社会学和语言学，比如说：拥有很多共同朋友的人很可能有共同的兴趣从而很有可能成为朋友（现在不是朋友不代表以后不是朋友），与很多相似的单词一起使用的两个单词更可能有相似的含义。

以下图为例：

节点 6 和 7 之间由于权值比较大，所以具有较高的 first-order ，他们的 Embedding 向量距离会比较近；
另一方面节点 5 和 6 虽然没有联系，但他们有许多共同的邻居，所以较高的 second-order ，因此他们的 Embedding 向量也应该有较近的距离。

有了感性的认识后，我们给出具体定义。

first-order 是指网络中节点之间的局部连接，对每条无向边进行建模，我们给出联合概率：
$p_1(v_i,v_j) = \frac{1}{1+exp(-u_i^T,u_j)} \\$
其中， $v_i$ 表示节点 i， $u_i$ 为节点 i 对应的 Embedding 向量。

根据网络权值，我们的也有经验分布为：
$\hat{p_1}(i,j) = \frac{w_{ij}}{W} \\$
其中， $w_{ij}$ 为节点 i 和结点 j 之间的权值，W 为网络总权值之和。

为了保证一阶性，我们只需要让经验分布和联合概率分布的越相似越好，衡量两个分布差异的指标为 KL 散度，忽略常数后我们有代价函数：
$\; O_1 = -\sum_{(i,j)\in E}w_{ij}log\big(p_1(v_i, v_j)\big) \\$
这里，first-order 的目标函数只适用于无向图，不适用于有向图，因为我们用的是无向边。

2.2 Second-order

second-order 适用于无向图也适用于有向图，second-order 是通过假设两个节点共享着许多与其他节点的连接（共享邻域），这种情况下也可以被视为具有相似的上下文。

我们给出节点间共现的概率为：
$p_2(v_j|v_i) = \frac{exp(u_j^{'T}, u_i)}{\sum_{k=1}^{|V|}exp(u_k^{'T}, u_i)} \\$
其中， $u_i$ 表示节点 i 的 Embedding 向量， $u_j^{'}$ 表示节点 j 为上下文时的 Embedding 向量，|V| 表示上下文节点的数量。

如上所述，second-order 假设在上下文中具有相似分布的顶点彼此相似。

second-order 经验分布定义为：
$\hat p_2(v_j|v_i)=\frac{w_{ij}}{degree_i} \\$
其中， $w_{ij}$ 为边的权重， $degree_i$ 为节点 i 的度数， $degree_i = \sum_{j\in N(i)} w_ik$ ， $N (i)$ 为节点 i 的邻居。

为了保证 second-order，我们需要让条件概率分布 $p_2(\cdot|v_i)$ 与经验分布 $\hat p_2(\cdot|v_i)$ 相似。因此我们有：
$\; O_2 = -\sum_{i\in V}\lambda_i d\big(\hat p_2(\cdot|v_i),\; p_2(\cdot| v_j)\big) \\$
其中， $d(\cdot,\cdot)$ 表示两个分布的距离； $\lambda_i$ 表示节点的重要性，可以通过类似 PageRank 算法得到。

接着用 KL 散度来代替 $d(\cdot , \cdot)$ 来衡量两个分布的相似性。为简单起见，我们令 $\lambda_i = degree_i$ ，所以我们有：
$\; O_2 = -\sum_{(i,j)\in E}w_{ij}log\big(p_2(v_j| v_i)\big) \\$

2.3 Combing

我们希望训练的网络保留 first-order 和 second-order ，而在实践过程中作者发现了一个简单有效的方法：分别训练一阶近似和二阶近似的模型，然后将其得到的 Embedding 连接起来。

当然，作者表示更应该把两个目标函数联合起来训练，并表示这将留作以后探讨。

3. Optimization

3.1 Negative Sampling

针对目标函数求 Softmax 需要遍历所有节点这一问题，同样采用 Negative Sampling 进行优化，目标函数为：
$\ \sigma(u_j^{'T} \cdot u_i) + \sum_{i=1}^K E_{ns}[log \ \sigma(-u_n^{'T}\cdot u_i)] \\$

当然，涉及到稀疏参数更新，就可以利用异步随机梯度下降（Asynchronous Stochastic Gradient Algorithm, ASGD）算法进行加速。目标函数的偏导数为：
$\frac{\partial O_2}{\partial u_i} = w_{ij}\cdot \frac{\partial\ p_2(v_j|v_i)}{\partial u_i} \\$
我们看到计算梯度时需要乘上边的权值，但这样会出现一个问题：

如果选择一个较小的学习率，对于权值较小的边可能会导致梯度消失，学习速度过慢而无法收敛；
而如果选择一个较大的学习率，对于权值较大的边可能会出现梯度爆炸。

所以，该如何设定一个较好的学习率以应对边的权值方差较大的现象？

3.2 Edge Sampling

一种直接的想法是：导致这种问题的原因是边的权值，如果另所有边的权值相等就不会在出现这种问题了。

因此一个简单的方法就是将一个加权边分成多个权值为 1 的二元边，例如：一个权值为 4 的边，我们可以将其分成 4 个权值为 1 的二元边。

但这样又会出现新的问题：内存开销过大。为了解决这个新的问题，作者给出新的解决方案：对原始边进行了采样，保证采样概率与原始边的权值成正比，并将采样后的边视为权值为 1 的二元边。

通过这种边采样处理，可以保证原本的代价函数不变，且又加入了边的权重信息。

关于加权采样问题，作者使用的 Alias 算法，虽然Alias 非本文重点，但是我决定还是简单介绍一下。

假设我们有四个权值： $\frac{1}{2},\frac{1}{3},\frac{1}{12},\frac{1}{12}$ ，现在要对其进行加权采样。

区别于利用最大值进行归一化，我们基于平均值进行归一化。给出的例子的均值为 $\frac{1}{4}$ ，所以有：

然后我们以均值 $\frac{1}{4} $ 为高度，画出一个矩形：

然后我们可以将多出的部分填补到空缺的部分：

现在还有两个多出来的部分，但只有一个空缺点。为了不增加开销，我们需要约束一列最多只有两个事件，所以：

最后便产生了一个完整的矩阵：

我们来看下这个矩阵怎么使用。

我们构造两个大小相同的数组分别为概率表 Prob 和别名表 Alias，概率表为原始列在现有情况下的概率，如概率值为 $\frac{1}{2} $ 的第一列对应现在的概率值为 $\frac{2}{3} $，概率值为 $\frac{1}{3} $ 的第二列对应的现在的概率值为 1；而别名表 Alias 为多出来的另一个事件的概率，比如 Alias[0] 对应第二个事件， Alias[1] 为 None， Alias[2] 对应第一个事件，Alias[3] 也对应第一个事件。

使用方法是，先随机到某一列，然后再进行一次随机，用于判断是当前列的原本事件还是别名表 Alias 里面的另一个事件。比如我们第一次随机并得到第三列，有 Prob[2] = 1/3，然后再进行一次随机，如果随机数小于 1/3 则为事件三，如果随机数大于 1/3 则为 Alias[2] 中的别名事件，也就是事件一。

简单起见，我们省去别名表的存在性证明和生成 Alias 所采用的算法。而使用 Alias 的时间复杂度为 O(1)，空间复杂度为 O(N)。

到这里，两种优化方法就介绍完成了。

4. Discussion

我们来谈论一下 LINE 模型在实际应用中的会碰到的几个问题：

Low Degress Vertices：对于 second-order 来说，其严重依赖于节点的上下文，如果节点的度非常小，则会产生 Embedding 不充分的问题。一种解决方法是，不仅考虑邻居，而且考虑邻居的邻居，从而增加度小的节点的上下文数量；
New Vertices：对于新的节点来说，如果其与现有节点有连接，我们可以得到其 first-order 和second-order 的经验分布，然后更新任意一个目标函数来获得其 Embedding 向量；如果不存在边连接，则需要添加额外的信息。

5. Experiment

简单看一下实验

多目标情况下：

不同网络稀疏程度下（这里的稀疏性只和自己进行了比较，但我们要知道具有 second-order 相似性的节点数量比具有 first-order 相似性的节点数量要多出很多，所以 LINE 是非常适用于稀疏网络的）：

参数敏感性：

可视化结果：

6. Conclusion

总结一下 LINE：

通过设计两个目标函数分别约束节点的 first-order 和 second-order 相似性，使其 Embedding 向量中包含两种相似性，并通过直接拼接两个向量取得不错的效果（first-order 描述的是一种直接的关系，而 second-order 描述的更像是一种的潜在的关系）；
算法可适用于各种类型的网络（包括加权/无权，有向/无向，稀疏/稠密），同时也适用于大尺度网络（类似的 GloVe 的训练方式，所以速度快）；
设计了一个基于边的采样算法来优化目标函数，该算法克服了现有的随机梯度下降的局限性。

7. Reference

《LINE: Large-scale Information Network Embedding》
《Darts, Dice, and Coins: Sampling from a Discrete Distribution》

关注公众号跟踪最新内容：阿泽的学习笔记。

你可能感兴趣的:(数据挖掘,Embedding)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
QT与Python混合编程经验记录 weixin_30237281 python 人工智能 c/c++
1、如何embeddingpython,Python文档中有专门一章阐述https://docs.python.org/3.5/extending/embedding.htm；1、库文件：在vs--c/c++--附加包含文件中添加目；链接中也要添加，：将python中的include,libs二个目录添加进来2、对于Python，没有调试库，可直接将运行库复制一份，名称后面加上_d，就可用，可不能
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
使用Fleet AI Context和LangChain构建高效的文档检索系统 afTFODguAKBF 人工智能 langchain python
使用FleetAIContext和LangChain构建高效的文档检索系统引言在当今的AI和机器学习领域，高质量的文档检索系统对于提高开发效率和用户体验至关重要。本文将介绍如何利用FleetAIContext提供的高质量embeddings和LangChain框架来构建一个强大的文档检索系统。我们将深入探讨如何处理嵌入向量、检索相关文档，以及如何将这些功能整合到一个简单但功能强大的代码生成链中。主
纯生信很难发表？只是你没有及时抓住研究热点 SCI狂人团队
当你还做meta分析的时候，你会发现meta分析很难发或者单位已经不承认了，而聪明的人已经开始做常规的生信GEO、TCGA数据挖掘这些（这个时候生信比较好发）。当你开始做常规的生信GEO、TCGA数据挖掘的时候，你会发现这些一样也是比较难发了，而聪明的人已经开始抓免疫评分这个热点进行生信数据挖掘（这个时候免疫评分比较好发）。当你开始对免疫评分这个热点进行生信数据挖掘的时候，你会发现自己的研究方向差
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
Transformer模型：WordEmbedding实现 Galaxy.404 Transformer transformer 深度学习人工智能 embedding
前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili正文首先导入所需要的包：importtorchimportnumpyasnpimporttorch.nnasnnimporttorch.nn.functionalasF关
如何搞定数据挖掘？这篇文章告诉你！ isNotNullX 数据挖掘人工智能
在数字化的时代，数据是我们日常生活中不可或缺的一部分。数据所蕴含的信息具有重要价值，而数据挖掘和数据分析就是解读这些信息的重要工具。本文从明晰数据概念入手，再探讨数据挖掘。一·什么是数据？数据定义：数据（Data）是指对客观事物的属性、数量、位置、关系等进行记录和描述的原始材料或信息。数据可以是数字、文字、图像、声音等多种形式，它们是信息的载体，用于表示、传递和存储信息。简单来说，数据就是观测值。
一些机器学习不错的书籍 jimmyleeee 机器学习人工智能
最近，在学习一些机器学习的相关知识，在Github上居然找到了一个可以下载一些不错的介绍机器学习和大数据挖掘和分析的书籍。具体的书籍的信息可以参考一下链接：Books/DataSciencefromScratch.pdfatmaster·varunkashyapks/Books·GitHub
如何将文本转换为向量？(方法二) DashVector python 开发语言人工智能 embedding 数据挖掘
文本转换为向量有多种方式：方法一：通过模型服务灵积DashScope将文本转换为向量（推荐）方法二：通过ModelScope魔搭社区中的文本向量开源模型将文本转换为向量方法三：通过JinaEmbeddingsv2模型将文本转换为向量方法四：通过百川智能向量化模型将文本转换为向量本文介绍方法二：如何通过ModelScope魔搭社区中的文本向量开源模型将文本转换为向量，并入库至向量检索服务DashVe
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
探索任务的隐秘世界：推荐Task2Vec 邓越浪Henry
探索任务的隐秘世界：推荐Task2Vecaws-cv-task2vecOfficialcodeforthepaper"Task2Vec:TaskEmbeddingforMeta-Learning"(https://arxiv.org/abs/1902.03545,ICCV2019)项目地址:https://gitcode.com/gh_mirrors/aw/aws-cv-task2vec在机器学习
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
废字承晔儿
u额堵不堵不断进步数据挖掘额v也得分发的大跳脱衣舞一个月肚饿肚饿金额见到你的就不会预计不不会吧菊花怪下班v触宝电话代表大会素冠荷鼎厚度还是v四川饭馆有电梯的但丁地狱冬天的多点多发发动态鼎泰丰饭地方放多放房东鹅二房方圆大厦？而他得让让热厄尔热水器…
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
千万级规模高性能、高并发的网络架构经验分享搬砖养女人网络架构经验分享
主题：INTO100沙龙时间：2015年11月21日下午地点：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。）架构以及我理解中架构的本质在开始谈我对架构本质的理解之前，先谈谈对今天技术沙龙主题的个人见解，千万级规模的网站感觉数量级是非常大的，对这个数量级我们
2021-01-02随笔 0清婉0
人工智能时代最重要的是机器学习，像数据分析、图像识别、数据挖掘、自然语言处理、语音识别等都是以其为基础的，也可以说人工智能的各种应用都需要机器学习来支撑。现在各大公司越来越注重数据的价值，人工成本也是越来越高，所以机器学习也就变得不可或缺了。数据分析、自然语言处理、语音识别，这将是作为前端人员的我，在2021年学习的重点。现收集几本关于数据分析的书籍，作为参考书籍学习：1.《跟着迪哥学Python
Python是什么？Python能干什么？一篇文章让你对Python了如指掌！！武昌库里写JAVA 面试题汇总与解析 spring log4j java 开发语言算法
Python作为当下最热门的编程语言，已经成为了多个领域的首选语言。能用到Python的地方非常多。从入门级小白到专业级的大佬，数据挖掘、科学计算、图像处理、人工智能，Python都可以胜任。或许是因为这种万能属性，现在有很多的小伙伴都开始学习Python。而现在Python的火爆甚至已经来到了程序员的圈子外，进入了国务院《新一代人工智能发展规划的通知》里。Python也已经走进了小学生的课程里，
BAT的大数据战略数据资本主意
实际上，大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外，还带来数据的爆炸式增长。“引爆点”到来之后，人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下，数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时，数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。概念、模
常用torch.nn mm_exploration MyDiffusion python pytorch 人工智能
目录一、torch.nn和torch.nn.functional二、nn.Linear三、nn.Embedding四、nn.Identity五、Pytorch非线性激活函数六、nn.Conv2d七、nn.Sequential八、nn.ModuleList九、torch.outertorch.cat一、torch.nn和torch.nn.functionalPytorch中torch.nn和torc
前端数据埋点小童不学前端前端大数据
前端埋点文章目录前言一、什么是埋点二、为什么采用埋点三、前端埋点方案3.1、手动埋点3.2、可视化埋点3.3、无埋点四、埋点方式前言最近看到一个很有意思的前端数据收集：前端数据埋点，下面说说我的观点一、什么是埋点埋点，是数据采集领域，简单来说就是行为数据收集二、为什么采用埋点数据生产->数据收集->数据处理->数据分析->数据驱动/用户反馈->产品优化/迭代通过大数据处理，数据统计，数据挖掘等加工
寻找区块链行业里数字内容分发的独角兽 BBFund
时至今日，但凡对区块链有所了解的投资人都应该能看到这项技术必将给当前的内容分发行业带来彻底的改变。区块链技术的难以篡改特性适用于数字版权确权，而区块链项目的Token设计正好就是数字内容价值化的最佳解决方案。事实上互联网巨头们也都在内容分发领域奋力拼杀，但他们无非是在内容整合、数据挖掘、精准投放这些方面做文章。面对这个市场里最大的痛点：侵权、利益分配不均等问题，这些中心化的组织要么无能为力，要么自
DEFT 开源项目教程马安柯Lorelei
DEFT开源项目教程DEFTJointdetectionandtrackingmodelnamedDEFT,or``DetectionEmbeddingsforTracking."Ourapproachreliesonanappearance-basedobjectmatchingnetworkjointly-learnedwithanunderlyingobjectdetectionnetwor
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他