ciecus_csdn

(一文读懂社交网络分析（附应用、前沿、学习资源）学习笔记)

一文读懂社交网络分析（附应用、前沿、学习资源）学习笔记

一、社交网络的结构特性与演化机理

1、社交网络结构分析与建模

1.1 统计特性
1.2 网络特性
1.3 网络模型

2、虚拟社区以及发现技术

2.1 定义
2.2 社区发现算法评估指标
2.3社区静态发现算法
2.4 社区动态发现算法

3、虚拟社区演化分析

3.1 虚拟社区的涌现

3.2 虚拟社区的演化

3.3 演化虚拟社区的发现

二、社交网络群体行为形成与互动规律

1、用户行为分析

1.1 用户采纳与忠诚
1.2 用户个体使用行为
用户群体互动行为

2、社交网络情感分析

2.1 文本情感分析技术
2.2 社交网络情感分析技术

3. 个体影响力分析

3.1 基于网络结构的个体影响力计算
3.2 基于行为的个体影响力计算
3.3 基于话题的个体影响力计算

4、群体聚集以及影响机制分析

三、社交网络信息传播与演化机理

1、在线社交网络信息检索

1.1 社交网络内容搜索
1.2 社交网络内容分类
1.3 社交网络推荐

2、社交网络信息传播规律

2.1 基于网络结构的传播模型
2.2 基于群体状态的传播模型
2.3 基于信息特征的传播模型

3、话题发现与演化

3.1 基于主题模型的话题发现
3.2 基于向量空间模型的话题发现
3.3 基于词项关系图的话题发现
3.4 基于主题模型的话题演化
3.5 基于相邻时间片关联的话题演化

4、影响力最大化

4.1 贪心算法
4.2 启发式算法

四、社交网络分析的应用

1、社交推荐
2、舆情分析
3、隐私保护
4、用户画像
5、谣言检测
6、可视化

五、社交网络前沿研究

1. Negative Link Prediction in Social Media
2. Twitter Sentiment Analysis with Deep Convolutional Neural Networks
3. Social Recommendation with Strong and Weak Ties
4. Online Actions with Offline Impact: How Online Social Networks Influence Online and Offline User Behavior
Intertwined Viral Marketing in Social Networks
Who to Invite Next? Predicting Invitees ofSocial Groups
7. The Co-Evolution Model for Social NetworkEvolving and Opinion Migration

原文链接：http://mt.sohu.com/20171010/n516921964.shtml

一、社交网络的结构特性与演化机理

1、社交网络结构分析与建模

1.1 统计特性

社交网络模型许多概念来自于图论，因为社交网络模型本质上是一个由节点（人）和边（社交关系）组成的图。

度（Degree）：节点的度定义为与该节点相连的边的数目。在有向图中，所有指向某节点的边的数量叫作该节点的入度，所有从该节点出发指向别的节点的边的数量叫作该节点的出度。网络平均度反应了网络的疏密程度，而通过度分布则可以刻画不同节点的重要性。
网络密度（Density）：网络密度可以用于刻画节点间相互连边的密集程度，定义为网络中实际存在边数与可容纳边数上限的比值，常用来测量社交网络中社交关系的密集程度及演化趋势。
聚类系数（Clustering Coefficient）：用于描述网络中与同一节点相连的节点间也互为相邻节点的程度。其用于刻画社交网络中一个人朋友们之间也互相是朋友的概率，反应了社交网络中的聚集性。
介数（Betweeness）：为图中某节点承载整个图所有最短路径的数量，通常用来评价节点的重要程度，比如在连接不同社群之间的中介节点的介数相对于其他节点来说会非常大，也体现了其在社交网络信息传递中的重要程度。

1.2 网络特性

小世界现象：小世界现象是指地理位置相距遥远的人可能具有较短的社会关系间隔。早在1967年，哈佛大学心理学教授 Stanley Milgram 通过一个信件投递实验，归纳并提出了“六度分割理论（Six Degrees of Separation）”, 即任意两个都可通过平均五个人熟人相关联起来。1998年，Duncan Watts 和 Steven Strogatz 在《自然》杂志上发表了里程碑式的文章《Collective Dynamics of “Small-World” Networks》，该文章正式提出了小世界网络的概念并建立了小世界模型。
　　小世界现象在在线社交网络中得到了很好地验证，根据2011年 Facebook 数据分析小组的报告， Facebook 约7.2亿用户中任意两个用户间的平均路径长度仅为4.74，而这一指标在推特中为4.67。可以说，在五步之内，任何两个网络上的个体都可以互相连接。
无标度特性：大多数真实的大规模社交网络都存在着大多数节点有少量边，少数节点有大量边的特点，其网络缺乏一个统一的衡量尺度而呈现出异质性，我们将这种节点度分布不存在有限衡量分布范围的性质称为无标度。无标度网络表现出来的度分布特征为幂律分布，这就是此类网络的无标度特性。

1.3 网络模型

WS 模型：WS 模型即小世界模型，通过小世界模型生成的小世界网络是从规则网络向随机网络过渡的中间形态。
BA 模型：BA模型考虑到现实网络中节点的幂律分布特性，生成无标度网络。
其他模型：森林火灾模型，Kronecker 模型，生产模型。

2、虚拟社区以及发现技术

2.1 定义

虚拟社区基于子图局部性的定义：社区结构是复杂网络节点集合的若干子集，每个子集内部的节点之间的连接相对非常紧密，而不同子集节点之间的连边相对稀疏。
在社交网络中发现虚拟社区有助于理解网络拓扑结构特点，揭示复杂系统内在功能特性，理解社区内个体关系。为信息检索、信息推荐、信息传播控制和公共事件管控提供有力支撑。虚拟社区发现存在着许多经典的算法，这些算法用于挖掘不同规模的虚拟社区，算法在追求高精度的同时力求提高效率（降低时间复杂度）。

2.2 社区发现算法评估指标

模块度(Modularity)：通过比较现有网络与基准网络在相同社区划分下的连接密度差来衡量网络社区的优劣。
NMI (Normalized Mutual
Information)：利用信息熵来衡量预测社区结构一直社区结构的差异，该值越大，则说明社区结构划分越好，最大值为1时，说明算法划分出的社区结构和一直社区结构一致，算法效果最好。
Rand Index：表示在两个划分中都属于同一社区或者都属于不同社区的节点对的数量的比值。
Jaccard Index：Jaccard 系数用来衡量样本之间的差异性，是经典的衡量指标。

2.3社区静态发现算法

模块度最优算法
Mark Newman 提出了针对模块度的最大化的贪心算法FN。可参考文献：Newman,Mark EJ. “Fast algorithm for detecting community structure innetworks.” Physical review E 69.6 (2004): 066133.
多目标优化算法
Zhao, Yuxin, et al. “Acellular learning automata based algorithm for detecting community structure incomplex networks.” Neurocomputing 151 (2015): 1216-1226.
Du, Jingfei, Jianyang Lai,and Chuan Shi. “Multi-Objective Optimization for Overlapping CommunityDetection.” International Conference on Advanced Data Mining andApplications. Springer, Berlin, Heidelberg, 2013.
基于概率模型的算法
Newman, Mark EJ, andElizabeth A. Leicht. “Mixture models and exploratory analysis innetworks.” Proceedings of the National Academy of Sciences104.23(2007): 9564-9569.
Ren,Wei, et al. “Simple probabilistic algorithm for detecting communitystructure.” Physical Review E 79.3 (2009): 036111.
信息编码算法
Rosvall, Martin, and Carl T.Bergstrom. “Maps of random walks on complex networks reveal communitystructure.” Proceedings of the National Academy of Sciences 105.4(2008): 1118-1123.
Kim, Youngdo, and HawoongJeong. “Map equation for link communities.” Physical Review E 84.2(2011): 026110.

2.4 社区动态发现算法

派系过滤算法
Palla, Gergely, et al.“Uncovering the overlapping community structure of complex networks innature and society.” arXiv preprint physics/0506133(2005).
Kumpula,Jussi M., et al. “Sequential algorithm for fast cliquepercolation.” Physical Review E 78.2 (2008): 026109.
基于相似度的聚合算法
Shen, Huawei, et al.“Detect overlapping and hierarchical community structure innetworks.” Physica A: Statistical Mechanics and its Applications388.8(2009): 1706-1712.
Huang,Jianbin, et al. “Density-based shrinkage for revealing hierarchical andoverlapping community structure in networks.” Physica A:Statistical Mechanics and its Applications 390.11 (2011): 2160-2171.
标签传播算法
Raghavan, Usha Nandini, RékaAlbert, and Soundar Kumara. “Near linear time algorithm to detectcommunity structures in large-scale networks.” Physical review E 76.3(2007): 036106.
Gregory, Steve. “Finding overlapping communitiesin networks by label propagation.” New Journal of Physics 12.10(2010): 103018.
局部扩展优化算法
Lancichinetti, Andrea, andSanto Fortunato. “Benchmarks for testing community detection algorithms ondirected and weighted graphs with overlapping communities.” PhysicalReview E 80.1 (2009): 016118.
Lee,Conrad, et al. “Detecting highly overlapping community structure by greedyclique expansion.” arXiv preprint arXiv:1002.1827 (2010).

3、虚拟社区演化分析

在线社交网络中存在着大量显性或者隐性的虚拟社区结构，这些虚拟社区结构并不是永恒不变的，随着事件变化，社区结构也在不断演变。分析动态的虚拟社区结构演化有助于理解整个社交网络的演化过程，所以有着重要的研究价值。

3.1 虚拟社区的涌现

虚拟社区涌现即在社交网络中虚拟社区从无到有的过程，其最重要的特征是网络聚集现象。

周期闭包：所谓周期闭包，是指网络节点倾向于和自己在网络中邻居的邻居建立连接关系而形成的结构，该机制是导致虚拟社区形成的主要因素。实验表明三元闭包的出现概率随着两个节点之间测地距离的增减呈指数递减。相反地，焦点闭包和测地距离无关，其生成原因是两个节点之间有共同的兴趣或参与共同的活动。
偏好连接：在很多真实网络中，新增加的边并不是随机连接的，而是倾向于和具有较大度数的连接。

3.2 虚拟社区的演化

在线社交网络虚拟社区演化过程非常复杂，影响因素很多。如何挖掘虚拟社区演化中的关键性因素成为社交网络研究中一个重要而有挑战性的课题，用户个体的累积效应、结构多样性和结构平衡性三个基本因素对虚拟社区演化都存在影响。

3.3 演化虚拟社区的发现

基于相邻时刻相似度直接比较的演化虚拟社区发现

Hopcroft, John, et al.“Tracking evolving communities in large linked networks.” Proceedingsof the National Academy of Sciences 101.suppl 1 (2004): 5249-5253.
Greene, Derek, Donal Doyle, and PadraigCunningham. “Tracking the evolution of communities in dynamic socialnetworks.” Advances in social networks analysis and mining (ASONAM), 2010international conference on. IEEE, 2010.

基于演化聚类分析的演化虚拟社区发现

Chakrabarti, Deepayan, Ravi Kumar,and Andrew Tomkins. “Evolutionary clustering.” Proceedings ofthe 12th ACM SIGKDD international conference on Knowledge discovery and datamining. ACM, 2006.
Lin, Yu-Ru, et al.“Facetnet: a framework for analyzing communities and their evolutions indynamic networks.” Proceedings of the 17th international conference onWorld Wide Web. ACM, 2008.

基于拉普拉斯动力学方法的演化虚拟社区发现

Lambiotte, Renaud, J-C.Delvenne, and Mauricio Barahona. “Laplacian dynamics and multiscalemodular structure in networks.” arXiv preprint arXiv:0812.1770 (2008).
基于派系过滤算法的演化虚拟社区发现
Palla, Gergely, Albert-LaszloBarabasi, and Tamas Vicsek. “Quantifying social groupevolution.” Nature 446.arXiv: 0704.0744 (2007): 664.

基于节点行为趋势分析的演化虚拟社区发现

Hopcroft, John, et al.“Tracking evolving communities in large linked networks.” Proceedingsof the National Academy of Sciences 101.suppl 1 (2004): 5249-5253.

二、社交网络群体行为形成与互动规律

1、用户行为分析

社交网络用户行为是用户对自身需求，社会影响和社交网络技术进行综合评估的基础上做出的使用社交网络服务的意愿，以及由此引起的各种使用活动的总和。用户行为是在线社交网络研究的重要内容。现有研究主要基于如下两种思路展开，一是将在线社交网络作为一种特定的信息技术，研究用户对在线社交网络技术的采纳行为、拒绝行为和用户忠诚；二是将在线社交网络视为提供各种服务和应用的平台，研究用户使用各种服务和应用所表现出的特征与规律。

1.1 用户采纳与忠诚

在线社交网络用户采纳是指用户在对自身需求、社会影响和在线社交网络技术进行综合评估的基础上做出的使用在线社交网络服务的意愿或行为，在线社交网络再出现初期能否被尽可能多的用户采纳和试用对于其后续的扩散至关重要。目前已有多种理论被用于揭示在线社交网络用户采纳行为机理。其中，技术接受模型和计划行为理论是研究者们应用最多的两种理论。
在线社交网络用户忠诚是指用户在使用社交网络服务之后，能够继续保持使用的习惯。各种层出不穷的新型网络服务所带来的竞争压力让保持在线社交网络用户忠诚度愈发困难。目前为止，已经有多种理论被用于在线社交网络的用户忠诚研究。其中，期望确认理论和心流体验理论受到较多研究者青睐。

基于技术接受模型的在线社交网络用户采纳模型

David Fred 提出技术接受模型是目前信息系统研究领域最经典的模型之一。对模型详细了解可参考：
Davis, Fred D. “Perceived usefulness, perceived ease of use, and user acceptance of information technology.” MIS quarterly (1989): 319-340.

基于计划行为理论的在线社交网络用户采纳模型
Icek Ajzen 提出的计划行为理论已经被广泛用于人类行为研究。对理论详细了解可参考：
Ajzen, Icek. “From intentions to actions: A theory of planned behavior.” Action control. Springer Berlin Heidelberg, 1985. 11-39.
基于期望确认理论的在线社交网络用户忠诚模型
由 Oliver 提出的期望确认理论是研究消费者满意度的基本理论。 Anol Bhattacherjee 再该理论的基础上结合信息系统的特点提出了信息系统持续使用的期望确认模型（ECM-ISC）。对模型详细了解可参考：
Bhattacherjee, Anol. “Understanding information systems continuance: an expectation-confirmation model.” MIS quarterly (2001): 351-370.
　　
基于心流体验理论的在线社交网络用户忠诚模型
Mihaly Csikszentmihalyi等提出的心流体验理论是目前关于用户体验研究的重要理论。对理论详细了解可参考:Csikszentmihalyi, Mihaly. Beyond boredom and anxiety. Jossey-Bass, 2000.

1.2 用户个体使用行为

-** 一般使用行为**：用户可以在社交网络上执行各种各样的行为，例如浏览，点击，分享，点赞，收藏等等。具体的分类可参考：Benevenuto F,Rodrigues T, Cha M, Almeida V. Characterizing User Behavior in Online Social Networks. New York, New York, USA: ACM; 2009:49-62.doi:10.1145/1644893.1644900.

内容创建行为：用户在社交网络通过写博客微博，发帖评论等行为产生内容，对内容创建行为的研究主要研究创建内容的动机、创建内容时的主题选择偏好以及内容创建时的语言表述等。关于主题，可通过搜索引擎搜索 LDA 模型。
内容消费行为：用户在社交网络中通过浏览，分享和评论来满足他们的社交需求，对社交网络内容的消费可分为主动消费和被动消费。被动消费即“浏览”，有研究表明，社交网络中高达92%的行为都是浏览行为。主动消费即社交搜索，例如搜索朋友的信息以及向社交圈内好友提问等等。

用户群体互动行为

群体互动关系选择：对群体互动关系的研究主要是识别用户之间的关系，通过制定不同的衡量指标，研究用户之间的关系强弱。
群体互动的内容选择：社交网络中用户对内容选择与其社交关系密不可分。例如有研究表明两位维基百科编辑在互动前后产生的编辑内容的相似性有所不同。
群体互动的时间规律：在线社交网络中人类行为的时间特征研究主要集中于分析行为发生的时间间隔分布。研究发现在线社交网络中用户行为时间间隔分布不同于传统的负指数分布，而是呈现幂律分布，即具有“长尾效应”。对群体互动时间规律的研究可以应用到公共管理和决策等场景中。

2、社交网络情感分析

随着互联网技术的迅速发展，网络已经成为人们获取信息，发表意见的主要途径，根据文本内容，我们可以将网络中的文本分为两种，一种是客观描述信息，主要针对事件、产品等进行客观描述，另一种是主观性信息，主要产生与用户对人物、事件、产品进行客观性描述；另一种是主观性信息，主要产生于用户对人物、事件、产品等的评价信息。主观性信息表达了人们的各种情感色彩和情感倾向，如“支持”、“反对”、“中立”等。
情感分析，在此等同于意见挖掘，是针对主观性信息进行分析、处理和归纳过程。情感分析最初起源于自然语言处理领域，主要从语法语义规则方面对文本的情感倾向性进行研判。随着社交网络的兴起与发展，情感分析逐渐涉及多个研究领域，如文本挖掘、Web 数据挖掘等，并延伸至管理学及社会科学等学科，并在产品评论、舆情监控、信息预测等多个领域发挥着重要的作用。

2.1 文本情感分析技术

基于语义规则的情感分析技术：我们将一句话中的带有感情的形容词和副词提取出来构成一个情感词典，这些词语可以代表用户的某种倾向性。基于语义规则的分析技术是计算评价词和情感词典中已经标注倾向性词语的距离，从而达到情感分类的目的。其最经典的算法是SO-PMI 算法。
基于监督学习的情感分析方法：基于监督学习的方法是首先通过人工标注文本的情感极性，然后将此作为训练集，通过机器学习的方法对目标文本进行情感分类。常用方法：朴素贝叶斯，支持向量机。
基于话题模型的情感分析技术：有两个话题模型，PLSA (Probabilistic Latent Semantic Analysis)和LDA (Latent Dirichlet Allocation) 模型，网络上有大量的学习资料可供读者进一步了解。

2.2 社交网络情感分析技术

面向短文本的情感分析技术：社交网络产生大量的短文本，例如微博和新闻评论，论坛帖子等等，这些短文本不同于新闻报道，其语法不规则，充斥大量噪声，因此对短文本的分析非常重要。
基于群体智能的情感分析技术：用户在社交网络中表达意见会受到其社交关系的影响，情感会沿着社交关系进行传播，因此可以通过研究社交用户之间的关系来提高情感分析的准确度。
社交网络的垃圾意见挖掘技术：社交网络中的垃圾意见，包括水军与广告等信息，通过对垃圾意见的挖掘，能够有效区分有效信息和垃圾信息，从而提高社交网络使用体验。

3. 个体影响力分析

发现社交网络中的有影响力的个体是社交网络研究中非常重要的研究分支，而且其有着重要的应用价值。例如微博营销，谣言检测，舆情管理等等。

3.1 基于网络结构的个体影响力计算

基于社交网络的图结构特性，有几个指标用来衡量网络中节点的中心度，即节点的影响力。除了以下三种外还有 PageRank 中心度等度量方法。

度中心度（Degree Centrality）：度中心度是指与该节点直接相连的节点的数量。
接近中心度 (Closeness Centrality)：指某节点与网络中所有其他节点的最短距离之和。
介数 (Betweenness Centrality)：介数用来衡量某节点在社交网络中中介作用大小。网络中某两个节点所有最短路径的数量除以这些路径中经过 A节点路径的数量便是 A 节点的介数，也叫中间中心度。

3.2 基于行为的个体影响力计算

社交网络中用户的行为决定用户的影响力，以微博为例，用户主要表现的行为是评论、转发、回复、点赞、复制、阅读等等，基于这些行为特征构建多种网络关系图，可通过随机游走等方法发现网络中的影响力个体。

3.3 基于话题的个体影响力计算

在社交网络中用户在不同话题下的影响力不同，可以根据用户的关注网络和用户兴趣相似性来计算用户在每个话题上的影响力。

4、群体聚集以及影响机制分析

本部分主要介绍群体极化的概念。群体极化是指在群体决策的情境中，个体意见或决定往往会受到群体间的彼此讨论的影响，而产生一个群体性的结果。群体极化往往表现为群体内的个体不经过个人思考而同意大多数人的观点。群体极化是一个社会心理学概念，在社会学名著《乌合之众》中提到的大众心理状态就是群体极化的体现。
** 群体极化产生的条件可概括为四点：第一，必须有激发事件出现；第二，群体内的个人能看到前人的选择；第三，群体信息缺乏；第四，群体有一定的同质性**。
在在线社交网络分析中，人们通过建立分析模型和仿真来研究在线社交网络中的群体极化现象。主要的分析模型有基于博弈论和委托—代理理论的从众行为模型，基于信息瀑的群体一致性模型和基于元胞自动机群决策和行为仿真。

三、社交网络信息传播与演化机理

1、在线社交网络信息检索

信息检索(Information Retrieval) 是从大规模非结构化数据中获取信息的过程，例如搜索引擎就是典型的信息检索技术的应用。在线社交网络数据结构有其特殊性，以微博的“话题”（#话题名称#）为例，这种新型的信息组织方式是传统信息检索研究没有涉及的，所以对社交网络信息的检索成为了一门研究课题。

1.1 社交网络内容搜索

内容搜索是指给定查询，从大量信息中返回相关信息的过程。例如在微博上搜索相关热点事件名称，能够返回关于热点事件的微博。内容搜索是信息检索最经典的应用形式。经典的信息检索模型有向量空间模型（VSM），概率模型及 BM25检索公式，基于统计建模检索模型及查询拟然模型，基于统计语言建模的检索模型等。
针对微博的内容检索建模，目前有两种主要的方法:

时间先验方法：时间先验是由于语料库中的文档具有不同的重要性，考虑语料库背景定义不同的计算公式，再将计算结果用于检索模型以期得到更好的检索效果的一种检索方法。目前考虑时间信息计算文档先验的研究工作可分为两种：一种定义文档的时间变化关系；另一种为修改PageRank 的方法，在其中加入时间关系。具体细节可参考：
Li, Xiaoyan, and W. Bruce Croft. “Time-based language models.” Proceedings of the twelfth international conference on Information and knowledge management. ACM, 2003.
Yu, Philip S., Xin Li, and Bing Liu. “On the temporal dimension of search.” Proceedings of the 13th international World Wide Web conference on Alternate track papers & posters. ACM, 2004.
多特征组合的方法：多特征组合方法是通过组合多个微博特性来检索微博内容。下面的参考文献中提到的微博特性有：微博个数，关注数，粉丝数，微博长度，微博是否含有外链。具体细节可参考：
Li, Nagmoti, Rinkesh, Ankur Teredesai, and Martine De Cock. “Ranking approaches for microblog search.” Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on. Vol. 1. IEEE, 2010.

1.2 社交网络内容分类

面向文本的分类称为文本分类。分类包括训练和测试两阶段，简单地说，训练是根据已标注类别的语料来学习分类规则或规律的过程。而测试是将已训练好的分类器用于新文本的过程。不管是训练还是测试，都需要将分类对象进行特征表示，然后利用分类算法进行学习或者分类。以下社交网络中内容主题分类的相关参考文献，读者可自行查阅。
　　Liu, Zitao, et al. “Short text feature selection for micro-blog mining.” Computational Intelligence and Software Engineering (CiSE), 2010 International Conference on. IEEE, 2010.
　　Yuan, Quan, Gao Cong, and Nadia Magnenat Thalmann. “Enhancing naive bayes with various smoothing methods for short text classification.” Proceedings of the 21st International Conference on World Wide Web. ACM, 2012.
　　Ling, Xiao, et al. “Can chinese web pages be classified with english data source?.” Proceedings of the 17th international conference on World Wide Web. ACM, 2008.
　　Zhang, Dan, et al. “Transfer Latent Semantic Learning: Microblog Mining with Less Supervision.” AAAI. 2011.

1.3 社交网络推荐

协同过滤推荐：传统的协同过滤根据用户（user）和物品（item）信息构建矩阵，根本的原则是相似用户的选择也相似，例如 a 和 b 都喜欢m，其中 a 还喜欢 n，那么 b 也有可能喜欢m。在社会化协同过滤推荐中，我们可以利用用户之间的社交关系，弥补协同过滤矩阵中缺失的内容，从而使协同过滤的结果更加精准。
基于模型的推荐：
邻居模型：Ma, Hao, et al. “Sorec: social recommendation using probabilistic matrix factorization.” Proceedings of the 17th ACM conference on Information and knowledge management. ACM, 2008.
矩阵分解模型：Funk, Simon. “Netflix update: Try this at home.” (2006).
融入社交网络信息:Jamali, Mohsen, and Martin Ester. “A matrix factorization technique with trust propagation for recommendation in social networks.” Proceedings of the fourth ACM conference on Recommender systems. ACM, 2010.

2、社交网络信息传播规律

信息传播是人们通过符号、信号、传递、接收与反馈信息的活动，是人们彼此交换意见、思想、情感，已达到互相了解和影响的过程。社交网络信息传播是指以社交网络为媒介进行信息传播的过程。研究社交网络信息传播的规律，有助于我们加深对社交系统的认识，理解社交现象。也有助于模式发现，大影响力节点识别和个性化推荐。下面主要介绍几种社交网络信息传播模型。

2.1 基于网络结构的传播模型

线性阈值模型（ Linear Threshold）：
　　Granovetter, Mark. “Threshold models of collective behavior.” American journal of sociology 83.6 (1978): 1420-1443.
独立级联模型（ Independent Cascade）：
　　Goldenberg, Jacob, Barak Libai, and Eitan Muller. “Talk of the network: A complex systems look at the underlying process of word-of-mouth.” Marketing letters 12.3 (2001): 211-223.

2.2 基于群体状态的传播模型

传染病模型（SI, SIS, SIR）, 传染病模型是经典的信息传播模型，网上有丰富的参考资料。
线性影响力模型（ Linear Influence Model）：
　　Yang, Jaewon, and Jure Leskovec. “Modeling information diffusion in implicit networks.” Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010.

2.3 基于信息特征的传播模型

在线社交网络中的信息承载着用户网上活动的所有记录，在信息传播分析时起着不可或缺的重要作用。信息本身也具有一些特性，例如时效性，主体多样性，多源触发，信息合作与竞争等。依据这些特征，可建立不同的模型。
对社交网络信息传播规律的研究还包括热度预测和信息溯源。
Myers, Seth A., Chenguang Zhu, and Jure Leskovec. “Information diffusion and external influence in networks.” Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012.
Beutel, Alex, et al. “Interacting viruses in networks: can both survive?.” Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012.

3、话题发现与演化

在话题发现和演化的大部分研究中，话题是指一个引起关注的事件或活动，及其所有相关事件和活动。其中，事件或者活动是指在一个特定的时间和地点，发生的一些事情。社交网络语料库中的数据和传统话题发现语料库的数据区别较大，所以我们必须使用新的方法或对传统方法进行改进来适应社交网络数据特点。
一般社交网络例如 Twitter 的数据有以下特点：数据规模大、内容简短、噪声多、数据特征丰富等。下面介绍几种主要的话题发现和演化模型。

3.1 基于主题模型的话题发现

最具有代表性的主题发现模型——LDA
Blei, David M., Andrew Y. Ng, and Michael I. Jordan. “Latent dirichlet allocation.” Journal of machine Learning research 3.Jan (2003): 993-1022.

3.2 基于向量空间模型的话题发现

Salton, Gerard, Anita Wong, and Chung-Shu Yang. “A vector space model for automatic indexing.” Communications of the ACM 18.11 (1975): 613-620.
Becker, Hila, Mor Naaman, and Luis Gravano. “Beyond Trending Topics: Real-World Event Identification on Twitter.” ICWSM 11.2011 (2011): 438-441.

3.3 基于词项关系图的话题发现

词项共现是自然语言处理技术在信息检索中的成功应用之一。它的核心思想是词项之间的共现频率在某种程度上反映了词项的语义关联。最初学者们利用词项共现来计算文档的相似性，随后学者们利用该方法来完成话题词提取，话题句提取和摘要生成任务。
　　Sayyadi, Hassan, Matthew Hurst, and Alexey Maykov. “Event detection and tracking in social streams.” Icwsm. 2009.

3.4 基于主题模型的话题演化

Yin, Zhijun, et al. “LPTA: A probabilistic model for latent periodic topic analysis.” Data Mining (ICDM), 2011 IEEE 11th International Conference on. IEEE, 2011.
Wang, Xiaolong, Chengxiang Zhai, and Dan Roth. “Understanding evolution of research themes: a probabilistic generative model for citations.” Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2013.

3.5 基于相邻时间片关联的话题演化

Lin, Cindy Xide, et al. “The joint inference of topic diffusion and evolution in social communities.” Data Mining (ICDM), 2011 IEEE 11th International Conference on. IEEE, 2011.
Saha, Ankan, and Vikas Sindhwani. “Learning evolving and emerging topics in social media: a dynamic nmf approach with temporal regularization.” Proceedings of the fifth ACM international conference on Web search and data mining. ACM, 2012.

4、影响力最大化

影响力最大化是在社交网络中选定信息初始传播用户，使得信息的传播范围能达到最大，即影响力最大。影响力最大化算法的目的就是找出一定数量的用户作为影响力传播的初始节点。对影响力最大化的问题的建模是基于社交网络信息传播模型的。其中最经典的模型是线性阈值和独立级联模型。
影响力最大化算法被证明为 NP-hard问题，下面主要介绍两种典型的影响力最大化算法。

4.1 贪心算法

贪心算法从单个节点开始，计算每选一个新节点作为初始节点对每个节点带来的边际收益，取能造成边际收益最大的点加入初始节点集合。贪心算法的缺点是计算时间成本较大，但是计算精度较高。
　　Kempe, David, Jon Kleinberg, and Éva Tardos. “Maximizing the spread of influence through a social network.” Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2003.
　　Chen, Wei, Yajun Wang, and Siyu Yang. “Efficient influence maximization in social networks.” Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2009.

4.2 启发式算法

不同于贪心算法选择任何一个点作为初始节点开始计算，启发式算法先通过一定策略选取一定数量的初始节点，然后计算其影响力传播。其优点是速度快，缺点是精度低。
　　Chen, Wei, Yajun Wang, and Siyu Yang. “Efficient influence maximization in social networks.” Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2009.
　　Chen, Wei, Yifei Yuan, and Li Zhang. “Scalable influence maximization in social networks under the linear threshold model.” Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010.

四、社交网络分析的应用

1、社交推荐

社交推荐顾名思义是利用社交网络或者结合社交行为的推荐，具体表现为推荐 QQ 好友，微博根据好友关系推荐内容等。在线推荐系统最早被亚马逊用来推荐商品，如今，推荐系统在互联网已无处不在，目前大热的概念“流量分发是互联网第一入口”，支撑这个概念有两点核心，其一是内容，另外就是推荐，今日头条在短短几年间的迅速崛起便是最好的证明。
　　根据推荐系统推荐原理，社交推荐可定义为一种“协同过滤”推荐，即不依赖于用户的个人行为，而是结合用户的好友关系进行推荐。对于互联网上的每一个用户，通过其社交账户能很快定义这个用户众多特点，再加之社交网络用户数之多，使得利用社交关系的推荐近些年备受关注。
　　笔者所了解到的研究有，根据不同社交网络之间进行信息信息匹配进而进行推荐，有根据社交关系解决新注册用户的冷启动问题等。如果想了解这方面更多信息还可以关注推荐系统领域顶级会议 ACM RecSys。

2、舆情分析

舆情分析在互联网出现之前就被广泛应用在政府公共管理，商业竞争情报搜集等领域。在社交媒体出现之前，舆情分析主要是线下的报纸，还有线上门户网站的新闻稿件，这些信息的特点是相对专业准确，而且易于分析和管理；但随着社交媒体出现，舆情事件第一策源地已经不是人民日报新华社这样的大媒体，而是某一个名不见经传的微博用户，一个个人微信公众号。他们的特点是信息非常新鲜，缺点是真实度较低且传播十分迅速，难以控制。所以在社交网络下的舆情分析是一门新的学问。

3、隐私保护

在隐私保护领域，一方面要设计足够安全的机制，技术层面的，法律层面的，在保护个人隐私的前提下最大化商业利益和用户的体验。
举一个大家比较熟悉的例子，即许多网站注册账户的时候使用微信、支付宝账户验证，即免去了大家填写个人信息的烦恼，又保护了大家的隐私。同理，蚂蚁金服提供的芝麻信用功能也有隐私保护的功能。

4、用户画像

用户画像，这是个营销术语，即通过研究用户的资料和行为，将其划分为不同的类型，进而采取不同的营销策略。传统的用户画像最常用的手段就是调查问卷，订阅过杂志和报纸的读者都知道，会有各种各样的有奖问卷，一方面用来获得对于产品的反馈，另一方面就是对你进行画像，这些画像资料甚至广泛在黑市流通，这就是你为什么有时候会接到莫名其妙的电话的原因（又扯到了隐私保护问题）。

5、谣言检测

传统辟谣方法无非是进行试试检验，用证据说话，随着现在机器学习技术的迅速发展，我们也可以通过信息传播的轨迹，信息内容等维度自动判断消息是否属于谣言，而且判断地越迅速，对于舆情管理的意义就越大。同理，这种技术也被应用在社交网络有害信息识别。

6、可视化

五、社交网络前沿研究

搜集了几篇近两年来在社交网络顶级会议上比较受关注的文章，将文章的摘要翻译并陈列，以供各位读者参考。

1. Negative Link Prediction in Social Media

Tang, Jiliang, et al. “Negative link prediction in social media.” Proceedings of the Eighth ACM International Conference on Web Search and Data Mining. ACM, 2015
　　近年来，符号网络（signed network）越来越受到关注。对于符号网络的研究表明，负关系（negative link）对分析过程有帮助。由于许多网络中用户无法指定这种负关系，这是其被有效利用的主要障碍。话句话说，负关系的重要性与其在真实数据集之间的应用存在着差距。因此，我们自然而然会探讨是否能通过公开的社交网络数据自动预测用户的负关系。在本文中，我们研究了在社交媒体中仅仅用正关系和内容为中心的交互行为（content-centric interactions）来预测负关系的问题。我们对负关系做了一些列观测并且提出了一个原则性框架 NeLP，该框架可以利用正关系和以内容为中心的交互来预测负关系。我们对在现实社交网络的实验结果表明，NeLP框架可以准确地预测具有正关系和以内容为中心的交互关系的负关系。我们的详细实验还说明了各种因素对NeLP框架有效性的重要性。

2. Twitter Sentiment Analysis with Deep Convolutional Neural Networks

Severyn, Aliaksei, and Alessandro Moschitti. “Twitter sentiment analysis with deep convolutional neural networks.” Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015
　　本文介绍了我们用于推特舆情分析的深度学习系统。我们工作主要的贡献是提出了一个初始化卷积神经网络参数权重的模型，这对于准确训练模型至关重要，同时避免增加新的特征。简而言之，我们用无监督神经语言模型来训练初始的词嵌入（initial word embeddings），这个词嵌入将被通过我们的基于远程监督语料库（distant supervised corpus）的深度学习模型进一步调整。在最后阶段，预先训练的参数将被用于初始化我们的模型，然后我们通过由Semeval-2015组织的Twitter情绪分析官方系统评价竞赛最近提供的监督训练集对后者进行培训。我们的方法得到的结果和参与竞赛的系统的结果之间的比较表明，我们的模型可以分别排在短语级别子任务A（11个团队）和消息级子任务B（40个团队）前两位。这证明了我们解决方案的实际价值。

3. Social Recommendation with Strong and Weak Ties

Wang, Xin, et al. “Social Recommendation with Strong and Weak Ties.” Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. ACM, 2016
　　随着在线社交网络的爆炸式增长，现在人们普遍了解，社会信息对推荐系统非常有帮助。社会推荐方法能够应对关键的冷启动问题，从而可以大大提高预测精度。主要的原因是，基于信任和影响，人们对其朋友购买过的产品表现出更多的兴趣。尽管在社交推荐领域已经有大量工作，但是很少有人关注社交强关系和弱关系这两个重要的社会学概念之间的区别。在这篇文章中，我们使用邻域重叠来逼近关系强度，并扩展受欢迎的贝叶斯个性化排名（BPR）模型并将其用于区别强弱关系。我们提出了一种基于 EM （EM-based）的算法，它可以根据最优推荐准确度（optimal recommendation accuracy）对强弱关系进行分类并学习所有用户和所有商品的潜在特征向量（latent feature vectors）。我们对四个现实世界数据集进行广泛的实验，并证明我们提出的方法在各种精度指标中显著优于目前最好的成对排名（pairwise ranking）方法。

4. Online Actions with Offline Impact: How Online Social Networks Influence Online and Offline User Behavior

Althoff, Tim, P. Jindal, and J. Leskovec. “Online Actions with Offline Impact: How Online Social Networks Influence Online and Offline User Behavior.” Tenth ACM International Conference on Web Search and Data Mining ACM, 2016:537-546
　　如今许多应用软件都广泛地利用了社交网络功能并允许用户互相连接、互相关注、分享内容和评价动态。尽管这些功能已经被广泛应用，对于用户在线时和离线后参与还是保留的行为却很少有人理解。本文中，我们通过一个运动记录 APP研究了社交网络是如何影响用户线下行为的。
　　我们分析了600万用户五年间的七亿九千一百万条线上和线下活动记录，结果表明社交网络对用户线上和线下的行为有着巨大的影响。具体来讲，我们提出了社交网络影响用户行为的因果关系。我们发现新社交关系的建立能将用户在 APP 中的活跃度提高30%，用户保留率提高17%，线下活跃率提高7%（大约每天多走400步）。通过开展自然实验，我们将新社交关系对用户的影响和用户因为对 APP 的兴趣而走更多步数作了区分。
　　我们发现社交影响占所有对用户行为影响因素的55%，剩下的45%可以用用户对 APP 本身的兴趣来解释。此外我们还发现一连串的个人用户之间的社交关系建立对每日步数的增加有显著影响，用户之间每增加一条边都对会减弱这种影响，并且这些变化是基于边属性和用户自己的资料属性。最后我们用这些现象设计了一个模型，模型用来判断哪些用户最容易被新建立的社交网络关系影响。

Intertwined Viral Marketing in Social Networks

Zhang, Jiawei, et al. “Intertwined viral marketing in social networks.” Advances in Social Networks Analysis and Mining (ASONAM), 2016 IEEE/ACM International Conference on. IEEE, 2016
　　传统的病毒式营销问题旨在为一个单一产品选择一个种子用户的子集，以最大限度地提高其在社交网络中的知名度。而然在实际情况下，许多产品可以同时在社交网络中进行推广。从产品层面来看，这些产品之间的关系是互相缠绕的，举个例子，就是竞争、互补且独立的关系。
　　在这篇文章中，我们将研究“纠缠影响力最大化”问题，它是基于一个目标产品需要在社交网络上进行宣传，而同时有多个竞争/互补/独立的产品在推广这样的场景。纠缠影响力最大化是一个非常具有挑战性的问题，首先是因为很少有模型能模拟多种产品同时宣传时的信息扩散形式；第二是对于目标产品最优种子集的选择可能很大程度上取决于其它产品的营销策略。为了解决此问题，我们提出了一种统一贪心算法框架（interTwined Influence EstimatoR， TIER），在四种不同类型现实社交网络数据集的实验表明TIER 优于所有的比较方法，在解决纠缠影响力最大化问题上有着显著优势。

Who to Invite Next? Predicting Invitees ofSocial Groups

Yu Han, and Jie Tang. "Who to Invite Next?Predicting Invitees of Social Groups " Proceedings of theTwenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17).2017.
　　WhatsApp、Snapchat 和微信等社交即时通讯工具很大程度上改变了人们工作生活和交流的方式，也受到了多个领域例如计算机科学、心理学、社会学和物理学的关注。在社交即时消息工具中，社交群组在多用户交流中扮演着重要的角色。一个有趣的问题是，社交群组动态演变的机制是什么？更具体来说，在一个群组中，谁将会被邀请加入？这篇文章中，我们研究社交群组潜在加入者这样一个新颖的问题。我们采用微信这个中国最大的社交软件作为实验数据的来源。我们提出了一个概率图模型用来计算影响用户被邀请加入群组概率的因子。我们的实验预测结果表明我们的模型相比目前的其他模型有显著的提高。

7. The Co-Evolution Model for Social NetworkEvolving and Opinion Migration

Gu,Yupeng, Yizhou Sun, and Jianxi Gao. “The Co-Evolution Model for SocialNetwork Evolving and Opinion Migration.” Proceedings of the 23rd ACMSIGKDD International Conference on Knowledge Discovery and Data Mining.ACM, 2017.
　　几乎所有的真实社交网络都是动态且随着时间演化的。新的链路的形成和旧的链路的消失很大程度上取决于社交网络用户的同质性。同时，一些社交网络用户的隐性性质例如用户的观点也随着时间而变化。其中一部分原因是用户从社交网络中接收到影响力，这些改变进而会影响社交网络的结构。社交网络的演化和节点性质的迁移通常被认为是两个独立正交的问题。
　　在这篇文章中，我们提出一种协演化模型，通过对两种现象的建模形成闭环。模型有两个主要部分：（1）一个已知节点性质的网络生成模型；（2）一个已知社交网络结构的节点性质迁移模型。
　　通过模拟发现我们的模型有一些不错的特性：（1）它可以模拟一个大范围现象，例如观点的收敛和基于社群的观点差异；（2）它可以通过一系列因子例如社交影响力范围，意见领袖，噪声等级来控制网络的演化。
　　最后，我们模型的有效性通过在对议会立法议案支持者的预测中得到了验证，并且我们的模型优于一些目前的方法。

你可能感兴趣的:(社交网络)

Java Web开发核心内容全解析（上）风铃儿~ java servlet mybatis
一、JavaWeb概述JavaWeb是指使用Java技术来解决相关web互联网领域的技术总和。在当今数字化时代，JavaWeb在构建企业级应用、电子商务平台、社交网络等方面发挥着至关重要的作用。（一）JavaWeb的体系结构JavaWeb应用的体系结构主要分为客户端层、表示层、业务逻辑层和数据访问层。1.客户端层-这是用户与Web应用交互的最前端。主要包括用户浏览器，它可以接收并显示从服务器端发送
算法在各领域的广泛应用：100 个实例全解析软件职业规划 AI&模型算法
一、互联网与信息技术领域搜索引擎算法：如谷歌的PageRank算法，用于根据网页的重要性和相关性对搜索结果进行排序，帮助用户快速找到所需信息。推荐系统算法：例如亚马逊和Netflix使用的协同过滤算法。根据用户的历史行为（购买、观看记录等）和其他相似用户的偏好，为用户推荐可能感兴趣的产品或内容。社交网络分析算法：用于分析社交网络中的用户关系，如Facebook通过算法发现用户的好友推荐、社区划分等
解锁高性能Web应用：Gunicorn、Flask与Docker的高并发部署秘籍我是瓦力前端 gunicorn flask
引言在当今的互联网时代，高并发Web应用已成为许多企业的核心需求。无论是电商平台、社交网络还是实时数据分析系统，高并发能力直接影响到用户体验和业务成败。本文将带你深入探讨如何利用Gunicorn、Flask和Docker，实现高性能、高并发的Web应用部署。Gunicorn、Flask和Docker的基本概念Gunicorn：GreenUnicorn(简称Gunicorn)是一个PythonWSG
为什么会出现redis数据库？redis是什么？ Foolforuuu 数据库 redis 缓存
什么是Redis?为什么要用Redis?下面我将从Redis出现的背景、Redis的解决方案个来回答。1、Redis出现的背景互联网的应用越来越多，例如社交网络、电商、实时服务发展的十分迅速，这就导致了传统技术栈（如关系型数据库）面临许多挑战：性能瓶颈：并发、低延迟需求激增（如电商秒杀、社交平台动态刷新）。传统关系型数据库（如MySQL）依赖磁盘IO，无法应对每秒数万次的读写请求，导致响应延迟和扩
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
Laravel如何实现MySQL分库分表的功能？使用场景是什么？底层原理是什么？快点好好学习吧 Laravel laravel mysql php
一、MySQL分库分表的定义1.核心定义分库（Sharding）：将数据分散到多个数据库中，以减轻单个数据库的压力。分表（Partitioning）：将一个大表拆分为多个小表，通常基于某种规则（如用户ID或时间戳）。目的：提高系统的扩展性、性能和可用性。二、使用场景1.常见使用场景高并发系统：数据量巨大且访问频率高的场景（如电商平台、社交网络）。大数据存储：单表数据量超过千万甚至亿级时，需要分表以
复杂网络；社交网络；社区检测；节点重要性(重要节点识别)；舆论动力学模型；传染病模型；蓄意攻击、随机攻击；网络鲁棒性、脆弱性、稳定性 xiao黄复杂网络 python 复杂网络
复杂网络社交网络社区检测节点重要性(重要节点识别)舆论动力学模型传染病模型蓄意攻击随机攻击网络鲁棒性、脆弱性、稳定性Python基本的网络分析详细私聊网络拓扑图连通性网络效率下降
在 Ubuntu 下通过 Docker 部署 Mastodon 服务器 reddingtons 服务器 ubuntu docker
引言Mastodon是一个开源的社交网络平台，允许用户建立自己的社区并与其他社区互动。通过Docker部署Mastodon，可以实现快速、便捷的环境搭建。Docker是一个开源的容器化平台，使得应用可以在隔离的环境中运行，确保一致性和可移植性。使用Docker部署Mastodon，你可以轻松管理应用的依赖和版本。服务器配置评估本次实验使用的是阿贝云的免费服务器，配置为1核CPU、1G内存和5M带宽
从 Web2 到 Web3：互联网发展的重要转折 Roun3 反侦测指纹浏览器社交媒体 web3 ClonBrowser 隐私保护账号安全
从Web2到Web3：互联网发展的重要转折随着互联网技术的飞速发展，我们正站在一个新时代的门槛上，即从Web2向Web3的转变。这一转变不仅仅是技术的升级，更是互联网理念和应用模式的一次重大革新。本文将探讨Web2和Web3的核心区别，以及这一转变对用户和整个互联网生态的影响。Web2：信息共享与社交网络的兴起Web2，也被称为“社交网络时代”，其核心特征是用户生成内容（UGC）和社交网络的普及。
量化投资与算法交易 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介量化投资（Quantitativeinvestment）和算法交易（AlgorithmicTrading），两者是近几年兴起的两个热门词汇。市场对这两个词汇的认识也是逐渐加深。在过去几年里，人们普遍认为，算法交易和机器学习结合是未来股票、期货等金融产品的必然趋势。机器学习是由多个数据源（如财务报表、交易历史数据、社交网络数据等）自动分析生成的模型，能够预测出股价
使用Python构建去中心化社交网络：打破信息垄断的新思维 Echo_Wish Python！实战！python 去中心化网络
使用Python构建去中心化社交网络：打破信息垄断的新思维大家好，我是你们的技术伙伴Echo_Wish。今天，我们来探讨如何使用Python构建一个去中心化的社交网络。在这个以数据为王的时代，中心化平台掌控着大量用户数据，这不仅对隐私保护带来挑战，也容易形成信息垄断。而去中心化的社交网络，通过分布式技术，将数据的控制权交还用户，打破信息垄断，提升隐私安全性。本文将详细介绍如何使用Python实现这
【数据挖掘】异构图与同构图 dundunmm 数据挖掘深度学习数据挖掘知识图谱人工智能
在图论（GraphTheory）中，异构图（HeterogeneousGraph）和同构图（HomogeneousGraph）是两种不同的图结构概念，它们的主要区别在于节点和边的类型是否单一。1.异构图（HeterogeneousGraph）定义：异构图是指节点类型和/或边类型不同的图，通常用于建模具有多种实体和关系的复杂系统。例如，在社交网络、知识图谱、生物网络等领域，数据往往包含多个类别的实体
完整代码详解：Python实现基于文本内容的用户隐私泄露风险评估 mosquito_lover1 python 开发语言
主要应用场景：社交网络隐私风险评估实现一个基于文本内容的用户隐私泄露风险评估系统，涉及多个步骤和技术。以下是一个完整的Python代码示例，涵盖了基于BERT的文本表示、基于聚类的文本隐私体系构建、基于命名实体识别的隐私信息提取、以及基于信息熵的文本隐私量化。1.安装所需的库首先，确保你已经安装了以下Python库：pipinstalltransformersscikit-learnnumpypa
Elasticsearch平台介绍 yzhujue elasticsearch
1简介Elasticsearch是一个实时分布式搜索和分析引擎。它能以很高的速度处理数据。它用于全文搜索、结构化搜索、分析以及将这三者混合使用。Ø维基百科使用Elasticsearch提供全文搜索并高亮关键字，以及输入实时搜索(search-as-you-type)和搜索纠错(did-you-mean)等搜索建议功能。Ø英国卫报使用Elasticsearch结合用户日志和社交网络数据提供给他们的编
解决watt toolkit/steam++加速后google能进，firefox进不了github（证书不信任）新时代先锋小技巧和疑难杂症 github
加速后想访问github，结果发现谷歌和Edge浏览器可以流畅访问，firefox显示证书不信任，firefox的安全做的太严格了，因此需要在firefox设置——隐私与安全——查看证书——导入证书确定后就可以流畅访问了~~~GitHub是一个全球最大的代码托管平台，广泛用于软件开发和版本控制。它允许开发者使用Git工具来管理项目的代码，还提供了一个社交网络功能，使得开发者可以与他人合作、分享代码
图数据库Neo4j面试内容整理-图遍历和最短路径不务正业的猿面试 Neo4j 数据库 neo4j 网络面试职场和发展图数据库
图遍历和最短路径是图数据库中两个非常重要的概念，尤其是在图数据结构中，它们是解决许多问题（如社交网络分析、推荐系统、网络分析等）的核心算法。Neo4j提供了强大的图遍历和最短路径查询能力，帮助用户有效地从图中提取信息。1.图遍历（GraphTraversal）
Python智能推荐系统与个性化电商 master_chenchengg python python 办公效率 python开发 IT
Python智能推荐系统与个性化电商探索宝藏：揭开推荐系统的神秘面纱数据炼金术：挖掘用户行为背后的黄金智能导购员：为每位顾客定制专属购物体验实时响应大师：打造即时反馈的动态推荐社交网络效应：借助朋友的力量扩大影响力反馈循环艺术家：持续改进与优化用户体验未来展望：迎接智能化零售的新时代探索宝藏：揭开推荐系统的神秘面纱在电子商务的世界里，推荐系统就像是一个藏宝图，它帮助商家找到那些隐藏在海量商品中的“
图神经网络：拓扑数据分析的新时代 Jason_Orton 神经网络数据分析人工智能
随着图数据的广泛应用，图神经网络（GraphNeuralNetwork,GNN）作为一种强大的深度学习工具，逐渐成为机器学习领域中的一颗新星。图数据在许多现实世界问题中无处不在，诸如社交网络、交通网络、分子结构、推荐系统等都可以被建模为图结构。图神经网络通过直接处理图结构数据，能够更好地捕捉节点之间的关系信息，从而在众多任务中展现出了优异的性能。本文将深入探讨图神经网络的基本原理、常见的算法、应用
十分钟了解大数据处理的五大关键技术及其应用 IT时代周刊 2019年5月大数据程序员编程语言 hadoop
其中主要工作环节包括：♦大数据采集、♦大数据预处理、♦大数据存储及管理、♦大数据分析及挖掘、♦大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。一、大数据采集技术数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取
数据挖掘十大经典算法详解（附原理解析与代码示例） IT程序媛-桃子华为认证数据挖掘算法经验分享华为
1.PageRank（链接分析）应用场景：搜索引擎排名、社交网络分析核心原理PageRank通过网页之间的链接关系计算网页的重要性，影响力大的网页排名更高。网页影响力=所有入链页面的加权影响力之和阻尼因子D（通常设为0.85）用于模拟用户随机访问网页的行为代码示例importnetworkxasnxG=nx.DiGraph()G.add_edges_from([("A","B"),("A","C"
Steamworks：Steamworks平台概览_2024-07-25_00-28-31.Tex chenjj4003 游戏开发2 php 服务器 linux 性能优化 arcgis 游戏 github
Steamworks：Steamworks平台概览Steamworks简介1.1Steamworks平台概述Steamworks是一个由Valve公司开发的全面的软件开发工具包(SDK)，旨在帮助游戏开发者和发行商在Steam平台上发布和管理他们的游戏。Steamworks集成了Steam的多项服务，包括但不限于自动更新、成就系统、云存储、社交网络功能、反作弊机制、以及Steam创意工坊等，为游戏
图数据库Neo4j面试内容整理-Neo4j的性能不务正业的猿面试 Neo4j 数据库 neo4j 面试职场和发展图数据库
Neo4j的性能是它作为图数据库的重要特性之一。Neo4j在处理图数据时，通过优化图的存储、查询和遍历等方面，提供了高效的性能，特别适合用于需要处理复杂关系和多层次连接的应用场景，如社交网络、推荐系统、知识图谱等。以下是Neo4j性能的几个关键方面：1.图数据结构的优势
Java 集成 Redis 实战 C_V_Better java redis 数据库 redis java 缓存
Redis是一款高性能的NoSQL存储引擎，常被用于缓存、存储社交网络数据或构建排行榜。在Java项目中集成Redis可以充分利用其性能优势，本篇将介绍如何进行集成。一、环境准备安装Redis：点击Redis官网站点，下载符合本地系统版本的Redis。启动Redis：Windows下解压后运行redis-server.exeredis.windows.conf，如果需要持久化，可设置appendo
微信视频号中的“多位朋友看过”是真的有朋友看过，还是系统分析过大数据后推荐的？ cda2024 微信大数据
不知道你有没有注意到，在微信视频号里，经常会出现“多位朋友看过”的提示。这一行小字往往能勾起人们的好奇心，让人不由自主地想要点击观看。那么，这究竟是不是真的意味着我们的朋友确确实实地浏览过这些视频呢？今天，我们就来聊聊这个话题。一、社交网络背后的算法在探讨这个问题之前，我们首先得了解一下社交网络平台背后的算法原理。社交网络平台的推荐机制主要依赖于大数据分析技术，通过用户的行为习惯、兴趣偏好等多维度
畅游社交世界，实践Line多开的妙用程序员
畅游社交世界，实践Line多开的妙用导语：随着社交网络的兴起，我们进入了一个全新而令人兴奋的社交时代。而在这个时代中，Line多开成为了许多人追求畅游社交世界的利器。本文将为您介绍Line多开的妙用，帮助您更好地享受社交网络的乐趣。一、打破空间限制，多重身份畅游社交传统的社交网络只允许我们在一个账号下维护一个身份，但是现实生活中，我们常常需要在不同场合展现不同的自己。Line多开则提供了一个简单而
Line多开，为你打造更加自由的社交体验程序员
Line多开：为你打造更加自由的社交体验导语：在当今数字化时代，社交媒体已经成为人们日常生活的重要组成部分。而在众多社交平台中，Line作为一款备受欢迎的通讯应用程序，为用户提供了便捷的沟通工具和丰富的社交功能。而通过多开功能，Line进一步拓展了用户的社交自由度，使用户能够更加灵活地体验社交网络带来的乐趣。第一段：多开功能的介绍Line多开是指在同一台设备上同时登录多个Line账号，从而实现多个
MySQL百万级表模糊查询解决方案 le_duoduo mysql 数据库
一、引言1.1模糊查询在MySQL中的应用场景在现代数据处理和分析中，模糊查询是一项极其重要的功能。它允许用户通过不完全匹配的方式搜索数据，这在很多实际应用场景中非常有用。例如，在电商网站中，用户可能只记得商品名称的一部分，通过模糊查询，他们可以找到相关的商品。在社交网络平台，用户搜索朋友或群组时，也可能只输入部分姓名或群组名。此外，模糊查询在内容管理系统、企业资源规划系统、客户关系管理系统等多种
销售易、极兔、珍客CRM：产品功能特色与企业适用性分析程序员机器学习人工智能
销售易CRM产品功能移动化与社交化：销售易CRM支持iOS、Android等主流操作系统，销售人员可以随时随地访问客户信息、更新销售进度、创建任务等。同时，它还具备社交化功能，能够整合企业内部的社交网络，促进员工之间的协作与沟通。AI与大数据驱动：销售易CRM融合了人工智能和大数据技术，通过智能数据分析，帮助企业洞察客户行为和需求，预测销售趋势。例如，AI可以对客户数据进行深度挖掘，识别出高价值客
DeepSeek图神经网络（Graph Neural Networks, GNNs）基础与实践 Evaporator Core Python开发经验深度学习 DeepSeek快速入门神经网络人工智能深度学习
图神经网络（GraphNeuralNetworks,GNNs）是一种专门用于处理图结构数据的深度学习模型。与传统的神经网络不同，GNNs能够捕捉节点之间的关系和图的全局结构，广泛应用于社交网络分析、推荐系统、化学分子建模等领域。DeepSeek提供了强大的工具和API，帮助我们高效地构建和训练图神经网络。本文将详细介绍如何使用DeepSeek进行图神经网络的基础与实践，并通过代码示例帮助你掌握这些
Erlang语言的移动应用开发赵璘婳包罗万象 golang 开发语言后端
Erlang语言的移动应用开发探索引言随着移动互联网的飞速发展，移动应用的需求不断增加。无论是社交网络、在线购物还是各种服务应用，移动应用已成为我们生活不可或缺的一部分。在众多编程语言中，Erlang语言作为一种以高并发、分布式和容错性著称的语言，逐渐引起了开发者们的关注。本文将探讨Erlang语言在移动应用开发中的应用，分析其优势、挑战及实践案例。1.Erlang语言概述Erlang最初由爱立信
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class