Ricardo1998

【菲尔兹学院夏令营】复杂网络3-社区结构

社区结构

图划分（graph partitions）算法比较

图聚类算法

图上的集成聚类（ECG）

图社区

定义
谱分割
Girvan-Newman聚类
基准：种植分区，LFR
模块度
算法

定义

两个基本假设：[Barabasi,Network Science]

一个网络的社区结构在其布局图中是唯一的。
一个社区是网络中的一个局部密集连接子图。

模型：

对于一个图 $G = (V, E)$ ，考虑由一个节点 $V_C⊂V$ 的子集诱导的连接子图C（C中的节点满足 $i∈V_C$ ）。

内部外部度：

定义节点 $i∈V_C$ 的内部度（其在子图C内的度）： $d^{int}_i (C)$
节点i的外部度是： $d^{ext}_i (C) = d_i - d^{int}_i (C)$

其中 $d_i$ 是节点i在G中的总度

强弱社区：

如果对每个节点 $i∈V_C$ ， $d^{int}_i (C) > d^{ext}_i (C)$ ，则C是一个强社区（strong community）
如果对每个节点 $i∈V_C$ ， $\sum_{i \in V_C} d_i^{\text {int }}(C)>\sum_{i \in V_C} d_i^{e x t}(C)$ ，则C是一个弱社区（weak community）

集团和核：

集团（clique）是G的一个完全连接的子图。
k核（k-core）是G的一个最大连接子图，其中所有节点的度数至少为k
- 我们可以通过反复删除所有度数小于k的节点来找到k-cores
- 如果一个节点属于k-core但不属于(k+1)-core，那么这个节点的核心度（coreness）为k

簇（聚类）：

大小为k的图 $G = (V, E)$ 的聚类（clustering）是一个节点 $V_1 \cup...\cup V_k$ 的分区，其中：
- 所有 $V_i \cap V_j=\emptyset \space i \neq j$
- 对于每个部分（或集群） $V_i$ ，其诱导子图 $G_i$ 是连通的

谱聚类

谱聚类（Spectral clustering）是一个庞大的话题，本课程只介绍明谱分割（spectral bisection）

参考：

https://blog.csdn.net/weixin_45591044/article/details/122747024

https://blog.csdn.net/SL_World/article/details/104423536

模型：

考虑未加权的无向图 $G = (V, E)$ ，邻接矩阵为A
D是节点度组成的对角矩阵
$L = D - A$ 是G的（未归一化的）拉普拉斯系数矩阵
G中的社群结构与L的特征分解之间关系紧密
对于所有的 $\in \mathbb{R}^n$ ：
$f^t L f=\frac{1}{2} \sum_{i, j} a_{i j}\left(f_i-f_j\right)^2$
因此，当 $a_{ij}>0$ 时，使上述表达式最小化相当于使 $f_i≈f_j$

求解：

考虑比率切分法 ratio-cut ： $\cup S^c$

与之对应的还有normalized-cut（将拉普拉斯矩阵归一化）

$\operatorname{Rcut}\left(S, S^c\right)=\frac{\operatorname{Vol\partial S}}{|S|}+\frac{\operatorname{Vol\partial S}}{\left|S^c\right|} \\ where \operatorname{Vol}(\partial S)=\left|\left\{e:|E \cap S|=\left|E \cap S^c\right|=1\right\}\right|$

这可以近似求解为：
$\min _{f \in \mathbb{R}^n} f^t L f ; f \perp 1,\|f\|=\sqrt{n}$
其中，结果是对应于L的第二个最小特征值的特征向量——结论推导见参考博客

讨论：

L是对称的和半正定的，所以所有的特征值都是实数和非负数。
L有最小的特征值0；这个特征值的倍数对应于G中连接组件的数量。
因此，我们可以对这些特征值进行排序，同时对它们各自的特征向量进行排序。

$0 = λ_1 ≤ λ_2... ≤ λ_n$

非连通图情况：

有至少两个0特征值
按照第二小特征值对应的特征向量，有0和非0两种情况，按这个分类即可。

连通图情况：

考虑一个连通图G。它只有一个0特征值。
在一个连通图中，特征向量 $u_2$ 对应于费德勒向量中的 $λ_2>0$ 。
谱分割是基于费德勒向量（第二小的特征向量）中条目的符号。——正为一类，负为另一类

多个社区：

如果有2个以上的聚类，这样的过程可以被递归应用
这是一个分裂性层次聚类的例子
然而，它可能表现得很糟糕，可能会分割本来存在的社区
所以我们去 $u_2, ... u_k$ ，再利用k-means等算法对得到的特征向量进行聚类

总结：

一般适用于分组数量已知的情况，核心是最小化割边总和并最大化每个簇的节点数

GN算法

Girvan-Newman算法

步骤：

计算每个 $e ∈ E $的边介数，并删除具有最高值的边
将生成的图按连通分支拆分（簇）并递归地应用该方法
这会产生一个聚类层次结构，我们可以将其表示为树状图

——根据一些标准选择最好的分区，比如模块度（modularity）、或指定集群数量

问题：

该算法的一个问题是它的时间复杂度： $O(m^2n)$
对于非常稀疏的图，也有 $O(n^3) $，仍然很高
其他算法可以达到 $O (m)$ 或 $O (n l o g n)$

基准

为什么要有社区基准模型？

测试和比较算法
控制噪音水平、社区规模等
真实图数据很少有真实值（ground-truth）
有ground-truth，但可能与基本假设不一致

种植-分区模型

Planted partitions model

固定节点数 n 和社区数 k，对于社区，我们：

平均分配节点到每个社区
或将每个节点独立分配给社区 i，概率为 $p_i$ ， $\sum p_i=1$

对于分别在社区i和社区j中的节点对 $(i, j)$ ，我们按照概率 $P (i, j)$ 添加边
- 可以指定 $P(i, i)=p_{in}$ 、 $j)=p_{out}, \space i \neq j$

LFR模型

Lancichinetti-Fortunato-Radicchi model

固定节点数 n
设定三个主要参数：
1. $γ_1$ ：节点度服从 $p_n ∝ n^{−γ_1}$ 的幂律分布；推荐值为 $2 ≤ γ_1 ≤ 3$ 。
2. $γ_2$ ：社区规模服从 $p_k ∝ k^{−γ_2}$ 的幂律分布；推荐值为 $1 ≤ γ_2 ≤ 2$ 。
3. $0 \leq µ \leq 1$ ：对于每个节点，这是连接到其他社区的边的预期比例，而 $(1 - µ)$ 是其自己社区内的比例。
—— $µ$ 称为噪声水平或混合参数
把每个节点都分配到社区
- 存在允许重叠社区的变体
- 可以提供额外参数来限制度分布（平均和最大度）和社区大小（最小和最大）
- 从配置模型开始，重新连接节点以逼近目标分布
- 初始阶段可以使用BA等其他模型

基准代码生成 3 个文件：

包含节点标记为 1 的边列表的文件
包含节点列表及其社区成员的文件，社区也被标记为 1
具有度分布、社区大小分布和混合参数等统计信息的文件

讨论：

LFR 的可扩展性有些受限，一些可扩展的基准模型有：
- RMAT ，生成具有幂律度数分布的图；在 Graph-500 中使用
- BTER (Block Two-level ER)，生成服从幂律度分布以及社区结构的图
- SBM（Stochastic Block Model），它也生成具有社区结构的图。
  
  ——它最简单的定义是种植分区模型的变体。

模块度

引言：

Barabasi 的第三个基本假设：随机连线的网络缺乏固有的社区结构
模块度使用随机连接作为空模型来量化某些图分区的社区结构

模型：

考虑无向图 $G = (V, E)$
令 $∣ V ∣ = n$ , $∣ E ∣ = m$ , $d_i$ 为节点 i 的度数
设 $a_{ij} = a_{ji} = 1$ 当且仅当 $(i, j) \in E$ ，否则为 0；设 $a_{ii} = 2$ 当且仅当 $(i, i) ∈ E $
当我们随机连线时，节点 i 和 j 之间的预期边数（概率）为：
$p_{ij}=\frac{d_id_j}{2m}$
令 $V = C_1 ∪ · · · C_k$ ，将图划分为 k 个簇。对于某些簇 $C_l$ ，定义：
$q_{C_l}=\frac{1}{2 m} \sum_{i, j \in C_l}\left(a_{i j}-p_{i j}\right)$
展开为：
$q_{C_l}=\frac{\sum_{i, j \in C_l} a_{i j}}{2 m}-\frac{\sum_{i, j \in C_l} d_i d_j}{(2 m)^2}$
令：
$e(C_l) = |{e ∈ E ; e⊆C_l}|$

$\operatorname{Vol}\left(C_l\right)=\sum_{i \in C_l} d_i$

代入可得：
$q_{C_l}=\frac{e\left(C_l\right)}{m}-\left(\frac{\operatorname{Vol}\left(C_l\right)}{2 m}\right)^2$
模块度最终定义为：
$q=\sum_{l=1}^k \frac{e\left(C_l\right)}{m}-\left(\frac{\operatorname{Vol}\left(C_l\right)}{2 m}\right)^2$

我们将上面的第一项称为边缘贡献（edge contribution），将第二项称为度税（degree tax）
图的模块度 $q^∗(G)$ 有时被定义为所有可能分区中上述指标所取的最大值

讨论（局限）：

Barabasi 的第四个基本假设：对于一个给定的网络，具有最大模块化的分区对应于最佳社区结构。
然而，模块化有一些已知的问题——"最佳 "可能并不总是转化为 “直观”。

基于模块化的算法受到分辨率限制问题的影响：
- 考虑l个大小为m的集团（m-clique）组成的环， $n = l \cdot m$
- 当 $m (m - 1) < l - 2$ 时，对相邻的集团进行分组，模块度高于每个集团自己形成集群
- 正如我们将说明的那样，一些基于模块化的算法因此倾向于对已有社区进行组合

算法

CNM：

CNM算法（Clauset、Newman、Moore），也称为快速贪心算法（Fast Greedy）

开始，每个顶点作为一个单独集群
选择最能提高模块度的一对集群（如果有的话），然后合并它们
当没有办法提高模块度的时候停止
复杂度： $O(n^2)$ ，稀疏图更少

Louvain：

也称为多级算法（Multilevel algorithm）或快速折叠算法（fast unfolding）

开始，每个顶点作为一个单独集群
循环遍历每个顶点，将其移动到模块度增加最多（如果有的话）的邻居社区
重复以上步骤，直到没有任何提升空间为止
将每个社区折叠成一个节点并重新运行上述步骤——另一个层级
当图折叠到单个节点（或者当最后一级没有移动）时停止
复杂度： $O (n l o g n)$

Infomap：

Infomap基于信息论：使用概率随机游走和压缩算法来实现
给定 G 和一个初始化分区方案，尽可能高效地编码随机游走
利用随机游走往往在同一社区中停留更长时间的性质
优化图方程：社区间游走的平均位数+社区内游走的平均位数
复杂度： $O (n l o g n)$

标签传播：

开始，每个顶点作为一个单独集群，有自己的簇标签
循环遍历每个顶点，每个顶点都采用其邻居中最流行的标签（使用随机来打破死锁）
当每个顶点具有与其邻域中最频繁出现的标签相同的簇标签时，算法停止
复杂度： $O (m)$

——注意：此算法速度很快，但并不总能收敛到一个解。

其他：

WalkTrap：一种基于短距离随机游走的分层算法。它的复杂度是 $O(n^2 log n)$ 。
Leading eigenvector（前导特征向量）：基于模块化矩阵的谱分解。对于每个双分区，其复杂度为 $O (n (n + m))$

Louvain和Infomap的算法目前被认为是最先进的。

2023年评论：应该是Leiden算法

图分区的比较（指标）

介绍：图聚类
常见的相似性测度量
与二元分类的联系
图感知度量（Graph-aware measures）
拓扑学特征

图聚类

符号描述：

$G = (V, E), E \subset V \times V, ∣ V ∣ = n, ∣ E ∣ = m$

A，邻接矩阵： $a_{ij} = 1 ⇔ (i, j) ∈ E$
$d_i$ ：顶点i的程度

术语解释：

图聚类/分割（clustering/partitioning）：将顶点分割成相连的子图
社区发现（Community finding）：并非所有的顶点都需要被分配到一个群组中去
模糊聚类（Fuzzy clustering）：节点不属于、属于一个或多个群组

图划分： $\mathbf A = \{A_1, A_2, ..., A_k\}$ ，为节点集 $V$ 的一个划分（partition）

每个 $A_i$ 诱导出一个连通子图
是连通分支的泛化
- 集群内的边密度大；集群间的边密度小

应用：

图聚类是关系型EDA（互联网数据分析）的一个重要工具
- 图尺寸缩减
- 社区检测
- 异常检测
- ……
如何挑选聚类算法？
- 集群的质量
- 稳定性
- 效率（时间空间）
- 其他：不需要指定聚类的数量（k）、集群的层次结构等

优化目标：

这是无监督学习，所以没有明确的目标函数
不同算法使用不同的目标函数：
1. 模块度：
$Q=\frac{1}{2 m} \sum_{i, j \in \text {同一簇} }\left(a_{i j}-\frac{d_i d_j}{2m}\right)$
1. N-cut
$\sum_i \frac{\text { cut }\left(A_i, \overline{A_i}\right)}{\# \text { edges in } A_i}$

不同分割方法对比：

质量的衡量标准： $sim(\mathbf T, \mathbf A) \space \text {w.r.t. ground truth partition} \space \mathbf T$
稳定性的衡量标准：同一算法的运行多次比较 $sim(\mathbf A, \mathbf {A'})$
比较算法之间的结果： $sim(\mathbf A, \mathbf B)$

相似性

总体分类：

基于成对计数（Pairwise-counting）
$W_f(\mathbf{A}, \mathbf{B})=\frac{\left|P_A \cap P_B\right|}{f\left(\left|P_A\right|,\left|P_B\right|\right)}$
基于信息论
$I_f(\mathbf{A}, \mathbf{B})=\frac{I(\mathbf{A}, \mathbf{B})}{f(H(\mathbf{A}), H(\mathbf{B}))}$
基于卡方分布（ $χ^2$ ）
$\begin{gathered} X_f^2(\mathbf{A}, \mathbf{B})=\frac{X^2(\mathbf{A}, \mathbf{B})}{f((k-1),(r-1))} \\ f(x, y) \in\{\min (x, y), \max (x, y), \operatorname{mean}(x, y), \sqrt{x y}\} \end{gathered}$

基于成对计数：

考虑对图节点的两个划分：

$\mathbf A = (A_1, ..., A_k) = (\{1, 2, .., 7\}, \{8\}, · · · )$

$\mathbf B = (B_1, ..., B_r ) = (\{1\}, \{2, 3, 4\}, \{5, 6, 7, 8\}, · · · )$
度量指标基于A和B里面各个集群中的成对元素

$P_A = \{(1, 2), (1, 3), (1, 4), (1, 6), (1, 7), (2, 3), · · · \}$

$P_B = \{(2, 3), (2, 4), (3, 4), (5, 6), (5, 7), (5, 8), · · · \}$
关键值为： $P_A ∩ P_B|$
示例：
1. Jaccard 指数：
  $\frac {|P_A ∩ P_B|} {|P_A ∪ P_B|}$
2. 兰德指数
$\frac {|P_A ∩ P_B| + |\overline {P_A} ∩ \overline {P_B}|} {\left(\begin{array}{c} n \\ 2 \end{array}\right)}$

基于信息论：

基于 A 和 B 之间的互信息
关键值为：
$I(\mathbf{A}, \mathbf{B})=\sum_{i, j} \frac{\left|A_i \cap B_j\right|}{n} \log \frac{\left|A_i \cap B_j\right| / n}{\left|A_i\right|\left|B_j\right| / n^2}$
示例：归一化互信息 (NMI)：
$\frac {I(\mathbf A, \mathbf B)} {(H(\mathbf A)+H(\mathbf B))/2}$

基于卡方分布：

关键值为：
$X^2(\mathbf{A}, \mathbf{B})=\sum_{i, j} \frac{1}{\left|A_i\right|\left|B_j\right|}\left(\left|A_i \cap B_j\right|-\frac{\left|A_i\right|\left|B_j\right|}{n}\right)^2$
示例：Cramer 的 V指标和 Tschurprow 的 T指标

测量指标vs.大小分布：

问题：比较不同大小的分区时，这些度量指标表现怎么样？

实验（多次重复）：

$\mathbf A$ ：节点V的划分 $∣ V ∣ = 10$
$\mathbf B^{(t)}$ ，V 的随机分区 $|\mathbf B^{(t)}| =t$ ， $t = 2 、 5 、 10 、 20 、 30 、 40 、 50 、 100$
测量 $\mathbf A$ 和所有分区 $\mathbf B^{(t)}$ 之间的相似性——期望所有相似度都很低

——结果：只有兰德系数变得接近1，其他都随着t的增大减小或趋向0

按概率进行调整：

实现 “在聚类结果随机产生的情况下，指标应该接近零”

$\text { Adjusted Similarity }(\mathbf{A}, \mathbf{B})=\frac{\operatorname{Similarity}(\mathbf{A}, \mathbf{B})-\operatorname{Expected} \operatorname{Sim}\left(\left|A_i\right|^{\prime} s,\left|B_j\right|^{\prime} s\right)}{1-\text { Expected } \operatorname{Sim}\left(\left|A_i\right|^{\prime} s,\left|B_j\right|^{\prime} s\right)}$

成对计数指标的调整：
$W_f(\mathbf{A}, \mathbf{B})=\frac{\left|P_A \cap P_B\right|-\left|P_A\right|\left|P_B\right| /\left(\begin{array}{c} n \\ 2 \end{array}\right)}{f\left(\left|P_A\right|,\left|P_B\right|\right)-\left|P_A\right|\left|P_B\right| /\left(\begin{array}{c} n \\ 2 \end{array}\right)}$
Jaccard 没有已知的调整形式
调整兰德指数定义为：
$ARI(\mathbf A, \mathbf B) = APW_{mean}(\mathbf A, \mathbf B)$
基于信息论和基于 $χ^2$ 的也可以针对机会进行调整
最常用的有：
1. ARI：调整兰德系数
2. AMI：调整互信息

——调整后的指标在随机下都趋近于0

二元划分

我们已经有了对比划分的指标，但我们根本没有考虑图拓扑。

测量相似性时应该考虑边吗？

这就引出了下面要讲的图感知测量，在这之前，要先讲下二元划分

边分类：

图分区可以由节点 V 上的集合分区表示

$\mathbf A = (\{1\}, \{2, 3, 4\}, \{5, 6, 7, 8\}, \{9, 10, 11\}, \{12\})$
我们还可以考虑二元边分类（顶点是否在同一簇中）

$(2, 3), (2, 4), (3, 4), ..., (9, 10), (9, 11), (10, 11) \to c l a ss 1$ ——两端节点在同一簇的边
$(1, 2), (4, 5), (8, 10), (11, 12) \to c l a ss 0$ ——两端节点在不同簇的边
更正式地说，对于顶点分区 A，我们定义长度为 m 的二元向量 $b_A$ ，其中，对于每条边 $e = (i, j) \in E$ ：
$b_{\mathbf{A}}(e)=\left\{\begin{array}{cc} 1 & \exists A_k \in \mathbf{A} \mid i, j \in A_k \\ 0 & \text { otherwise. } \end{array}\right.$
更进一步地，可以利用此方法对类别1边子集的边进行搜寻。

二元分类器的评估：

考虑 $b_A$ 和 $b_B$ ，两个二元边分类器。
用于比较二元分类器的四个基本计数是：
对应的各种度量指标如下：
$\begin{aligned} 准确性——& \mathrm{gR}: \frac{\left|P_A \cap P_B \cap E\right|+\left|\overline{P_A} \cap \overline{P_B} \cap E\right|}{|E|} \\ Jaccard——& \text { gJ: } \frac{\left|P_A \cap P_B \cap E\right|}{\left|\left(P_A \cup P_B\right) \cap E\right|} \\ F 分数 (β = 1)——& \mathrm{gPW}_{m n}: \frac{\left|P_A \cap P_B \cap E\right|}{\frac{1}{2}\left(\left|P_A \cap E\right|+\left|P_B \cap E\right|\right)} \\ 余弦相似度——& \mathrm{gPW}_{g m n}: \frac{\left|P_A \cap P_B \cap E\right|}{\sqrt{\left|P_A \cap E\right|\left|P_B \cap E\right|}} \\ Simpson——& \mathrm{gPW}_{\min }: \frac{\left|P_A \cap P_B \cap E\right|}{\min \left\{\left|P_A \cap E\right|,\left|P_B \cap E\right|\right\}} \\ Braun\&Banquet——& \mathrm{gPW}_{\max }: \frac{\left|P_A \cap P_B \cap E\right|}{\max \left\{\left|P_A \cap E\right|,\left|P_B \cap E\right|\right\}} \\ & \end{aligned}$

图感知度量

（调整）图感知度量：

上一节的指标可以用二元分类向量的乘积表示：

$\left|P_A \cap P_B \cap E\right| = |b_A · b_B|$
我们提出一系列成对计数的图感知度量指标：（一个是普通、另一个是调整后的）
$C_f(\mathbf{A}, \mathbf{B} ; G)=\frac{\left|b_{\mathbf{A}} \cdot b_{\mathbf{B}}\right|}{\left.f\left(\left|b_{\mathbf{A}}\right|,\left|b_{\mathbf{B}}\right|\right)\right)}, \quad A P C_f(\mathbf{A}, \mathbf{B} ; G)=\frac{\left|b_{\mathbf{A}} \cdot b_{\mathbf{B}}\right|-\frac{\left|b_{\mathbf{A}}\right| \cdot\left|b_{\mathbf{B}}\right|}{|E|}}{f\left(\left|b_{\mathbf{A}}\right|,\left|b_{\mathbf{B}}\right|\right)-\frac{\left|b_{\mathbf{A}}\right| \cdot\left|b_{\mathbf{B}}\right|}{|E|}}$

实验：

在LFR模型构建的社区中，调整图感知度量的性能指标都很好
不同种类的度量指标的度量效果不同（引子）

补充：

——图感知和图无关度量在解决问题方面具有相反的行为

图无关度量即前面说的普通相似性指标ARI等

设 G 的真实社区情况为 A，并设 B1 和 B2 分别是 A 的粗化和细化
在某些情况下，在图无关度量下A更接近B2（细化）；在图感知度量下A更接近B1（粗化）
- 当使用图无关的度量时，集群的数量更多
- 图感知度量生成的集群的数量更少
这两种指标都获得高值是我们做图聚类所希望的

定理的公式化描述：

考虑Girvan 和 Newman 模型的变体 G(n, p, q, A)，用于研究具有社区结构的图族
图有 n 个顶点，A为分区结果
- p为随机选择两个节点，其中的边在同一分区内的比例；
- q为随机选择两个节点，其中的边在不同分区内的比例。

拓扑特征

验证集群的另一种方法是比较集群的拓扑特征：参考Orman et al.,arXiv:1206.4987
示例：对于具有 $n_c$ 个节点和 $m_c$ 个边的社区 $c$ ——
- 缩放密度(scaled density)： $n_c \cdot m_c /\left(\begin{array}{c} n_c \\ 2 \end{array}\right)$
- 内部传递性(internal transitivity)： $\frac{1}{n_c} \sum_{i \in c} \frac{e_c(i)}{\left(\begin{array}{c} d_c(i) \\ 2 \end{array}\right)}$
  
  其中 $e_c(i)$ 是 c 中 i 的邻居之间的边数， $d_c(i)$ 是 c 中 i 的度数。
可以将特征作为簇大小的函数进行比较——比较聚类算法结果和ground truth的图形相似度

结论

使用调整后的基于集合的相似性度量，可以减少度量对分区粒度的偏差，消除随机性
图无关（ARI，AMI）和图感知（AGRI）度量是互补的：在评估算法的优越性时应同时使用它们

图的集成聚类（ECG）

共识聚类和 ECG
分辨率和稳定性
LFR 图上的研究
一些真实的图示例
ECG 权重
在异常检测中的应用

ECG

符号说明：

令图 G = (V , E), V = {1, 2, . . . , n}, 为无向图
对于每个 e ∈ E，边可以具有权重 w(e) > 0，或者考虑所有 w(e) = 1
令 $P_i = {C^1_i , …, C^{l_i}_i} $ 是大小为 $l_i$ 的 V 的一个分区
定义指示函数 $\mathbf 1_{C^j_i} (v)$ ，表示 $C^j_i$

图聚类的目标：好的、可扩展的、通用的——注意这是无监督学习

关联强度的度量
聚类的层次结构
不需要或尽量少调整参数

——使用集成学习（Ensemble learning）来实现这些目标：利用生成的多个分区来集成——如何合并多个图分区？

ECG算法：

ECG算法是图的共识聚类算法。步骤是：

生成步骤：来自 Louvain (ML) 算法的 k 个随机的 1级别（level-1）分区： $P = {P_1, . . .P_k}$ 。
集成步骤：在初始图 G = (V, E) 的重新加权版本上运行 ML。 ECG权重是通过联合获得的。

边 $e = (u, v) \in E$ 的 ECG 权重定义为：
$W_{\mathcal{P}}(u, v)=\left\{\begin{array}{lc} w_*+\left(1-w_*\right) \cdot\left(\frac{\sum_{i=1}^k \alpha_{P_i}(u, v)}{k}\right), & (u, v) \in 2 \text {-core } \\ w_*, & \text { otherwise } \end{array}\right.$

$0 < w_∗ < 1$ 是人工定义的最小权重
$α_{P_i} (u, v) = \sum ^{l_i}_{j=1} \mathbf 1_{C^j_i} (u) · \mathbf 1_{C^j_i} (v)$ 表示是否在 $P_i$ 的簇中共现。

通过示例可以看到，一个社区内的节点间的边在集成后权重变大，集团（clique）内的边尤其明显，而社区间的边集成后权重减小，变得很容易区分

分辨率和稳定性

分辨率：

基于模块化的算法存在分辨率限制问题：举例集团组成的环，相邻两个组合后模块度更大
w* 值较小的 ECG 算法缓解了这个问题
使用 level-1的Louvain 作为弱学习器是关键——第一层louvain不会聚合那些环上的边

实验：

在广义集团环上ECG算法表现也很好：将ECG和louvain、InfoMap比较，分别考察环上连接集团边数从1增加到5时的表现
即使噪音很大，权重仍然很显著：当噪声很大时，同一集团中的边权重仍然显著
在LFR生成的社区发现上，ECG算法能够很好地保留原始数量：level1的louvain数量过多，最终的louvain数量过少
在上一章的图感知与图无关度量上表现也很好

稳定性：

Louvain 和其他算法的已知问题：多次重新运行同一个算法会得到不同的结果
我们通过运行每个算法两次并应用一些比较措施（例如 ARI）来量化稳定性

实验：

ECG相比louvain在稳定性方面有了很大的改善
实证研究表明，结果对参数的选择不是很敏感（低级聚类次数k和最小权重W*）——不过一般情况下k越大、W*越小效果越好。

LFR 图上的比较研究

论文在数千个 LFR 图上比较 8 种算法
各种指标水平都是ECG较好
本研究只考虑γ1 = 2, γ2 = 1，在不同参数的LFR模型下，ECG大部分情况下都比较好

一些观察结论：

InfoMap 在大小相同的小型社区上提供最佳结果
ECG 在其他情况下提供最佳结果
ECG 的效果始终优于单个 Louvain (ML)

真实网络

足球俱乐部网络
- ECG和InfoMap都取得了最佳结果
YouTube网络
- 1,134,890 个节点（用户）和 2,987,624 条边（好友关系）
- 2-core 仅覆盖 41.1% 的顶点
- 8,385 个社区被声明为用户组，这些社区从拓扑角度来看非常薄弱
- 只有 12 个合格作为弱社区，外部度与总度的比率低于 0.5 我们将此比率扩展到 0.75（类似于 LFR 图中的 µ）
- 在图感知度量上ECG比InfoMap略胜一筹

权重

ECG 重新加权有助于提升聚类准确性和稳定性

我们讨论了计算的 ECG 权重的其他一些应用

我们定义了一个新的社区强度指数 (CSI)

我们展示了如何使用权重来放大种子顶点

社区强度指数CSI：

边界（0 和 1）附近的 ECG 权重的双峰分布(bi-modal distribution)表明了强大的社区结构
我们提出了一个基于点质量 Wasserstein 距离（推土机距离（Earth Mover’s distance））的简单社区强度指标 (CSI)

定义：

对于所有边 $(u, v) \in E$ ，以及来自 ECG 的 $W_P(u, v)$ ，我们定义：
$\cdot \frac{1}{|E|} \sum_{(u, v) \in E} \min \left(W_{\mathcal{P}}(u, v), 1-W_{\mathcal{P}}(u, v)\right)$
使得 $0 \leq CS I \leq 1$

关联强度：

从图上直观看出高 ECG 权重表示强关联
从经验上比较 ECG 权重和三角形出现次数：正相关关系

我们可以使用 ECG 权重作为自我网络的替代方案来放大种子节点

给定一个种子节点 v：

确定它所属的集群
删除所有 ECG 权重低于某个阈值 τ 的边
放大包含 v 的连通分量
增加 τ 可以对其进一步放大

——使用此方法可以很好地保留ground truth里面的真实同社区节点

异常检测

最近提出了CADA（community-aware anomaly detection社团感知异常检测）

CADA：

对于每个节点 $v \in V$ ，令：

$N (v)$ ：v 的邻居数。
$N_c(v)$ ： v 属于出现次数最多社区的邻居数（通过图聚类）。

$CADA_x(v) = \frac{N(v)} {N_c(v)}$

—— $x ∈ \{IM, ML\}$ ：即InfoMap算法和Louvain算法

实验：

原论文仅在 γ1 = 3、 γ2 = 2 的 LFR 图上验证了他们的算法——生成的是大小均一的小社区
我们用 ECG 重新审视了这种方法，并为幂律指数提供了更多值
对于每个图，我们添加了 200 个具有与 LFR 中相同的度分布的随机异常节点（随机边）
ECG算法表现都比较好

AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。

你可能感兴趣的:(复杂网络夏令营,聚类,算法)

什么是 Paxos和Raft MonkeyKing.sun paxos raft
Raft和Paxos是两种经典的分布式一致性算法（ConsensusAlgorithms），广泛应用于数据库、分布式系统、微服务架构中，用来确保在多个节点中即使有部分节点故障，系统仍然可以就“某一值”达成一致（即：分布式共识）。它们不是区块链专属，但在联盟链、私有链或数据库复制系统中常被用来替代PoW、PBFT等共识机制。一、什么是Paxos？定义：Paxos是一种保证在部分节点失效或网络延迟时，
什么是DPoS（Delegated Proof of Stake，委托权益证明） MonkeyKing.sun DPoS
DPoS（DelegatedProofofStake，委托权益证明）是一种基于PoS（权益证明）演进而来的共识算法，设计初衷是提高性能、增强治理效率、实现社区自治。一、什么是DPoS（委托权益证明）？DPoS是一种将记账权“委托给投票选出的代表节点”的共识机制。普通用户不直接参与出块，而是通过投票选出“代表人”代为记账和验证交易。可以理解为：“股东大会投票选董事会代表他们管理公司”。二、DPoS的
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
OpenCV CUDA模块设备层-----线性插值函数log() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于创建线性插值访问器，支持对GPU内存中的图像数据进行双线性插值采样。主要应用于图像缩放、旋转等几何变换中需要亚像素级精度的场景。为输入图像构造一个基于“双线性插值”的访问器对象LinearInterPtrSz，可以在CUDA核函数中按需访问缩放后的像素值
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
算法训练营|数组总结慧泽huize 数据结构算法 leetcode python c++
时间复杂度：算法执行语句的次数空间复杂度：算法在运行过程中临时占存储空间大小数组（C++）：存放在连续内存空间的相同类型固定大小的数据的集合，不能删除，只能覆盖列表（Python）：数据可以是不同类型，列表长度可变1.二分查找循环不变量原则，清楚区间定义时间复杂度：O(logn)空间复杂度：O(1)2.双指针法快指针找到新数组元素，慢指针指向新数组下标时间复杂度：O(n)空间复杂度：O(1)3.双
手把手教程：在 VS2017 32位 Windows 环境下编译 OR-Tools 9.6 并集成到 C++ 项目 A小庞 C++知识算法 c++开发语言 or-tools 算法库
OR-Tools是Google开源的优化算法库，支持路径规划、线性规划、约束编程等多种功能。本文将详细介绍在VisualStudio201732位Windows环境下编译OR-Tools9.6的两种方法：联网自动下载依赖和手动编译依赖项，并提供避坑指南。方法一：联网自动下载依赖（推荐新手）步骤1：克隆OR-Tools仓库gitclonehttps://github.com/google/or-to
Google的OR-Tools：运筹学与优化的强大工具 A小庞算法调度算法 or-tools Google
在当今数字化时代，优化问题无处不在，从物流配送到生产计划，从资源调度到交通流量优化，这些看似复杂的问题都可以通过专业的工具来解决。Google的OR-Tools正是这样一款强大的运筹学和优化工具包，它为开发者提供了丰富的算法和功能，帮助解决各种复杂的优化问题。一、OR-Tools简介OR-Tools（OperationsResearchTools）是Google开源的一个用于组合优化的软件套件，旨
第十届“信也科技杯”全球 AI 算法大赛火热开赛！巅峰对决 · 超三十万奖金等你挑战猫头虎猫头虎精品博客专栏科技人工智能神经网络计算机视觉语音识别机器学习目标检测
巅峰对决·超三十万奖金等你挑战！第十届“信也科技杯”全球AI算法大赛火热开赛！第十届信也科技杯全球AI算法大赛活动目录合作单位赛事概况赛事奖励赛事日程速览即刻报名参赛电脑端报名报名选手交流群关于“信也科技杯”关于信也科技合作单位“信也科技杯”是由信也科技主办的数据算法竞赛平台，信也科技与两大全球顶级AI会议合作不仅是IJCAI2025官方合作单位，“信也科技杯”也被CIKM2025AnalytiC
《聚类算法》入门--大白话篇：像整理房间一样给数据分类
一、什么是聚类算法？想象一下你的衣柜里堆满了衣服，但你不想一件件整理。聚类算法就像一个聪明的助手，它能自动帮你把衣服分成几堆：T恤放一堆、裤子放一堆、外套放一堆。它通过观察衣服的颜色、大小、款式这些特征，把相似的放在一起，不相似的分开。在计算机世界里，聚类算法就是帮我们把杂乱的数据分成有意义的组。它不需要提前知道答案（这就是"无监督学习"），而是像侦探一样，从数据中发现隐藏的规律。二、最常见的三种
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
C8051F单片机在三轴伺服转台动力学模型与伺服算法仿真中的应用【附设计】
自动化设计|控制系统|毕业设计指导|工业自动化解决方案✨专业领域：程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列编程三菱/欧姆龙应用PIC单片机触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以私信或查
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL gpt
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理1.MindSQL(库)MindSQL是一
【k近邻】 K-Nearest Neighbors算法原理及流程 F_D_Z 机器学习方法数理算法学习机器学习 k近邻算法 k-近邻算法
【k近邻】K-NearestNeighbors算法原理及流程【k近邻】K-NearestNeighbors算法距离度量选择与数据维度归一化【k近邻】K-NearestNeighbors算法k值的选择【k近邻】Kd树的构造与最近邻搜索算法【k近邻】Kd树构造与最近邻搜索示例k近邻算法（K-NearestNeighbors，简称KNN）是一种常用的监督学习算法，可以用于分类和回归问题。在OpenCV中
高通手机跑AI系列之——3D姿势估计伊利丹~怒风 Qualcomm 智能手机 AI编程 arm python 人工智能
目录环境准备手机软件算法Demo代码功能分析关键模块解析示例代码代码效果环境准备手机测试手机型号：RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz=2.089TFLOPS提示：任意手机均可以，性能
矩阵题解——螺旋矩阵 II【LeetCode】 chao_789 我的学习记录矩阵篇_刷题笔记算法 leetcode python 数据结构矩阵
59.螺旋矩阵II第一个算法：基于层数和偏移量的方法算法逻辑思路：初始化阶段：创建n×n的零矩阵，设置起始点(0,0)，计算需要循环的层数(n//2)，初始化计数器为1核心循环逻辑：通过偏移量控制每一层的边界外层循环：遍历每一层(offset从1到loop)内层四个循环：按顺时针方向填充当前层左→右：填充上边，范围[starty,n-offset)上→下：填充右边，范围[startx,n-offs
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
动手学Python：从零开始构建一个“文字冒险游戏” network爬虫 python python 开发语言
动手学Python：从零开始构建一个“文字冒险游戏”大家好，我是你的技术向导。今天，我们不聊高深的框架，也不谈复杂的算法，我们来做一点“复古”又极具趣味性的事情——用Python亲手打造一个属于自己的文字冒险游戏（TextAdventureGame）。你是否还记得那些在早期计算机上，通过一行行文字描述和简单指令来探索未知世界的日子？这种游戏的魅力在于它能激发我们最原始的想象力。而对于我们程序员来说
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
[学习] PID算法原理与实践（代码示例）极客不孤独学习算法 c语言
PID算法原理与实践文章目录PID算法原理与实践一、PID算法原理1.1PID算法概述1.定义2.应用领域3.核心目标1.2基本原理1.3数学表达离散化实现（适用于数字控制）二、实践案例（C语言）1.电机转速控制2.温度控制系统3.时钟驯服系统三、常见问题与优化1.积分饱和（Windup）问题2.噪声干扰问题3.非线性系统适配问题四、扩展方向1.数字PID与模拟PID的差异2.变参数PID（如增益
代码随想录算法训练营第52天 | 101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿 Amor_Fati_Yu 算法 java 数据结构
101.孤岛的总面积importjava.util.*;publicclassMain{privatestaticintcount=0;privatestaticfinalint[][]dir={{0,1},{1,0},{-1,0},{0,-1}};//四个方向privatestaticvoidbfs(int[][]grid,intx,inty){Queueque=newLinkedList=gr
Golang Fiber框架最佳实践：如何构建企业级应用 Golang编程笔记 Golang编程笔记 Golang开发实战 golang 开发语言后端 ai
GolangFiber框架最佳实践：如何构建企业级应用关键词：Golang、Fiber框架、企业级应用、最佳实践、Web开发摘要：本文聚焦于GolangFiber框架在企业级应用构建中的最佳实践。详细介绍了Fiber框架的背景、核心概念、算法原理、数学模型等基础知识，通过具体的代码案例展示了如何搭建开发环境、实现和解读源代码。同时探讨了Fiber框架在实际应用场景中的应用，推荐了相关的学习资源、开
代码随想录算法训练营第52天| 101. 孤岛的总面积、102. 沉没孤岛、103. 水流问题、104.建造最大岛屿扛过今天777 算法深度优先
101.孤岛的总面积卡码题目链接：101.孤岛的总面积学习链接：代码随想录题解：法一：count=0defdfs(grid,x,y):globalcountgrid[x][y]=0count+=1directions=[[1,0],[0,1],[-1,0],[0,-1]]fori,jindirections:next_x=x+inext_y=y+jifnext_x=len(grid)ornext_
深入研究 Golang 领域的 Fiber 框架架构 Golang编程笔记 golang 架构网络 ai
深入研究Golang领域的Fiber框架架构关键词：Golang、Fiber框架、架构、高性能、Web开发摘要：本文将深入探讨Golang领域的Fiber框架架构。我们会先介绍背景知识，包括目的、预期读者等。接着用通俗易懂的方式解释核心概念，如Fiber框架的各个组成部分，以及它们之间的关系。然后详细阐述核心算法原理、数学模型，通过实际代码案例展示其应用。还会介绍Fiber框架的实际应用场景、推荐
如何在FastAPI中打造坚不可摧的Web安全防线？
url:/posts/9d6200ae7ce0a1a1a523591e3d65a82e/title:如何在FastAPI中打造坚不可摧的Web安全防线？date:2025-06-28T08:37:03+08:00lastmod:2025-06-28T08:37:03+08:00author:cmdragonsummary:Web安全三要素包括机密性、完整性和可用性。机密性通过加密算法保护数据传输和
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
Java Fork/Join 框架详解 empti_ 数据结构与算法 java
JavaFork/Join框架详解Fork/Join框架是Java7引入的一个并行编程框架，专门设计用来高效地实现分治算法（Divide-and-Conquer）。它通过工作窃取（Work-Stealing）算法来最大化多核处理器的利用率。一、核心概念1.基本组成ForkJoinPool：特殊的线程池，管理工作线程ForkJoinTask：表示任务的抽象类，有两个重要子类：RecursiveAct
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla