是Yu欸

社交网络分析4：社交网络链路预测分析、LightGBM框架、Logistic回归模型、LLSLP方法（LightGBM 堆叠链路预测）、正则化方法、多重共线性、堆叠泛化

社交网络分析4

写在最前面
社交网络链路预测分析概述
- 链路预测分析简介
- 链路预测分析的重要性
- 社交网络链路预测分析方法
- - 基于网络结构的方法
  - 基于节点属性的方法
  - 基于随机游走的方法
  - 基于深度学习的方法
基于相似性和基于似然性的链路预测方法
- 基于相似性的方法
- - 基于邻居的方法
  - 基于路径的方法
  - 基于随机游走的方法
- 基于似然估计的方法
- 两类方法的优缺点
LLSLP方法（逻辑斯蒂回归 LightGBM 堆叠链路预测）
- 方法概述
- 逻辑斯蒂回归模型
- 防止过拟合
- 强学习器的创建
逻辑斯蒂回归（Logistic Regression）
- Logistic回归模型概述
- - 定义和用途
  - 模型特点
  - Logistic回归模型的基本形式
- Logistic回归模型的优缺点
- - 优点
  - 缺点
- Logistic回归模型的应用场景
- 模型评估指标
- - 准确率
  - 精确率
  - 召回率
  - F1分数
- Logistic回归模型的训练和优化
- - 训练过程
  - 超参数调整和优化策略
  - 过拟合和欠拟合的处理
  - - 欠拟合处理
    - 过拟合处理
    - 过拟合与欠拟合的判断
- 正则化方法的应用
- - 定义
  - L1和L2正则化
- 多重共线性问题
- - 定义及其表现
  - 检验方法
  - 处理多重共线性的经验式做法
- 岭回归和Lasso回归
- - 岭回归（Ridge Regression）
  - Lasso回归
  - 核心差异
- Logistic回归模型与其他模型的比较和选择
- - 与决策树的比较
  - 与支持向量机的比较
  - 在不同场景下的模型选择
- 正则化的作用
- - 实验设计
  - 实验结果
  - 正则化的作用
LightGBM
- 堆叠泛化（Stacked Generalization）
- - 集成学习概述
  - 集成方法的种类
  - Stacking与Bagging和Boosting的差异
  - Stacking的实现
  - 建立Stacking模型的步骤
  - 数据集分割的考量
  - k-交叉验证的细节
  - Stacking的优势
LLSLP方法
- 方法概述
- 实施步骤
- - 1. 划分节点对
  - 2. 构建训练集与测试集
- 3. 处理类别不平衡问题
- - 类别不平衡问题的定义
  - 类别不平衡带来的问题
  - 逻辑回归中的代价敏感学习
- 4. 链路预测算法流程
- - 训练集与测试集的准备
  - 第一学习层
  - 特征合并与第二学习层
  - 最终预测
- 链路预测模型构建
- - 基模型的选择
  - Stacking方法的应用
  - 防止过拟合的策略
- LLSLP方法框架
- - 数据集
  - 链路预测模型评估
社交网络链路预测分析的挑战
- 数据稀疏性问题
- 模型泛化能力问题
- 计算复杂性问题
- 实时预测问题
- 社交网络链路预测分析的未来发展趋势
- 社交网络链路预测分析的实际应用
问题
- 1. 链路预测的目标是什么？它有哪些具体的应用，结合一个具体示例进行说明。
- 2. 链路预测方法主要分为几类？简要地进行说明。
- 3. 逻辑斯蒂回归中引入 Logit 变换的主要目的是什么？
- 4. 简述逻辑斯蒂回归 LightGBM 堆叠链路预测（LLSLP）方法的主要步骤。
- 5. LightGBM 采用哪些方法解决数据量大和特征维度较高的问题的？结合示例简要进行说明。
- 6. 在 LLSLP 方法中引入正则化的主要目的是什么？
- 7. 什么是堆叠（或层叠）泛化？在 LLSLP 方法中主要作用是什么？

写在最前面

《社交网络分析》课程由鲁宏伟老师授课，其教学方式不仅严谨负责，还充满幽默与个人见解。这个方向对我而言也尤其有吸引力，怀着极大的兴趣选修了这门课程。

四、社交网络链路预测方法
主要结合三个PPT：社交网络链路预测分析、LightGBM框架、Logistic回归模型概述
本章简要介绍社交网络隐私攻击和保护的基本概念和方法

在这个由连接驱动的数字时代，社交网络不仅仅是连接人与人的桥梁，它们还蕴含着深刻的社会、经济和技术洞见。从Facebook到LinkedIn，社交网络的每一个点击、每一条信息流，都构成了一个复杂且动态的网络结构。但是，这些看似简单的连接背后隐藏着什么秘密？如何预测未来可能形成的社交联系，从而揭示隐藏在数据背后的深层次模式和趋势？这就是社交网络链路预测分析的魅力所在。

在这篇博客中，我们将深入探讨社交网络链路预测分析的核心，解析它的基本概念、重要性以及各种现代方法。我们将介绍从基于网络结构的传统方法到利用深度学习和人工智能的先进技术，如何在社交网络的海洋中捕捉那些看不见的线索。

我们不仅仅停留在理论层面，还将深入探讨实际应用，包括：

链路预测的目标和具体应用场景。
各类链路预测方法的分类和原理。
逻辑斯蒂回归在链路预测中的独特作用。
创新的逻辑斯蒂回归 LightGBM 堆叠链路预测（LLSLP）方法及其步骤。
LightGBM在处理大数据和高维特征时的策略。
正则化在LLSLP方法中的关键作用。
层叠泛化在LLSLP方法中的重要性及其应用。

社交网络链路预测不仅面临数据稀疏性、模型泛化能力、计算复杂性等挑战，还需要不断适应快速变化的网络环境和实时数据更新的要求。本博客将为您提供一个全面的视角，探索社交网络链路预测分析的现状、挑战和未来发展趋势。

准备好深入这个领域了吗？让我们开始这段探索之旅！

社交网络链路预测分析概述

链路预测分析简介

链路预测分析是一种方法，用于预测社交网络中用户间可能存在的联系。它主要分为以下几种方法：

基于网络结构的方法：依据社交网络的结构特征。
基于内容的方法：根据用户生成的内容进行预测。
基于用户行为的方法：依据用户的活动和互动模式。

此分析的目标是预测未来可能形成的联系，从而提升社交网络的推荐质量和预测准确性。它在社交网络、推荐系统、数据挖掘等领域有着广泛的应用。

链路预测分析的重要性

链路预测分析在多个领域都有显著应用，包括但不限于：

社交网络：预测用户间的社交关系，提升推荐系统的准确性。
生物信息学：预测蛋白质间的相互作用，助力药物研发。
交通网络：预测交通流量，优化交通规划。
通信网络：预测网络拓扑结构，增强网络性能和可靠性。

社交网络链路预测分析方法

基于网络结构的方法

邻接矩阵方法：利用邻接矩阵信息进行预测。
图论方法：应用图论概念和算法。
社区结构方法：根据社交网络的社区结构进行预测。
网络演化方法：基于社交网络演化规律。

基于节点属性的方法

节点度：考虑节点与其他节点的连接数量。
节点中心性：评估节点在网络中的重要性。
节点聚类系数：衡量节点所在社群的紧密程度。
节点属性：如年龄、性别、兴趣等特征。

基于随机游走的方法

随机游走模型：构建节点间的联系和传播模型。
随机游走算法：通过模拟过程预测联系和传播概率。

基于深度学习的方法

卷积神经网络（CNN）：提取节点特征。
自编码器（Autoencoder）：学习低维表示。
循环神经网络（RNN）：处理时序信息，如用户行为序列。
生成对抗网络（GAN）：生成新的社交网络链接。
图神经网络（GNN）：处理图结构信息。
强化学习（RL）：优化模型参数。

基于相似性和基于似然性的链路预测方法

基于相似性的方法

基于相似性的链路预测方法主要分为三类：基于邻居、基于路径和基于随机游走。

基于邻居的方法

这种方法假设两个节点若有更多共同邻居，则更可能存在链接。
Newman提出了使用共同邻居（Common Neighbor, CN）指数来衡量节点间的相似性，并引入了多个变体，如Salton指数、资源分配（Resource Allocation, RA）指数、Adamic-Adar（AA）指数等。
实验结果显示，RA指数表现最优，而PA指数整体表现较差。

基于路径的方法

使用节点间路径来计算相似性。
例如，Local Path（LP）指数关注长度为2和3的路径，而Katz指数则考虑所有路径，常在实际网络中表现良好。

基于随机游走的方法

这类方法通过随机游走模拟网络中节点间的交互。
例如，平均通勤时间（Average Commute Time, ACT）指数、SimRank、重新开始随机游走（Random Walk with Restart, RWR）和局部随机游走（Local Random Walk, LRW）。
ACT指数基于平均步骤数，SimRank衡量随机游走者相遇的时间，而LRW专注于短路径，计算复杂度较低。

基于似然估计的方法

这类方法假设社交网络中的节点和边符合某种概率分布或模型，并利用历史数据估计这些参数，从而预测未来的链路。
如Clauset等人推断网络层次结构的方法，Nur Nasuha Daud等人的节点分组方法，以及Pan等人基于结构哈密顿量的方法。
这些方法尽管计算复杂度较高，但提供有价值的见解。

两类方法的优缺点

基于相似性的方法：计算复杂度低，但结果易受网络结构影响，稳定性和鲁棒性有限。
基于似然估计的方法：具有强大的数学基础和高预测准确性，但计算量大，不适合大规模网络。

LLSLP方法（逻辑斯蒂回归 LightGBM 堆叠链路预测）

逻辑斯蒂回归 LightGBM 堆叠链路预测（Logistic-regresion LightGBM Stacking Link Prediction method，LLSLP）

方法概述

逻辑斯蒂回归 LightGBM 堆叠链路预测方法（LLSLP）是一种高效的链路预测方法。它把社交网络中的链路预测问题视为一个二分类问题，并采用以下步骤：

特征学习：使用15个相似性指标作为模型要学习的特征。
超参数确定：精确调整基模型的超参数以优化性能。
特征重学习：对基模型学到的新特征进行重新学习，以精细化预测结果。
算法验证：通过在10个不同网络上的实验，并比较7个关键指标，验证算法的可行性和有效性。

逻辑斯蒂回归模型

逻辑斯蒂回归模型是一种用于解决分类问题的模型，它通过以下方式提升性能和准确度：

梯度的单边采样算法（GOSS）：减少样本维度，从而提高处理速度和效率。
互斥特征捆绑算法（EFB）：减少特征维度，增强模型的解释能力。

防止过拟合

为了防止模型过拟合，LLSLP方法在误差函数中加入正则项。这有助于平衡模型的复杂度与预测准确度。

强学习器的创建

LLSLP方法通过结合弱学习器的偏置或方差，创建出一个性能更优的强学习器（或称为“集成模型”）。这种方法旨在从多个简单模型中汲取优势，构建出一个整体性能更强的复合模型。

逻辑斯蒂回归（Logistic Regression）

Logistic回归模型概述

定义和用途

逻辑斯蒂回归是一种用于二分类问题的统计方法，它预测某个事件发生的概率。适用于需要概率输出的场景，如医学诊断、市场营销响应预测等。

模型特点

二分类模型：预测结果为二元输出，通常为0或1。
概率输出：与传统的线性回归不同，逻辑斯蒂回归输出的是发生概率。
Sigmoid激活函数：采用sigmoid函数将线性回归模型的输出转换为概率。

Logistic回归模型的基本形式

Logit变换：使用logit函数转换概率以便进行线性建模。
模型公式： $\text{logit}(p) = \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n$
损失函数：采用对数损失函数（Log Loss），表示为： $L(\theta) = -\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}\log(h_\theta(x^{(i)})) + (1 - y^{(i)})\log(1 - h_\theta(x^{(i)}))]$

Logistic回归模型的优缺点

优点

简单高效：原理简单，模型清晰，易于操作。
在线学习：支持在线学习，参数可轻松更新。
概率输出：输出介于0到1之间，具有概率意义。
可解释性：模型参数具有明确的统计学意义。

缺点

处理缺失数据：对缺失数据敏感，需要预处理。
非线性边界：对复杂或非线性关系的建模能力有限。

Logistic回归模型的应用场景

二分类问题：如疾病诊断、垃圾邮件分类等。
多分类问题：通过技术手段如一对多（OvR）扩展到多类别分类问题。

模型评估指标

准确率

准确率是反映分类器或模型对整体样本判断正确的能力，即能将阳性（正）样本（positive）判定为positive和阴性（负）样本（negative）判定为negative的正确分类能力。

精确率

精确率反映分类器或模型正确预测正样本精度的能力，即预测的正样本中有多少是真实的正样本。

召回率

召回率反映分类器或模型正确预测正样本全度的能力，即正样本被预测为正样本占总的正样本的比例。

F1分数

F1分数是精确率和召回率的加权调和平均。值越大，性能越好。F1值可以平衡precision少预测为正样本和recall基本都预测为正样本的单维度指标缺陷。

Logistic回归模型的训练和优化

训练过程

初始化参数：设定初始参数值。
计算损失函数：使用损失函数评估模型的性能。
反向传播：计算损失函数的梯度。
更新参数：根据梯度调整模型参数。

超参数调整和优化策略

优化学习率、正则化参数等超参数。
使用交叉验证来选择最佳超参数。

过拟合和欠拟合的处理

欠拟合处理

增加特征数量。
增加模型复杂度。
减少正则化影响。

过拟合处理

增加数据量。
减少模型复杂度。
应用正则化技术。

过拟合与欠拟合的判断

通过比较训练集和测试集上的误差来判断。

正则化方法的应用

定义

正则化是对模型的复杂度进行惩罚，以防止过拟合。

L1和L2正则化

L1正则化（Lasso回归）：使用绝对值，可以将系数压缩至0，实现特征选择。
L2正则化（Ridge回归）：使用平方值，可以增加系数的大小，避免过拟合。

多重共线性问题

定义及其表现

多重共线性是指在一个回归模型中，两个或多个解释变量高度相关。当出现多重共线性时，计算自变量的偏回归系数会遇到困难，因为涉及的矩阵可能不可逆。其主要表现包括：

模型整体方差分析结果与单个自变量的回归系数检验结果不一致。
通常有统计学意义的自变量检验结果却显示为无意义。
自变量的系数或符号与实际情况不符。

检验方法

容忍度（Tolerance）：值介于0至1之间。容忍度值较小表明存在共线性。
方差膨胀系数（Variance Inflation Factor, VIF）：最常用的检验方法。VIF值大于1表明存在多重共线性。VIF值越接近1，共线性问题越轻，反之越重。

处理多重共线性的经验式做法

删除共线性变量：删除不重要的共线性变量。但需注意，这可能导致模型改变，引发决策错误。
增加样本容量：有时多重共线性与样本量过少相关，增加样本量可能有助于解决。但这可能受到实际限制，如实验已结束等。
变量转换：构造一个新变量，作为多重共线性变量的函数，并用这个新变量替代原有变量。需确保新变量具有实际意义，以保持模型的可解释性。

岭回归和Lasso回归

岭回归（Ridge Regression）

岭回归，也称为Tikhonov regularization，是一种专用于处理共线性数据的回归方法。它是最小二乘估计法的改良版，通过引入一个惩罚项来减少模型的复杂度。这种方法虽然牺牲了一些信息和精度，但却能获得更可靠的回归系数，尤其在处理病态数据时比最小二乘法更为有效。

惩罚项的影响：岭回归惩罚项中的λ对模型的精确性有显著影响。
岭迹分析：通常使用岭迹分析来选择合适的λ值，选择原则包括回归系数的稳定性、符号的合理性、避免经济意义不合理的绝对值，以及残差平方和的适度增加。

Lasso回归

Lasso回归（Least Absolute Selection and Shrinkage Operator）是一种以降维为目的的压缩估计方法。通过引入一个一阶惩罚函数，Lasso能够将某些系数完全压缩至0，实现变量选择的目的。虽然和岭回归在公式上有相似之处，但Lasso在λ较小时能使一些系数变为0，这是岭回归难以做到的。

与岭回归的比较：Lasso使用一阶绝对值惩罚项，而岭回归使用二阶平方和惩罚项。
几何解释：通过几何角度可以明显看出Lasso和岭回归的不同。
缺点：Lasso无法得出显式解，需要使用近似计算方法（如坐标下降法和最小角回归法），估计结果可能存在误差。

核心差异

两种回归方法的核心区别在于它们使用的范数不同：Lasso回归采用L1范数，而岭回归采用L2范数。这导致了它们在处理过拟合问题以及系数缩减上的不同表现。

Logistic回归模型与其他模型的比较和选择

与决策树的比较

分类方式：Logistic回归是连续概率模型，而决策树是离散分类模型。
模型解释性：Logistic回归易于解释，决策树则更易于构建。
变量选择：Logistic回归采用正则化方法进行变量选择，决策树采用剪枝方法。
计算复杂度：Logistic回归模型的计算复杂度相对较低，决策树的计算复杂度较高。

与支持向量机的比较

模型类型：Logistic回归是线性模型，支持向量机（SVM）是二分类模型。
约束不同：Logistic回归通常使用L1正则化，SVM使用L2正则化。
损失函数：Logistic回归使用对数损失函数，SVM使用Hinge损失函数。
适用范围：Logistic回归适用于数据量大、特征多、类别不平衡的情况，SVM适用于数据量小、特征少、类别平衡的情况。

在不同场景下的模型选择

线性回归模型：适用于连续型变量，无类别标签的情况。
Logistic回归模型：适用于二分类问题，提供概率输出。
决策树模型：适用于分类和回归问题，提供结构化决策规则。
随机森林模型：适用于分类和回归问题，提供多个决策树的综合结果。
支持向量机模型：适用于二分类问题，关注于找到最大间隔的分类边界。

正则化的作用

正则化是一种重要的技术，用于防止机器学习模型的过拟合。以下通过一个简单实验来说明正则化的效果。

实验设计

实验采用一个两层的神经网络模型，其中激活函数为Sigmoid。目标是拟合直线 $y = x$ 。我们对这条直线进行等间距采样，并加入随机噪声，得到10个数据样本。

实验结果

实验中，我们比较了两种情况：没有正则化 $\lambda = 0$ 和有正则化 $\lambda = 0.5$ 。

无正则化 $\lambda = 0$ ：模型尝试降低误差，但由于训练数据较少，可能导致模型完美拟合带噪声的数据，即发生过拟合。
有正则化 $\lambda = 0.5$ ：通过引入正则化项，模型在拟合过程中不仅考虑误差最小化，也考虑了模型的复杂度。这种方式使得模型更加健壮，能够抵抗噪声，从而提高了对未知样本的预测性能。

正则化的作用

正则化通过向损失函数中添加一个正则项（通常是模型权重的L1或L2范数），使模型在训练过程中不仅尽可能降低误差，同时也保持模型的简洁性。这样的策略有效地抑制了过拟合现象，增强了模型的泛化能力。

LightGBM

参见：LightGBM简介

LightGBM是一种集成学习框架，广泛用于机器学习中。它优化了传统梯度提升决策树（GBDT）的性能和速度。

堆叠泛化（Stacked Generalization）

堆叠泛化是一种高级的集成学习技术，它结合了多个不同的机器学习模型以提高预测准确性。

集成学习概述

集成学习是一种机器学习范式，它训练多个模型（通常称为“弱学习器”）来解决相同问题，并将它们结合以获得更好的结果。关键假设是，通过正确组合弱模型，可以得到一个更精确或更具鲁棒性的“强学习器”。

集成方法的种类

集成方法通常采用以下三种主要方式来组合弱学习器：

Bagging：考虑同质弱学习器，它们独立并行学习，并通过平均过程组合。
Boosting：也使用同质弱学习器，但以一种高度自适应的方法顺序学习，并通过确定性策略组合。
Stacking（层叠泛化）：考虑异质弱学习器，它们并行学习，并通过训练元模型组合，基于不同弱模型的预测结果输出最终预测。

Stacking与Bagging和Boosting的差异

异质与同质弱学习器：Stacking通常使用不同的学习算法组合，而Bagging和Boosting主要使用相同类型的弱学习器。
元模型与确定性算法：Stacking使用元模型组合基础模型，而Bagging和Boosting使用确定性算法组合弱学习器。

Stacking的实现

Stacking的概念是学习多个不同的弱学习器，并通过一个元模型来组合它们。元模型基于弱模型返回的多个预测结果来输出最终预测。

建立Stacking模型的步骤

为了构建Stacking模型，需要执行以下步骤：

定义学习器和元模型：选择L个学习器（如KNN、逻辑斯蒂回归、SVM等）作为弱学习器，并选择一个强学习器（如神经网络）作为元模型。
分割训练数据：将训练数据分为两组。
训练弱学习器：使用第一组数据训练L个弱学习器。
预测和训练元模型：使每个弱学习器对第二组数据进行预测，并在第二组数据上训练元模型，使用弱学习器的预测结果作为输入。

数据集分割的考量

一分为二的问题：将数据集一分为二的主要问题是，只有一半的数据用于训练基础模型，而另一半用于训练元模型。
解决方法：k-交叉验证：为了克服这个限制，可以采用k-交叉验证方法，确保所有观测数据都用于训练元模型。这种方法涉及将数据分为k组，并交替使用其中的一组作为测试集，其余作为训练集。这样，每个数据点都被用于预测和训练。

k-交叉验证的细节

k的选择：k通常大于等于2，实际操作中一般从3开始。当数据量较小时，可能会选择2。作为经验规则，k=10通常被认为是足够的。
性能指标：使用k个模型的验证集分类准确率的平均值作为性能指标。

Stacking的优势

模型多样性：Stacking通过训练多个不同的弱学习器，可以有效利用每种模型的优势。
元模型训练：元模型基于不同弱学习器的输出进行训练，提供了一种机制来综合这些预测，从而提高整体模型的性能。

LLSLP方法

LLSLP（Logistic-regression LightGBM Stacking Link Prediction）方法是一种用于社交网络链路预测的方法，将问题视为二分类问题，并考虑节点间的多个相似性指标。

方法概述

定义问题：将社交网络的链路预测视为一个二分类问题，考虑每两个节点间的15个相似性指标：CN、Sal、Jac、Sor、HPI、HDI、LHN-I、PA、A、RA、LP、Katz、ACT、Cos和RWR。
特征集定义：这些相似性指标被视为网络中任何两个节点间的特征。
模型选择与堆叠：选择逻辑斯蒂回归和LightGBM作为基本模型，并引入Stacking思想，对基础模型的预测结果进行重学习，以获得更好的预测结果。

实施步骤

1. 划分节点对

考虑一个具有n个节点的社交网络，总共有 $n (n - 1) /2$ 个节点对。
构造网络中所有节点对的数据集 $D$ ，包括特征集 $F$ 和类别集 $C$ 。
采用分层抽样的方法，按照8:2的比例将所有节点对划分为原始训练集和原始测试集。

2. 构建训练集与测试集

在原始训练集和原始测试集中，分别计算节点对的15个相似性指数。
这些相似性指数作为节点间的15个不同特征。
在原始网络中，若节点对连接，则归为类别1（正样本），否则归为类别0（负样本）。
最后，将特征集与类别集组合，得到训练集和测试集。

3. 处理类别不平衡问题

类别不平衡问题的定义

类别不平衡：当一个分类任务的数据集中不同类别的样本数量相差悬殊时，通常称这种数据集为“类别不平衡”的。
在网络链路预测中的表现：网络中的链接通常是稀疏的，具有连接边缘的节点对数量远少于没有连接边缘的节点对。在链路预测中，通常更关注有连接边缘的节点对，即少数类。

类别不平衡带来的问题

过拟合问题：机器学习中对于不平衡样本的学习容易导致过拟合，降低模型泛化能力，并使预测变得无意义。
代价敏感学习策略：为了不改变原始数据分布，可以使用代价敏感学习（Cost-sensitive Learning）策略。该策略给少数类样本分配较高的误分类代价，而给多数类样本分配较小的误分类代价。

逻辑回归中的代价敏感学习

目标函数：逻辑回归的目标函数的极大似然函数为：
$-\sum_{i=1}^{n} [y_i \log(h(x_i)) + (1 - y_i) \log(1 - h(x_i))]$

其中， $h (x)$ 是逻辑函数， $y_i$ 和 $x_i$ 分别是样本的标签和特征。
引入样本权重：在代价敏感的情况下，引入正、负样本权重 $\alpha, \beta ]$ ，目标函数变为：
$-\sum_{i=1}^{n} [\alpha y_i \log(h(x_i)) + \beta (1 - y_i) \log(1 - h(x_i))]$

这样，通过调整 $\alpha$ 和 $\beta$ 的值，可以增加少数类样本的重要性，从而减轻分类器对多数类的偏好。

4. 链路预测算法流程

训练集与测试集的准备

在解决数据类别不平衡问题后，将训练集和测试集分别输入到学习流程中。

第一学习层

基学习器的选择：选择两个基学习器，逻辑斯蒂回归（LR）和LightGBM。
超参数优化：使用交叉验证、网格搜索和提前终止的方法确定模型的超参数。
特征融合：基学习器对15个传统相似性指标进行融合，得到两个融合特征。

特征合并与第二学习层

特征合并：将基学习器学到的融合特征合并，形成新的训练集与测试集。
第二学习层：包含一个元分类器，选择LR模型。在这一层也使用交叉验证、网格搜索和提前终止的方法确定模型超参数。

最终预测

模型训练与预测：使用元分类器训练得到的模型对新测试集进行预测，得到最终预测结果 $F ina lP re d i c t i o n L ab e l$ 。
结果比较：将预测结果与数据集的真实标签进行比较，以评估模型性能。

链路预测模型构建

基模型的选择

模型差异性：为了提高预测准确性和泛化性，选择差异较大的模型作为基模型。逻辑斯蒂回归（计算模型）和LightGBM（树模型）的集成将提供更好的性能。
训练与超参数优化：使用逻辑斯蒂回归和LightGBM作为两个基模型对训练集进行训练。采用5折交叉验证、网格搜索和提前终止的方法确定基模型的超参数。

Stacking方法的应用

特征的重新利用：在基模型训练完成后，引入Stacking方法集成两个基模型。将逻辑斯蒂回归和LightGBM预测的链接存在与不存在的概率作为特征输入到Stacking模型中。

防止过拟合的策略

特征选择：由于Stacking的有效性主要来源于特征抽取，第二层的特征应来源于第一层数据的学习，避免包含原始特征，以降低过拟合风险。
简单的第二层分类器：由于第一层已经进行了复杂的非线性变换，第二层分类器应选择简单的模型，如逻辑斯蒂回归。这不仅可以配合L1正则化选取有效特征、防止过拟合，还可以将输出结果解释为概率，适合部分分类任务。

LLSLP方法框架

LLSLP实验结果与分析.

数据集

多领域的真实网络：实验使用了10个来自不同领域的真实网络数据集，覆盖电力网络（UPG）、生物网络（YST）、共同作者网络（KNH、SMG、NSC、GRQ）、社交网络（HMT、FBK、ADV）和电子邮件网络（EML）。
网络特性：这些网络被精心选择，以涵盖不同的大小、平均度、聚类系数、异质性指数和不平衡系数。不平衡系数（Imbalance Ratio, IR）是连接边与非连接边的比值。
实验网络结构特性：表4.1中列出了实验所用网络的结构特性。

链路预测模型评估

评估标准：由于网络节点在现有链路和不存在链路的比例上不平衡，链路预测的评估不能仅依赖于单个预测的正确比例。
性能指标：使用AUC、Recall等7个指标来评估模型性能，包括常用的分类问题评估指标AUC、Recall和Precision。
额外指标：对于样本类别不平衡的数据，额外使用混淆矩阵、Precision-Recall Curve、F1-score和马修斯相关系数（MC）。MC值在-1与+1之间，被认为是即使在类别不平衡的情况下也适用的平衡度量。
综合评估：Precision-Recall Curve和F1-score综合反映了Precision和Recall之间的关系，因此在评估LLSLP时考虑了这4个额外指标。

社交网络链路预测分析的挑战

数据稀疏性问题

定义：在社交网络中，大部分用户之间缺乏直接的连接关系，造成数据稀疏。
影响因素：用户活跃度、社交网络规模和用户关系类型等因素影响数据稀疏性。
预测难度：数据稀疏性增加了链路预测的难度，要求更有效的算法和模型提升预测精度。
解决方案：采用基于矩阵分解、图神经网络、深度学习等方法的链路预测算法。

模型泛化能力问题

挑战：提升模型的泛化能力，使其在多样化和动态变化的社交网络环境中保持高预测准确性。

计算复杂性问题

社交网络规模：庞大的社交网络带来巨大的数据量和高计算复杂度。
社交网络结构：复杂的社交关系增加预测难度。
社交网络动态性：不断变化的社交网络要求预测模型能够及时更新。
数据质量问题：社交网络数据质量参差不齐，影响预测准确性。

实时预测问题

模型复杂度：需要处理大量数据，计算复杂度高。
预测准确性：受数据质量和模型选择影响。
数据更新：社交网络数据实时更新，需要模型不断适应新数据。
实时性要求：快速响应的需求对计算速度和模型性能提出高要求。

社交网络链路预测分析的未来发展趋势

融合多种预测方法：结合不同的预测技术以提高准确性和鲁棒性。
考虑动态社交网络：研究适应社交网络动态变化的预测方法。

社交网络链路预测分析的实际应用

推荐系统：根据用户在社交网络中的关系预测用户可能感兴趣的内容或商品。
社交网络分析：分析社交网络中的关系结构和动态。
网络安全：预测和防范恶意行为，保护社交网络安全。
社会影响分析：分析社交网络中的信息传播和影响，预测社会事件的发展趋势。

问题

四、社交网络链路预测方法

1. 链路预测的目标是什么？它有哪些具体的应用，结合一个具体示例进行说明。

链路预测的主要目标是在社交网络中预测未来可能发生的联系。这种分析主要用于增强社交网络的推荐效果和提高预测准确性。链路预测在多个领域有着广泛应用，例如：

社交网络：通过预测用户之间的社交关系来提高推荐系统的准确率。例如，可以预测哪些用户可能成为朋友，帮助社交平台更好地推荐好友或内容。
生物信息学：在生物信息学中，链路预测可以用来预测蛋白质之间的相互作用，从而提高药物研发的效率。例如，通过分析蛋白质网络，可以预测哪些蛋白质可能会互相作用，这对于理解疾病机理和开发新药具有重要意义。
交通网络：在交通网络中，链路预测可以用于预测交通流量，以优化交通规划。例如，通过分析道路网络，可以预测在特定时间和地点的交通流量，从而帮助城市规划者优化交通布局，减少拥堵。
通信网络：在通信网络领域，链路预测可以用于预测网络拓扑结构，从而提高网络的性能和可靠性。例如，可以预测网络中哪些节点可能会形成新的连接，这有助于网络运营商优化网络结构，提高数据传输的效率和稳定性。

这些应用展示了链路预测在不同领域的重要性和多样性，强调了它在理解和优化复杂网络结构中的关键作用。

2. 链路预测方法主要分为几类？简要地进行说明。

链路预测方法主要分为以下几类：

基于相似性的方法：这类方法通过计算网络中节点之间的相似性来预测链路。例如，共有邻居、Jaccard系数等。
基于路径的方法：这些方法考虑网络中的路径信息来预测链路。例如，Katz指数和随机游走。
基于网络拓扑的方法：这类方法使用网络整体的拓扑结构来预测链路。例如，层次结构方法。
基于机器学习的方法：利用机器学习算法，如决策树、支持向量机（SVM）、神经网络等，来从数据中学习并预测链路。

每种方法有其独特的优势和局限性，通常会根据特定应用场景和网络特性选择适当的方法。

3. 逻辑斯蒂回归中引入 Logit 变换的主要目的是什么？

逻辑斯蒂回归中引入Logit变换的主要目的是为了将线性回归模型转换成适用于分类问题的模型。在逻辑斯蒂回归模型中，响应变量是二元的（例如，是/否，成功/失败），而传统的线性回归模型输出的是连续值，不适合直接用于分类。

Logit变换通过使用逻辑函数（或sigmoid函数）将线性回归模型的输出映射到(0,1)区间。这样，模型的输出可以解释为属于某类的概率。例如，逻辑斯蒂回归模型可以预测一个事件发生的概率，如一个人点击广告的概率。这种变换使得模型能够处理分类问题，特别是二分类问题，同时保持数学上的处理简便性和模型的可解释性。

4. 简述逻辑斯蒂回归 LightGBM 堆叠链路预测（LLSLP）方法的主要步骤。

逻辑斯蒂回归与LightGBM堆叠链路预测（LLSLP）方法的主要步骤如下：

模型构建：
- 选择逻辑斯蒂回归和LightGBM作为基模型，因为它们分别是计算模型和树模型，差异较大，能提高准确性和泛化性。
- 对训练集进行训练，使用5折交叉验证、网格搜索和提前终止的方法确定基模型的超参数。
- 引入Stacking方法集成逻辑斯蒂回归和LightGBM，将这两个模型预测的链接存在和不存在的概率作为特征。
特征与数据处理：
- 将社交网络链路预测视为二分类问题，使用15个相似性指标作为特征。
- 划分节点对，构建包含特征集和类别集的数据集D，使用分层抽样方法将所有节点对按照8:2的比例划分为原始训练集和原始测试集。
模型训练与集成：
- 在获得训练集和测试集后，将它们分别放入第一个学习层进行学习，这个学习层包含两个基学习器：逻辑斯蒂回归（LR）和LightGBM。
- Stacking方法训练一个元模型，该模型基于较低层的弱学习器返回的输出结果生成最终输出。
- 拟合由多个弱学习器组成的Stacking集成模型，包括将训练数据分为两组、选择弱学习器拟合第一组数据、使用这些学习器对第二组数据中的观测数据进行预测，最后在第二组数据上拟合元模型，使用弱学习器做出的预测作为输入。
结果生成：
- 对基模型学习到的新特征进行重新学习，以得到最终的预测结果。

这些步骤概述了LLSLP方法的整体流程，包括模型选择、特征处理、模型训练与集成，以及最终结果的生成。

5. LightGBM 采用哪些方法解决数据量大和特征维度较高的问题的？结合示例简要进行说明。

LightGBM采用了多种方法来解决处理大数据量和高特征维度的问题，主要包括：

特征选择：通过排序和筛选重要特征进行训练，减少计算量。
并行化计算：LightGBM支持并行化计算。它将数据划分为多个子集，分配到不同的计算节点上进行训练，从而提高训练速度。
高效的内存使用：LightGBM在内存使用方面相对较少，适合处理大规模数据集。它采用高效的内存管理机制，使得在处理大规模数据集时更加稳定。
多种优化方法：LightGBM采用了多种优化方法，如直方图算法、树算法等，可以优化模型训练和预测过程。
灵活性：LightGBM在算法设计和调参方面相对灵活，能够适应不同的需求。它还支持多种语言，易于集成，提供了更灵活的集成选项。

这些方法共同作用，使得LightGBM能够有效地处理具有大数据量和高特征维度的复杂数据集，同时保持高效的训练速度和良好的模型性能。

6. 在 LLSLP 方法中引入正则化的主要目的是什么？

在LLSLP（逻辑斯蒂回归与LightGBM堆叠链路预测）方法中引入正则化的主要目的是防止模型过拟合。过拟合是在机器学习中常见的问题，特别是在有大量特征的复杂模型中。过拟合发生时，模型对训练数据的噪声或随机波动有过度的学习，导致其泛化能力下降，即在未见过的新数据上表现不佳。

在LLSLP方法中，正则化通过对模型的误差函数添加正则项来实现。这种做法可以限制模型的复杂度，减少过度拟合训练数据的风险。特别是在使用Stacking方法集成逻辑斯蒂回归和LightGBM模型时，由于Stacking的有效性主要来自特征抽取，而表示学习中总是伴随着过拟合问题。因此，通过不包括原始特征在第二层的特征中，可以进一步降低过拟合的风险。

总结来说，正则化在LLSLP方法中的引入，是为了提高模型在新数据上的预测能力，确保模型具有良好的泛化性能。

7. 什么是堆叠（或层叠）泛化？在 LLSLP 方法中主要作用是什么？

堆叠泛化（Stacking Generalization）是一种集成学习的方法。它的基本思想是学习多个不同的弱学习器，并通过训练一个元模型来组合这些弱学习器，然后基于这些弱模型返回的多个预测结果输出最终的预测结果。

在LLSLP（逻辑斯蒂回归与LightGBM堆叠链路预测）方法中，堆叠泛化的主要作用是提高预测的准确性和泛化能力。这个过程涉及到首先使用逻辑斯蒂回归和LightGBM作为基模型对社交网络的链路预测问题进行学习，然后使用堆叠方法训练一个元模型。这个元模型基于较低层的弱学习器返回的输出结果生成最后的输出。通过这种方式，LLSLP方法能够有效地利用不同模型的优势，同时减少单个模型的不足，从而提高整体预测模型的性能。

你可能感兴趣的:(#,社交网络分析,科研笔记与实践,数据挖掘,人工智能,数据挖掘,自然语言处理,回归,机器学习,网络安全,笔记)

JavaScript 性能优化实战：优化循环结构提升效率 deying0865423 javascript 开发语言
目录一、理解循环的性能损耗二、减少循环迭代次数（一）缓存数组长度（二）提前终止循环三、优化循环内部操作（一）避免在循环内执行复杂计算（二）减少DOM操作四、选择合适的循环类型（一）for循环与while循环的选择（二）for...in与for...of的使用场景在JavaScript编程中，循环结构是实现重复执行任务的基础工具。然而，不当的循环使用常常会导致性能瓶颈，特别是在处理大量数据时，循环的
SAP-ABAP：ABAP内存使用详细说明爱喝水的鱼丶 ABAP开发之必须知道的 VIP详情查看专栏 SAP-ABAP开发基础详解 SAP 运维 ABAP 开发语言 ERP
在SAPABAP中，ABAP内存（ABAPMemory）是一种临时存储机制，用于在同一内部会话（InternalSession）中共享数据。ABAP内存的数据生命周期与当前程序及其调用的子程序相关，程序结束后数据会自动清除。以下是关于ABAP内存的详细说明：—##1.ABAP内存的特点-作用范围:仅在当前内部会话中有效。-生命周期:数据在当前程序及其调用的子程序中有效，程序结束后数据丢失。-共享范
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
2025年入职/转行网络安全，该如何规划？网络安全职业规划教网络安全的毛老师 web安全安全网络运维云计算
网络安全是一个日益增长的行业，对于打算进入或转行进入该领域的人来说，制定一个清晰且系统的职业规划非常重要。2025年，网络安全领域将继续发展并面临新的挑战，包括不断变化的技术、法规要求以及日益复杂的威胁环境。以下是一个关于网络安全职业规划的详细指南，涵盖了从入门到高级岗位的成长路径、技能要求、资源获取等方面的内容。第一部分：网络安全行业概述1.1网络安全的现状与未来网络安全已经成为全球企业和政府的
【网络安全 | 漏洞挖掘】通过控制台调试实现登录秋说 web安全漏洞挖掘
未经许可，不得转载。文章目录正文在安全测试过程中，我留意到一个特殊现象：当登录出现错误时，相关请求包并不经过BurpSuite。那么此时账号密码是储存在前端的，我通过调试即可实现登录管理员账户。正文由于系统设定，输入错误的账号和密码会弹出“账号密码错误”的提示。基于此，我在代码中“账号密码错误”提示的相关位置设置了断点，截图如下：随后，我刷新浏览器页面，输入错误的账号和密码，然后点击登录按钮，操作
2025年入职/转行网络安全，该如何规划？网络安全职业规划教网络安全的毛老师 web安全安全网络安全渗透测试漏洞挖掘
网络安全是一个日益增长的行业，对于打算进入或转行进入该领域的人来说，制定一个清晰且系统的职业规划非常重要。2025年，网络安全领域将继续发展并面临新的挑战，包括不断变化的技术、法规要求以及日益复杂的威胁环境。以下是一个关于网络安全职业规划的详细指南，涵盖了从入门到高级岗位的成长路径、技能要求、资源获取等方面的内容。第一部分：网络安全行业概述1.1网络安全的现状与未来网络安全已经成为全球企业和政府的
网络空间安全专业发展历程及开设院校菜根Sec 安全网络安全网络安全高校网络空间安全信息安全
一、专业发展历程1.早期探索阶段（1990年代末—2000年代初）（1）背景：1990年代互联网进入中国，计算机病毒、黑客攻击等问题逐渐显现，社会对信息安全人才的需求开始萌芽。（2）高校尝试：1997年，西安电子科技大学在密码学领域积累深厚，率先开设与信息安全相关的选修课程和研究方向。1998年，武汉大学依托其计算机学院和数学学科优势，开始探索信息安全方向的本科教育。2.正式设立本科专业（2001
网络安全证书培训机构有哪些菜根Sec web安全安全网络安全
一、前言少叙记得刚入行的时候，想考一个证书来装装门面，结果发现费用太高了，比当时一个月的工资都高，感叹网络安全这帮人真舍得花钱，遂放弃。后来入职网络安全公司，考了一个CISP，在工作中逐渐发现，证书这个东西还是要根据自身需求来，并非越多越好。当前笔者的主要任务还是通过学习来增强自己的能力，后续看看是否有机会既能让读者享受物美价廉的考试认证服务，又能让培训机构及时找到生源，实现双赢。如果找到合适的培
开发者必看！添加 RTT 功能的详细指南 WPG大大通 NXP产线大大通 RTT 调试工程笔记经验分享
SEGGERRTT（Real-TimeTransfer）是一种高效的实时调试技术，通过J-Link调试器实现主机与目标设备间的双向通信。相比传统调试手段（如串口），RTT无需额外硬件引脚，且传输速度更快，特别适合资源受限的嵌入式场景。本文以NXPKW38芯片为例，详细介绍如何将SEGGERRTT功能集成到SDK工程中，助力开发者快速捕获调试信息。一、准备工作1.安装J-Link软件包确保已安装SE
嵌入式Linux驱动开发：从基础知识到实践精通坚持坚持那些年
本文还有配套的精品资源，点击获取简介：嵌入式Linux由于其稳定性、可定制性和丰富资源，在智能设备领域得到广泛应用。掌握嵌入式Linux驱动程序设计对于开发者至关重要。本课程从基础知识点出发，详细介绍了内核接口理解、设备树编程、I/O操作、字符与块设备驱动、网络驱动、电源管理、调试技巧、硬件抽象层、设备模型和模块化编程等关键技能，并通过实际操作实践来强化学习，帮助开发者成长为嵌入式Linux驱动开
PyTorch核心基础知识点 niuTaylor 编程区 pytorch 人工智能 python
PyTorch核心基础知识点，结合最新特性与工业级实践，按优先级和逻辑关系分层解析：▍核心基石：张量编程（TensorProgramming）1.张量创建（8种生产级初始化）#设备自动选择（2024最佳实践）device="cuda"iftorch.cuda.is_available()else"mps"iftorch.backends.mps.is_available()else"cpu"#关键
C语言的scanf函数海风有点咸 scanf函数 c语言
scanf函数简介scanf是ScanFormat的缩写，意思是格式化扫描，也就是从键盘获得用户输入。scanf函数称为格式输入函数，即按用户指定的格式从键盘上把数据输入到指定的变量之中。scanf()是C语言中的一个输入函数。与printf函数一样，都被声明在头文件stdio.h里，因此在使用scanf函数时要加上#include。（在有一些实现中，printf函数与scanf函数在使用时可以不
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
2025最新植物大战僵尸杂交版3.4.5版本 ‌烟雨任平生游戏游戏程序游戏 php 算法数据结构 html5 javascript
更新内容植物大战僵尸杂交版v3.4.5版本的更新内容如下：新增了3档花园养成奖励与商店副本关卡，以及修复了3.4版本的已知BUG与平衡性调整下载链接点击下载
OpenStack阶梯计价实战：Hashmap模块从入门到精准计费冯·诺依曼的 openstack 云计算 linux
目录Hashmap模块概述核心概念解析配置步骤详解应用场景分析注意事项与扩展1.Hashmap模块概述OpenStack的Rating模块负责资源使用量的计费统计，而Hashmap是其核心组件，用于定义灵活的计价规则。通过Hashmap，管理员可以：根据资源类型（如CPU、存储、网络）设置差异化单价实现阶梯计价（如使用量超过阈值后单价打折）将资源与服务、服务组绑定，支持复杂计费策略2.核心概念解析
使用 UV 管理 Python 项目 | python小知识 aiweker 跟我学python uv python 人工智能
使用UV管理Python项目|python小知识1.引言在Python开发中，项目管理工具是必不可少的。常见的工具如pip、pipenv、poetry等，它们各有优缺点。近年来，uv作为一个新兴的Python项目管理工具，逐渐受到开发者的关注。uv旨在提供更快的依赖解析和安装速度，同时保持与现有工具的兼容性。本文将详细介绍uv的功能和应用场景，并通过代码示例展示其使用方法。最后，我们将对比uv与其
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
可视化埋点在React Native中的实践 Shopee技术团队前端 react native 前端 react.js
本文首发于微信公众号“Shopee技术团队”。1.背景笔者所在团队为Shopee的本地生活前端团队，用户可以在我们的平台购买优惠券，然后去线下门店使用。随着用户规模不断增加，研究用户行为数据可以更好地指导产品功能设计，提供更加优秀的用户体验。用户行为数据的研究首先涉及到如何采集，即我们常说的“埋点”。一直以来，我们项目中的埋点都采用代码埋点，每次新增埋点往往是一些重复性的工作，且需要重新发布代码才
python Qt Solkatt's
最近帮朋友做了一个将文本文件按条件导出到excel里面的小程序。使用了PyQT，发现Python真是一门强大的脚本语言，开发效率极高。首先需要引用fromPyQt4importQtGui,uic,QtCore很多控件像QPushButton是从QtGui的空间中得来的，下面def__init__(self,parent=None)中定义了界面的设计及与控件相互联系的方法。classAddressB
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
MATLAB数据的保存与读取晚风微凉～ java 前端 javascript
在工程应用中，我们经常需要将未处理完的数据保存起来以便后期使用，或者在一些复杂计算中，我们需要多次计算过程中，由于系统的工作空间会随着系统的关闭而被释放掉，导致下次使用时无法快速调用，所有需要对数据进行保存与读取。1.核心代码1）数据保存基于MATALB的储存数据的常用命令是"save",使用save会将数据以二进制的方式存储在后缀名）为"文件名字.mat";savedemo01使用该命令会将数据
TCP三次握手与四次挥手（全网最易懂保姆级教程）秋‍. JAVA 网络服务器运维 java tcp/ip 三次握手
一、前置知识准备1.TCP协议特性-面向连接：通信前需要建立专用通道-可靠传输：通过确认机制保证数据可达-全双工通信：双方可同时发送数据-流量控制：滑动窗口机制-拥塞控制：慢启动算法2.关键概念说明|术语|说明||------------|----------------------------------------------------------------------||**SYN**|
基于 STC89C52 的 8x8 点阵显示数字 @小张要努力单片机嵌入式硬件 stm32 51单片机 proteus
一、引言在电子设计领域，信息的有效展示是众多项目的关键环节。8x8点阵作为一种经济且实用的显示模块，能够呈现数字、简单字母及图形等信息，在电子时钟、简易游戏机等产品中广泛应用。STC89C52单片机凭借其低成本、丰富的I/O资源与稳定的性能，成为驱动8x8点阵的理想选择。本文将深入探讨如何利用STC89C52单片机结合74LS245芯片，实现8x8点阵的数字显示功能，并借助Proteus软件进行仿
回归模型评价指标——衡量预测能力 Tang–t 回归数据挖掘人工智能机器学习 python
目录一、指标说明1.均方误差（MeanSquaredError，MSE）2.均方根误差（RootMeanSquaredError，RMSE）3.平均绝对误差（MeanAbsoluteError，MAE）4.决定系数（CoefficientofDetermination，R²）5.解释方差（ExplainedVariance，EV）6.最大误差（MaximumError）二、代码一、指标说明回归模型
回归任务中的评价指标MAE，MSE，RMSE，R-Squared 旺旺棒棒冰统计学习方法机器学习回归评价指标 r2 mse
转自博客。仅供自己学习使用，如有侵权，请联系删除分类任务的评价指标有准确率，P值，R值，F1值，而回归任务的评价指标就是MSE，RMSE，MAE、R-SquaredMSE均方误差MSE是真实值与预测值的差值的平方和然后求平均。通过平方的形式便于求导，所以常被用作线性回归的损失函数。MSE=1m∑i=1m(yi−y^i)2MSE=\frac{1}{m}\sum_{i=1}^{m}\left(y_{i
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
第十八章：模板的多态力量_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
模板的多态力量一、动态多态vs静态多态二、奇异递归模板模式（CRTP）三、策略模式（编译期策略选择）关键要点总结第一部分：多选题(10题)第二部分：设计题(5题)答案与详解多选题答案：设计题参考答案1.编译期策略选择器2.类型安全访问者模式3.概念约束数学库4.编译期工厂模式5.静态多态容器测试说明一、动态多态vs静态多态核心概念：动态多态：基于虚函数和继承体系，函数调用在运行时决定（通过虚函数表
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(