YzYzYzzzzz

Deep Entity Classification: Abusive Account Detection for Online Social Networks 阅读笔记

Deep Entity Classification: Abusive Account Detection for Online Social Networks（深度实体分类：在线社交网络的滥用帐户检测）

一、key words

ML: machine learning（机器学习）
DEC: Deep Entity Classification （深层实体分类）
MS-MTL: multi-stage multi-task learning（多阶段多任务学习）
Precision（精确率）： 表示的是预测为正的样本中有多少是真正的正样本
Recall（召回率）： 它表示的是样本中的正例有多少被预测正确了
sparse aggregated features （稀疏聚合特征）：
Embeddings（嵌入）： 深度学习的任务就是把高维原始数据（图像，句子）映射到低维流形，使得高维的原始数据被映射到低维流形之后变得可分，而这个映射就叫嵌入（Embedding）。Embedding就是从原始数据提取出来的Feature，也就是那个通过神经网络映射之后的低维向量。
fan-out： 模块的扇出是指模块的直属下层模块的个数。
box-cox变换： Box-Cox变换是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性。Box-Cox变换的主要特点是引入一个参数，通过数据本身估计该参数进而确定应采取的数据变换形式，Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性，对许多实际数据都是行之有效的。
binary cross-entropy（二值交叉熵）： 是一种损失函数。

二、Abstract

面临的挑战： 基于机器学习的方法需要大量的真实标记数据对模型进行训练，而且想要将检测方法扩展到社交网络上所有账户的检测是困难的。
为了解决上述的挑战，作者提出了新的方法：Deep Entity Classification。这是一个机器学习框架，用于检测在OSN中逃避其他传统滥用检测系统的滥用帐户。
系统介绍：
1. 通过汇总社交图中的直接和间接邻居的属性和行为特征来提取帐户的“深层特征”
2. 采用“多阶段多任务学习”(MS-MTL)范式，通过在不同阶段使用少量高精度人工标记样本和大量低精度自动标记样本，来利用不精确的基础事实数据。这种架构产生了一个单一的模型，为多种类型的滥用帐户提供了高精度的分类。
3. 通过各种减少系统负载的采样和重新分类策略，可扩展到数十亿用户。
该系统部署在face book上。

三、Introduction

滥用假账户在OSN中很多，如何制作具有可扩展性和精确性的程序去检测这些假账户。
Rule-based heuristics act（基于规则的启发式方法）： 基于规则的启发式方法是第一道防线，用于确定基本或常见的攻击者工具，技术和资源。它们专注于准确性而不是recall（召回率），它们通常无法捕捉到帐户行为的复杂性，并且根据定义它们是被动的。
Machine learning systems： 克服了Rule-based heuristics act的一些问题：它们可以从过去的标签数据中进行泛化以提高召回率，并且可以随着时间的推移对其进行迭代以适应对抗性发展。但是，精确的机器学习系统需要大量高质量的带标签的地面事实数据，部署成本可能很高（无论是在工程上还是在计算资源上），并且可以被学习模仿真实帐户外观的对手所规避。
以上两种方法可以检测出一般的社交网站账户滥用问题，但是要确定其余难以分类的帐户（与真实用户非常相似和/或逃避OSN防御的帐户），则需要根本不同且更复杂的解决方案
Deep Entity Classification： 作者提出的新的检测方法，这种方法不是根据用户的直接特征或是行为对账户进行分类。而是利用了特殊的网络结构，通过在图表中操作为每个帐户提取了20000多个特征。
系统面临的挑战：
1. 如果单纯地应用特征空间，大特征空间会显著地增加底层模型的复杂度，导致不合时宜的泛化和性能下降。
2. 要想在如此多的特征中获得正确的泛化，就需要在一个问题空间中进行大量的训练，在这个问题空间中，很难获得数十亿用户规模的高质量的人工标记数据。
DEC的第二个关键见解是，除了小规模、高质量的人类标记数据外，还可以利用基于规则的启发式结果作为附加的“近似值”
MS-MTL（多阶段多任务学习）： 作者的框架通过使用高容量近似值训练的深度神经网络来导出低维可转换表示，然后根据所学的表示和高质量的人类标记数据对专用模型进行微调
模型训练的两个阶段：
1. 使用大量精度较低的近似标签在收集的特征上训练多任务深度神经网络。
2. 由于这些精度较低的信号所标识的帐户显示出多种不同的滥用类型（例如，垃圾邮件，令人反感的内容或恶意软件），因此我们为每种滥用类型制定了学习“任务”。然后，我们提取神经网络的倒数第二层作为低维特征向量。该向量被输入到模型的第二阶段，该模型的第二阶段使用带有标准二进制分类器的每任务（ per-task）高精度人类标记数据进行训练。
大致的检测步骤： 检测滥用账户 —> 标记不同的滥用类型
MS-MTL允许DEC在第一个模型阶段学习不同滥用类型的基本通用表示，然后在第二个阶段使用不同模型的高精度数据来区分不同的滥用类型，从而为每个帐户的每个滥用类型评分。
作者贡献：
1. DEC的算法设计、系统架构和实现
2. 创造了“深层特征”的新颖特征提取过程
3. MS-MTL分类范例，允许我们使用单一模型架构为每个滥用类别产生高精度分类器(第6节)。
4. 对DEC和MS-MTL相对于其他方法的定量评估，以及对DEC对脸谱网上其他系统(即最难分类的系统)未捕捉到的滥用账户的总体状态的影响的定性评估。
5. 讨论从Facebook两年的生产部署中吸取的经验教训。

四、Background

1、滥用账户（Abusive Accounts）

滥用账户的定义： 违反OSN给定的规则的任意账户。
滥用账户分类：
1. 按账户来源分类： 账户可能是假的，即账户不代表真实的账户或组织。另一种是合法的真实账户，但是被攻击者所利用。
2. 按滥用行为来分类： 滥用帐户可以通过其所实施的滥用类型来进行分类。

2、防御方法（ Defenses）

Rule-based heuristics（基于规则的启发式方法）： 例如通过阈值对用户的操作速率进行限制。缺点是：在超过阈值前允许一定量的滥用，更注重判断的准确性而不关注召回率。
machine learning-based classification（基于机器学习的分类）： 他的缺点一是分类的特征容易被攻击者发现，然后攻击者可以适应并规避分类。缺点二是分类器需要大量的高精度的训练数据，成本高。
本文方法： 本文中介绍的系统旨在通过在社交图上使用稀疏聚合特征(攻击者很难操纵这些特征)以及使用多阶段训练框架来缓解这些问题。

3、机器学习术语（ sparse aggregated features ）

Deep Neural Networks（深层神经网络）： DEC的第一阶段使用了深度神经网络(DNN)架构。
Embeddings（嵌入）： Embedding就是从原始数据提取出来的Feature，也就是那个通过神经网络映射之后的低维向量。
Gradient Boosted Decision Trees（梯度增强决策树）： DEC第一阶段最后一层深度神经网络的嵌入被用作DEC第二阶段训练的输入特征向量，该训练使用梯度增强决策树(GBDTs)模型。

五、Related Work

作者根据技术将已发表的成果分为三类，并描述了相关的机器学习文献，作者在这个部分对前人的工作做了总结概述，并提出了自己工作与他们工作的不同。

1、Detecting Abusive Accounts（检测滥用账户）

一些工作已经探索了使用图结构和相邻节点的特征来检测滥用。而作者的工作是创建了一个基于图形、直接和间接邻居特征(“深层实体”)的通用机器学习框架(在许多其他特征中利用这些特征)，该框架可扩展到数十亿社交网络用户。

2、 Sybil Accounts（Sybil账户）

西比尔攻击是指个别恶意用户以多个假身份多次加入OSN的攻击

3、User Footprint（用户足迹）

“用户足迹”是一种信号，可用于识别同一用户在不同操作系统中的行为。如果一个用户在一个平台上滥用，他们很可能在其他平台上滥用

4、Machine Learning（机器学习）

ML for Abuse Detection： 机器学习的方法在滥用账户的检测上被广泛应用
Other Relevant ML Work： 机器学习的最新进展，特别是图形学习，转移学习和在线学习，也可以应用于基于ML的滥用帐户检测。
图学习： 旨在学习嵌入节点或使用图中的关系进行预测
transfer learning（转移学习）： 在DEC中，我们通过训练在第二组标签上进行的第一阶段嵌入来利用转移学习来提高模型性能。
Active learning（主动学习）： 主动学习与在线学习类似，是一种利用新数据重新训练模型的技术，在主动学习中，仅将模型中具有低置信度的数据点分配给人类标记人员进行审核。

六、 DEC System Overview

1、系统概述

DEC从活跃的Facebook账户中提取特征，然后对他进行分类，然后对被分类出来的滥用账户采取行动。下图显示了DEC架构。在最高层次上，作者将DEC分解为在线和离线组件。

2、Online Component（在线组件）

DEC由Facebook用户操作触发。当一个动作发生时，DEC可以根据启发式安排一个与用户活动同时进行的任务，开始为目标节点和采样的邻接节点提取原始特征（Raw Features)。
对于Facebook上的一个普通账户，DEC需要为其数百个邻居节点中的每一个节点抽取数百个特征，从而产生上万个原始特征被抽取。这样的查询在计算上非常昂贵，而且整个过程是异步离线完成的，不会影响用户的正常站点活动。
在特征提取之后，DEC聚合原始特征以形成数值稀疏特征。然后，DEC根据聚集的特征和生产中的模型为客户生成分类结果。如果账户被归类为滥用账户，DEC将对该账户实施强制执行。

3、 Offline Component（离线组件）

DEC的离线部分包括模型训练和反馈处理
为了对多种类型的滥用进行分类，DEC维护了多个模型，每个模型处理不同类型的滥用。
每一个专用模型都训练在从并行特征提取（在线组件）收集的原始特征中学习的低维嵌入
DEC定期接受Face book的再培训，以利用最新的虐待模式和信号
DEC总结：
- DEC在FaceBook上提取所有活跃账户的“深层特征”，以便分类。
- 使用分类来预测所有活动帐户的滥用程度，为所有积极参与网络的用户保持最新的分类结果。
- 结合用户和标签反馈迭代分类器模型

七、Methods: Deep Feature Extraction（方法：深度特征提取）

特征提取是DEC的核心部分，与传统的误用检测系统相比，DEC采用聚集特征计算的过程，目的是提取目标账户的深层特征

1、Deep Feature（深层特征）

上图是关于实体类型及其示例直接特征和DEC中的示例深层实体的表格。
通过用户的深层特征来进行分类的话，攻击者很难进行避免。

上图是DEC中单个“目标”帐户的2级社交图的可视化。居中的橙色节点是要分类的目标节点。蓝色节点是第一个扇出级别中的相邻节点。红色节点来自第二扇出层。两个节点之间的边缘代表了共同朋友的关系。对于此图中可视化的每个节点，提取并汇总了数百个特征以进行分类。

2、Implementation（实现）

上图是深度功能的示例聚合方法举例。
活跃时间较长的帐户已经过许多以前的检查，并且通常不太可能被滥用，而新注册的帐户更有可能被滥用。
在生产中实时触发（重新）分类时，特征提取和聚合是异步计算的，而不会影响帐户在Facebook上的使用体验

3、Feature selection（特征选择）

作者仅使用目标帐户的深层功能，而没有使用直接功能。

4、Feature modification（特征修正）

随着对手的适应以及作者团队对他们行为的新见解，作者希望为DEC添加新功能和/或淘汰性能不佳的功能以节省计算成本。
作者在要添加一些新的特征或者删除某些旧的特征时，会先放入实验组进行实验，然后才会应用到实际的工程中。
当添加新的特征时会影响整个关系图的形成，从而会增加很大的计算开销。
为了限制重新计算开销的影响，作者定义了特征的隔离域。（isolated universes of features.）
新旧版本的要素将在并行区域中运行，现有模型将使用旧的要素区域运行，直到完成新区域的要素生成为止。然后丢弃旧的模型区域使用新的区域。

八、Methods: Multi-Stage Multi-Task Learning（方法：多阶段多任务学习）

上图是MS-MTL模型训练流程。第1阶段使用具有低精度标签的原始深度特征来训练多任务深度神经网络。通过从深度神经网络的最后一个隐藏层中提取嵌入内容，作者使用人类标记数据训练了阶段2中每个任务的专用GBDT模型
多任务学习（MTL）是一种用于改善模型泛化的转移学习。 MTL使用单个神经网络模型并行地训练多个相关的“任务”。
任务与标签的分类：
1. 任务：任务是指对OSN上特定类别的滥用帐户（例如，伪造帐户，垃圾邮件帐户）进行分类。
2. 训练样本的标签是一个布尔值，指示样本是否属于滥用帐户类别。每个训练示例都有多个标签，每个任务一个。此多标签由布尔值向量表示。
向量标记举例：[1，0，0，1] --> 此向量可以代表该帐户被识别为伪造并正在进行诈骗，但未被识别为受感染或传播垃圾邮件。

1、 Motivation（动机）

作者团队采用了一个多阶段框架来检测Facebook上的滥用帐户。作者的框架解决了滥用帐户分类中的三个主要挑战：1.同时支持各种滥用类型；2.利用高维特征空间；3.克服了高质量的人为标签的数量不足（相对于数十亿个帐户）。
由于存在多种滥用帐户的方式，因此我们使用不同的任务来代表滥用的不同子类型，并使用多任务学习来增加模型中编码的信息量。
多级框架通过将高维原始特征向量简化为低维表示来解决“维数诅咒”，通过使用来自多任务深度神经网络的最后一个隐藏层的嵌入作为第二阶段训练的输入功能来实现这种减少
作者以机器生成的标签的形式拥有大量的低置信度标签数据。

2、Training Data Collection（训练数据收集）

标签来源：1. 人工标记。2. 由旨在检测滥用帐户以及用户报告的滥用帐户的自动化（非DEC）算法组成

3、Model Training Flow（模型训练流程）

模型的训练分为两个阶段：
1. 第一阶段接受了大量低精度数据的训练，以学习原始特征的嵌入。
2. 我们应用转移学习技术，并使用嵌入和高精度标签来训练第二阶段模型。分类结果作为第二阶段的输出生成。
**阶段一：**低精度训练。第一个训练阶段的目标是将聚集的原始深度特征的高维向量减少为低维嵌入向量。对于每个任务，模型使用sigmoid激活函数输出概率。使用Box-Cox转换对输入进行归一化。
阶段二： 高精度培训。我们利用转移学习[41]的技术，并从第一阶段模型中提取最后一个隐藏层的输出作为第二阶段的输入。作者使用高精度的人工标记数据训练第二阶段（GBDT模型），以对滥用帐户进行分类，而不考虑违规的子类型。

九、Evaluation（评价）

在本节中，作者评估了MS-MTL方法和整个DEC系统的性能。
作者具体分析了三个滥用账户的模型：
1. 仅行为模型，代表OSN使用的传统检测技术。
2. DEC作为单个多任务神经网络（Single Stage“单阶段” ，SS）
3. DEC with MS-MTL

1、Datasets（数据集）

上图总结了用于DEC的实验和评估的数据集。
作者在MS-MTL实施中考虑了四种类型的滥用帐户（任务）：伪造，泄露，垃圾邮件和欺诈。
伪造帐户很大程度上是由脚本创建驱动的，而被盗用帐户通常是由恶意软件或网络钓鱼造成的。
低精度标签的数据来自于三个方面：
1. 用户举报
2. 网站其他系统的检测规则（如：用户发送好友请求的速度过快、被垃圾邮件检测系统删除了多个内容的用户、用户将链接分发到已知的网络钓鱼域）
3. 通过已发现的攻击来进行标签
作者的系统第一阶段用上述方法所做的标签，而第二阶段则用更为精确地人类标签。
评估数据： 作者通过从Facebook上抽取活跃用户来创建帐户的评估数据集，这些用户中包含一些很难被分辨出来的用户，然后通过作者系统分类和人类分辨进行对比评估。

2、 Model Evaluation（模型评估）

作者使用三种不同的模型去评估作者的DEC方法的性能。
行为： 此GBDT模型根据每个帐户的直接行为特征（例如，朋友数）对帐户进行分类，并输出帐户是否为独占帐户（不管具体的滥用类型如何）
DEC- SS： 该模型使用本文中概述的DEC方法来提取深层特征，但没有利用MTL学习方法。通过组合多个任务的所有近似数据，训练一个单一的深层神经网络模型。如果我们把任何一个被用户标识为违反的任务，我们就认为这是一个违规的任务。由于DEC提取的特征数量巨大，用于训练的人类标记数据量太少。
DEC-MS-MTL:

3、性能比较

ROC Curves（ROC曲线）： 在ROC曲线的表现上两个DEC模型的表现比仅行为检测的方法效果更好。两个DEC方法的表现相似。
Precision and Recall（准确率和召回率）： 总的来说DEC方法比仅仅是行为检测的方法在准确率和召回率上表现的更好。
定量评估：曲线下的面积(AUC)和精度/召回率: DEC的单级和MS-MTL都具有相似的AUC性能，添加MS-MTL可使模型召回率增加一倍以上

4、Results In Production Environment（生产环境中的结果）

作者将该系统部署到了facebook的生产环境中，然后通过查看精度和召回率随时间的稳定性来评估生产中的系统。

从上图可以看出系统的精度是稳定的，精度不低于0.97且经常高于0.98。

上图中绿线是在Facebook上观察到的滥用帐户数量（以百分比计），红线是DEC删除的帐户数量。蓝线是其他两个相加的总和（也就是未使用EDC的时候，Facebook上的滥用账户的总数量）。因此，灰色阴影区域表示DEC对Facebook上的滥用账户检测的影响。

表6显示了DEC在所有帐户中的效果。 DEC在此总体上表现良好，AUC为0.981，以0.95的精度召回0.981，以0.99的精度召回0.955。

十、Discussion and Lessons Learned（讨论与经验教训）

1、Reducing Computational & Human Load（减少计算量和人力）

2、Segmentation and Fairness（细分与公平）

十一、 Conclusion（总结）

作者介绍了深度实体分类（DEC），这是一种机器学习框架，旨在检测OSN中的滥用帐户。作者的框架解决了现有滥用检测系统中的两个问题：首先，其“深度特征”提取方法创建的特征对于分类非常有力，并且（到目前为止）没有显示出针对帐户或行为特征的对抗性适应的迹象。其次，它使用新颖的机器学习训练框架来利用高数量，低精度和低数量，高精度的训练数据来改善模型性能。

一些重要内容

Facebook使用了一个由专家组成的团队，他们可以对一个账户是否滥用进行标识。这些专家会主动（基于功能）和反应性（基于用户反馈）为帐户添加标签。

论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记 Rising_Flashlight 论文阅读笔记计算机视觉
YourDiffusionModelisSecretlyaZero-ShotClassifier论文阅读笔记这篇文章我感觉在智源大会上听到无数个大佬讨论，包括OpenAISora团队负责人，谢赛宁，好像还有杨植麟。虽然这个文章好像似乎被引量不是特别高，但是和AI甚至人类理解很本质的问题很相关，即是不是要通过生成来构建理解的问题，文章的做法也很巧妙，感觉是一些学者灵机一动的产物，好好学习一个！摘要这
Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记猪猪想上树论文阅读笔记
ConditionalFlowMatching:Simulation-FreeDynamicOptimalTransport笔记发现问题连续正规化流（CNF）是一种有吸引力的生成式建模技术，但在基于模拟的最大似然训练中受到了限制。解决问题介绍一种新的条件流匹配（CFM)，一种针对CNFs的免模拟训练目标。具有稳定的回归目标，用于扩散模型中的随机流，但享有确定性流模型的有效推断。与扩散模型和CNF目
论文阅读笔记《SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning》深视论文阅读笔记 #小样本学习深度学习小样本学习
小样本学习&元学习经典论文整理||持续更新核心思想本文提出一种基于最近邻方法的小样本学习算法（SimpleShot），作者指出目前大量的小样本学习算法都采用了元学习的方案，而作者却发现使用简单的特征提取器+最近邻分类器的方法就能实现非常优异的小样本分类效果。本文首先用特征提取网络fθf_{\theta}fθ+线性分类器在一个基础数据集上对网络进行训练，将训练得到的特征提取网络增加一个简单的特征
【论文阅读笔记】（2015 ICML）Unsupervised Learning of Video Representations using LSTMs 小吴同学真棒学习人工智能 LSTM 动作识别无监督自监督 self-supervised
UnsupervisedLearningofVideoRepresentationsusingLSTMs（2015ICML）NitishSrivastava,ElmanMansimov,RuslanSalakhutdinovNotesContributionsOurmodelusesanencoderLSTMtomapaninputsequenceintoafixedlengthrepresent
使用动态网格的流体动画 Fluid Animation with Dynamic Meshes 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
目录引言背景方法离散化离散化的导数算子速度插值广义的半拉格朗日步重新网格化双向流固耦合和质量守恒原文：Klingner,BryanM.,etal.“Fluidanimationwithdynamicmeshes.”ACMSIGGRAPH2006Papers.2006.820-825.引言使用[Alliezetal.,2005]的方法动态生成不规则的四面体网格根据边界的位置、边界的形状、基于流体和速
【论文阅读笔记】AutoAugment:Learning Augmentation Strategies from Data 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
AutoAugment:LearningAugmentationStrategiesfromData摘要研究方法:本文描述了一种名为AutoAugment的简单程序，通过这个程序可以自动寻找改进的数据增强策略。研究设计了一个策略空间，其中策略包含多个子策略，在每个小批量数据中针对每张图片随机选择一个子策略。每个子策略由两个操作组成，每个操作是图像处理函数（如平移、旋转或剪切），以及应用这些函数的概
【论文阅读笔记】Contrastive Learning with Stronger Augmentations 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
ContrastiveLearningwithStrongerAugmentations摘要基于提供的摘要，该论文的核心焦点是在对比学习领域提出的一个新框架——利用强数据增强的对比学习（ContrastiveLearningwithStrongerAugmentations，简称CLSA）。以下是对摘要的解析：问题陈述：表征学习（representationlearning）已在对比学习方法的推动
使用八叉树模拟水和烟雾 Simulating Water and Smoke with an Octree Data Structure 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
原文：Losasso,Frank,FrédéricGibou,andRonFedkiw.“Simulatingwaterandsmokewithanoctreedatastructure.”Acmsiggraph2004papers.2004.457-462.引言这篇文章扩展了[Popinet2003]的工作，拓展到表面自由流，并且使得八叉树不受限制自适应网格划分的一个缺点是，它的模板不是均匀的，
PointMixer论文阅读笔记 ZHANG8023ZHEN 论文阅读笔记
MLP-mixer是最近很流行的一种网络结构，比起Transformer和CNN的节构笨重，MLP-mixer不仅节构简单，而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳，PointMixer就是在保留了MLP-mixer优点的同时，还可以很好的处理点云问题。PointMixer可以很好的处理intra-set,inter-set,hierarchical-set的点云。
DCNNs之DNA论文阅读笔记苏十一0421
Article:DeepConvolutionalNeuralNetworkArchitectureWithReconfigurableComputationPatternsJournalTitle:IEEETransactionsonVeryLargeScaleIntegration(VLSI)SystemsIssue:No.08-Aug.(2017vol.25)ISSN:1063-8210pp
【论文阅读笔记】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
UNSUPERVISEDREPRESENTATIONLEARNINGFORTIMESERIESWITHTEMPORALNEIGHBORHOODCODINGABSTRACT 本文提出了一种自监督框架，名为“时间邻域编码”（TemporalNeighborhoodCoding，TNC），用于学习非平稳时间序列的可泛化表示。该方法利用信号生成过程的局部平滑性来定义具有平稳性质的时间邻域。通过使用去偏差对
Deep Learning Workload Scheduling in GPU Datacenters:Taxonomy, Challenges and Vision 论文阅读牛码当驴云计算算法云计算论文阅读
【论文阅读笔记】DeepLearningWorkloadSchedulinginGPUDatacenters:Taxonomy,ChallengesandVision论文链接GPU数据中心的DL工作负载调度：分类、挑战、展望AbstractDeeplearning(DL)showsitsprosperityinawidevarietyoffields.ThedevelopmentofaDLmode
论文阅读笔记 RPT: Learning Point Set Representation for Siamese Visual Tracking faverr
论文阅读笔记RPT:LearningPointSetRepresentationforSiameseVisualTracking综合了可形变卷积、RepPoints检测、多层级卷积特征等思想论文地址代码地址现有跟踪方法中存在的问题现有的跟踪方法往往采用矩形框或四边形来表示目标的状态（位置和大小），这种方式忽略了目标自身会变化的特点（形变、姿态变化），因此作者采用表示点（Representative
SpanDB: A Fast, Cost-Effective LSM-tree Based KV Store on Hybrid Storage——论文泛读妙BOOK言论文阅读论文阅读 KV存储 lsm-tree
FAST2021Paper论文阅读笔记整理问题键值（KV）存储支持许多关键的应用和服务。它们在内存中执行快速处理，但通常受到I/O性能的限制。最近出现的高速NVMeSSD推动了新KV系统设计，以利用其低延迟和高带宽。挑战当前基于LSM树的KV存储未能充分发挥NVMeSSD的全部潜力。例如，在OptaneP4800X上部署RocksDB，相对于SATASSD，对于50%写入的工作负载，吞吐量仅提高了
DyTIS: A Dynamic Dataset Targeted Index Structure Simultaneously Efficient for Search, Inse...——论文泛读妙BOOK言论文阅读论文阅读 KV存储
EuroSys2023Paper论文阅读笔记整理问题在现实生活中，许多数据集都是复杂且动态的，即它们的键密度在整个键空间上变化，它们的键分布随时间变化。对于这样的动态数据集，使得索引结构能够高效支持数据管理中的所有关键操作，特别是搜索、插入和扫描，是一项具有挑战性的任务。挑战对于内存中的数据管理系统，例如内存数据库和键值存储[4,12,34,35,56]，索引结构的效率至关重要，强烈影响系统的最终
Gan论文阅读笔记 Alex·Fall 深度学习生成对抗网络论文阅读笔记
GAN论文阅读笔记2014年老论文了，主要记录一些重要的东西。论文链接如下：GenerativeAdversarialNets(neurips.cc)文章目录GAN论文阅读笔记出发点创新点设计训练代码网络结构代码测试代码出发点Deepgenerativemodelshavehadlessofanimpact,duetothedifficultyofapproximatingmanyintracta
PairLIE论文阅读笔记 Alex·Fall 低光增强论文阅读笔记
PairLIE论文阅读笔记论文为2023CVPR的LearningaSimpleLow-lightImageEnhancerfromPairedLow-lightInstances.论文链接如下：openaccess.thecvf.com/content/CVPR2023/papers/Fu_Learning_a_Simple_Low-Light_Image_Enhancer_From_Paire
点云transformer算法: FlatFormer 论文阅读笔记 zhaoyqcsdn 深度学习 transformer 算法论文阅读
代码：https://github.com/mit-han-lab/flatformer论文：https://arxiv.org/abs/2301.08739[FlatFormer.pdf]Flatformer是对点云检测中的backbone3d部分的改进工作，主要在探究怎么高效的对点云应用transformer具体的工作如下：一个缩写：**PCTs即pointcloudtransformers*
【论文阅读笔记】InstantID : Zero-shot Identity-Preserving Generation in Seconds LuH1124 论文阅读笔记图像编辑文生图论文阅读文生图扩散模型人脸识别
InstantID:秒级零样本身份保持生成理解摘要Introduction贡献RelatedWorkText-to-imageDiffusionModelsSubject-drivenImageGenerationIDPreservingImageGenerationMethod实验定性实验消融实验与先前方法的对比富有创意的更多任务新视角合成身份插值多身份区域控制合成结论和未来工作project：
【论文阅读笔记】Taming Transformers for High-Resolution Image Synthesis LuH1124 论文阅读笔记论文阅读 transformer cnn 图像生成
TamingTransformersforHigh-ResolutionImageSynthesis记录前置知识AbstractIntroductionRelatedWorkMethodLearninganEffectiveCodebookofImageConstituentsforUseinTransformersLearningtheCompositionofImageswithTransfo
【论文阅读笔记】Make-A-Character: High Quality Text-to-3D Character Generation within Minutes LuH1124 论文阅读笔记数字人 Relight 论文阅读 3d 数字人计算机图形学头发生成
【论文阅读笔记】分钟级别的高质量文本到3D角色生成AbstractIntroductionMethodLL/VM解析人脸面部属性并生成根据密集地标重建face/head形状几何生成纹理生成纹理提取漫反射反照率（DiffusionAlbedo）估计纹理矫正和补全头发生成（牛了）资产匹配实验未来工作paperhttps://arxiv.org/abs/2312.15430Demohttps://hug
【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS LuH1124 论文阅读笔记文生图论文阅读 text2img 扩散模型
WURSTCHEN：用于大规模文本到图像扩散模型的高效架构摘要贡献方法训练推理实验结论附录附录A附录B附录C附录D附录E这篇文章提出了一个高效的用于文本到图像生成模型架构，整体思路比较直白，在不损失图像生成质量的情况下，相比于现有T2I模型（SD1.4，SD2.1等）大大节约了成本。附录部分给了一些有趣的东西，比如FID的鲁棒性整篇文章还有点疑惑，比如阶段B的训练，使用的模型；节省成本主要是在说C
【论文阅读笔记】Advances in 3D Generation: A Survey LuH1124 论文阅读笔记 3DGeneration 论文阅读 3d 神经表示渲染
Advancesin3DGeneration:ASurvey挖个坑，近期填完摘要time：2024年1月31日paper：arxiv机构：腾讯挖个坑，近期填完摘要生成3D模型位于计算机图形学的核心，一直是几十年研究的重点。随着高级神经表示和生成模型的出现，3D内容生成领域发展迅速，能够创建越来越高质量和多样化的3D模型。该领域的快速增长使得很难跟上所有最近的发展。在本次调查中，我们旨在介绍3D生成
【论文阅读笔记】Transformer-XL 没啥信心
Paper:Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContext重点关注论文中的相对位置编码及提高融合了相对位置信息的attentionscore的计算效率的部分。AbstractTransformer具有学习长依赖的能力，但受限于语言模型固定长度上下文的限定。本文提出的Transformer-XL神经网络架构可以在不打破
【论文阅读笔记】Time Series Contrastive Learning with Information-Aware Augmentations 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimeSeriesContrastiveLearningwithInformation-AwareAugmentations摘要背景：在近年来，已经有许多对比学习方法被提出，并在实证上取得了显著的成功。尽管对比学习在图像和语言领域非常有效和普遍，但在时间序列数据上的应用相对较少。对比学习的关键组成部分：对比学习的一个关键组成部分是选择适当的数据增强（augmentation）方式，通过施加一些先
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

Deep Entity Classification: Abusive Account Detection for Online Social Networks 阅读笔记

Deep Entity Classification: Abusive Account Detection for Online Social Networks（深度实体分类：在线社交网络的滥用帐户检测）

一、key words

二、Abstract

三、Introduction

四、Background

1、滥用账户（Abusive Accounts）

2、防御方法（ Defenses）

3、机器学习术语（ sparse aggregated features ）

五、Related Work

1、Detecting Abusive Accounts（检测滥用账户）

2、 Sybil Accounts（Sybil账户）

3、User Footprint（用户足迹）

4、Machine Learning（机器学习）

六、 DEC System Overview

1、系统概述

2、Online Component（在线组件）

3、 Offline Component（离线组件）

七、Methods: Deep Feature Extraction（方法：深度特征提取）

1、Deep Feature（深层特征）

2、Implementation（实现）

3、Feature selection（特征选择）

4、Feature modification（特征修正）

八、Methods: Multi-Stage Multi-Task Learning（方法：多阶段多任务学习）

1、 Motivation（动机）

2、Training Data Collection（训练数据收集）

3、Model Training Flow（模型训练流程）

九、Evaluation（评价）

1、Datasets（数据集）

2、 Model Evaluation（模型评估）

3、性能比较

4、Results In Production Environment（生产环境中的结果）

十、Discussion and Lessons Learned（讨论与经验教训）

1、Reducing Computational & Human Load（减少计算量和人力）

2、Segmentation and Fairness（细分与公平）

十一、 Conclusion（总结）

一些重要内容

你可能感兴趣的:(论文阅读笔记)