无脑敲代码，bug漫天飞

论文阅读 - SATAR: A Self-supervised Approach to Twitter Account（CIKM 2021）

SATAR: A Self-supervised Approach to Twitter Account Representation Learning and its Application in Bot Detection

推特账户表示学习的自监督方法及其在机器人检测中的应用

论文链接：https://arxiv.org/pdf/2106.13089.pdf

摘要

1 绪论

2 相关工作

2.1 Twitter Bot Detection

2.2 Self-Supervised Learning

3 问题定义

4 SATAR 方法

4.1 Overview

4.2 Tweet-Semantic Sub-Network

4.3 Profile-Property Sub-Network

4.4 Following-Follower Sub-Network

4.5 Co-Influence Aggregator

4.6 Self-Supervised Learning and Optimization

5 实验

5.1 Experiment Settings

5.2 Bot Detection Performance

5.3 SATAR Generalization Study

5.4 SATAR Adaptation Study

5.5 Representation Learning Study

5.6 Case Study

6 结论和未来工作

摘要

自 2006 年推出以来，Twitter 已成为主要的社交媒体平台，而最近对机器人帐户的投诉也有所增加。尽管已经进行了广泛的研究工作，但最先进的机器人检测方法缺乏普遍性和适应性。

具体来说，以前的机器人检测器仅利用一小部分用户信息，并且通常在仅涵盖少数类型机器人的数据集上进行训练。因此，它们无法推广到 Twittersphere 上不同类型的机器人共存的真实场景。此外，Twitter 中的机器人不断发展以逃避检测。

以前的努力，虽然在他们的环境中曾经有效，但无法适应新一代的 Twitter 机器人。

为了解决 Twitter 机器人检测的两个挑战，我们提出了 SATAR，一种 Twitter 用户的自我监督表示学习框架，并将其应用于机器人检测任务。

特别是，SATAR 通过联合利用特定用户的语义、属性和邻域信息进行泛化。同时，SATAR 通过对大量自我监督用户进行预训练和对详细的机器人检测场景进行微调来适应。大量实验表明，SATAR 在不同信息完整性和收集时间的不同机器人检测数据集上优于竞争基线。 SATAR 也被证明可以在现实世界场景中泛化并适应不断发展的社交媒体机器人。

1 绪论

推特是一个流行的在线社交媒体平台，于2006年被重新发布。个人可以注册一个Twitter账户，查看和发布他们感兴趣的内容。根据Statista的报告，到2020年第二季度，美国每日活跃的Twitter用户数量将超过3500万。推特不仅成为人们日常生活中必不可少的社交平台，也成为信息发布场所。推特的开放性和广泛普及性使其成为自动程序（也称为机器人）的理想利用目标。这些机器人账户的运作往往是为了达到恶意的目的。机器人积极参与了许多重要事件，包括美国和欧洲的选举。机器人还负责传播假新闻和传播极端意识形态。这些恶意的机器人试图通过模仿正常用户的行为来掩盖其自动化的本质。据报道，在整个Twitter领域，机器人占总活跃用户的9%到15%。由于机器人危害了用户在Twitter中的体验，甚至可能诱发不良的社会影响，许多研究工作都致力于Twitter机器人的检测。

第一个检测社交媒体中自动账户的工作可以追溯到2010年。

早期的研究进行了特征工程并采用了传统的分类算法。考虑了三类特征：（1）用户属性特征；（2）来自推文的特征；以及（3）从邻居信息中提取的特征。

后来，研究人员开始提出基于神经网络的机器人检测框架。Wei等人采用长短期记忆从推文中提取语义信息。Kudugunta等人提出了一种结合特征工程和神经网络模型的方法。启发式的机器人检测方法最近也被提出来。Minnich等人提出了一种基于异常检测的机器人检测方法。Cresci等人将推文编码为一个字符串，以找出人类和机器人在推文行为上的差异。

尽管早期取得了成功，但不断变化的社交媒体给机器人检测的任务带来了两个新的挑战：概括和适应。

社交媒体机器人检测中的泛化挑战要求机器人检测器同时识别以多种不同方式攻击的机器人，并利用Twitter上的多样化特征。Cresci等人指出，Twitter机器人以不同的方式进行攻击，如转发欺诈、恶意标签推广和URL垃圾邮件。他们还模仿不同类型的真实用户的推特行为，以不同的方式填写个人资料项目，并相互关注以提高他们的粉丝数量。由于Twitter机器人确实变得更加多样化，因此一个强大的Twitter机器人检测器应该解决泛化的挑战，以诱发现实世界的影响。然而，以前的机器人检测方法未能普及，因为它们只利用了有限的用户信息，并且是在只有少数类型的机器人的数据集上训练的。

除此之外，机器人检测适应性的挑战要求机器人检测器在不同时间保持理想的性能并赶上快速的机器人进化。克雷斯奇等人的调查表明，过去的机器人程序简单易识别，拥有的个人资料和朋友信息太少而无法成为真实的机器人。然而，最近进化的机器人拥有大量的朋友和追随者，使用偷来的个人资料图片，并将恶意的推文与中性的推文相混淆。这些新进化的机器人经常躲避现有的检测措施，因此一个强大的机器人检测器应该解决适应性的挑战，以结束机器人进化和机器人检测研究之间的军备竞赛。然而，以前的机器人检测措施在很大程度上依赖于特征工程，并不是为了适应机器人进化的新趋势而设计的。

鉴于 Twitter 机器人检测的两个挑战，我们提出了一个新颖的框架 SATAR（Twitter 帐户表示学习的自我监督方法）。 SATAR 采用自我监督学习来获取用户表示并识别社交媒体上的机器人。具体来说，SATAR 在没有特征工程的情况下联合编码用户的推文、属性和邻域信息，以促进机器人检测泛化。 SATAR 遵循预训练和微调学习模式，以适应不同代的机器人。我们的主要贡献总结如下：

我们提出了一个新颖的框架 SATAR 来进行可推广和适应性强的 Twitter 机器人检测。 SATAR 是一个端到端的框架，它在没有特征工程的情况下联合使用用户的语义、属性和邻域信息；

据我们所知，本文是第一个引入自我监督表示学习以提高机器人检测性能的工作；

我们对三个真实世界的数据集进行了广泛的实验，以评估 SATAR 和竞争基线。 SATAR 在所有三个数据集上的表现都优于基线，并被证明可以通过进一步探索进行泛化和适应。

在下文中，我们首先在第二节中回顾了相关的工作，并在第三节中定义了Twitter机器人检测的任务。接下来，我们在第四节中提出了SATAR，并在第五节中进行了大量的实验。最后，我们在第6节中总结了整篇论文。

2 相关工作

在本节中，我们简要回顾了自我监督学习和Twitter机器人检测的相关文献。

2.1 Twitter Bot Detection

传统的机器人检测方法主要集中在从用户信息中提取基本特征。其中，高等人使用文本闪动和增量聚类将垃圾邮件合并到活动中以进行实时分类。李等人建议在推文中使用 URL 重定向。Thomas 等人专注于提到的网站的分类。还采用了其他功能，例如用户个人资料 [25]、社交网络 [31] 和帐户时间表 [4] 的信息。杨等人设计了几个新功能来对抗现代 Twitter 机器人的演变。克雷斯奇等人提出机器人检测器和机器人操作员之间的对抗是一场永无止境的军备竞赛。还有人认为，我们应该避免使用依赖后验观察的方法。

神经网络由于其强大的学习能力，也被用于检测Twitter机器人。Wei等人采用递归神经网络来有效地捕捉整个推文的特征。Kudugunta等人将用户特征分为账户级特征，如粉丝数，以及推特级特征，如标签数量。这两种特征和语义信息被用来建立一个基于LSTM的机器人检测框架。Stanton等人利用生成式对抗网络进行垃圾邮件检测，以避免注释成本和不准确的情况。Alhosseini等人提出了一个基于图卷积网络的垃圾邮件检测模型，以利用节点特征和邻居的信息。然而，这些监督方法在很大程度上依赖于注释的数据，而相关的数据集通常规模有限。我们从自我监督学习中吸取了大量的无标记数据。

2.2 Self-Supervised Learning

为了以有监督的方式使用无监督的数据集，自我监督学习构建了一个特殊的学习任务，利用其余的实体信息预测一个子集。作为一种有前途的学习范式，自监督学习因其出色的数据效率和泛化能力而引起了大量关注，许多最先进的模型都采用这种范式。Doersch等人将几个自我监督的任务结合起来，共同训练一个网络。Zhai等人提出，半监督学习可以从自我监督学习中获益。

自监督学习已被用于不同领域，如自然语言处理、计算机视觉和图分析。在自然语言处理中，自我监督的任务是根据接下来的词或整个句子来设计的。为了更好地关注一般的内容，也采用了屏蔽语言模型。在计算机视觉中，相邻的像素和完整的图像同样被用于预案任务。在图分析中，自监督任务是基于边缘属性或节点属性设计的。

3 问题定义

假设是一个 Twitter 用户，由用户信息U的三个方面组成：语义T、属性P和邻域N。

令 $T = \{t_i\}^M_{i=1}$ 为用户推文M的语义信息。每条推文 $t_i = \{w_1^i,....,w_{Q_i}^i\}$ 包含个单词。令 $P = \{p_i\}_{i=1}^R$ 为用户的属性信息，共有R属性。每个属性可以是数字的，例如关注者数量，也可以是分类的，例如用户是否经过验证;

令 $N = \{N^f,N^t\}$ ，其中 $N^f = \{N_1^f,...,N_u^f\}$ 是用户u的关注， $N^t = \{N_1^t,...,N_v^t\}$ 是关注者。与之前的研究类似，我们将 Twitter 机器人检测视为二元分类问题，其中每个用户可以是人类 (y=0) 或机器人 (y=1)。形式上，我们可以将 Twitter bot 检测任务定义如下：

问题：Twitter 机器人检测给定一个 Twitter 用户及其信息T , P和 N，学习机器人检测函数f： $f(U(T,P,N)) \rightarrow \widehat{y}$ ，使得 $\widehat{y}$ 逼近groundtruth，以最大化预测精度。

4 SATAR 方法

在这一节中，我们介绍了所提出的名为SATAR（Twitter账户表征学习的自我监督方法）的Twitter用户表征学习框架的细节。

4.1 Overview

图 1 说明了建议的框架 SATAR。它由四个主要组件组成：（1）推文语义子网络，（2）个人资料属性子网络，（3）追随者/关注子网络和（4）共同影响聚合器。具体来说，我们使用 Twitter API来获取有关用户语义、属性和邻域信息的相关数据。

推文语义子网络将 Twitter 用户的文本信息编码为具有不同深度的分层 RNN，并伴随着注意机制；

profile-property 子网络将 Twitter 用户的个人资料属性编码为属性数据编码和完全连接的层；

关注者/关注子网络将 Twitter 用户的邻域关系编码为邻域信息提取器和全连接层；

最后，非线性 Co-Influence 聚合器将上述三个组件之间的相关性考虑在内，生成一个完全体现特定 Twitter 用户社会地位的表示向量；

然后将 softmax 层应用于用户分类并实现模型学习。

4.2 Tweet-Semantic Sub-Network

在本文中，我们利用两个不同级别（推文级别和单词级别）的用户语义信息来捕获用户的推文内容。具体来说，用户推文中的单词可以放入两个层次结构中。

对于第3节中定义的推文级特征，表示用户时间轴上第j条推文中的第i个词，代表一个特定用户的第j条推文；

我们还将时间上相邻的推文连接起来。 $\{w_1,...,w_K\} = \{w_1^1,...,w_{Q_1}^1,w_1^2...,w_{Q_M}^M\}$ ，其中总字数 $K = \sum_{i=1}^{M}Q_i$ 。

因此，对于单词级别的表征，表示将用户推文历史中的第k个单词与时间相邻的推文连接起来形成一个序列。值得注意的是，推文级和词级的底层词是相同的，但它们的注释根据用户的推文行为而有所不同。为了共同利用这两个不同级别的用户推文信息，我们提出了分层 RNN 的推文级和词级编码器，分别对推文文本序列进行建模，并为 Twitter 用户得出整体语义表示。推特用户的整体语义表示与推特级和单词级的结果相连接。其中，和是推文在推文层面和单词层面的代表。

推文级编码器。推文级编码器遵循自下而上的方法。对于特定用户的第 j-th 条推文，我们首先使用嵌入层得到单词的嵌入表示：

其中是第 j个推文的长度，我们使用 Word2Vec 作为嵌入层 emb(·)。为了对推文进行编码，双向 RNN 在前向传递和后向传递中处理推文。对于前向传递，为第j条推文生成一系列前向隐藏状态，其中每个步骤的隐藏表示由以下方式生成，在这里，我们使用 LSTM作为 RNN(·)，它被广泛用于对序列中的长期依赖关系进行建模。对于后向传播，类似地生成一系列后向隐藏状态：，我们将前向和后向的结果串联起来，形成第j条推文中的文字表述序列，由于推文中的单词对推文整体语义的贡献各不相同，因此采用注意力机制将单词隐藏表示聚合到推文向量中。具体来说，其中为每个单词转换向量，和是可学习的参数， $\alpha _{j,i}^t$ 表示第 - 条推文中第i个词的权重。最后，可以得到第j条推文的表示如下：

在为每条推文推导出一个向量之后，推文级编码器将 RNN 类似地应用于推文表示 $\{v^t_j\}^M_{j=1}$ ，生成一个前向和后向序列。我们连接前向和后向结果以形成一系列推文表示：

其中 $h^t_i = [\overrightarrow{h^t_i},\overleftarrow{h^t_i}]$ 。注意力层被用来模拟每条推文对用户整体语义的影响：，其中转换每条推文的向量，，和是可学习的参数。 $\alpha ^t_i$ 表示第i条推文的权重。最后，从面向推文的角度，可以得到用户推文语义的表示方法如下。

词级编码器。词级编码器将暂时相邻的推文连接成一个长的词序列。对于序列中的第i个词，我们首先用与推文级编码器相同的嵌入层得到其嵌入。其中，K是时间上串联的推文中的总字数。采用具有注意力的双向 RNN 对级联序列进行编码。对于前向传递，我们有：，其中，LSTM在其特定长度方面采用RNN(-)。对于后向传递，我们有，，然后，我们将前向和后向的结果串联起来，形成用户推特历史中的单词表示序列然后应用注意力机制：，, 和是可学习的参数， $\alpha _i^w$ 表示连接序列中第i个单词的权重。最后，从面向词的角度来看，用户的推文语义表示如下

4.3 Profile-Property Sub-Network

为了避免特征工程中包含的不良偏差，配置文件属性子网络利用可以直接从 Twitter API 检索的配置文件属性。不同类型的属性数据采用不同的编码策略：

· 总共有 15 个真或假属性项。我们用 1 表示真，用 0 表示假。例如“个人资料使用背景图片”;

• 共有5 个数字属性项。我们将 z-分数归一化应用于整个数据集的数值属性。例如“最爱计数”;

• 有一个特殊的属性项：“位置”。我们在地理上将位置划分为不同的国家并应用 one-hot 编码.

值得注意的是，特定用户的关注者数量不会包含在属性向量中，这将是第 4.6 节中介绍的自我监督学习模式的一部分。

将编码的属性项连接起来形成一个原始的属性向量，然后对其进行转换以生成 Twitter 用户的属性表示

其中（·）是全连接层，（·）是作为激活函数采用的非线性。

4.4 Following-Follower Sub-Network

对于用户的关注，根据Twitter的机制，他们的推文会出现在时间轴上，关注行为往往表明对他们的推文内容感兴趣。因此，我们建议对以下关系进行建模：，其中表示一组关注的（作者关注的人） Twitter 用户，TF(u)表示用户u的推文频率，是推文语义子网络生成的用户语义表示。

请注意，代表用户u出现在一个人的时间线中的比例，因此作为关注者语义信息的加权总和，根据其相对推特频率。

对于关注者，由于帐户关注者的平均质量定义了其社会地位，并且质量可以通过其属性进行评估，我们建议将关注者关系建模如下：其中，表示Twitter用户的关注者集合， $|\cdot |$ 表示集合的基数，是由profile-property子网络生成的用户的属性表示。

然后，关注者子网络产生一个原始的隐性向量，以获取邻域信息。然后转换中间向量以生成 Twitter 用户的邻域表示：

其中 (·) 是全连接层， ReLU(·) 是采用的激活函数。

4.5 Co-Influence Aggregator

到目前为止，我们已经获得了关于Twitter用户的三个方面的表征向量，即、和关于推文语义、用户属性和关注关系。一个好的机器人检测器应该是全面的，并且对篡改有很强的鲁棒性。换句话说，独立考虑用户形成的每个方面将不可避免地危及机器人检测器的稳健性。Co-attention在处理两个序列之间的相关性方面是一个成功的机制，但它不是为多个表示向量之间的相互影响而设计的。因此，我们提出了一个共同影响聚合器，将推文语义、用户属性和关注关系之间的相互关联性考虑在内。

首先，得出一对方面之间的亲和指数。

其中 $W_{sp}$ , $W_{pn}$ 和 $W_{ns}$ 是聚合器的可学习参数。得出了每个方面的隐藏表示，其中包含来自其他两个方面的相关信息：

其中,, 和是聚合器的可学习参数。最后，所提出的框架SATAR产生了如下的Twitter用户表示r：

其中，是聚合器的一个可学习的参数

4.6 Self-Supervised Learning and Optimization

推特用户表征学习试图用分布式表征对特定用户进行建模。我们采用关注者数量作为SATAR训练的自我监督信号。具体来说，一个用户的粉丝数根据其数字尺度和整体粉丝数的分布被分成几个类别。我们训练表征学习框架SATAR，将每个用户归入这些类别，在此过程中获得用户表征。我们相信，由于以下原因，粉丝数量将是一个理想的自我监督训练信号。

利用粉丝数进行自我监督训练是不分任务的。无论是机器人检测、内容推荐还是在线活动建模，粉丝数都与社交媒体上的所有任务有关，而不是专门针对其中任何一项；

粉丝数量最能代表一个Twitter用户。没有更好的选择可以更有效、更准确地描述一个Twitter用户，特别是当粉丝数还涉及到对其他用户的评价时；

关注者数量对大规模的篡改更为有力。虽然有可能购买假粉丝，但根据Cresci等人的调查，增加1000个粉丝往往需要花费13到19美元。因此，显著改变一个用户的粉丝数量的规模是很昂贵的，更不用说发起一个有许多活跃机器人的活动了。

具体来说，假设一个用户可以根据其关注者的数量被归类，一个softmax层被应用于用户表示r:

其中，是每个类别的预测概率向量，是可学习的参数。表示这种分类在one-hot编码中的自我监督的groundtruth。我们最小化交叉熵损失函数如下：

其中表示所提出的SATAR框架中的参数。算法1展示了我们所提出的Twitter账户表现学习框架SATAR的整体训练模式。

5 实验

在本节中，我们对三个真实世界的机器人检测数据集进行了广泛的实验和深入分析。

5.1 Experiment Settings

在本节中，我们提供了有关实验中采用的数据集、机器人检测基线和评估指标的信息。数据集。我们使用三个数据集，TwiBot-20、cresci-17 和 PAN-19。由于 Twitter 机器人具有不同的用途并迅速发展，这些高质量的数据集被用来提供全面的评估和验证基线和我们提出的方法的普遍性和适应性。

TwiBot-20是当前Twitter领域的一个综合样本，用于评估机器人检测方法是否能在现实世界的场景中得到推广。TwiBot-20的用户一般可分为四个兴趣领域：政治、商业、娱乐和体育。在用户信息方面，TwiBot-20包含了Twitter用户的语义、属性和邻域信息。

cresci-17是一个公共数据集，包含 4 个组件：真实帐户、社交垃圾邮件机器人、传统垃圾邮件机器人和虚假粉丝。我们合并这四个部分并作为一个整体使用 cresci-17。 cresci-17 包含语义和属性信息。

PAN-19 是CLEF 2019年PAN研讨会上的一个机器人和性别分析共享任务的数据集。它用于机器人和性别剖析，只包含用户语义信息。

这三个数据集的摘要见表3。我们随机对三个数据集进行了7:2:1的分区，作为训练、评估和测试集。这样的分区在第5.2节、第5.3节和第5.4节的所有实验中共享。我们从众多的机器人检测数据集中选择了这三个基准，因为它们的规模较大，收集时间跨度大，而且注释质量高。

基线方法。我们将SATAR与以下机器人检测方法作为基线进行比较。

- Lee等人。Lee等人使用随机森林分类器与几个Twitter用户的特征，如账户的寿命；

- Yang等人。Yang等人使用随机森林与最小账户元数据和12个衍生特征；

- Kudugunta等人。Kudugunta等人提出了一个同时使用推文内容和元数据的架构；

- Wei等人。Wei等人使用词嵌入和三层BiLSTM来编码推文。采用全连接的softmax层进行二元分类。

- Miller等人。Miller等人从用户的推文和属性信息中提取107个特征。机器人用户被认为是不正常的异常值，并采用修改后的流聚类算法来识别Twitter机器人用户。

- Cresci等人。Cresci等人利用字符串来表示用户在线行动的序列。每个行动类型都可以用一个字符进行编码。通过识别具有最长共同子字符串的账户组，可以得到一组机器人账户。

- Botometer。Botometer是一个公开可用的服务，利用一千多个特征对账户进行分类。

- Alhosseini等人。Alhosseini等人利用图卷积网络来检测Twitter机器人。它使用关注信息和用户特征来学习表征并对Twitter用户进行分类。

对于以下基于SATAR的机器人检测方法，自监督的表征学习步骤采用了帕累托原则作为自监督的分类任务，框架学习预测一个Twitter用户的粉丝数是在前20%还是后80%。它是第4.6节中自监督表征学习策略的一个实例。

$SATAR_{FC}$ ：所提出的表征学习框架SATAR首先根据用户的关注者数量进行自监督用户分类任务的训练，然后对最后的softmax层进行重新初始化，并对机器人检测任务进行训练；

$SATAR_{FT}$ 。所提出的表征学习框架SATAR首先使用自我监督的用户进行训练，然后重新初始化最后的softmax层，并使用机器人检测的训练集对整个框架进行微调。

评价指标。我们采用准确率、F1分数和MCC作为不同机器人检测方法的评价指标。准确率是分类器正确性的直接指标，而F1得分和MCC是更平衡的评价指标。

5.2 Bot Detection Performance

表1确定了每种比较方法所使用的用户信息。表2报告了不同方法在三个数据集上的机器人检测性能。表2表明。

(机器人检测方法的性能比较。 “/”表示用户信息不足以支持基线)

基于SATAR的方法与其他基线相比取得了有竞争力的表现，这表明SATAR在Twitter机器人检测中是普遍有效的。 $SATAR_{FT}$ 优于 $SATAR_{FC}$ ，这证明了预训练和微调方法的功效。

$SATAR_{FT}$ 可以推广到现实世界的场景，因为它在模仿现实世界的Twittersphere的全面和有代表性的数据集TwiBot-20上的表现优于最先进的方法。同时， $SATAR_{FT}$ 能够适应不断变化的机器人的生成，因为它在所有三个数据集上实现了最佳性能，收集时间从2017年到2020年不等。第5.3节和第5.4节将提供进一步的分析，以证明SATAR成功地解决了概括和适应的挑战，而SATAR的关键组件和设计选择是其成功背后的原因。

对于主要基于LSTM的方法，我们看到Kudugunta等人优于Wei等人。这表明Kudugunta等人可以通过纳入属性项目来更好地捕捉机器人。 $SATAR_{FT}$ 比Kudugunta等人利用了更多的用户信息，并取得了更好的性能，这表明机器人检测方法应该纳入更多的用户信息方面。

基于特征工程的方法，如Yang等人，在cresci-17上表现良好，但在TwiBot-20上却逊于 $SATAR_{FT}$ 。这表明强调特征工程的传统机器人检测方法不能适应新一代的机器人。

Alhosseini等人和SATAR都使用邻域信息。基于SATAR的方法优于Alhosseini等人，这表明SATAR更好地利用了用户的邻域信息，将Twitter用户放入他们的社会环境中。

5.3 SATAR Generalization Study

在社交媒体机器人检测中，泛化的挑战要求机器人检测器同时识别以多种不同方式攻击，并利用多样化用户信息的机器人。为了证明SATAR的通用性，我们检查了SATAR和竞争基线在TwiBot-20上的表现。如表2所示，SATAR在TwiBot-20上的表现超过了所有基线。鉴于TwiBot-20包含多样化的机器人和人类，模仿了真实世界的Twitter世界，SATAR被证明在真实世界的情况下具有最好的通用性。

为了进一步证明SATAR的通用性，我们在四个用户领域中的一个领域训练SATAR和两个竞争基线，Alhosseini等人和Yang等人，并在其他领域进行测试。结果显示在图2中。这说明SATAR可以更好地捕捉其他类型的机器人，即使没有明确地对它们进行训练，这进一步证实了SATAR成功地概括了在社交媒体上共存的多样化的机器人的说法。

SATAR旨在通过联合利用所有三个方面的用户信息，即语义、属性和邻域信息来实现泛化。为了弄清楚我们提出的使用尽可能多的用户信息是否导致了SATAR的通用性，我们进行了一次删除一个方面的用户信息的消减研究。结果如图3所示。

图3的结果显示，从SATAR中删除任何方面的信息都会导致性能的相当大的损失，限制了SATAR对不同类型的机器人的通用能力。这表明SATAR利用更多方面的信息的策略在其泛化中是至关重要的。

（从 SATAR 中删除语义、属性和邻域子网络的消融研究）

5.4 SATAR Adaptation Study

机器人检测中的适应性挑战要求机器人检测器在不同时期保持理想的性能并赶上机器人的快速进化。为了证明SATAR的适应性，我们检查了SATAR和竞争基线在三个数据集上的表现，因为它们分别在2017年、2019年和2020年发布，可以很好地描述机器人的演变。表2的结果显示SATAR在所有三个数据集上都达到了最先进的性能，这表明SATAR在适应机器人进化方面比现有的基线更成功。

为了进一步证明SATAR的适应能力，我们检查了SATAR在数据集TwiBot-20的验证集和测试集中对用户的预测情况。我们在图4中展示了SATAR对特定用户的预测结果和SATAR在任意3个月的用户注册时间跨度内的准确性。图中显示SATAR对从2007年到2020年创建的用户保持了稳定的检测精度，这也进一步证实了SATAR成功地适应了不断进化的机器人的说法。

(SATAR对TwiBot-20中特定用户的预测。分散的点显示了SATAR对特定用户的预测，线表示SATAR在3个月内注册的机器人的总体准确度。)

SATAR的设计是通过对大量自监督的用户进行预训练和对特定的机器人检测场景进行微调来适应。为了弄清楚这种预训练和微调模式是否使SATAR能够适应新进化的机器人，我们进行了消减研究以移除自我监督的预训练步骤。SATAR在不同数据集上的表现如图5所示。

（消融研究从SATAR中移除自我监督的预训练步骤并在三个数据集上进行训练）

图 5 显示，SATAR 的性能随着采用自我监督的预训练步骤而提高，这种趋势在用户信息较少的数据集 PAN-19 上尤为突出。这表明SATAR的适应能力确实来自于使用追随者数量作为用户代表预训练的自我监督信号的创新策略。

5.5 Representation Learning Study

SATAR改善了Twitter用户的表征学习。内在的评估已经证明了SATAR的表示具有理想的质量。我们通过将SATAR表征与Alhosseini等人和Yang等人的表征进行对比，进一步进行内在评估，这些表征也提供了用户表征。我们使用k=2的k-均值对表征进行聚类，并计算同质性分数，即聚类包含单一类别的程度。较高的同质性分数表明，具有相同标签的用户更有可能彼此接近。

图6可视化了TwiBot-20的一个子图中的用户表示。图6(a)是SATAR表征的t-SNE图，显示了机器人和人类群体的适度搭配，而图6(b)和(c)显示了很少的搭配。从数量上看，SATAR取得了最高的同质性分数，这表明SATAR产生的用户表征质量更高。

（SATAR、Alhosseini等人和Yang等人的用户代表向量的二维t-SNE图。）

5.6 Case Study

为了进一步了解SATAR是如何识别机器人的，我们研究了几个机器人的特殊情况。我们使用方程中:的亲和力指数值来定量分析SATAR的决策。图7显示了被抽样用户的详细信息。

(一个示例机器人集群来解释 SATAR 的决定)

SATAR通过用户B和E重复或类似的推文来识别他们的自动化信号。例如，用户B的亲和力值为 $F_{sp}$ =-0.9989， $F_{pn}$ =0.0017和 $F_{ns}$ =0.6376。 $F_{sp}$ 和 $F_{ns}$ 的绝对值明显大于 $F_{pn}$ ，这表明在这种情况下，语义信息是SATAR决定的主导因素。

SATAR 通过其属性识别用户 C 和 D。 SATAR 检测到关注次数过多、默认背景图片等异常特征。用户 D 的和的绝对值比大，这表明属性信息在 SATAR 的判断中至关重要。

SATAR捕捉到用户A有四个机器人作为邻居，这对真正的用户来说是不可能的。用户A的 $F_{ns}$ 和 $F_{pn}$ 的绝对值大于 $F_{sp}$ ，这也证明了用户A的不正常邻居导致了SATAR的决定。

图7中的案例研究表明，SATAR通过联合评估他们的语义、属性和邻域信息来识别机器人用户。我们提出的协同影响聚合器的亲和值为SATAR的决定提供了解释。

6 结论和未来工作

社会媒体机器人检测正在吸引越来越多的关注。我们提出了SATAR，一种自我监督的Twitter账户代表学习方法，并将其应用于机器人检测的任务。SATAR的目的是解决在现实世界场景中泛化和适应机器人进化的挑战，而之前的努力是失败的。

我们进行了广泛的实验来证明基于SATAR的机器人检测与竞争基线相比的有效性。进一步的探索证明，SATAR也成功地在真实的Twitter世界中进行了推广，并适应了不同年代的Twitter机器人。在未来，我们计划将SATAR代表学习框架应用于社交媒体领域的其他任务，如假新闻检测和内容推荐。

你可能感兴趣的:(社交机器人检测,CIKM,ACM,人工智能,深度学习,twitter)

《网络攻防技术》《数据分析与挖掘》《网络体系结构与安全防护》这三个研究领域就业如何？扣棣编程其他网络数据分析安全
这几个研究领域都是当前信息技术领域的热点方向，就业前景总体来说都非常不错，但各有侧重和特点。我来帮你详细分析一下：1.网络攻防技术就业前景：非常火热且持续增长。核心方向：渗透测试、漏洞挖掘与分析、恶意软件分析、入侵检测/防御、应急响应、威胁情报、安全审计、红蓝对抗等。市场需求：极高。数字化转型深入、网络攻击日益频繁和复杂（勒索软件、APT攻击、供应链攻击等）、数据安全与隐私保护法规（如GDPR、中
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
Veo 3 可以生成视频，并附带配乐 TechVision大咖圈音视频人工智能
谷歌最新的视频生成AI模型Veo3可以创建与其生成的剪辑相配的音频。周二，在谷歌I/O2025开发者大会上，谷歌发布了Veo3。该公司声称，这款产品可以生成音效、背景噪音，甚至对话，为其制作的视频增添配乐。谷歌表示，Veo3在生成的视频质量方面也比上一代Veo2有所提升。Veo3从周二开始在谷歌的Gemini聊天机器人应用程序中推出，供谷歌每月249.99美元的AIUltra计划订阅者使用，可以通
HTTP服务器监控 weixin_34321753 php awk
HTTP服务器监控#!/bin/shLANG=C#被监控服务器、端口列表server_all_list=(\192.168.1.1:80\192.168.1.2:80\192.168.1.3:80\)date=$(date-d"today"+"%Y-%m-%d_%H:%M:%S")#采用HTTPPOST方式发送检测信息给接口程序interface.php，接口程序负责分析信息，决定是否发送报警MS
unity如何让一个物体拥有按钮功能 Lowjin_ unity unity 游戏引擎
在Unity中，要让一个物体（例如一个3D模型、UI元素或其他对象）变成一个按钮，你需要为它添加交互功能。这通常意味着让物体能够响应点击事件，像UI按钮那样触发某些行为。对于3D物体，可以通过射线检测（Raycast）来处理点击交互，而对于UI元素，则直接使用Unity的UIButton组件。这里提供几种常见的方式来让物体变成按钮：方法1：让一个3D物体（例如模型）变成按钮如果你有一个3D物体，并
HarmonyOSNext应用无响应全解析：从机制到实战的卡死问题排查
HarmonyOSNext应用无响应全解析：从机制到实战的卡死问题排查\##HarmonyOSNext##ArkTs##教育本文适用于教育科普行业进行学习，有错误之处请指出我会修改。喂喂喂！应用卡成PPT了？点啥都没反应？别慌！这是你的应用无响应急救指南！系统检测到应用卡死后会生成appfreeze日志，本文手把手教你从日志里挖出元凶！先划重点！本文使用范围//仅适用于Stage模型！看日志前请确
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
Python开发AI智能体(三)———Langchain定义提示词模板【本人】 Agent智能体 python 人工智能 langchain 语言模型
前言上篇文章给大家介绍AI项目检测平台LangSmish以及开源框架Langchain的使用，并且带领大家编写了一个案例。这篇文章将介绍在Langchain框架中如何定义提示词模板一、什么是提示词模板？提示词模板（PromptTemplate）是大语言模型（LLM）应用开发中的核心概念，本质是预定义的提示结构框架。它通过将静态文本与动态变量结合，实现标准化、可复用的提示生成机制。它提示词可以是一个
使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
重温经典第二弹（xdoj1175，xdoj1179） Owen_Q 搜索暴力枚举字符串
一转眼，记忆又来到了暑假。或许，这是一个这算是自己真正开始接触了解acm的一个时间点吧，各种算法数据结构，开始慢慢浮出水面。回顾当初，感慨万千。又找出了两道未ac之题，确实复杂度明显加强，思维性的进一步考验。Count思路：子串搜索问题，因为n和k大到2e5，因此，肯定是个单向处理不能回溯的问题，否则最坏n方的复杂度是难以接受的。对于单次搜索，考虑可以维护现有区间的元素，然后移位遍历向后搜索，对于
ACM ICPC 2017 Warmup Contest 7（CTU Open Contest 2016） Owen_Q 水题搜索数组 stl acm
ccsp与区域赛都越来越近了，模拟与区域赛题并进，还有一堆作业，有点累，想玩耍，感觉自己有点迷失，算了，还是就这样吧，努力向前练习赛7，打两个签到题走人，继续刷csp去B.HotAirBallooning思路：统计不同人用过的气球的方案数，又是个去重问题，又想往set上放，后来发现气球数很少，完全可以数组统计，而气球总组合有限，虽然不大，但强搜可能会感觉tle，加个状压好了，感觉现在自己特别喜欢做
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
Flutter ListTile 徽章宽度自适应的真正原因与最佳实践依旧风轻 Flutter SQI iOS flutter mainAxisSize ListTile Row
在IM、社交等App的会话列表中，未读消息数常常以绿色圆形或胶囊形徽章的形式展示在每一项的右侧。实现这个效果时，很多开发者会遇到一个令人困惑的问题：无论徽章内的数字是“99”还是“99+”，徽章的宽度都没有变化，甚至调整padding也无效。本文将深入剖析这个问题的根本原因，并给出最优雅、最健壮的Flutter解决方案。1.问题的真正原因在Flutter中，很多人会用ListTile组件来实现会话
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明 zhxup606 C++c++开发语言
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明。根据搜索结果，C++人脸考勤系统通常使用OpenCV库进行人脸检测和识别，这需要一定的库配置和基础知识。以下是一个基于OpenCV的简单人脸考勤系统源码示例，适合初学者理解，代码实现基本功能：捕获摄像头画面、检测人脸、记录考勤信息，并保存到文件。C
道路交通标志检测数据集-智能地图与导航交通监控与执法智慧城市交通管理-2,000 张图像 cver123 数据集智慧城市人工智能目标跟踪计算机视觉目标检测
道路交通标志检测数据集已发布目标检测数据集合集（持续更新）道路交通标志检测数据集介绍数据集概览包含类别应用场景数据样本展示YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参数详解常用可选参数典型输出指标4.
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Python 常用正则表达式大全朱公子的Note python 爬虫正则表达式
你是否在写Python爬虫时，总是卡在“正则提取”这一步？明明页面源码已经拿到，却怎么也匹配不到目标数据……不是提取失败，就是提取不全，搞得调试半天还抓不到核心字段？别急！今天我们就来一次**“正则一网打尽”**，专为爬虫而生的表达式宝典，让你写起爬虫来如虎添翼！在当下数据驱动时代，网络数据是企业的“金矿”，而Python爬虫则是挖掘这金矿的“利器”！从电商价格到社交媒体评论，爬虫技术让数据采集变
微信小程序实现导航守卫麦兜的明天前端小程序
小程序中是不支持路由拦截的，需要开发者自行封装路由拦截的功能，实践有许多的实现思路，下面我采用的是封装组件的方式实现。比方说一个小程序项目只有一两个页面是不需要登录就可以访问的，其他页面都是需要登录之后才能访问的，那我就用封装一些逻辑来检测用户是否是登录状态，如果不是则重定向到登录页，等用户完成登录后再跳转到用户本来要访问的页面。主要实现原理：通过本地存储的token来判断用户的登录状态，在小程序
《Redis高并发优化策略与规范清单：从开发到运维的全流程指南》猕员桃 redis 运维数据库
Redis高并发优化策略与规范清单：从开发到运维的全流程指南在互联网应用的后端架构中，Redis凭借其高性能、高并发的特性，成为缓存和数据存储的首选方案。无论是电商抢购、社交平台的点赞计数，还是在线旅游平台的实时数据查询，Redis都在支撑着海量请求的快速处理。然而，随着业务规模的扩大和流量的激增，Redis在高并发场景下也面临诸多挑战，如性能瓶颈、内存溢出、缓存雪崩等。为了确保Redis在高并发
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Visual Studio 编译错误 LNK2038：MTD 和 MDD 的区别及解决方法 A小庞 C++知识个人 visual studio windows ide
在使用VisualStudio进行C++项目开发时，我们经常会遇到一些编译错误。其中，LNK2038错误是一个比较常见的链接器错误，通常与运行时库（RuntimeLibrary）的配置不匹配有关。本文将详细介绍MTD和MDD的区别，以及如何解决因运行时库配置不匹配导致的编译错误。一、错误示例以下是一个典型的LNK2038错误示例：从错误信息中可以看出，链接器检测到了运行时库的不匹配项，具体表现为M
第十届“信也科技杯”全球 AI 算法大赛火热开赛！巅峰对决 · 超三十万奖金等你挑战猫头虎猫头虎精品博客专栏科技人工智能神经网络计算机视觉语音识别机器学习目标检测
巅峰对决·超三十万奖金等你挑战！第十届“信也科技杯”全球AI算法大赛火热开赛！第十届信也科技杯全球AI算法大赛活动目录合作单位赛事概况赛事奖励赛事日程速览即刻报名参赛电脑端报名报名选手交流群关于“信也科技杯”关于信也科技合作单位“信也科技杯”是由信也科技主办的数据算法竞赛平台，信也科技与两大全球顶级AI会议合作不仅是IJCAI2025官方合作单位，“信也科技杯”也被CIKM2025AnalytiC
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那