生信小鹏

scenic：单细胞调控网络推理和聚类

这是GRN分析中scenic的文献，发表在2017年的nature methods（SCENIC : single-cell regulatory network inference and clustering），学习了解其原理。

摘要

我们提出了scenery，一种用于从单细胞 rna-seq 数据中同时进行基因调控网络重建和细胞状态识别的计算方法 (http://scenic.aertslab.org)。根据肿瘤和大脑的单细胞数据概要，我们证明顺式调控分析可用于指导转录因子和细胞状态的识别。scenic为驱动细胞异质性的机制提供了重要的生物学见解。

介绍

细胞的转录状态产生于潜在的基因调控网络（GRN），其中有限数量的转录因子（TF）和辅因子相互调节及其下游靶基因。单细胞转录组分析的最新进展为高分辨率识别转录状态和状态之间的转换（例如分化期间）提供了令人兴奋的机会。针对单细胞 RNA-seq 优化的统计技术和生物信息学方法带来了新的生物学见解，但目前尚不清楚是否可以确定稳定细胞状态下特定且稳健的 GRN。这确实可能具有挑战性，因为在单细胞水平上，由于转录爆发和其他来源的基因表达的随机变化，基因表达可能与 TF 输入的动态部分脱节。已经开发了一些从单细胞 RNAseq 数据推断共表达网络的方法，但这些方法不使用调控序列分析来预测 TF 和靶基因之间的相互作用。

我们推断将顺式调控序列与单细胞基因表达连接可以克服丢失和技术变异，从而优化细胞状态的发现和表征。为此，我们开发了单细胞调控网络推理和聚类（SCENIC）来绘制GRN，然后通过评估每个细胞中GRN的活性来识别稳定的细胞状态。 SCENIC 工作流程由三个步骤组成（图 1a，Supplementary Fig. 1 and see Online Methods）。

(a) In the SCENIC workflow, coexpression modules between TFs and candidate target genes are first inferred using GENIE3 or GRNBoost. RcisTarget then identifies modules for which the regulator’s binding motif is significantly enriched across the target genes and creates regulons with only direct targets. AUCell scores the activity of each regulon in each cell, thereby yielding a binarized activity matrix. The prediction of cell states is based on the shared activity of regulatory subnetworks.
(a) 在 SCENIC 工作流程中，首先使用 GENIE3 或 GRNBoost 推断 TF 和候选目标基因之间的共表达模块。然后，RcisTarget 识别调节器的结合基序在目标基因上显着富集的模块，并创建仅具有直接目标的调节子。 AUCell 对每个细胞中每个调节子的活性进行评分，从而产生二值化的活性矩阵。细胞状态的预测基于调节子网络的共享活动。

(a) 第一步，使用 GENIE3（随机森林）或 GRNBoost（梯度增强）推断转录因子和候选靶基因之间的共表达模块。每个模块由一个转录因子及其预测目标组成，纯粹基于共表达。 (b) 第二步，用 RcisTarget 分析每个共表达模块，以识别富集的基序；仅保留 TF 基序富集的模块和靶标。每个 TF 及其潜在的直接目标都是一个调节子。 © 在第三步中，使用 AUCell 评估每个细胞中每个调节子的活性，AUCell 计算恢复曲线下的面积，整合调节子中所有基因的表达等级。 AUCell 分数用于生成调节子活动矩阵。该矩阵可以通过为每个调节子设置 AUC 阈值来二值化，这将确定调节子在哪些细胞中“开启”。 (d) 调节子活动矩阵可用于对细胞进行聚类（例如 t-SNE），从而根据调节子网络的共享活动来识别细胞类型和状态。

第一步，使用 GENIE3 识别与 TF 共表达的基因组（补充图 1a）。由于 GENIE3 模块仅基于共表达，因此它们可能包含许多误报和间接目标。为了识别假定的直接结合靶标，每个共表达模块均使用 RcisTarget 进行顺式调控基序分析（补充图 1b 并参见在线方法）。仅保留具有显着富集正确上游调节因子的基序的模块，并且对它们进行修剪以去除缺乏基序支持的间接目标。我们将这些经过处理的模块称为调节子。
作为 SCENIC 的一部分，我们开发了 AUCell 算法来对每个细胞中每个调节子的活性进行评分（补充图 1c 和 2）。**对于给定的调节子(regulon)，比较细胞间的 AUCell 分数可以识别哪些细胞具有明显更高的子网络活动。**生成的二元活动矩阵的维数降低了，这对于下游分析非常有用。例如，基于该矩阵的聚类根据监管子网的共享活动来识别细胞类型和状态。由于调节子是作为一个整体进行评分的，而不是使用单个基因的表达，因此这种方法对于 dropout 具有鲁棒性（补充图 3）。

为了评估 SCENIC 的性能（performance），我们将其应用于包含来自成年小鼠大脑的已知细胞类型的 scRNA-seq 数据集（图 1b-e）。该分析提供了 1,046 个初始共表达模块中的 151 个调节子，其中相应 TF 的基序显着富集（初始 TF 的 7%）。对每个细胞的调节子活性进行评分揭示了预期的细胞类型（图1d，e）以及每种细胞类型的潜在主调节子列表（例如补充图4中的小胶质细胞网络）。按细胞类型进行聚类（总体灵敏度为 0.88，特异性为 0.99，调整兰德指数 (ARI) > 0.80）比许多专用的单细胞聚类方法更准确。

为了评估 SCENIC 的稳健性（robustness），我们重新分析了小鼠大脑数据：完整的数据集； 100 个随机选择的细胞样本来模拟小数据集；或三分之一的测序读数来模拟低覆盖率数据。 SCENIC 识别出仅由少数细胞代表的细胞类型（例如，来自小胶质细胞、星形胶质细胞或中间神经元的两到六个细胞；补充图 5）。此外，预测的 TF 与细胞类型的关联与之前建立的一致角色（图 1c），并且这种准确性优于标准分析管道（补充图 3e）。

还应用 SCENIC 来识别少突胶质细胞瘤（来自 6 个肿瘤的 4,043 个细胞）和黑色素瘤（来自 14 个病变的 1,252 个细胞）的 scRNA-seq 数据集中的复杂细胞状态。由于肿瘤特异性突变和复杂的基因组畸变，癌细胞状态的识别比正常细胞状态更具挑战性15。标准聚类根据肿瘤来源对细胞进行分组（图 3a、b），但 SCENIC 揭示了不同的情况。对于少突胶质细胞瘤，肿瘤中存在三种癌细胞状态（图 3c-e），每种状态均由预期的 TF 驱动，包括少突胶质细胞样状态的 SOX10/4/8、OLIG1/2 和 ASCL1； SOX9、NFIB 和 AP-1 用于星形胶质细胞样状态； E2F 和 FOXM1 用于循环细胞。此外，将扩散图应用于二元 SCENIC 矩阵（补充图 8）重建了从干细胞样分支到少突胶质细胞样和星形胶质细胞样分支的分化轨迹。请注意，与正常少突胶质细胞分化相比，这条路径代表了不同的“轨迹”（参见补充图 9 对 5,069 个少突胶质细胞的 SCENIC 分析）。我们在黑色素瘤数据上观察到类似的肿瘤效应校正，其中 SCENIC 识别了肿瘤中的细胞组（补充图 10），包括由与少突胶质细胞瘤中类似的 TF 驱动的循环细胞簇（例如，E2F1/2/8 和MYBL2；图 3f-h 和补充图 10)。与 Combat16 和 Limma17 等专门的批量效应消除方法相比，这些方法需要先验地指定批量效应的来源（补充图 11），SCENIC 通过使用生物驱动的特征自动消除肿瘤效应。

补充部分不细看了，重点看使用方法和算法的原理

online methods

SCENIC workflow

SCENIC 是一个基于三个新 R/bioconductor 包的工作流程：(i) GENIE3，基于共表达识别潜在的 TF 目标； (ii) RcisTarget，执行 TFmotif 富集分析并确定直接目标（调节子 regulons）； (iii) AUCell，对单细胞上的调节子（或其他基因组）的活性进行评分。我们还提供在 Spark上实现的 GRNBoost，作为在更大数据集上构建共表达网络的可扩展替代方案（步骤 i，替换 GENIE3）。三个 R/bioconductor 包和 GRNBoost 包括详细的教程，以方便它们在自动化 SCENIC 管道中的使用，以及独立的工具。

GENIE3

GENIE3。 GENIE3是一种从基因表达数据推断基因调控网络的方法。简而言之，它训练随机森林模型来预测数据集中每个基因的表达，并使用 TF 的表达作为输入。然后使用不同的模型得出 TF 的权重，测量它们各自与预测每个目标基因表达的相关性。最高权重可以转化为 TF 目标监管链接。由于 GENIE3 使用随机森林回归，因此它具有允许 TF 与其候选目标之间存在复杂（例如非线性）共表达关系的附加值。 GENIE3 可在 Python、Matlab 和 R 中使用。为了包含在 SCENIC 工作流程中，我们优化了 GENIE3 之前的 R 实现。这个新实现的核心现在是用 C 编写的（这使其速度快了几个数量级），它需要更少的内存，并且支持并行执行。 GENIE3 是 DREAM4 和 DREAM5 挑战赛中表现最好的网络推理方法24。新包在 DREAM 挑战中提供了与之前现有实现类似的结果，但速度有所提高。The comparison is available at the following website: http://www. montefiore.ulg.ac.be/~huynh-thu/GENIE3.html.

GENIE3 的输入是一个表达矩阵。首选表达值是基因汇总计数（可能使用也可能不使用唯一分子标识符 UMIs）。其他测量值，例如每百万计数或转录本 (TPM) 和 FPKM/RPKM 也可以作为输入接受。然而，请注意，第一个网络推理步骤基于共表达，一些作者建议避免此任务的样本内标准化（即 TPM），因为它们可能会引起人为共变。为了评估输入矩阵的归一化在多大程度上影响 SCENIC 的输出，我们还在库大小归一化后在 Zeisel 等人数据集上运行了 SCENIC（使用 scran的标准管道，该管道执行簇内大小-因子归一化）。结果具有高度可比性，无论是在生成的簇或细胞类型方面（从原始 UMI 计数或归一化计数获得的细胞类型之间的 ARI：0.90，与作者的细胞类型相比，从归一化计数获得的 ARI：0.87）以及识别的 TF组（图 1b 中突出显示的 30 个调节子中的 26 个）。此外，在该项目过程中，我们将 GENIE3 应用于多个数据集，其中一些具有 UMI 计数（例如，小鼠大脑和少突胶质细胞），其他具有 TPM（例如，人脑和黑色素瘤），并且两个单元都提供了可靠的结果。

GENIE3 的输出是一个表格，其中包含基因、潜在调节因子及其**“重要性度量”(IM)，它代表TF（输入基因）在目标预测中的权重**。我们探索了几种确定阈值的方法（例如，查看使用 RcisTarget 修剪后的排名、分布和输出），最终选择为每个 TF 构建潜在目标的多个基因集：（i）设置多个 IM 阈值（IM > 0.001） IM > 0.005），(ii) 为每个 TF 选取 50 个具有最高 IM 的目标，以及 (iii) 为每个目标基因仅保留前 5、10 和 50 个 TF（然后按 TF 分割）。在所有这些情况下，仅考虑 IM > 0.001 的链接。此外，每个基因集随后被分为正相关和负相关目标（即 TF 和潜在目标之间的 Spearman 相关性），以区分可能激活的目标和抑制的目标。最后，仅保留至少具有20个基因的基因集（TF共表达模块）用于下一步。

GRNBoost

GRNBoost 基于与 GENIE3 相同的概念：纯粹从基因表达矩阵推断每个目标基因的调节因子。然而，GRNBoost 使用 XGBoost 库中的梯度提升机 (GBM)实现来实现这一点。 GBM 是一种集成学习算法，它使用 boosting作为一种策略，将多个弱学习器（如浅树）组合成强学习器。这与 GENIE3 使用的随机森林方法形成鲜明对比，后者使用装袋（引导聚合）进行模型平均以提高回归精度。 GRNBoost 使用梯度增强树桩（深度为 1 的回归树）作为基础学习器。 GRNBoost 的主要贡献是将这种多重回归方法转换为基于 Apache Spark23 的 Map/Reduce32 框架。在 GRNBoost 中，核心数据条目是基因名称的元组和基因表达值的向量。 GRNBoost 使用 Spark RDD，首先将基因表达向量划分到计算集群中可用的节点上。随后，它构建一个预测矩阵，其中包含所有候选调节基因的表达值。使用 Spark 广播变量，将预测矩阵广播到不同的计算分区。在框架的映射阶段，GRNBoost 迭代基因元组（表达向量），并使用预测矩阵来训练 XGBoost 回归模型，并将表达向量作为各自的训练标签。从经过训练的模型中，提取调节器-目标关系的强度并将其作为一组网络边缘发出。在reduce阶段，所有的边集都被组合到最终的监管网络中。

GRNBoost 和 GENIE3 的性能在配备 2 个 Intel Xeon E2696 V4 CPU 的工作站上进行比较，该 CPU 总共有 44 个物理核心或 88 个线程以及 128 GB 2133Ghz ECC 内存。大数据集和大预测矩阵会导致网络推理受到内存限制而不是 CPU 限制。为了轻松地将所需的内存量放入可用的 128 GB 内存中，我们将分区数量减少到 11 个，因此最多只有 11 个同时运行的预测矩阵。然而，我们将每个单独的 XGBoost 回归可用的线程数量增加到 8 个，从而有效地使用工作站中的所有可用线程 (88)。 GRNBoost 采用 Scala 编程语言编写，可用作软件库或从命令行作为 Spark 作业提交。

这一段涉及到挺多算法知识，我觉得不需要深入纠结

RcisTarget

RcisTarget 是 i-cisTarget 和 iRegulon 基序富集框架的新 R/Bioconductor 实现。RcisTarget 识别基因列表中丰富的 TF 结合基序和候选转录因子。简而言之，RcisTarget 基于两个步骤。首先，它选择在基因集中基因的转录起始位点 (TSS) 周围显着过度表达的 DNA 基序。这是通过在数据库上应用基于恢复的方法来实现的，该数据库包含每个基序的全基因组跨物种排名。注释到相应 TF 并获得归一化富集分数 (NES) > 3.0 的基序将被保留。接下来，对于每个基序和基因集，RcisTarget 预测候选目标基因（即基因集中排名在前沿之上的基因）。该方法基于 Aerts 等人描述的方法，该方法也在 i-cisTarget（Web 界面）和 iRegulon（Cytoscape 插件）35 中实现。因此，当使用相同的参数和数据库时，RcisTarget 提供与 i-cisTarget 或 iRegulon 相同的结果，并与 Janky 等人中的其他 TFBS 富集工具进行基准测试。文档中给出了有关该方法及其在 R 中的实现的更多详细信息。

为了构建最终的调节子，我们合并了每个 TF 模块的预测目标基因，这些基因显示了给定 TF 的任何基序的富集。为了检测抑制，理论上可以对负相关 TF 模块采用相同的方法。然而，在我们分析的数据集中，这些模块数量较少，并且显示出非常低的主题富集度。因此，我们最终决定从工作流程中排除直接抑制的检测，并仅继续处理正相关目标。本文中用于分析的数据库是来自 iRegulon（基于基因的基序排名）的人类和小鼠的“18k 基序集合”。对于每个物种，我们使用两个基因基序排名（TSS 周围 10 kb 或 TSS 上游 500 bp），这决定了 transcTSS 周围的搜索空间。

AUCell

AUCell 是一种新方法，使研究人员能够在单细胞 RNAseq 数据中识别具有活跃基因调控网络的细胞。 AUCell 的输入是基因集，输出是每个细胞中基因集的“活性”（gene set ‘activity’）。在 SCENIC 中，这些基因集是调节子，由 TF 及其假定目标组成。 AUCell 将调节子的富集计算为特定细胞中所有基因排名的恢复曲线下面积 (AUC)，从而根据基因的表达值对基因进行排名。因此，该方法独立于基因表达单位和标准化程序。此外，由于细胞是单独评估的，因此可以轻松应用于更大的数据集（例如，如果需要，可以对表达矩阵进行子集化）。简而言之，评分方法基于回收率分析，其中 x 轴（补充图 1c）是基于表达水平的所有基因的排名（具有相同表达值的基因，例如“0”，被随机排序））； y 轴是从输入集中恢复的基因数量。然后，AUCell 使用 AUC 来计算输入基因集的关键子集是否在每个细胞的排名顶部富集。**通过这种方式，AUC代表了特征中表达基因的比例以及它们与细胞内其他基因相比的相对表达值。**此步骤的输出是一个矩阵，其中包含每个细胞中每个基因集的 AUC 分数。我们直接使用 AUC 分数（跨调节子）作为连续值来对单个细胞进行聚类，或者使用每个调节子的 AUC 分数的截止值生成二进制矩阵。

这些截止值要么自动确定，要么通过检查 AUC 分数的分布来手动调整。补充图 2a 中提供了 AUC 分布的一些示例。补充图 2b、c 显示了使用先前发布的神经元和神经胶质基因特征对 AUCell 进行的验证。包中包含的教程还包括该方法每个步骤的实用解释和含义。

Cell clustering based on gene regulatory networks 基于基因调控网络的细胞聚类

细胞调节子活性总结在矩阵中，其中列代表细胞，行代表调节子。在二元调节子活动矩阵中，对应于给定单元中的活动调节子的矩阵坐标将包含“1”，否则包含“0”。等效矩阵包含每个细胞调节子的连续 AUC 值，通常称为 AUC 活动矩阵。任一调节子活动矩阵的聚类揭示了在细胞子集中经常活动的调节子组（共同形成网络）。二元活动矩阵倾向于突出细胞之间的高阶相似性（因此大大减少批次效应和技术偏差）；另一方面，AUC矩阵可以让研究人员观察到更细微的变化。对于可视化，我们主要使用 tSNE（Rtsne package，我们总是测试多个困惑度值和距离度量/PC 数量的一致性）和具有分层聚类的热图（尽管热图具有选定的调节器，但 t-SNE 始终运行整个矩阵）。在教程中，我们还提供了几个探索结果的选项。例如，如何检测最可能的稳定状态（t-SNE 中的较高密度区域），并帮助识别关键调节因子、已知细胞特性（基于数据集注释）和 GO 术语（t-SNE 中基因的 GO 富集分析）调节子簇）可能与检测到的状态相关。

SCENIC runs on the different data sets

可以直接翻阅tutorial

Gene filtering

对于运行 GENIE3 的基因过滤，我们应用了基于基因计数总数和检测到该基因的细胞数量的软过滤器。第一个过滤器是每个基因的读取总数，旨在删除最有可能不可靠且仅提供噪声的基因。具体值取决于数据集；对于本文中使用的阈值，我们将阈值设置为例如 3 个 UMI 计数（略高于非零值的中位数）乘以数据集中细胞数量的 1%（例如，在小鼠大脑中：3 UMI 计数 × 30（细胞的 1%）= 每个基因至少 90 个计数）。第二个过滤器，即检测到基因的细胞数量（例如，>0 UMI 或 >1 log2(TPM)），是去除仅在一个或极少数细胞中表达的基因（它们会获得很多如果它们碰巧在给定的单元格中重合，则为权重）。在工作流程中，我们建议将第二次过滤设置为低于要检测的最小细胞群。例如，由于小胶质细胞约占数据集中总细胞的 3%，因此我们使用至少 1% 的细胞的检测阈值。

总结一下

这里不是原文内容，摘自其他文章

原文涉及内容多，主要内容再总结一下

SCENIC分析原理

在输入单细胞基因表达量矩阵后，SCENIC经过以下三个步骤完成转录因子分析：第一步是构建共表达网络、第二步是构建TF-targets网络、第三步是计算Regulons活性，每一个步骤都由一个专门的软件包完成。

第一步：GENIE3——共表达网络构建

第一步由GENIE3或GRNBoost软件完成，这里以GENIE3为例介绍。GENIE3 (GEne NetworkInference with Ensemble of trees) ，基于树的基因网络推理，是一种从基因表达数据推断基因调控网络的方法。软件以单细胞基因表达量矩阵为输入文件，以每个目标基因 (gene) 为输出，以转录因子 (TF) 为输入，构建P个随机森林树（P=矩阵中基因数量），并计算每个TF与gene之间的重要性评分 (IM) ，最终可以获得TF-genes共表达模块。最后删除IM低于阈值的基因关系，过滤基因数低于50的模块。

第二步：RcisTarget——motif富集及靶基因预测
从第一步获得了TF-genes共表达网络，但这个网络只是基于TF和gene表达量相关性推测的，TF和gene之间是否现实存在调控关系还需要进一步确证。确证的方法主要从TF功能结构入手，从图3可以看出，TF是通过直接与DNA特定位置序列而发挥作用的，因此可以通过反向查看gene上是否存在TF结合的motif序列来验证TF与gene的靶向关系。

这一步可以借助RcisTarget软件完成，该软件运行必备两个数据库：1）gene-motif排名数据库：为每个motif提供所有gene的排名（~分数）；2）motif-TF注释数据库：对每一个motif注释其所对应的TF。由于不同物种基因组不一样，导致每个motif对应靶基因不同，因此针对不同物种需要构建不同的数据库，软件目前配置了人、小鼠、果蝇数据库.

那么具体验证过程，首先基于gene-motif数据库，每个motif对模块中所有基因进行累积，模块中的基因排名越靠前，累积曲线越高，曲线下面积 (AUC) 越大，表明motif在该模块中的富集程度越高，然后对每个模块选取显著富集的motif，并预测其靶基因，最终综合TF-genes模块和靶基因预测结果，构成一个包含了TF和靶基因的基因调控网络模块 (regulons)。

第三步：AUCell——Regulons活性定量
第三步就是Regulons活性定量。这一步由AUCell软件完成，AUCell是一种新的方法，允许在scRNA-seq数据中识别具有活性基因调控网络的细胞。

实际分析过程中，输入到AUCell的是一个基因集，输出的是每个细胞中的基因集“活性” (AUC, Area Under Curve)。在SCENIC中，这些基因集即Regulons中所有基因，针对每个细胞，将细胞中所有基因按照表达量从高到低进行排序，根据Regulons中的基因在序列中的位置，计算累计曲线面积 (AUC) ，即为Regulons在细胞中的活性。

学习文献

Aibar, S., González-Blas, C., Moerman, T. et al. SCENIC: single-cell regulatory network inference and clustering. Nat Methods 14, 1083–1086 (2017). https://doi.org/10.1038/nmeth.4463

单细胞个性化分析之转录因子篇

论文阅读【CVPR-2022】3D Shape Variational Autoencoder Latent Disentanglement via Mini-Batch Feature Swappi 智尊宝人工智能社区人工智能计算机视觉
3DShapeVariationalAutoencoderLatentDisentanglementviaMini-BatchFeatureSwappingforBodiesandFaces通过小批量特征互换实现身体和脸部的三维形状变异自动编码器潜移默化studyai.com搜索论文:3DShapeVariationalAutoencoderLatentDisentanglementviaMini
论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》 StriveQueen 自然语言处理机器学习论文阅读笔记算法神经网络机器学习 Transformer
1Abstract2Introductionrecurrentneuralnetworks(RNNs)longshort-termmemory(LSTM)networksequencetosequenceframeworkinter-attentionrelativeeffectivecontextlength(RECL)Transformer3TransformerA.EncoderB.Deco
【OTFS与信号处理：论文阅读1】：考虑分数多普勒的OTFS系统有效信道估计（24.01.16更新） Cuby! OTFS论文学习信号处理论文阅读人工智能
2023.06.05最近在研究OTFS考虑分数多普勒时信道估计与信号检测相关问题，最近精读了一篇论文，并针对论文中部分公式进行推导，故记录一下学习过程。【OTFS与信号处理：论文阅读1】EfficientChannelEstimationforOTFSSystemsinthePresenceofFractionalDoppler前言一、摘要及背景摘要分数多普勒的引入估计分数多普勒的意义研究现状二、
论文阅读：DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection（Deepfake模型快速调参）海拉鲁的小厨娘读论文论文阅读
一、论文信息论文名称：DeepFake-Adapter:Dual-LevelAdapterforDeepFakeDetection作者团队：项目主页：https://github.com/rshaojimmy/DeepFake-Adapter（代码暂未开源）二、动机与创新动机：目前的deepfake检测模型泛化能力差，将其归因于过拟合于低级的伪造模式，现有的deepfake检测方法仅关注低级别的伪
大模型GUI系列论文阅读 DAY4：《PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detecti》 feifeikon 论文阅读
摘要虽然已经提出了一些公共基准用于训练仇恨言论检测模型，但这些基准之间的标注标准差异为模型的泛化学习带来了挑战，限制了其适用性。先前的研究提出了通过数据整合或扩充来泛化模型的方法，但在克服数据集之间的标注标准差异方面仍然存在局限性。为了解决这些挑战，我们提出了PREDICT，一种基于多代理（multi-agent）概念的仇恨言论检测新框架。PREDICT包括两个阶段：（1）PRE（基于视角的推理）
图神经网络系列论文阅读DAY1：《Predicting Tweet Engagement with Graph Neural Networks》 feifeikon 神经网络论文阅读人工智能
摘要翻译：社交网络是全球范围内分享内容的重要在线渠道之一。在这种背景下，预测一篇帖子在互动方面是否会产生影响，对于推动这些媒体的盈利利用至关重要。在现有研究中，许多方法通过利用帖子的直接特征来解决这一问题，这些特征通常与文本内容以及发布该帖子的用户相关。在本文中，我们认为互动的增加还与另一个关键因素相关，即社交媒体用户发布的帖子之间的语义关联。因此，我们提出了一种基于图神经网络（GraphNeur
大模型GUI系列论文阅读 DAY2续2：《使用指令微调基础模型的多模态网页导航》 feifeikon 论文阅读
摘要自主网页导航的进展一直受到以下因素的阻碍：依赖于数十亿次的探索性交互（通常采用在线强化学习），依赖于特定领域的模型设计，难以利用丰富的跨领域数据进行泛化。在本研究中，我们探讨了基于视觉-语言基础模型的数据驱动离线训练方法，以改进网页代理的性能。我们提出了一种名为WebGUM的指令跟随多模态代理，该代理能够同时观察网页截图和HTML页面，并输出网页导航操作，例如点击和输入文本等。WebGUM通过
大模型GUI系列论文阅读 DAY3：《GPT-4V(ision) is a Generalist Web Agent, if Grounded》 feifeikon 论文阅读
摘要近年来，大型多模态模型（LMMs）的发展，特别是GPT-4V(ision)和Gemini，迅速扩展了多模态模型的能力边界，不再局限于传统任务如图像描述和视觉问答。在本研究中，我们探讨了LMMs（如GPT-4V）作为通用网页代理的潜力，这类代理能够根据自然语言指令完成任意网站上的任务。我们提出了SEEACT，这是一种通用网页代理，利用LMMs的视觉理解能力，实现网页上的操作。我们在最新的MIND
《论文阅读》用于产生移情反应的迭代联想记忆模型 ACL2024 365JHWZGo 情感对话论文阅读回复生成 ACL 2024 共情回复 empathetic
《论文阅读》用于产生移情反应的迭代联想记忆模型ACL2024前言简介任务定义模型架构EncodingDialogueInformationCapturingAssociatedInformationPredictingEmotionandGeneratingResponse损失函数问题前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《
论文阅读--Qwen2&2.5技术报告 __如果论文阅读 qwen
Qwen21引言所有模型都是在超过7trilliontoken（7万亿）的高质量、大规模数据集上预训练的2Tokenizer&Model2.1Tokenizer沿用Qwen（Bai等人，2023a）的做法，我们采用了基于字节级字节对编码的相同Tokenizer所有大小的模型都采用一个共有词汇表，包含151,643个常规词元和3个控制词元2.2模型架构基于Transformer架构的大型语言模型，具
大模型GUI系列论文阅读 DAY3续4：《TREE SEARCH FOR LANGUAGE MODEL AGENTS》 feifeikon 语言模型人工智能自然语言处理
摘要自主代理由语言模型（LMs）驱动，已在执行诸如网页自动化等决策任务方面展示出良好前景。然而，语言模型的一个主要局限在于：它们主要针对自然语言理解和生成进行了优化，在解决现实世界的计算机任务时，难以应对多步推理、规划以及环境反馈的利用。为了解决这一问题，我们提出了一种推理时搜索算法，使语言模型代理能够在交互式网页环境中执行显式的探索和多步规划。我们的方法是一种基于最佳优先（best-first）
DETRs with Collaborative Hybrid Assignments Training论文阅读与代码分享总结快乐论文阅读
关键词：协作混合分配训练【目标检测】Co-DETR：ATSS+FasterRCNN+DETR协作的先进检测器（ICCV2023）-CSDN博客摘要：在这篇论文中，作者观察到在DETR中将过少的Query分配为正样本，采用一对一的集合匹配，会导致对编码器输出的监督稀疏，严重损害编码器的区分特征学习，反之亦然，也会影响解码器中的注意力学习。为了缓解这个问题，作者提出了一种新颖的协同混合分配训练方案，名
大模型GUI系列论文阅读 DAY2续：《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》 feifeikon 论文阅读
摘要预训练的大语言模型（LLMs）近年来在自主网页自动化方面实现了更好的泛化能力和样本效率。然而，在真实世界的网站上，其性能仍然受到以下问题的影响：(1)开放领域的复杂性，(2)有限的上下文长度，(3)在HTML结构上的归纳偏差不足。我们提出WebAgent，一个由LLM驱动的智能代理，能够通过自我学习的方式，在真实网站上按照自然语言指令完成任务。WebAgent通过将指令提前规划，将其分解为子指
论文阅读笔记：AI+RPA 几道之旅人工智能
文章目录论文题目下载地址论文摘要论文题目Challengesandopportunities:ImplementingRPAandAIinfrauddetectioninthebankingsector下载地址点击这里下载论文摘要在银行业中，将机器人流程自动化（RPA）和人工智能（AI）集成用于欺诈检测是一项重大变革，既带来了挑战，也带来了机遇。随着金融机构面临日益复杂的欺诈企图，RPA和AI成为
论文阅读：Deep Bilateral Learning for Real-Time Image Enhancement-google-hdrnet-slicing SetMaker 论文阅读
项目地址:https://gitcode.com/google/hdrnethdrnet作为超分领域的经典文章，由google提出主要用来用轻量化的方法来实现高分辨率的图像生成，hdrnet结合cnn可以让更高分辨率的图像部署在板端。如图所示，原始图像比如4k图像，首先分为两个主要模块：grid和guide。grid就是对应图上面的那一条特征提取网络，具体来说，原始图像经过下采样之后，默认256分
PenGymy论文阅读亚里士多没有德775 论文阅读
这里发现idea被人家先发了，没办法，资料收集的不够全面，现在来学习一下这个项目这篇论文的贡献如下：总的来说，他的主要工作是构建逼真的仿真环境，然后根据这个仿真环境生成真实的靶场，使得这个智能体能够在这个真实的环境去互动。下面来逐渐解析他的工作，我尽量详细一点1、背景和动机这种项目是在网络攻防中，攻防双方攻击者处于暗面，防御者处于明面，这时候受到攻击后应急处理多少会造成损失，那么要是可以提前预测攻
想提升英文文献阅读速度？有哪些实用方法？ paixiaoxin 科研方法文献工具人工智能科研研究生文献管理文献阅读文献翻译 scholaread
在科研的道路上，筛选文献就像是大海捞针，找对了方法，就能快速锁定那些有价值的信息。尤其是在实验方向尚未确定时，如何从海量文献中筛选出“金子”，就显得尤为重要。关键的第一步：精准筛选当你面对一堆英文文献时，首先得明白，不是每一篇文献都值得你细读。这时候，筛选的技巧就显得至关重要。以下是如何快速而精准地进行筛选：快速阅读技巧：先看摘要和结论：这是最快速了解文章核心的方法。如果这两部分都看不懂或者不感兴
《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
周四 2020-01-09 08:00 - 24:30 多云 02h10m 么得感情的日更机器
南昌。二〇二〇年一月九日基本科研[1]:1.论文阅读论文--二小时十分2.论文实现实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:例会--英语能力[2]:1.听力--十分2.单词--五分3.口语--五分4.英语文档1)编程能力[2]:1.编程语言C语言--O分2.数据结构与算法C语言数据结构--O分3.编程参考书1)陈正冲的《C语
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二） syugyou Mamba状态空间模型论文阅读
文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
MixMAE(MixMIM):用于分层视觉变压器有效预训练的混合和掩码自编码器论文阅读皮卡丘ZPC 扩散模型阅读论文阅读
论文:MixMAE(arxiv.org)代码:Sense-X/MixMIM:MixMIM:MixedandMaskedImageModelingforEfficientVisualRepresentationLearning(github.com)摘要:本文提出MixMAE(MixedandmaskAutoEncoder)，这是一种简单而有效的预训练方法，适用于各种层次视觉变压器。现有的分层视觉变
【论文阅读】LLM4CP: Adapting Large Language Models for Channel Prediction（2024） Bosenya12 科研学习论文阅读语言模型人工智能信道预测时间序列
摘要Channelprediction（信道预测）isaneffectiveapproach（有效方法）forreducingthefeedback（减少反馈）orestimationoverhead（估计开销）inmassivemulti-inputmulti-output（大规模多输入输出）(m-MIMO)systems.However,existingchannelpredictionmet
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline 凝眸伏笔 nlp 论文阅读 bert reranker retrieval
一句话总结：提出LocalizedContrastiveEstimation(LCE)，来优化检索排序。摘要预训练的深度语言模型(LM)在文本检索中表现出色。基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。因此，本文提出了LocalizedContrast
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
论文阅读：scMGCA----模型方法 dundunmm 论文阅读论文阅读人工智能聚类生物聚类单细胞聚类单细胞分析
Yu,Z.,Su,Y.,Lu,Y.etal.Topologicalidentificationandinterpretationforsingle-cellgeneregulationelucidationacrossmultipleplatformsusingscMGCA.NatCommun14,400(2023).https://doi.org/10.1038/s41467-023-36134
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =