qq_45768954

EMBER-网络安全恶意软件公开数据集，论文的翻译，自己的笔记

EMBER：用于训练静态 PE 恶意软件机器学习模型的开放数据集##

摘要

本文描述了 EMBER：一个标记的基准数据集，用于训练机器学习模型以静态检测恶意 Windows 可移植可执行文件。该数据集包括从 1.1M 二进制文件中提取的特征：900K 训练样本（300K 恶意，300K 良性，300K 未标记）和 200K 测试样本（100K 恶意，100K 良性）。为了配合数据集，我们还发布了用于从其他二进制文件中提取特征的开源代码，以便可以将其他示例特征附加到数据集中。这个数据集填补了信息安全机器学习社区的一个空白：一个良性/恶意的数据集，它足够大、开放且通用，足以涵盖几个有趣的用例。我们列举了在构建数据集时考虑的几个用例。此外，我们演示了一个用例，其中我们将使用 LightGBM 训练的基线梯度增强决策树模型与默认设置与 MalConv 进行比较，MalConv 是最近发布的用于恶意软件检测的端到端（无特征）深度学习模型。结果表明，即使没有超参数优化，基线 EMBER 模型也优于 MalConv。作者希望 EMBER 提供的数据集、代码和基线模型将有助于激发恶意软件检测的机器学习研究，就像基准数据集具有先进的计算机视觉研究一样。

引言

机器学习可以成为主要检测能力或补充检测启发式的有吸引力的工具。监督学习模型自动利用训练数据中文件属性之间的复杂关系来区分恶意样本和良性样本。此外，适当的正则化机器学习模型可以推广到新样本，其特征和标签遵循与训练数据相似的分布。

然而，在开放研究社区中，使用机器学习进行恶意软件检测并没有像其他应用程序那样受到几乎相同的关注，因为其他应用程序存在丰富的基准数据集。这些包括手写数字分类（例如，MNIST [17]）、图像标记（例如，CIFAR [16] 或 ImageNet [10]）、交通标志检测 [13]、语音识别 Phil Roth Endgame, [email protected] （例如，TIMIT [32]）、情感分析（例如，Sentiment140 [12]）以及许多其他适合训练模型以模拟人类感知和认知任务的数据集。发布用于恶意软件检测的基准数据集的挑战很多，可能包括以下内容：

法律的限制。恶意二进制文件通过 VirusShare [24] 和 VX Heaven [2] 等网站大量共享，但良性二进制文件通常受版权法保护，禁止共享。良性和恶意二进制文件都可以通过 VirusTotal [1] 等付费服务大量获取供内部使用，但禁止后续共享。
标签挑战。与图像、文本和语音（可能相对较快地标记，并且在许多情况下由非专家 [6]标记工作可以通过反恶意软件扫描程序实现自动化，这些扫描程序编码了大部分人类专业知识，但结果可能是专有的或受保护的。像 VirusTotal 这样的聚合服务专门限制了供应商反恶意软件标签的公开共享 [1]。
安全责任和预防措施。向不习惯采取适当预防措施（例如沙盒托管）的一般非信息安全受众推广包含恶意二进制文件的大型数据集可能存在风险。

我们通过发布 Endgame Malware BEnchmark for Research (EMBER) 数据集1来解决这些问题，该数据集从 Windows 可移植可执行 (PE) 恶意和良性文件的大型语料库中提取。这允许在没有法律或安全问题的情况下自由传播恶意和良性实体。样本与原始文件的 sha256 哈希以及一个标签一起发布，以表示该文件被认为是恶意文件还是良性文件。特征的预选自然限制了研究人员比较特征集的灵活性。我们发布了用于计算 PE 特征以进行特征比较研究的开源代码，这在一定程度上有所改善。缺乏原始二进制文件也排除了使用无特征深度学习恶意软件检测器的实验（例如，[22]）。

但是，我们希望通过发布 sha256 哈希、特征提取 1Data 和代码，可在 https://github.com/endgameinc/ember arXiv:1804.04637v2 [cs.CR] 2018 年 4 月 16 日源代码中获得执行从特征子集计算的基线分类器，该数据集和模型代码库仍将成为机器学习恶意软件检测研究的相关基线，并且可以与无特征深度学习研究进行比较。我们在第 4 节中展示了这样的比较。

我们从第 2 节开始，介绍有关 PE 文件格式的相关背景，以及相关数据集和静态恶意软件分类方法的摘要。在第 3 节中，我们描述了数据集及其格式的方法。我们在第 4 节展示了在此数据集上训练的基线模型的功效。源代码和数据可以在 https://github.com/endgameinc/ember 找到。

2.背景

我们在 2.1 节总结了可移植可执行 (PE) 文件格式中的重要上下文。在第 2.2 节中，我们回顾了使用机器学习对恶意软件进行分类的特征提取的相关工作。最后，我们在 2.3 节总结了其他相关的静态恶意软件数据集。

2.1PE 文件格式

PE 文件格式描述了 Microsoft Windows 操作系统的主要可执行格式，包括可执行文件、动态链接库 (DLL) 和 FON 字体文件。该格式目前支持 Intel、AMD 和 ARM 指令集架构的变体。

文件格式排列有许多标准标题（PE-32 格式参见图 1），然后是一个或多个部分 [20]。标头包括通用对象文件格式 (COFF) 文件标头，其中包含重要信息，例如文件所针对的机器类型、文件的性质（DLL、EXE、OBJ）、节数、符号等。可选头标识链接器版本、代码大小、初始化和未初始化数据的大小、入口点的地址等。可选头中的数据目录提供指向其后面部分的指针。这包括用于导出、导入、资源、异常、调试信息、证书信息和重定位表的表。因此，它提供了对可执行文件内容的有用总结 [30]。最后，节表概述了 PE 文件中每个节的名称、偏移量和大小。

PE 部分包含 Windows 加载程序将分别映射到可执行或可读/可写内存页面的代码和初始化数据，以及文件定义的导入、导出和资源。每个部分都包含一个指定大小和地址的标题。导入地址表指示加载器静态导入哪些功能。资源部分可能包含用户界面所需的资源：光标、字体、位图、图标、菜单等。基本 PE 文件通常包含 .text 代码部分和一个或多个数据部分（.data、.rdata 或.bss)

重定位表通常存储在 .reloc 部分，由 Windows 加载程序用于从可执行文件的首选基址重新分配基址。

2.2静态 PE 恶意软件检测

静态恶意软件检测尝试在不执行样本的情况下将样本分类为恶意或良性样本，而动态恶意软件检测则根据其运行时行为检测恶意软件，包括用于分析的时间相关的系统调用序列 [4, 9, 18]。尽管众所周知静态检测通常是不可判定的 [7]，但它是安全套件中的一个重要保护层，因为当成功时，它允许在执行之前检测到恶意文件。

基于机器学习的静态 PE 恶意软件检测器至少从 2001 年就开始使用 [27]，并且很大程度上由于结构化文件格式和向后兼容性要求，许多概念在后续工作中仍然惊人地相似 [9,15,23,26, 29]。舒尔茨等人。 [27] 通过运行 McAfee 病毒扫描程序组装数据集并生成标签。 PE 文件由包括导入函数、字符串和字节序列的特征表示。在坚持集上训练和验证了各种机器学习模型。模型包括从 RIPPER [8]、朴素贝叶斯和集成分类器导出的规则。科尔特等人。 [15] 通过包含字节级 N-gram 扩展了这种方法，并采用了自然语言处理的技术，包括字符串的 tf-idf 加权。沙菲克等人。 [29] 提出仅使用 PE 标头中的七个特征（在第 2.3 节中描述），其动机是因为他们研究中的大多数恶意软件样本通常都表现出这些元素。 Saxe 和 Berlin 利用新颖的二维字节熵直方图，将其输入多层神经网络进行分类 [26]。

端到端深度学习的最新进展极大地提高了技术水平，尤其是在对象分类、机器翻译和语音识别方面。在许多这些方法中，原始图像、文本或语音波形被用作机器学习模型的输入，该模型为手头的任务推断出最有用的特征表示。然而，尽管在其他领域取得了成功，手工制作的特征显然仍然代表了已发表文献中恶意软件检测的最新技术。在接下来的几个月或几年内，最先进的技术可能会转变为端到端深度学习，但由于结构化格式的原因，从解析 PE 文件中衍生的手工制作的特征可能会无限期地继续相关。 [22] 中讨论了最近的恶意软件分类端到端深度学习示例，我们重新实现了该示例，并与第 4 节中的基线模型进行了比较。

2.3恶意和良性数据集

PE-Miner 旨在生产一种基于机器学习的恶意软件检测器，该检测器的真阳性率 (TPR) 超过 99%，假阳性率 (FPR) 低于 1%，其运行时间可与当时基于签名的扫描仪相媲美 [30 ]。

它在操作系统上的 1、447 个良性文件（从未发布）、来自 VX Heaven [2] 的 10、339 个恶意 PE 文件和来自 Malfease 的 5、586 个恶意 PE 文件的数据集上进行了训练。 PE-Miner 使用了 189 个特性，包括引用的特定 DLL 的二进制指标、各个部分的大小、来自 COFF 部分的摘要信息、资源表的摘要等。不幸的是，许多特性没有公开披露，有些在 NDA [28] 下被视为敏感和保护。在数据集上评估了几种模型类型，其中发现 J48 决策树算法提供了最佳性能。值得注意的是，尽管许多论文将这项工作列为第一个基于非签名的高性能（速度和 TP/FP 率）方法，但缺乏公共数据集导致没有真正的比较研究。

不久之后，Adobe Malware Classifier 旨在仅从七个特征生成恶意软件分类器2：调试大小、图像版本、导入地址表的相对虚拟地址、导出大小、资源大小、第二部分的虚拟大小和总数[23] 节。训练了决策树算法，并将生成的分类器作为免费提供的工具发布3。然而，有人建议，由于良性数据集主要由 Windows 二进制文件组成，因此生成的模型强烈偏向于非 Windows 与 Windows，而不是恶意与良性问题 [28]。事实上，在评估 EMBER 测试集上的预训练模型时，我们观察到非常大的误报率和低检测率（见第 4 节）。不幸的是，由大约 100K 恶意文件和 16K 良性文件组成的数据集从未发布用于比较研究。

相比之下，微软恶意软件分类挑战赛于 2015 年 4 月结束 [25]。该数据集包括一个 500MB 的大型数据集，由来自 9 个家族的大约 20K 恶意样本的反汇编和字节码组成。最大的家族包含来自 3K 个样本的特征（Kelihos 后门），而最小的家族仅包含 42 个样本（Simda 后门）。自竞赛结束以来，已有 50 多篇研究论文和论文引用了该数据集。 [25] 中列出了其中许多工作的贡献摘要。不幸的是，反汇编功能是 IDA Pro 反汇编程序特有的（不容易重现），并且数据集不包含良性文件。

VXHeaven 等恶意软件共享服务提供了大量恶意二进制文件 [2]。 VirusTotal 可以使用关于供应商参与者检测数量的启发式方法来挖掘假定的良性文件 [1]。但是，VirusTotal 中的大规模文件访问速率需要付费订阅。无论如何，迄今为止不存在用于机器学习基准测试目的的一致同意的恶意和良性文件集。

3.数据说明

在制作 EMBER 数据集时，我们考虑了几个实际用例和研究，包括以下内容。

比较用于恶意软件检测的机器学习模型。
量化模型退化和概念随时间的漂移。
研究可解释的机器学习。
比较恶意软件分类的特征，特别是 EMBER 数据集中未表示的新特征。这需要一个可扩展的数据集。
与无特征的端到端深度学习相比。这可能需要代码从新数据集中提取特征，或使用 shas256 哈希构建原始二进制数据集以匹配 EMBER
研究针对机器学习恶意软件的对抗性攻击以及随后的防御策略。
通过用于 PE 文件表示的无监督学习或用于分类的半监督学习来利用未标记的样本。

对这些用例的考虑导致了本节中所述的数据结构。

3.1 数据布局

EMBER 数据集由 JSON 行文件的集合组成，其中每行包含一个 JSON 对象。每个对象都包含以下数据类型：

-原始文件的 sha256 哈希作为唯一标识符；

粗略的时间信息（月分辨率），用于估计文件首次出现的时间；
一个标签，可能是 0 表示良性，1 表示恶意或 -1 表示未标记；和
八组原始特征，包括解析值和与格式无关的直方图。

下面更详细地描述了每种特征类型的详细信息，示例如图 2 所示

为方便起见，我们的数据集由人类可读的原始特征组成。我们提供从原始特征生成模型构建所需的数字特征向量的代码。这允许研究人员将原始特征与矢量化策略分离。在我们的代码中，我们提供了一种默认方法，该方法可以生成用于训练基线模型的特征矩阵，并且应该适用于大多数用例。然而，原始特征的可用性可能允许研究可解释的机器学习或特征重要性，如 [29]。我们还在训练集中包含了未标记的样本，以鼓励研究半监督学习方法（见图 3），这在已发表的文献中似乎是恶意软件分类的一个相对未探索的领域。作为另一个考虑，我们暂时拆分训练/测试集（参见图 4）以模拟恶意软件和良性软件的世代依赖性。

恶意和良性文件一年的粗略时间戳也可以进行简单的纵向研究。包含原始文件的 sha256 哈希允许研究人员将功能链接到原始二进制文件，包括可能通过 VirusShare 或 VirusTotal [1, 24] 等文件共享站点提供的其他元数据。为方便起见，我们确保 EMBER 中标记为良性的文件在 VirusTotal 中可用，并且在收集时，没有供应商检测到它们是恶意的。同样，我们确保 EMBER 中标记为恶意的文件在 VirusTotal 中可用，并且有 40 多家供应商报告为恶意文件。因此，EMBER 是一个相对“简单”的数据集。

3.2功能集描述

EMBER 数据集由八组原始特征组成，包括解析特征和与格式无关的直方图和字符串计数。在下文中，我们区分了原始特征（提供的数据集）和从数据集派生的模型特征（或矢量化特征）。模型特征表示用于训练模型的固定大小的特征矩阵，表示原始特征的数字摘要，其中字符串、导入名称、导出名称等是使用特征散列技巧 [31] 捕获的。发布的数据集中没有明确提供特征矩阵，但提供了代码将原始特征转换为模型特征以训练基线模型。

为方便起见，我们使用 scikit-learn [19] 提供的实现。在适当的情况下，在下面的特征描述中，我们会注意到用于特征散列技巧的 bin 数量。

3.2.1 解析特征

该数据集包括五组特征，这些特征是在解析 PE 文件后提取的。我们利用库来检测可执行格式 [21] 作为方便的 PE 解析器。 LIEF 名称用于表示符号对象的字符串，例如特征和属性。对于这些字符串的一些示例，读者可以参考图 2。下面将更详细地描述每种解析的特征类型。

一般文件信息。通用文件信息组中的特征集包括从PE头获取的文件大小和基本信息：文件的虚拟大小、导入导出函数的个数、文件是否有调试段、线程本地存储、资源、重定位或签名，以及符号的数量。

标头信息。 从 COFF 标头中，我们报告标头中的时间戳、目标机器（字符串）和图像特征列表（字符串列表）。从可选的头文件中，我们提供目标子系统（字符串）、DLL 特征（字符串列表）、作为字符串的文件魔法（例如，“PE32”）、主要和次要映像版本、链接器版本、系统版本和子系统版本，以及代码、标头和提交大小。为了创建模型特征，在训练模型之前使用特征散列技巧总结字符串描述符，如 DLL 特征、目标机器、子系统等，为每个噪声指标向量分配 10 个 bin。

***导入函数。***我们解析导入地址表，按库上报导入的函数。要为基线模型创建模型特征，我们只需收集一组独特的库并使用散列技巧来绘制集合（256 个 bin）。类似地，我们使用散列技巧（1024 个 bin）来捕获单个函数，将每个函数表示为一个字符串，例如 library:FunctionName 对（例如 kernel32.dll:CreateFileMappingA）。

***导出的函数。***原始特征包括导出函数的列表。使用 128 个 bin 的散列技巧将这些字符串汇总为模型特征。

部分信息（Section information. ）。提供了每个部分的属性，包括名称、大小、熵、虚拟大小和表示部分特征的字符串列表。入口点由名称指定。为了转换为模型特征，我们对（部分名称，值）对使用散列技巧来创建包含部分大小、部分熵和虚拟大小（每个 50 个 bin）的向量。我们还使用散列技巧来捕获入口点的特征（字符串列表）。

3.2.2 与格式无关的特性。

EMBER 数据集还包括三组与格式无关的特征，因为它们不需要解析 PE 文件以进行提取：原始字节直方图、基于先前在 [26] 中发表的工作的字节熵直方图和字符串提取。

***字节直方图。***字节直方图包含 256 个整数值，表示文件中每个字节值的计数。当生成模型特征时，这个字节直方图被归一化为一个分布，因为文件大小在一般文件信息中被表示为一个特征。

字节熵直方图。 字节熵直方图近似于熵 H 和字节值 X 的联合分布 p(H,X)。这是按照 [26] 中所述完成的，通过计算固定长度窗口的标量熵 H 并将其与每个字节配对窗口内发生。当窗口在输入字节上滑动时重复此操作。在我们的实现中，我们使用 2048 的窗口大小和 1024 字节的步长，使用 16 × 16 个 bin 来量化熵和字节值。在训练之前，我们将这些计数归一化以求和。

字符串信息。该数据集包括有关至少五个可打印字符长的可打印字符串（由 0x20 到 0x7f 范围内的字符组成）的简单统计信息。特别是，报告的是字符串的数量、它们的平均长度、这些字符串中可打印字符的直方图以及所有可打印字符串中的字符熵。可打印字符分布提供了与上述字节直方图信息不同的信息，因为它仅来自包含至少五个连续可打印字符的字符串。此外，字符串特征组包括以 C:\（不区分大小写）开头的可能表示路径的字符串数量，http:// 或 https://（不区分大小写）可能表示路径的出现次数。 URL、可能指示注册表项的 HKEY_ 的出现次数，以及可能提供 Windows PE 释放程序或捆绑可执行文件的弱证据的短字符串 MZ 的出现次数。通过提供字符串的简单统计摘要而不是原始字符串列表，我们减轻了某些良性文件可能存在的隐私问题。

4 实验

EMBER 包含的代码演示了如何使用训练集中的原始特征（仅标记样本）来构建监督学习模型，我们将其作为基线模型的真阳性率提供。如前所述，模型构建过程包括将原始特征向量化（每个对象到一个维度为 2351 的向量），在必要时使用特征散列技巧。在 2015 款 MacBook Pro i7 上，将原始特征向量化为模型特征需要 20 个小时。根据矢量化特征，我们使用具有默认参数（100 棵树，每棵树 31 个叶子）的 LightGBM 训练了梯度提升决策树 (GBDT) 模型，从而得到少于 10K 的可调参数 [14]。模型训练耗时 3 小时。通过适当的超参数优化，基线模型的性能可能会得到很大改善，我们在这项工作中不太感兴趣。

结果模型的ROC曲线如图5所示，测试集中恶意和良性样本的分数分布如图6所示。ROC AUC超过0.99911。模型分数的阈值为 0.871 导致 FP 率低于 0.1%，检测率超过 92.99%。在 FP 率低于 1% 时，该模型的检测率超过 98.2%。

正如第 2 节中所讨论的，有人建议，由于它所训练的数据集，Adobe 恶意软件分类器偏向于非 Windows 与 Windows 分类，而不是真正的恶意与良性问题 [28]。我们在测试集上评估了预训练的 J48 模型，发现它表现出惊人的 53% 误报率和 8% 误报率。这似乎证实了先前关于数据集偏差的说法。然而，这种糟糕的表现是否可以归因于过时的训练数据或数据集偏差或两者兼而有之，这超出了本文的范围。但很明显，这是一个不合适的基线模型。

作为一项比较研究，我们在数据集底层的 104 103 102 0.0 0.2 0.4 Score 0.6 0.8 1.0 原始二进制文件上训练了 MalConv [22]。我们使用作者规定和验证的模型架构和训练设置，除了由于 GPU 内存限制，我们使用 100 的批量大小而不是 256 进行训练。我们在两个 Titan X (Pascal) GPU 上使用数据并行进行训练。每个 epoch 需要 25 小时，我们训练了 10 个 epoch（10 天）。生成的模型大约有 1M 参数。应用于与 EMBER 测试集对应的原始二进制文件，Malconv ROC AUC 为 0.99821，对应于 92.2% 的检测率（误报率小于 0.1%）或 97.3% 的检测率（误报率小于 1%）速度。这比使用没有超参数调整的 LightGBM 的性能略低。显然，尽管模型大小和计算负担增加，但无特征的深度学习模型尚未超越通过解析特征利用领域知识的模型的性能。

5 讨论

据我们所知，EMBER 数据集代表了第一个用于机器学习恶意软件检测的大型公共数据集（必须包含良性文件）。作者希望该数据集有助于促进机器学习恶意软件检测的创新。我们在第 3 节中考虑了许多研究用例，包括比较模型性能、对抗性机器学习攻防、恶意软件检测的半监督学习以及更多研究领域。

通过该数据集，我们还发布了一个简单的非优化基准 LightGBM 模型。立即提高模型性能的简单方法包括通过网格搜索消除噪声特征的特征选择和超参数优化。尽管如此，我们证明了在这些特征上训练的开箱即用的 LightGBM 模型优于最近发表的用于恶意软件检测的端到端深度学习的工作 [22]。因此，除了基准数据集之外，我们希望 EMBER 可以提供一种简单的方法来对包括端到端深度学习在内的新颖架构的模型性能进行基准测试。

数据集和源代码可在 https://github.com/endgameinc/ember 获得。

2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
常见的会话劫持攻击是指什么？ wanhengidc 安全网络 web安全
会话劫持攻击是一种常见的网络安全攻击，恶意攻击者通过窃取用户的会话标识符号来接管用户的会话，当攻击者或者有效的会话标识符，那么就可以借取正常用户的数据信息，来访问目标用户的账号，并进行各种操作，来修改或者盗取重要的数据信息，以此来给用户造成巨大的经济损失。所以企业对于会话劫持攻击，可以选择定期更新和修补系统漏洞来保护用户的数据安全，及时更新操作系统、应用程序和安全组件，以此来修复已知的服务器安全漏
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
【为什么网络安全缺口很大，而招聘却很少？】网络安全工程师教学安全黑客技术网络安全 web安全网络安全游戏数据库
为什么网络安全缺口很大，而招聘却很少？2020年我国网络空间安全人才数量缺口超过了140万，就业人数却只有10多万，缺口高达了93%。这里就有人会问了：1、网络安全行业为什么这么缺人？2、明明人才那么稀缺，为什么招聘时招安全的人员却没有那么多呢？首先来回答第一个问题，从政策背景、市场需求、行业现状来说。政策背景自从斯诺登棱镜门事件曝光之后，网络空间站成为现代战场第一战场，网络安全能力也被各国列为了
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
NCSC发现针对FortiGate防火墙的隐蔽反向SSH与DoH后渗透工具 FreeBuf- ssh 运维
英国国家网络安全中心（NCSC）近日发现一款名为SHOERACK的新型恶意软件工具。这款后渗透恶意软件通过隐蔽的反向SSH隧道、自定义协议滥用和DNS-over-HTTPS（DoH）技术来维持远程访问并规避检测，引发了企业安全团队的高度警惕。恶意软件来源与功能该恶意软件最初在FortiGate100D系列防火墙上被发现，被认为是开源NHAS反向SSH工具的修改版本，但增加了显著的后渗透功能增强。分
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后