Eastmount

[网络安全自学篇] 八十八.基于机器学习的恶意代码检测技术详解

这是作者网络安全自学教程系列，主要是关于安全工具和实践操作的在线笔记，特分享出来与博友们学习，希望您喜欢，一起进步。前文分享了传统的恶意代码检测技术，包括恶意代码检测的对象和策略、特征值检测技术、校验和检测技术、启发式扫描技术、虚拟机检测技术和主动防御技术。这篇文章将介绍基于机器学习的恶意代码检测技术，主要参考郑师兄的视频总结，包括机器学习概述与算法举例、基于机器学习方法的恶意代码检测、机器学习算法在工业界的应用。同时，我再结合自己的经验进行扩充，详细分享了基于机器学习的恶意代码检测技术，基础性文章，希望对您有所帮助~

作者作为网络安全的小白，分享一些自学基础教程给大家，主要是关于安全工具和实践操作的在线笔记，希望您们喜欢。同时，更希望您能与我一起操作和进步，后续将深入学习网络安全和系统安全知识并分享相关实验。总之，希望该系列文章对博友有所帮助，写文不易，大神们不喜勿喷，谢谢！如果文章对您有帮助，将是我创作的最大动力，点赞、评论、私聊均可，一起加油喔~

推荐作者之前介绍的四篇机器学习宇恶意代码检测相关的文章，如下：

[网络安全自学篇] 十.论文之基于机器学习算法的主机恶意代码
[网络安全自学篇] 二十三.基于机器学习的恶意请求识别及安全领域中的机器学习
[网络安全自学篇] 二十四.基于机器学习的恶意代码识别及人工智能中的恶意代码检测
[网络安全自学篇] 三十五.恶意代码攻击溯源及恶意样本分析

文章目录

一.机器学习概述与算法举例

1.机器学习概念
2.机器学习算法举例
3.特征工程-特征选取与设计

二.基于机器学习方法的恶意代码检测

1.恶意代码的静态动态检测

(1) 特征种类
(2) 常见算法

2.静态特征设计举例
3.经典的图片特征举例
4.动态特征设计举例
5.深度学习静态检测举例
6.优缺点
7.静态分析和动态分析对比

三.机器学习算法在工业界的应用
四.总结

作者的github资源：
软件安全：https://github.com/eastmountyxz/Software-Security-Course
其他工具：https://github.com/eastmountyxz/NetworkSecuritySelf-study
Windows-Hacker：https://github.com/eastmountyxz/Windows-Hacker-Exp

声明：本人坚决反对利用教学方法进行犯罪的行为，一切犯罪行为必将受到严惩，绿色网络需要我们共同维护，更推荐大家了解它们背后的原理，更好地进行防护。

参考推荐：
[1] https://mooc.study.163.com/learn/1000003014?share=2&shareId=1000001005
[2] 《软件安全之恶意代码机理与防护》WHU
[3] 师兄的分享及作者学习和实践经验

前文学习：
[网络安全自学篇] 一.入门笔记之看雪Web安全学习及异或解密示例
[网络安全自学篇] 二.Chrome浏览器保留密码功能渗透解析及登录加密入门笔记
[网络安全自学篇] 三.Burp Suite工具安装配置、Proxy基础用法及暴库示例
[网络安全自学篇] 四.实验吧CTF实战之WEB渗透和隐写术解密
[网络安全自学篇] 五.IDA Pro反汇编工具初识及逆向工程解密实战
[网络安全自学篇] 六.OllyDbg动态分析工具基础用法及Crakeme逆向
[网络安全自学篇] 七.快手视频下载之Chrome浏览器Network分析及Python爬虫探讨
[网络安全自学篇] 八.Web漏洞及端口扫描之Nmap、ThreatScan和DirBuster工具
[网络安全自学篇] 九.社会工程学之基础概念、IP获取、IP物理定位、文件属性
[网络安全自学篇] 十.论文之基于机器学习算法的主机恶意代码
[网络安全自学篇] 十一.虚拟机VMware+Kali安装入门及Sqlmap基本用法
[网络安全自学篇] 十二.Wireshark安装入门及抓取网站用户名密码（一）
[网络安全自学篇] 十三.Wireshark抓包原理（ARP劫持、MAC泛洪）及数据流追踪和图像抓取（二）
[网络安全自学篇] 十四.Python攻防之基础常识、正则表达式、Web编程和套接字通信（一）
[网络安全自学篇] 十五.Python攻防之多线程、C段扫描和数据库编程（二）
[网络安全自学篇] 十六.Python攻防之弱口令、自定义字典生成及网站暴库防护
[网络安全自学篇] 十七.Python攻防之构建Web目录扫描器及ip代理池（四）
[网络安全自学篇] 十八.XSS跨站脚本攻击原理及代码攻防演示（一）
[网络安全自学篇] 十九.Powershell基础入门及常见用法（一）
[网络安全自学篇] 二十.Powershell基础入门及常见用法（二）
[网络安全自学篇] 二十一.GeekPwn极客大赛之安全攻防技术总结及ShowTime
[网络安全自学篇] 二十二.Web渗透之网站信息、域名信息、端口信息、敏感信息及指纹信息收集
[网络安全自学篇] 二十三.基于机器学习的恶意请求识别及安全领域中的机器学习
[网络安全自学篇] 二十四.基于机器学习的恶意代码识别及人工智能中的恶意代码检测
[网络安全自学篇] 二十五.Web安全学习路线及木马、病毒和防御初探
[网络安全自学篇] 二十六.Shodan搜索引擎详解及Python命令行调用
[网络安全自学篇] 二十七.Sqlmap基础用法、CTF实战及请求参数设置（一）
[网络安全自学篇] 二十八.文件上传漏洞和Caidao入门及防御原理（一）
[网络安全自学篇] 二十九.文件上传漏洞和IIS6.0解析漏洞及防御原理（二）
[网络安全自学篇] 三十.文件上传漏洞、编辑器漏洞和IIS高版本漏洞及防御（三）
[网络安全自学篇] 三十一.文件上传漏洞之Upload-labs靶场及CTF题目01-10（四）
[网络安全自学篇] 三十二.文件上传漏洞之Upload-labs靶场及CTF题目11-20（五）
[网络安全自学篇] 三十三.文件上传漏洞之绕狗一句话原理和绕过安全狗（六）
[网络安全自学篇] 三十四.Windows系统漏洞之5次Shift漏洞启动计算机
[网络安全自学篇] 三十五.恶意代码攻击溯源及恶意样本分析
[网络安全自学篇] 三十六.WinRAR漏洞复现（CVE-2018-20250）及恶意软件自启动劫持
[网络安全自学篇] 三十七.Web渗透提高班之hack the box在线靶场注册及入门知识（一）
[网络安全自学篇] 三十八.hack the box渗透之BurpSuite和Hydra密码爆破及Python加密Post请求（二）
[网络安全自学篇] 三十九.hack the box渗透之DirBuster扫描路径及Sqlmap高级注入用法（三）
[网络安全自学篇] 四十.phpMyAdmin 4.8.1后台文件包含漏洞复现及详解（CVE-2018-12613）
[网络安全自学篇] 四十一.中间人攻击和ARP欺骗原理详解及漏洞还原
[网络安全自学篇] 四十二.DNS欺骗和钓鱼网站原理详解及漏洞还原
[网络安全自学篇] 四十三.木马原理详解、远程服务器IPC$漏洞及木马植入实验
[网络安全自学篇] 四十四.Windows远程桌面服务漏洞（CVE-2019-0708）复现及详解
[网络安全自学篇] 四十五.病毒详解及批处理病毒制作（自启动、修改密码、定时关机、蓝屏、进程关闭）
[网络安全自学篇] 四十六.微软证书漏洞CVE-2020-0601 (上)Windows验证机制及可执行文件签名复现
[网络安全自学篇] 四十七.微软证书漏洞CVE-2020-0601 (下)Windows证书签名及HTTPS网站劫持
[网络安全自学篇] 四十八.Cracer第八期——(1)安全术语、Web渗透流程、Windows基础、注册表及黑客常用DOS命令
[网络安全自学篇] 四十九.Procmon软件基本用法及文件进程、注册表查看
[网络安全自学篇] 五十.虚拟机基础之安装XP系统、文件共享、网络快照设置及Wireshark抓取BBS密码
[网络安全自学篇] 五十一.恶意样本分析及HGZ木马控制目标服务器
[网络安全自学篇] 五十二.Windows漏洞利用之栈溢出原理和栈保护GS机制
[网络安全自学篇] 五十三.Windows漏洞利用之Metasploit实现栈溢出攻击及反弹shell
[网络安全自学篇] 五十四.Windows漏洞利用之基于SEH异常处理机制的栈溢出攻击及shell提取
[网络安全自学篇] 五十五.Windows漏洞利用之构建ROP链绕过DEP并获取Shell
[网络安全自学篇] 五十六.i春秋老师分享小白渗透之路及Web渗透技术总结
[网络安全自学篇] 五十七.PE文件逆向之什么是数字签名及Signtool签名工具详解（一）
[网络安全自学篇] 五十八.Windows漏洞利用之再看CVE-2019-0708及Metasploit反弹shell
[网络安全自学篇] 五十九.Windows漏洞利用之MS08-067远程代码执行漏洞复现及shell深度提权
[网络安全自学篇] 六十.Cracer第八期——(2)五万字总结Linux基础知识和常用渗透命令
[网络安全自学篇] 六十一.PE文件逆向之数字签名详细解析及Signcode、PEView、010Editor、Asn1View等工具用法（二）
[网络安全自学篇] 六十二.PE文件逆向之PE文件解析、PE编辑工具使用和PE结构修改（三）
[网络安全自学篇] 六十三.hack the box渗透之OpenAdmin题目及蚁剑管理员提权（四）
[网络安全自学篇] 六十四.Windows漏洞利用之SMBv3服务远程代码执行漏洞（CVE-2020-0796）复现及详解
[网络安全自学篇] 六十五.Vulnhub靶机渗透之环境搭建及JIS-CTF入门和蚁剑提权示例（一）
[网络安全自学篇] 六十六.Vulnhub靶机渗透之DC-1提权和Drupal漏洞利用（二）
[网络安全自学篇] 六十七.WannaCry勒索病毒复现及分析（一）Python利用永恒之蓝及Win7勒索加密
[网络安全自学篇] 六十八.WannaCry勒索病毒复现及分析（二）MS17-010利用及病毒解析
[网络安全自学篇] 六十九.宏病毒之入门基础、防御措施、自发邮件及APT28样本分析
[网络安全自学篇] 七十.WannaCry勒索病毒复现及分析（三）蠕虫传播机制分析及IDA和OD逆向
[网络安全自学篇] 七十一.深信服分享之外部威胁防护和勒索病毒对抗
[网络安全自学篇] 七十二.逆向分析之OllyDbg动态调试工具（一）基础入门及TraceMe案例分析
[网络安全自学篇] 七十三.WannaCry勒索病毒复现及分析（四）蠕虫传播机制全网源码详细解读
[网络安全自学篇] 七十四.APT攻击检测溯源与常见APT组织的攻击案例
[网络安全自学篇] 七十五.Vulnhub靶机渗透之bulldog信息收集和nc反弹shell（三）
[网络安全自学篇] 七十六.逆向分析之OllyDbg动态调试工具（二）INT3断点、反调试、硬件断点与内存断点
[网络安全自学篇] 七十七.恶意代码与APT攻击中的武器（强推Seak老师）
[网络安全自学篇] 七十八.XSS跨站脚本攻击案例分享及总结（二）
[网络安全自学篇] 七十九.Windows PE病毒原理、分类及感染方式详解
[网络安全自学篇] 八十.WHUCTF之WEB类解题思路WP（代码审计、文件包含、过滤绕过、SQL注入）
[网络安全自学篇] 八十一.WHUCTF之WEB类解题思路WP（文件上传漏洞、冰蝎蚁剑、反序列化phar）
[网络安全自学篇] 八十二.WHUCTF之隐写和逆向类解题思路WP（文字解密、图片解密、佛语解码、冰蝎流量分析、逆向分析）
[网络安全自学篇] 八十三.WHUCTF之CSS注入、越权、csrf-token窃取及XSS总结
[网络安全自学篇] 八十四.《Windows黑客编程技术详解》之VS环境配置、基础知识及DLL延迟加载详解
[网络安全自学篇] 八十五.《Windows黑客编程技术详解》之注入技术详解（全局钩子、远线程钩子、突破Session 0注入、APC注入）
[网络安全自学篇] 八十六.威胁情报分析之Python抓取FreeBuf网站APT文章（上）
[网络安全自学篇] 八十七.恶意代码检测技术详解及总结

前文欣赏：
[渗透&攻防] 一.从数据库原理学习网络攻防及防止SQL注入
[渗透&攻防] 二.SQL MAP工具从零解读数据库及基础用法
[渗透&攻防] 三.数据库之差异备份及Caidao利器
[渗透&攻防] 四.详解MySQL数据库攻防及Fiddler神器分析数据包

随着互联网的繁荣，现阶段的恶意代码也呈现出快速发展的趋势，主要表现为变种数量多、传播速度快、影响范围广。在这样的形势下，传统的恶意代码检测方法已经无法满足人们对恶意代码检测的要求。比如基于签名特征码的恶意代码检测，这种方法收集已知的恶意代码，以一种固定的方式生成特定的签名，维护这样的签名库，当有新的检测任务时，通过在签名库中检索匹配的方法进行检测。暂且不说更新、维护签名库的过程需要耗费大量的人力物力，恶意代码编写者仅仅通过混淆、压缩、加壳等简单的变种方式便可绕过这样的检测机制。

为了应对上面的问题，基于机器学习的恶意代码检测方法一直是学界研究的热点。由于机器学习算法可以挖掘输入特征之间更深层次的联系，更加充分地利用恶意代码的信息，因此基于机器学习的恶意代码检测往往表现出较高的准确率，并且一定程度上可以对未知的恶意代码实现自动化的分析。下面让我们开始进行系统的介绍吧~

一.机器学习概述与算法举例

1.机器学习概念

首先介绍下机器学习的基本概念，如下图所示，往分类模型中输入某个样本特征，分类模型输出一个分类结果。这就是一个标准的机器学习检测流程。机器学习技术主要研究的就是如何构建中间的分类模型，如何构造一组参数、构建一个分类方法，通过训练得到模型与参数，让它在部署后能够预测一个正确的结果。

训练是迭代样本与标签对的过程，如数学表达式 y=f(x) ，x表示输入的样本特征向量，y表示标签结果，使用（x，y）对f进行一个拟合的操作，不断迭代减小 y’ 和 y 的误差，使得在下次遇到待测样本x时输出一致的结果。该过程也称为学习的过程。

构造分类方法
构造分类方法是机器学习中比较重要的知识，如何设计一种分类模型将f(x)表达出来。比如：

超平面（SVM）
在二维坐标轴中，可以设计一条直线将空间内分布的散点区分开来，如下图所示。
softmax
另外一种方法是构造类别概率输出（softmax），比如归一化处理得到A+B=1，最后看A和B的概率，谁的概率大就属于哪一类，该方法广泛使用于神经网络的最后结果计算中。

2.机器学习算法举例

作者之前Python系列分享过非常多的机器学习算法知识，也推荐大家去学习：机器学习系列文章（共48篇）。

(1) 支持向量机（SVM）
首先存在很多训练数据点，包括直线上方和下方两个簇，支持向量机的方法是寻找这两个簇分类的超平面。如何寻找这个超平面呢？支持向量机先求解每个簇离对面最近的点，然后通过拟合方法计算出两边簇的边界，最终计算出中间的平面，其基本思路就是这样，而这些点就是支持向量。支持向量机往往用来处理超高维的问题，也不一定是类似直线的平面，也可能是圆形的分类边界。

(2) 神经网络（Neural Network）
神经网络基本网络结构如下图所示，包括三个常用层：输入层、隐藏层、输出层。在神经网络中，最基本的单位是人工神经元，其基本原理是将输入乘以一个权重，然后将结果相加进行激活，最后得到一个概率的输出，其输出结果谁大就预测为对应的结果。推荐作者的文章：神经网络和机器学习基础入门分享

(3) 深度卷积神经网络
普通的神经网络通常只包括一个隐藏层，当超出之后可以称为深度神经网络。现在比较流行的包括CNN、RNN、RCNN、GRU、LSTM、BiLSTM、Attention等等。其中，卷积神经网络常用于处理图片，应用了卷积技术、池化技术，降低图片维度得到很好的结果。

如上图所示，将手写数字“3”（32x32个像素）预测为最终的数字0-9的结果。模型首先使用了6个卷积核，对原始图片进行固定的计算，如下5x5的图像卷积操作后变成了 3x3 的图像。其原理是将特征提取的过程放至神经网络中训练，从而得到比较好的分类结果。卷积之后进行了一个2x2的下采样过程，将图片进一步变小（14x14），接着降维处理，一般采用平均池化或最大池化实现，选定一个固定区域，求取该区域的平均值或最大值，然后将向量进行组合，得到一个全连接网络，最终完成分类任务。
参考作者前文：[Python人工智能] 四.神经网络和深度学习入门知识

深度神经网络是深度学习中模型，它主要的一个特点是将特征提取的过程放入到真个训练中，之前对于图片问题是采用手工特征，而CNN让在训练中得到最优的特征提取。

3.特征工程-特征选取与设计

上面介绍了机器学习和深度学习方法，但是这些方法往往是该研究领域的学者所提出，而在恶意代码检测中，往往我们的主要工作量是一些特征的提取和特征的设计，这里面涉及一个特征工程的概念。

特征工程：选取特征，设计特征的过程。
例如，在路边预测一个人是否是学生，假设我们不能去询问，只能通过外表去预测他是否是一个学生，包括：年龄（低于15岁就是学生）、性别（不影响学生）、衣着（穿着活泼年轻的可能是学生，如果穿着西装可能性就小）等等，然后根据这些特征输入机器学习模型，从而判断是否是学生。

在这些特征中，显然有些特征是非常重要的，比如年龄和衣着。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限，所以如何选取特征是机器学习的一个关键性因素。再比如淘宝的推荐系统，购买电脑推荐鼠标、键盘等。

当然，上面仅仅是一个比较简单的问题，当我们推广到恶意代码检测等复杂问题时，如果不了解这个领域，可能就会导致模型的结果不理想。

特征设计——人脸识别
局部二值特征（Local Binary Pattern），再举一个人脸识别例子，深度学习出来之前，图片分类都是使用一些特征算子提取特征的。比如存在一个3x3的窗口，我们取阈值5，比5小的窗口置为0，其他的置为1，然后顺时针转换为一个8位的二进制数字，对应的十进制就是19。显然，LBP特征进行了一个降维的操作，左边的图片显示了人脸识别不应该受光照影响，不同光照的图片进行LBP特征提取后，显示结果都一样。

该部分的最后，作者也推荐一些书籍供大家学习。

《统计学习方法》李航，数学理论较多
《机器学习》周志华，西瓜书，较通俗透彻
《Deep Learning》Ian Goodfellow，花书，深度学习内容全面
《精通特征工程》结合恶意代码特征学习，包括如何向量化

再看看我的桌面，这些都是作者最近看的一些安全、AI类书籍，希望也您喜欢~

二.基于机器学习方法的恶意代码检测

1.恶意代码的静态动态检测

(1) 特征种类

首先，特征种类如果按照恶意代码是否在用户环境或仿真环境中运行，可以划分为静态特征和动态特征。

静态特征： 没有真实运行的特征
– 字节码：二进制代码转换成了字节码，比较原始的一种特征，没有进行任何处理
– IAT表：PE结构中比较重要的部分，声明了一些函数及所在位置，便于程序执行时导入，表和功能比较相关
– Android权限表：如果你的APP声明了一些功能用不到的权限，可能存在恶意目的，如手机信息
– 可打印字符：将二进制代码转换为ASCII码，进行相关统计
– IDA反汇编跳转块：IDA工具调试时的跳转块，对其进行处理作为序列数据或图数据

动态特征： 相当于静态特征更耗时，它要真正去执行代码
– API调用关系：比较明显的特征，调用了哪些API，表述对应的功能
– 控制流图：软件工程中比较常用，机器学习将其表示成向量，从而进行分类
– 数据流图：软件工程中比较常用，机器学习将其表示成向量，从而进行分类

举一个简单的控制流图(Control Flow Graph, CFG)示例。

if (x < y)
{
   y = 0;
   x = x + 1;
}
else
{
   x = y;
}

(2) 常见算法

普通机器学习方法和深度学习方法的区别是，普通机器学习方法的参数比较少，相对计算量较小。

普通机器学习方法（SVM支持向量机、RF随机森林、NB朴素贝叶斯）
深度神经网络（Deep Neural Network）
卷积神经网络（Convolution Neural Network）
长短时记忆网络（Long Short-Term Memory Network）
针对序列模型进行建模，包含上下文依赖关系，比如“我是一名大学生”中的“我”和“是”前后出现的条件概率更高。广泛应用于文本分类、语音识别中，同样适用于恶意代码检测。
图卷积网络（Graph Convolution Network）
比较新兴的方法，将卷积应用到图领域，图这种数据类型比较通用，非图数据比较容易转换成图数据，CCF论文中也已经应用到恶意代码检测中。。

2.静态特征设计举例

首先分享一个静态特征的例子，该篇文章发表在2015年，是一篇CCF C类会议文章。

Saxe J，Berlin K. Deep neural network based malware detection using two dimensional binary program features[C] // 2015 10th International Conference on Malicious and Unwanted Software(MALWARE). IEEE, 2015: 11-20

文章的主要方法流程如下所示：

该模型包含三个步骤：

特征抽取
使用了四种特征
特征抽取输入到深度神经网络
包含两层隐含层的深度神经网络
分数校正

特征抽取
特征提取包括以下四种特征：

字节-熵对统计特征：统计滑动窗口的（字节，熵）对个数
在下图中，假设白框是一个二进制文件，其中红色框W是滑动窗口，二进制文件如果有100KB大小，每个滑动窗口是1024字节，那么滑动100次可以将整个二进制文件扫描完。如果对窗口内的数值进行计算，首先计算它的熵值，熵是信息论的概念（下图中的E），它描述了一个数组的随机性，熵越大其随机性越大。在图中，每一个滑动窗口都有固定的熵值，包含了1024字节，标记为（B_i，E_wi），最后滑动得到100x1024的字节熵对。

统计最后滑动得到100x1024的字节熵对个数，得到如下图所示的二维直方图结果，横坐标是熵值最小值到最大值的范围，纵坐标是一个字节转换成10进制的范围0-256，最终得到字节熵对分布的范围，再将16x16维的二维数组转换成1x256维的特征向量。
PE头IAT特征：hashDLL文件名与函数名为[0-255)范围
第二种特征是PE头IAT特征。它的计算工程是将PE头的IAT表里面的文件名和函数名hash到0到255范围，如果某个文件出现某个函数，就将该位置为1，当然每位对应表示的函数是固定的，最终得到256数组。
可打印字符：统计ASCII码的个数特征
可打印字符和字节熵对比较相似，这里推荐大家阅读原文。
PE元信息：将PE信息抽取出来组成256维数组，例如编译时间戳
PE元信息是将PE信息的数值型信息抽取出来，组成256维数组，每一个数组的位置表示了一个固定的信息种类，再信息种类将对应的信息填入到元素的位置，比如编译时间戳。

总共有上述四种特征，然后进行拼接得到4*256=1024维的数组，这个数组就代表一个样本的特征向量。假设有10000个样本，就有对应10000个特征向量。

得到特征向量之后，就开始进行模型的训练和测试，一般机器学习任务事先都有一个数据集，并且会分为训练数据集和测试数据集，按照4比1或9比1的比例进行随机划分。训练会将数据集和标签对输入得到恶意和非恶意的结果，再输入测试集得到最终结果。

下面是衡量机器学习模型的性能指标，首先是一幅混淆矩阵的图表，真实类别中1代表恶意样本，0代表非恶意样本，预测类别也包括1和0，然后结果分为：

TP：本身是恶意样本，并且预测识别为恶意样本
FP：本身是恶意样本，然而预测识别为非恶意样本，这是误分类的情况
FN：本身是非恶意样本，然而预测识别为恶意样本，这是误分类的情况
TN：本身是非恶意样本，并且预测识别为非恶意样本

然后是Accuracy（准确率）、Precision（查准率）、Recall（查全率）、F1等评价指标。

通常Accuracy是一个评价恶意代码分类的重要指标，但本文选择的是AUC指标，为什么呢？
假设我们模型的效果非常差，它会将所有本测试样本标记为恶意样本，这样我有两个数据集，一个样本包括100个数据（99个恶意样本、1个非恶意样本），另一个样本包括50个数据（50个恶意样本、50个非恶意样本），如果我单纯的计算ACC，第一个样本的结构是0.99，显然不符合客观的描述，不能用来评价性能高低的，并且这种情况是很容易产生的。所以论文中广泛采用AUC指标。

AUC指标包括TPRate和FPRate，然后得到一个点，并计算曲线以下所包围的面积即为AUC指标。其中，TPRate表示分类器识别出正样本数量占所有正样本数量的比值，FPRate表示负样本数量站所有负样本数量的比值。举个例子，我们撒网打鱼，一网下去，网中好鱼的数量占池子中所有好鱼的数量就是TPRate，而FPRate表示一网下去，坏鱼的数量占整个池子中所有坏鱼的数量比例，当然FPRate越小越好。最好的结果就是TPRate为1，而FPRate为0，此时全部分类预测正确。

该论文测试了六种特征集合，其计算的TPR和AUC值如下所示。

3.经典的图片特征举例

下面介绍另一种比较新兴经典的方法，就是图片特征。但一些安全界的人士会认为这种特征不太好，但其方法还是比较新颖的。

它的基本方法是按照每8位一个像素点将恶意软件的二进制文件转换为灰度图片，图片通常分为R、G、B通道，每个8位像素点表示2^8，最终每隔8位生成一个像素点从而转换为如下图所示的灰度图片。图片分别为Obfuscator_ACY家族、Lolipop家族、ramnit家族恶意软件样例，这些样例由微软kaggle比赛公布的数据生成。

这是因为对于某些恶意样本作者来说，他只是使用方法简单的修改特征码，从而每个家族的图片比较相似，最终得到了较好的结果。

4.动态特征设计举例

接下来分享一个动态特征的例子，该篇文章发表在2016年，文章的会议一般，但比较有代表性。

Kolosnjaji B，Zarras A，Webster G，et al. Deep learning for classification of malware system call sequences[C] // Australasian Joint Conference on Artificial Intelligence. Springer，Cham，2016:137-149.

下图展示了该方法的整体流程图。PE文件进入后，直接进入Cuckoo沙箱中，它是一个开源沙箱，在学术论文中提取动态特征比较通用；接着进行进行预处理操作，将文本转换成向量表示的形式，比如提取了200个动态特征，可以使用200维向量表示，每个数组的位置表示对应API，再将所得到的序列输入卷积神经网络LSTM进行分类，最终得到家族分类的结构。

Cuckoo沙箱
LSTM

下图展示了实验的结构，其指标是高于单纯的神经网络和卷积网络的效果更好，这是一篇比较基础的文章。

5.深度学习静态检测举例

下面再看一个深度学习静态检测的文章。

Coull S E，Gardner C. Activation Analysis of Byte-Based Deep Neural Network for Malware Classification[C] // 2019 IEEE Security and Privacy Workshops（SPW）. IEEE，2019:21-27.

这篇文章是火眼公司的两名员工发布的，所使用的也是静态检测特征，其流程如下所示。

首先，原始的字节码特征直接输入一个Byte Embedding层（词嵌入），对单个元素进行向量化处理，将字节码中的每个字节表示成一个固定长度的向量，从而更好地将字节标记在一个空间维度中。词嵌入技术广泛应用于自然语言处理领域，比如“女人”和“女王”关系比较紧密，这篇文章的目的也是想要在恶意代码中达到类似的效果。
然后将矩阵输入到卷积和池化层中，比如存在一个100K字节的二进制文件，得到100102410矩阵输入卷积神经网络中，最后通过全连接层完成恶意和非恶意的分类任务。

Fireeye使用了三个数据集进行训练和测试，其训练的模型分类效果结果如下表所示，博客Small、Baseline、Baseline+Dropout模型，其网络结构是一样的，其中Small表示使用小的数据集，Baseline表示使用大的数据集，Dropout表示对训练好的神经网络中随机丢弃一些神经元，从而抑制过拟合现象，也是比较常用的深度学习技术。

这篇文章的重点是对深度学习的解释性，就是解释深度学习是否能学习到恶意软件的本质特性。下图展示了不同特征对于分类结果的影响，横坐标是Offset偏移，通常用Offset记录字节，从0到右边也对应文件大小，前面可能就是PE头，中间有各种段。

它的横纵坐标分别表示了某些特征对于恶意性分类比较重要，还是非恶意性比较重要。如果它的校验和（CheckSum）是0，就对恶意性分类比较重要，这表示深度学习并没有学习到恶意软件为什么是恶意的，只是通过统计学去发现恶意软件和非恶意软件差别最大部分，以此进行数据建模。

深度学习进行恶意软件检测的问题：没有学习到恶意和非恶意特征，而是学习到区别的统计差异，而这种差异如果被黑客利用是可以被规避的。

6.优缺点

静态特征

优点
特征提取速度快
特征种类丰富，可以组合多种特征向量
缺点
易受加壳、加密、混淆干扰
无法防范无文件攻击，难以反映恶意软件行为的恶意性

动态特征

优点
提供恶意软件的动作，调用API
规避一些静态的混淆对抗方法
缺点
反虚拟化，延时触发等技术的对抗
测试时间较长，单个样本2-3分钟（Cuckoo）

最后给出推荐资料：

404notfound实验室总结的AI在安全领域应用
https://github.com/404notf0und/AI-for-Security-Learning
malware data science书籍
https://www.amazon.com/Malware-Data-Science-Detection-Attribution-ebook/dp/B077X1V9SY

7.静态分析和动态分析对比

下面简单总结静态分析和动态分析与深度学习结合的知识，该部分内容源自文章：深度学习在恶意代码检测 - mbgxbz，在此感谢作者，觉得非常棒，故引用至此！谢谢~

恶意代码的检测本质上是一个分类问题，即把待检测样本区分成恶意或合法的程序。基于机器学习算法的恶意代码检测技术步骤大致可归结为如下范式：

采集大量的恶意代码样本以及正常的程序样本作为训练样本；
对训练样本进行预处理，提取特征；
进一步选取用于训练的数据特征；
选择合适的机器学习算法训练分类模型；
通过训练后的分类模型对未知样本进行检测。

深度学习作为机器学习的一个分支，由于其可以实现自动化的特征提取，近些年来在处理较大数据量的应用场景，如计算机视觉、语音识别、自然语言处理时可以取得优于传统机器学习算法的效果。随着深度学习在图像处理等领域取得巨大的成功，许多人将深度学习的方法应用到恶意软件检测上来并取得了很好的成果。实际上就是用深度神经网络代替上面步骤中的人为的进一步特征提取和传统机器学习算法。根据步骤中对训练样本进行预处理的方式，可以将检测分为静态分析与动态分析：

静态分析不运行待检测代码，而是通过直接对程序（如反汇编后的代码）进行统计分析得到数据特征
动态分析则在虚拟机或沙箱中执行程序，获取程序执行过程中所产生的数据（如行为特征、网络特征），进行检测和判断。

(1) 静态分析
一般来说，在绝大部分情形下我们无法得到恶意程序的源代码。因此，常用的静态特征包括程序的二进制文件、从使用IDA Pro等工具进行反汇编得到的汇编代码中提取的汇编指令、函数调用等信息，另外基于字符串和基于API调用序列的特征也是比较常见的。文献[i]提出一种对PE文件的恶意程序检测方法，提取PE文件四个类型的特征：字节频率、二元字符频率、PE Import Table以及PE元数据特征，采用包含两个隐藏层的DNN作为分类模型，但是为了提取长度固定的输入数据，他们丢弃了PE文件中的大部分信息。文献[ii]使用CNN作为分类器，通过API调用序列来检测恶意软件，其准确率达到99.4%，远高于传统的机器学习算法。然而，当恶意代码存在混淆或加壳等情形时，对所选取的静态特征具有较大的影响，因此静态分析技术本身具有一定的局限性。

(2) 动态分析
利用虚拟机或沙箱执行待测程序，监控并收集程序运行时显现的行为特征，并根据这些较为高级的特征数据实现恶意代码的分类。一般来讲，行为特征主要包括以下几个方面：文件的操作行为；注册表键值的操作行为；动态链接库的加载行为；进程访问的操作行为；系统服务行为；网络访问请求；API调用。文献[iii]通过API调用序列记录进程行为，使用RNN提取特征向量，随后将其转化为特征图像使用CNN进行进一步的特征提取，提取其可能包含的局部特征并进行分类。文献[iv]提出了一个基于动态分析的２层架构的恶意软件检测系统：第１层是RNN，用于学习API事件的特征表示；第２层是逻辑回归分类器，对RNN学习的特征进行分类，然而这种方法的误报率较高。文献[v]提出了用LSTM和GRU代替传统RNN进行特征的提取，并提出了使用CNN的字符级别的检测方案。文献[vi]提出在恶意软件运行的初期对其进行恶意行为的预测，他们使用RNN进行PE文件检测，根据恶意代码前４秒的运行行为，RNN对恶意软件的预测准确率是91%，随着观察的运行时间的增长，RNN的预测准确率也随之提高。可以看到，相对于静态分析，动态分析的过程更加复杂耗时，相对而言采用了较高层次的特征，因此可解释性也较差。

在网络攻击趋于精细化、恶意代码日新月异的今天，基于深度学习算法的恶意代码检测中越来越受到学术界和众多安全厂商的关注。但这种检测技术在现实应用中还有很多尚未解决的问题。例如上面提到的静态分析与动态分析存在的不足，现在发展的主流方向是将静态、动态分析技术进行结合，使用相同样本的不同层面的特征相对独立地训练多个分类器，然后进行集成，以弥补彼此的不足之处。

除此之外，深度学习算法的可解释性也是制约其发展的一个问题，当前的分类模型一般情况下作为黑盒被加以使用，其结果无法为安全人员进一步分析溯源提供指导。我们常说攻防是息息相关的，螺旋上升的状态。既然存在基于深度学习的恶意代码检测技术，那么自然也有基于深度学习的或者是针对深度学习的恶意代码检测绕过技术，这也是近年来研究的热点问题，那么如何提高模型的稳健性，防止这些定制化的干扰项对我们的深度学习算法产生不利的影响，对抗生成网络的提出或许可以给出答案。

三.机器学习算法在工业界的应用

首先普及一个概念——NGAV。NGAV（Next-Gen AntiVirus）是下一代反病毒软件简称，它是一些厂商提出来的新的病毒检测概念，旨在用新技术弥补传统恶意软件检测的短板。

多家杀毒引擎厂商将机器学习视作NGAV的重要技术，包括McAfee[11], Vmware[9], CrowdStrike[10], Avast[6]
越来越多的厂商开始关注机器学习技术，并发表相关的研究(卡巴斯基[7],火眼[8])，火眼还是用机器学习技术对APT进行分析（组织相似度溯源）

越来越多的安全厂商将机器学习视为反病毒软件的一个关键技术，但需要注意，NGAV并不是一个清晰的定义，你没法去界定一个反病毒软件是上一代产品还是下一代产品。衡量反病毒软件的性能只有对恶意软件的检测率、计算消耗、误报率等，我们只是从现状分析得到越来越多安全领域结合了机器学习。

作为安全从业人员或科研人员，机器学习技术也是我们必须要关注的一个技术。

机器学习算法需要解决的问题如下：

算力问题
机器学习和深度学习算法需要大量的算力，如果我们在本地部署还需要GPU的支持，这样就带来了一个硬件配置问题，所以如何减小模型的size及提升模型的检测能力是一个关键性的问题。
大规模的特征数据
特征对于分类训练非常关键，如何抽取这些数据特征呢？
训练的模型是可解释的
这个问题可以说是机器学习算法和深度学习算法在反病毒软件应用中最关键的一个问题，病毒的对抗是黑客与安全从业人员的对抗的前线，如果我们训练的模型是不可解释的，那么一旦被黑客发现某些规则存在的弱点，他们就可以针对这些弱点设计免杀方法，从而绕过造成重大安全隐患。另一方面，如果机器学习算法是不可解释黑盒的，用户他也是不可接受的，难以起到保护重要。
误报需要维持极度的低水平
误报是反病毒软件用户体验的一个重要指标，传统的特征码技术、主动防御技术都具有误报低的特性，而机器学习是一个预测技术，会存在一些误报，如何避免这些误报并且提高检测的查全率也是重要的问题。
算法需要根据恶意软件作者的变化快速适应新的检测特征
这也是关键性问题，在机器学习模型应用中，恶意软件是不断变化的，而机器学习算法部署到本地中，它的参数是不变的，所以在长时间的恶意演化中其模型或参数不再适用，其检测结果会有影响。目前，云沙箱、在线更新病毒库特征是一些解决方法。

最后作者总结下机器学习算法的优势，具体如下：
(1) 传统方法

优点：速度快，消耗计算资源少
只需要将特征码提取出来，上传至云端进行检测；相对于机器学习大量的矩阵计算，其计算资源消耗少。
缺点：容易绕过，对于未知恶意软件检出率低
使用加壳、加密、混淆容易绕过，对于未知软件不知道其特征码，只能通过启发式方法、主动防御济宁检测，相对于机器学习检测率要低。

(2) 机器学习方法

优点：能够建立专家难以发现的规则与特征
发现的规则和特征很可能是统计学特征，而不是恶意和非恶意的特征，所以这些特征很容易被黑客进行规避，这既是优点也是缺点，虽然有缺陷，但也能发现恶意样本的关联和行为。
缺点：资源消耗大，面临漂移问题，需要不断更新参数

四.总结

写到这里，这篇文章就介绍完毕，希望对您有所帮助，最后进行简单的总结：

机器学习方法与传统方法不是取代与被取代的关系，而是相互补充，好的防御系统往往是多种技术方法的组合。
机器学习的检测方法研究还不充分，安全领域的专有瓶颈与人工智能研究的共有瓶颈均存在、
机器学习算法本身也面对一些攻击方法的威胁，比如对应抗本。

对抗样本指的是一个经过微小调整就可以让机器学习算法输出错误结果的输入样本。在图像识别中，可以理解为原来被一个卷积神经网络（CNN）分类为一个类（比如“熊猫”）的图片，经过非常细微甚至人眼无法察觉的改动后，突然被误分成另一个类（比如“长臂猿”）。再比如无人驾驶的模型如果被攻击，Stop标志可能被汽车识别为直行、转弯。

学安全一年，认识了很多安全大佬和朋友，希望大家一起进步。这篇文章中如果存在一些不足，还请海涵。作者作为网络安全初学者的慢慢成长路吧！希望未来能更透彻撰写相关文章。同时非常感谢参考文献中的安全大佬们的文章分享，感谢师傅、师兄师弟、师姐师妹们的教导，深知自己很菜，得努力前行。

《珈国情》
明月千里两相思，
清风缕缕寄离愁。
燕归珞珈花已谢，
情满景逸映深秋。
最感恩的永远是家人的支持，知道为啥而来，知道要做啥，知道努力才能回去。
夜已深，虽然笨，但还得奋斗。

欢迎大家讨论，是否觉得这系列文章帮助到您！任何建议都可以评论告知读者，共勉。

(By:Eastmount 2020-07-19 星期日下午13点写于武汉 http://blog.csdn.net/eastmount/ )

参考文献：
[1] Saxe J, Berlin K. Deep neural network based malware detection using two dimensional binary program features[C]//2015 10th International Conference on Malicious and Unwanted Software (MALWARE). IEEE, 2015: 11-20.
[2] https://www.kaggle.com/c/malware-classification
[3] https://www.fireeye.com/blog/threat-research/2018/12/what-are-deep-neural-networks-learning-about-malware.html
[4]Kolosnjaji B, Zarras A, Webster G, et al. Deep learning for classification of malware system call sequences[C]//Australasian Joint Conference on Artificial Intelligence. Springer, Cham, 2016: 137-149.
[5] Wüchner T, Cisłak A, Ochoa M, et al. Leveraging compression-based graph mining for behavior-based malware detection[J]. IEEE Transactions on Dependable and Secure Computing, 2017, 16(1): 99-112.
[6]https://www.avast.com/technology/malware-detection-and-blocking
[7] https://media.kaspersky.com/en/enterprise-security/Kaspersky-Lab-Whitepaper-Machine-Learning.pdf
[8] https://www.fireeye.com/blog/threat-research/2019/03/clustering-and-associating-attacker-activity-at-scale.html
[9] https://www.carbonblack.com/resources/definitions/what-is-next-generation-antivirus/
[10] https://www.crowdstrike.com/epp-101/next-generation-antivirus-ngav/
[11] https://www.mcafee.com/enterprise/en-us/security-awareness/endpoint/what-is-next-gen-endpoint-protection.html

[i] Saxe, J., & Berlin, K. (2015, October). Deep neural network-based malware detection using two-dimensional binary program features. In 2015 10th International Conference on Malicious and Unwanted Software (MALWARE) (pp. 11-20). IEEE.
[ii] Nix, R., & Zhang, J. (2017, May). Classification of Android apps and malware using deep neural networks. In 2017 International joint conference on neural networks (IJCNN) (pp. 1871-1878). IEEE.
[iii] Tobiyama, S., Yamaguchi, Y., Shimada, H., Ikuse, T., & Yagi, T. (2016, June). Malware detection with deep neural network using process behavior. In 2016 IEEE 40th Annual Computer Software and Applications Conference (COMPSAC) (Vol. 2, pp. 577-582). IEEE.
[iv] Pascanu, R., Stokes, J. W., Sanossian, H., Marinescu, M., & Thomas, A. (2015, April). Malware classification with recurrent networks. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1916-1920). IEEE.
[v] Athiwaratkun, B., & Stokes, J. W. (2017, March). Malware classification with LSTM and GRU language models and a character-level CNN. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 2482-2486). IEEE.
[vi] Athiwaratkun, B., & Stokes, J. W. (2017, March). Malware classification with LSTM and GRU language models and a character-level CNN. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 2482-2486). IEEE.

你可能感兴趣的:(网络安全自学篇,娜璋带你读论文,系统安全与恶意代码识别)

读《人世间》有感一0一
这个寒假，就如同朋友圈中的一段话：一闭眼，一睁眼假期还有5天，在一闭眼一睁眼假期还有12天；再一闭眼一睁眼假期还有20天；不敢睡，不敢睡啊……受疫情影响，这个假期变得漫长又煎熬，我也无时无刻不关注着疫情的变化。当然这样的一个假期，我还真得要感谢周翔，因为他有个爱看书的习惯，所以家里有不少他看过的书，可以让我随意挑选，因此也让我的假期不至于那么无所事事。这次我选了一本梁晓声的《人世间》，作为一名语文
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
自我意识徐立华
----读帕克.帕尔默《教学勇气》（P18----19）5.铸造我们的学科帕克.帕尔默说学科知识对我们的自身认同和外部世界有启发意义。学科会铸造我们。“在我们与学科的命题概念和学科的生活框架相遇之前，自我意识知识处于潜伏状态，通过回想学科是怎样唤醒自我意识，我们就可以找回教学心灵。”《教学勇气》（P18）我们的自我意识像冰山表面下无限延伸的冰层，常常处于潜伏状态。但是在我们对所教授的学科进行深入思
读《人间鲁迅》有感琳语读书
上周读完《闻一多传》后，我对中国近代知识分子产生了兴趣，这周继续读了《人间鲁迅》。厚厚的两本书，记录了一个人的一生，苦痛，彷徨和挣扎，虽然只读了一小部分，却也心潮澎湃。闻一多和鲁迅是完全不同的。鲁迅是沉郁的，现实的，寂寞的，抗争的。除了天生性格的不同外，环境的塑造也是非常之大。鲁迅少年经历了家庭的变故，看尽了人间冷暖，世态炎凉。这种经历促使他很早就观察思考人生，立志用文学来改变中国国民的劣根。闻一
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
希望和悲伤都是照亮我们人生的一缕光山月映雪
我开始并不想读《云边有个小卖部》，但看到好几个学生就都在读这本书，为了了解学生的阅读实际，我就拿起这本书翻看起来。读了十几页，发现小说的语言中不时有一些粗俗的字眼，感觉自己读不下去了。小说一开始把云边镇风景写的特别的美好，我错判为脱离现实的鸳鸯蝴蝶派小说，对于人为制造的童话世界的人与物，我真的不太感兴趣，所以就没有再读了。有天在教室闲转，顺手又拿起了这本书看了起来，这次我才真的看进去了。这部小说除
一颗小桃树李蓉乐平市湾头中小学
当“凹”同“洼”的时侯，才读(wa，平声)，他不叫贾平洼(贾，原名贾平娃)，非要写作贾平凹。为了表示对他的尊重，对文学的尊重，对文化人的尊重。如果不是帮闺蜜的儿子修改作文，我也不会发现贾平凹叫贾平娃。以下是摘选他的文章《一棵小桃树》：可我的小桃树儿，一颗“仙桃”的种子，却开得太白了，太淡了，那瓣片儿单薄得似纸做的，没有肉的感觉，没有粉的感觉，像患了重病的少女，苍白白的脸，又偏苦涩涩地笑着。雨还在下
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
如何培养兴趣绽蕊向阳
今天读李笑来的书《与时间做朋友》，读到有关兴趣部分，深有感触。书中提到，好多人说对某事没有兴趣，实际上是没有能力把这件事做好，做这件事时的感受很不好，有挫败感，每个人对自己不擅长做不好的事情，都本能的容易逃避，所以就以为自己对这件事不感兴趣，他们真正感兴趣的是其他事情。可事实上，出现这种感觉应该仅仅是因为还没有开始做那件事情，也还没有在那件事情上遭受挫折而已。其实，很多人真的放弃原来做的事情，转去
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
读《房思琪的初恋乐园》——林奕含芥末绿zq
小说的描写就像一座文字殿堂一样，将每个细节都堆砌得如此繁复精美，我读不懂，我只拣了其中粗暴恶俗、直扎人心的现实。强暴、诱奸、家暴、冷漠、助纣为虐……，故事里全是罪恶的词，不管用什么贬义的词都无法形容。文中无限重复的文学素养，譬喻就像作者无声的哀嚎，撞进我的心头。脑子里无限重复着“温良恭俭让”。就像她在采访里说的，她最痛苦的一点就是，一个真正相信文学的人，他怎么可以背叛这个浩浩汤汤已经超过五千年的语
买书与美好同行
今天真是痛快，连收三个快递，十本书。周三时，薛老师讲课说让准备大字注音版的《左传》，因为《史记》的读书纵轴上开始串上《左传》这一横轴了。《史记》已经读到了《秦本纪》，里面有关晋文公部分，老师说结合《左传》里面的相关具体内容读更精彩更明白，于是大家纷纷移步淘宝或者拼多多，寻找大字注音版《左传》。两个网上都有，且都在搞活动，于是找好了果断下单。去年在群里和大家一块儿买《史记》时，已经同时买了中华书局三
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
《 C++ 修炼全景指南：四》揭秘 C++ List 容器背后的实现原理，带你构建自己的双向链表 Lenyiin 技术指南 C++修炼全景指南 c++list 链表 stl
本篇博客，我们将详细讲解如何从头实现一个功能齐全且强大的C++List容器，并深入到各个细节。这篇博客将包括每一步的代码实现、解释以及扩展功能的探讨，目标是让初学者也能轻松理解。一、简介1.1、背景介绍在C++中，std::list是一个基于双向链表的容器，允许高效的插入和删除操作，适用于频繁插入和删除操作的场景。与动态数组不同，list允许常数时间内的插入和删除操作，支持双向遍历。这篇文章将详细
读《红楼梦》第十九回情切切良宵花解语意绵绵静日玉生香梦一场_c315
元春回宫，贾府上下又忙碌了二三日，方收拾停当，个个是累得人仰马翻。王熙凤为了不落人口舌也只能硬撑着，凡事冲在前头。袭人的母亲来面见贾母，将袭人接回去吃年饭，晚上才会回来，宝玉甚觉无聊。宁府这边唱戏，贾珍来邀宝玉过府观赏，刚欲出门，元春赐了糖蒸酥酪来，宝玉想着平日里袭人最爱吃，便留给袭人，自己出门看戏去了。到了宁府，只闻锣鼓喧天，热闹非凡，宝玉稍坐了片刻，忽想起一间小书房里挂着一张美人图，今日府上这
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
共读《罗恩老师的奇迹教育》28 lan杨杨
第28节感恩、珍惜——父母给孩子最珍贵的礼物打卡时间：11.25-11.26打卡内容：读完本节，对于培养孩子感恩和珍惜方面，你有什么感悟？虽然我还没有为人父母，对于育儿并没有什么经验，但对于两个小侄女，作为姑姑的我还是花了很多心思，但很多时候我都觉得自己的教育方法特别不恰当。所以，关于感恩和珍惜，两个小侄女还需要磨砺，我的教育方式也需要改变！不管是作为姑姑，还是有一天成为母亲，我都迫切希望自己能成
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
2022-04-10 凤凰语言艺术吴老师
读刘院日更《再读稻盛和夫：习惯于用自己的承诺，倒逼自己成功》有感过去讲做人做事要“不言实行”，换言之，比起豪言壮语，默不作声、埋头实干才是美德。现如今社会，闷头干有时候也会失去动力。因为闷头干没有外界的监督，制定的计划只有自己知道，即使没有百分百完成，别人也不知道，久之就养成了得过且过的心态。就像当初自己花了不少钱报名学习日语一样，当时只是闷头学，没有开公失去了众人的监督，以致于后来因为工作和日常
因为付出，所以精彩江南雨1
新年第一天，我哪里都没有去。就在家里读书写字，想一想我的人生很平淡：童年是不懂忧虑的。小时候在家里，有父母长辈的疼爱。六岁上的学，那年祖父过世了。祖母继续疼着我，天天给我讲故事，在物质匮乏的年代还能给我做骨头粥、蒸鸡蛋之类的美食。父母虽然贫困，但是只要我需要的学习资料都会给我买，我是1981年开始读小学一年级，小学四五年级的时候父亲就给我订阅了《中国少年报》。家里有不少果树，每年都有梨子、龙眼、番
读《幸福的勇气》有感晓丽姐
1.三棱柱三棱柱，其中面朝来访者的两面是，可恶的他人与可怜的自己。来访者只能看到这两面，但第三面，猜猜是什么？其实是，应该怎么办？我们往往会沉浸在这样的故事中，他人是多么的可恶，我们是多么的可怜，而最重要的问题是，我应该怎么办？不妨花更多的心思在，我应该怎么办上面。2.课题分离课题分离，你做好自己的工作是自己的课题，而领导喜欢不喜欢你，要辞退你也是他的课题，我们要学会很好的课题分离。学习是孩子的事
2019-02-26 一枚_铜钱
今天是实习第一节课，昨天已经和同学们交流过了，对于新老师，让学生适当地了解你是很有必要的。这第一节课嘛，孩子们表现也还可以大部分孩子都是很认真听讲的，也有几个上课会说话。但是我觉得孩子们对知识点的掌握速度还是很慢的，有的地方讲很多遍还是不太懂的样子。当然我自己可能也要反省，重点地方一定要明明白白告诉大家。明天切正题要快，要让学生读题，要让学生多写多练。话要尽量说得少，但句句在点子上，还得全面。下午
【新教育-教师随笔】读《做最好的英语老师》有感 164c5aca7b79
伊川县直中学王素平《做最好的英语老师》这本书是作者这些年在他教学中得与失的总结。里面给我们提供了听力，单词，句子，阅读，作文等模块的教学方法，让我受益匪浅，现总结如下：一.语文教学给了我们什么启示？（1）：现有的英语教材内容简单，枯燥，与学生的心智发展水平严重脱节。我们要给学生补中一些贴近学生生活，能感动和影响他们的经典作品。让学生学习知识的同时，有所感悟和思考，同时享受审美的乐趣！如AWiseO
《拖延心理学》（一）你为什么会拖延？|木盒笔记纯se蓝调
《拖延心理学》是帮助你向拖延症宣战的一本书，作者简·博克和莱诺拉·袁是全球知名的拖延症治疗专家。大概每个人或多或少总会有一点拖延症的行为。比如明天要叫论文了，今天你还没有写好，你一边在焦虑症怎么办，一边又拿着手机漫无目的的刷新闻；比如你想了很久准备减肥，但是迟迟又没有行动，想着今天晚上少吃一点吧、明天我就开始运动。今天分析的笔记来告诉你“你为什么会拖延？”，解读人杨坚。有人说拖延就像巨大的泥沼，让
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本