Eastmount

[网络安全自学篇] 二十三.基于机器学习的恶意请求识别及安全领域中的机器学习

这是作者的系列网络安全自学教程，主要是关于网安工具和实践操作的在线笔记，特分享出来与博友共勉，希望您们喜欢，一起进步。前文分享了Web渗透的第一步工作，涉及网站信息、域名信息、端口信息、敏感信息及指纹信息收集。这篇文章换个口味，将分享机器学习在安全领域的应用，并复现一个基于机器学习（逻辑回归）的恶意请求识别。

作者作为网络安全的小白，分享一些自学基础教程给大家，希望你们喜欢。同时，更希望你能与我一起操作深入进步，后续也将深入学习网络安全和系统安全知识并分享相关实验。总之，希望该系列文章对博友有所帮助，写文不容易，大神请飘过，不喜勿喷，谢谢！

下载地址：https://github.com/eastmountyxz/NetworkSecuritySelf-study
百度网盘：https://pan.baidu.com/s/1dsunH8EmOB_tlHYXXguOeA 提取码：izeb

文章目录

一.安全领域中的机器学习

1.身份识别与认证
2.社会工程学
3.网络安全
4.Web安全
5.安全漏洞与恶意代码
6.入侵检测与防御

二.基于机器学习的恶意代码检测

1.传统的恶意代码检测
2.基于机器学习的恶意代码检测
3.机器学习在安全领域的特点及难点

三.逻辑回归识别网站恶意请求

1.数据集
2.N-grams和TF-IDF结合构造特征矩阵
3.训练模型
4.检测新数据集是恶意请求还是正常请求
5.完整代码

四.总结

前文学习：
[网络安全自学篇] 一.入门笔记之看雪Web安全学习及异或解密示例
[网络安全自学篇] 二.Chrome浏览器保留密码功能渗透解析及登录加密入门笔记
[网络安全自学篇] 三.Burp Suite工具安装配置、Proxy基础用法及暴库示例
[网络安全自学篇] 四.实验吧CTF实战之WEB渗透和隐写术解密
[网络安全自学篇] 五.IDA Pro反汇编工具初识及逆向工程解密实战
[网络安全自学篇] 六.OllyDbg动态分析工具基础用法及Crakeme逆向破解
[网络安全自学篇] 七.快手视频下载之Chrome浏览器Network分析及Python爬虫探讨
[网络安全自学篇] 八.Web漏洞及端口扫描之Nmap、ThreatScan和DirBuster工具
[网络安全自学篇] 九.社会工程学之基础概念、IP获取、IP物理定位、文件属性
[网络安全自学篇] 十.论文之基于机器学习算法的主机恶意代码
[网络安全自学篇] 十一.虚拟机VMware+Kali安装入门及Sqlmap基本用法
[网络安全自学篇] 十二.Wireshark安装入门及抓取网站用户名密码（一）
[网络安全自学篇] 十三.Wireshark抓包原理（ARP劫持、MAC泛洪）及数据流追踪和图像抓取（二）
[网络安全自学篇] 十四.Python攻防之基础常识、正则表达式、Web编程和套接字通信（一）
[网络安全自学篇] 十五.Python攻防之多线程、C段扫描和数据库编程（二）
[网络安全自学篇] 十六.Python攻防之弱口令、自定义字典生成及网站暴库防护
[网络安全自学篇] 十七.Python攻防之构建Web目录扫描器及ip代理池（四）
[网络安全自学篇] 十八.XSS跨站脚本攻击原理及代码攻防演示（一）
[网络安全自学篇] 十九.Powershell基础入门及常见用法（一）
[网络安全自学篇] 二十.Powershell基础入门及常见用法（二）
[网络安全自学篇] 二十一.GeekPwn极客大赛之安全攻防技术总结及ShowTime
[网络安全自学篇] 二十二.Web渗透之网站信息、域名信息、端口信息、敏感信息及指纹信息收集

前文欣赏：
[渗透&攻防] 一.从数据库原理学习网络攻防及防止SQL注入
[渗透&攻防] 二.SQL MAP工具从零解读数据库及基础用法
[渗透&攻防] 三.数据库之差异备份及Caidao利器
[渗透&攻防] 四.详解MySQL数据库攻防及Fiddler神器分析数据包

该篇文章参考了以下文献，非常推荐大家阅读这些大牛的文章和视频：
机器学习在安全攻防场景的应用与分析 - 腾讯云FreeBuf官方
入侵某网站引发的安全防御思考 - 腾讯云“我是小三”大神
用机器学习玩转恶意URL检测 - 腾讯云FreeBuf官方
https://github.com/exp-db/AI-Driven-WAF
https://github.com/foospidy/payloads
http://www.secrepo.com/
https://github.com/eastmountyxz
张思思, 左信, 刘建伟. 深度学习中的对抗样本问题[J]. 计算机学报，2019（8）.
http://fsecurify.com/fwaf-machine-learning-driven-web-application-firewall/
黑产用“未来武器”破解验证码，打码小工都哭了 - FreeBuf
[转载] 机器学习科普文章：“一文读懂机器学习，大数据/自然语言处理/算法全有了”

https://www.bilibili.com/video/av60018118 (B站白帽黑客教程)
https://www.bilibili.com/video/av63038037 (B站HACK学习)

声明：本人坚决反对利用教学方法进行犯罪的行为，一切犯罪行为必将受到严惩，绿色网络需要我们共同维护，更推荐大家了解它们背后的原理，更好地进行防护。

一.安全领域中的机器学习

机器学习方法是计算机利用已有的数据（经验），训练得出某种模型，并利用此模型预测未来的一种方法。机器学习学科融合了数学中的多个领域，主要包括统计学、概率论、线性代数以及数学计算。机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程，如下图所示。

机器学习和模式识别、统计学习、数据挖掘、计算机视觉，语音识别，自然语言处理等领域有着很深的联系。从范围上来说，机器学习跟模式识别、统计学习、数据挖掘是类似的，同时，机器学习与其他领域的处理技术的结合，形成了计算机视觉、语音识别、自然语言处理等交叉学科。一般说数据挖掘时，可以等同于说机器学习，我们平常所说的机器学习应用，应该是通用的，不仅仅局限在结构化数据，还有图像、音频、视频等应用。

模式识别 ≈ 机器学习 + 工业应用
数据挖掘 ≈ 机器学习 + 数据库
统计学习 ≈ 机器学习 + 数理统计
计算机视觉 ≈ 机器学习 + 图像处理 + 视频处理
语音识别 ≈ 机器学习 + 语音处理
自然语言处理 ≈ 机器学习 + 文本处理

机器学习能够深入挖掘大数据价值，被广泛用于各个领域，同时在网络安全领域也有相关的应用。为了更清晰地阐述机器学习在安全攻防领域的实际应用与解决方案，如下图所示，FreeBuf官网汇总了六大安全领域，分别是身份识别与认证、社会工程学、网络安全、 Web安全、安全漏洞与恶意代码、入侵检测与防御，且在每一领域列举了典型的应用案例。

PS：下面这小部分内容引用FreeBuf的文章，推荐大家阅读。作者也尝试了总结，但总不尽如人意，看看大牛写得吧！

1.身份识别与认证

身份识别与认证是AI运用较为多的领域，除了现有的各种人脸图像识别，语音声波识别，异常行为检测等AI应用之外，本部分将列举“验证码破解”与“恶意用户识别”两例。

身份认证——验证码破解
2017年6月，腾讯守护者计划安全团队协助警方打掉市面上最大打码平台“快啊答题”，挖掘出一条从撞库盗号、破解验证码到贩卖公民信息、实施网络诈骗的全链条黑产。在验证时识别时，黑产运用 AI，极大提升了单位时间内识别验证码的数量， 2017年一季度打码量达到259亿次，且识别验证码的精准度超过 80%。

在网络黑产中，不法分子窃取网站数据库后，需要确认帐号对应的密码是否正确，用撞库将有价值的数据通过验证的方式筛选出来，在这一过程中，最核心的障碍就是验证码安全体系。打码平台的AI系统，能将一张验证码图片作为一个整体，将单字识别转换成单图多标签、端到端的识别出验证码中的所有字符。此外还会通过搜集反馈回来的失败样本，以及人工打码的标定数据，来实时训练和更新识别网络，不断迭代训练进行优化，进一步提高神经网络模型的识别能力。因此，在面对网站验证时，还需要多种不同类型的验证方式，如图片选取，文字选择，图片填补等等，才能应对黑客日新月异的攻击破解手段。

行为分析——恶意用户识别
在分析用户行为时，从用户点击流数据中分析恶意用户的请求，特别地，可采用孤立森林（Isolation Forest）算法进行分类识别。在用户点击流数据中，包括请求时间、IP、平台等特征。孤立森林模型首先随机选择用户行为样本的一个特征，再随机选择该特征取值范围中的一个值，对样本集做拆分，迭代该过程，生成一颗孤立树；树上叶子节点离根节点越近，其异常值越高。迭代生成多颗孤立树，生成孤立森林，识别时，融合多颗树的结果形成最终的行为分类结果。

由于恶意用户仅占总体用户的少部分，具有异常样本“量少”和“与正常样本表现不一样”的两个特点，且不依赖概率密度，因此此异常检测模型不会导致高维输入的下溢出问题。该模型可识别异常用户盗号、LBS/加好友、欺诈等行为。随着样本增加，恶意请求的uin、类型、发生时间通过分析端通过线下人工分析和线上打击，达到良好的检测效果。

2.社会工程学

社会工程学是指攻击者利用某些手段使他人受骗的行为。除了现有的信用卡欺诈，信贷风险评估等AI应用，本部分将列举“鱼叉式网络钓鱼”与“欺诈电话识别”两例。

反钓鱼——鱼叉式网络钓鱼
2017年5月，Google利用机器学习技术，其垃圾邮件和网络钓鱼邮件的识别率已经达到了 99.9%。Google建立了一个系统。该系统可通过延迟Gmail信息的时间以执行更详细的网络钓鱼分析。当用户在浏览邮件的过程中，有关网络钓鱼的信息会更快被检测出来。利用 Google的机器学习，该系统还能随着时间的推移实时更新算法，从而可对数据和信息进行更深入的分析。不过，该系统仅适用于0.05%的信息。

区别于普通网络钓鱼，鱼叉式网络钓鱼是针对特定目标进行定制的网络钓鱼攻击。黑客会从社交媒体、新闻报道等资料中对攻击目标的信息中，采用机器学习的方法进行前期的分析，包括姓名、邮箱地址、社交媒体账号或者任何在网上参与过的内容等。攻击对象通常不对于普通用户，而是特定的公司或者组织的成员，窃取的资料也并非个人的资料，而是其他高度敏感性资料。面对鱼叉钓鱼，一方面企业会加强网站的数据保护，防各种爬虫工具，通过逆向分析，并采用机器学习进行垃圾/钓鱼邮件的检测过滤，另一方面用户自身提高安全意识注意个人隐私泄露，保持警惕性。

反欺诈——欺诈电话识别
这几年，在通信诈骗方面的犯罪愈演愈烈，仅2015年的报案数据，如“猜猜我是谁”，“冒充公检法”此类涉及电话诈骗的案件，全国用户损失就约220亿左右。在应对通信欺诈，通常分为事后处置与实时阻断两种解决方法，而由于事后处置的时效性太低，诈骗资金往往已被转移，无法很好地起到保护公民财产的作用。因此实时阻断十分必要，当用户接打电话，通过机器学习，能够实时发现是否属于诈骗电话，并立刻发出实时告警。

从号码活跃特征数据、号码的社交网络、号码的行为事件流、号码的行为特征、号码信用度、号码异常度等方面来进行特征抽取，根据机器学习架构检测。此外，再结合事件模型与行为模式的关联分析，能更准确地对欺诈电话进行监测。

3.网络安全

网络安全是指网络系统软硬件受保护，网络服务不中断。除了现有的隐藏信号识别等AI应用，本部分将列举“大数据DDoS检测”与“伪基站短信识别”两例。

抗DDoS——大数据DDoS检测
近年来，基于机器学习算法的分布式拒绝服务（distributeddenial-of-service，简称DDoS）攻击检测技术已取得了很大的进展。在攻击感知方面，可从宏观攻击流感知与微观检测方法两个角度，分别基于IP流序列谱分析的泛洪攻击与低速率拒绝服务（Low-rate Denial of Service，LDoS）方法进行感知。在此基础上，将DDoS攻击检测转化为机器学习的二分类问题。

从概率点判别角度，基于多特征并行隐马尔科夫模型（Multi-FeatureParallel Hidden Markov Model，MFP-HMM）的DDoS攻击检测方法，利用HMM隐状态序列与特征观测序列的对应关系，将攻击引起的多维特征异常变化转化为离散型随机变量，通过概率计算来刻画当前滑动窗口序列与正常行为轮廓的偏离程度。从分类超平面判别角度，基于最小二乘孪生支持向量机（LSTSVM）的DDoS攻击分类超平面检测方法，采用IP包五元组熵、 IP标识、TCP头标志和包速率等作为LSTSVM模型的多维检测特征向量，以体现DDoS攻击存在的流分布特性。

无线网络攻击——伪基站短信识别
为了解决“犯罪分子通过冒充10086、95533等机构发送短信来获得用户的账号、密码和身份证等信息”这一问题。 2016年，360 手机依托 360公司研发的伪基站追踪系统，率先在全球推出了伪基站诈骗短信识别功能，拦截准确度达 98%，可有力的确保用户财产安全。360伪基站追踪系统的核心价值就在于它解决上述伪基站打击难题，依托海量的数据、高效的数据分析处理和数据可视化，可以为追查伪基站供精确的信息与准确的判断。

2015年12月，360手机在全球率先推出了伪基站垃圾、诈骗短信精准识别功能。由于垃圾和诈骗短信的识别和分类涉及到自然语言处理技术与机器学习模型， 360使用语言学规则与统计学方法相结合的方式来定义伪基站短信特征，可从海量数据中精确识别出伪基站短信，因而其识别精度可达 98%。对于360伪基站追踪系统的发布、部署，以及其在360手机中的成功运用，有力遏制猖獗的伪基站诈骗活动，有助于维护广大手机用户及其他群众的财产安全。

4.Web安全

Web安全是指个人用户在Web相关操作时不因偶然或恶意的原因受到破坏、更改、泄露。除了现有的SQL注入检测、XSS攻击检测等 AI应用，本部分将列举“恶意URL检测”与“ Webshell检测”两例。后续实验部分，作者将详细描述Python实现该过程。

安全网站检测——恶意URL检测
在市面上，Google的Chrome已将检测模型与机器学习相结合，支持安全浏览，向用户警示潜在的恶意网址。结合成千上万的垃圾邮件、恶意软件、有启发式信号的含勒索软件的附件和发送者的签名（已被标识为恶意的），对新的威胁进行识别和分类。

目前大多数网站检测方式是通过建立URL黑白名单的数据库匹配进行排查，虽然具有一定的检测效果，但有一定滞后性，不能够对没有记录在案的URL进行识别。而基于机器学习，从 URL特征，域名特征， Web特征的关联分析，使恶意URL识别具有高准确率，并具有学习推断的能力。一些开源工具如Phinn提供了另个角度的检测方法，如果一个页面看起来非常像Google的登录页面，那么这个页面就应该托管在Google域名。Phinn使用了机器学习领域中的卷积神经网络算法来生成和训练一个自定义的Chrome扩展，这个 Chrome扩展可以将用户浏览器中呈现的页面与真正的登录页面进行视觉相似度分析，以此来识别出恶意URL（钓鱼网站）。

注入攻击检测——Webshell检测
Webshell常常被称为匿名用户（入侵者）通过网站端口对网站服务器的某种程度上操作的权限。由于Webshell其大多是以动态脚本的形式出现，也有人称之为网站的后门工具。在攻击链模型中，整个攻击过程分为：踩点、组装、投送、攻击、植入、控制、行动。在针对网站的攻击中，通常是利用上传漏洞，上传Webshell，然后通过Webshell进一步控制web服务器。

常见传统的Webshell检测方法主要有静态检测、动态检测、语法检测、统计学检测等。随着AI的兴起，基于AI的Webshell文件特征检测技术要较之传统技术更胜一筹，通过词袋&TF-IDF模型、Opcode&N-gram模型、Opcode调用序列模型等特征抽取方式，采用合适的模型，如朴素贝叶斯和深度学习的MLP、CNN等，实现Webshell的检测。类似地，也可进行SQL注入、 XSS攻击检测等。

5.安全漏洞与恶意代码

安全漏洞是指漏洞是在硬件、软件、协议的具体实现或系统安全策略上存在的缺陷；恶意代码是指具有安全威胁的代码。除了现有的恶意软件检测与识别等AI应用，本部分将列举“恶意代码分类”与“系统自动化漏洞修补”两例。

代码安全——恶意代码分类
早期反病毒软件无论是特征码扫描、查找广谱特征、启发式扫描，这三种查杀方式均没有实际运行二进制文件，因此均可归为恶意代码静态检测的方法。随着反恶意代码技术的逐步发展，主动防御技术、云查杀技术已越来越多的被安全厂商使用，但恶意代码静态检测的方法仍是效率最高，被运用最广泛的恶意代码查杀技术。

2016年在Kaggle上微软发起了一个恶意代码分类比赛，冠军队采用了一种恶意代码图像绘制方法。将一个二进制文件转换为一个矩阵（矩阵元素对应文件中的每一个字节，矩阵的大小可根据实际情况进行调整），该矩阵又可以非常方便的转换为一张灰度图。再基于N-gram，统计概率模型。最后代入分类决策树与随机森林进行训练与测试。这个方法能够发现一些静态方法发现不了的变种，并且也可推广应用到Android和IOS平台的恶意代码检测中。

漏洞修复——系统自动化漏洞修补
2016年8月，DARPA在DEFCON黑客大会上举办Cyber Grand Challenge挑战赛，要求参赛者在比赛中构建一套智能化的系统，不仅要检测漏洞，还要能自动写补丁、并且完成部署。当今的软件漏洞平均发现周期长达312 天，发现后还需要对漏洞研究、开发补丁程序，到最后公布，在这期间，攻击者很有可能已经利用这个漏洞发起网络攻击。因此系统自动化漏洞修复十分必要。

2017年10月，MIT研究团队研发了一个称为“创世纪”的系统，能够对以前的补丁进行自动学习，生成补丁模板，并对候选补丁进行评估。据研究者说，“创世纪是第一个自动推理补丁生成转换或根据先前成功的补丁搜索候选补丁空间的系统”，它修复的 bug几乎是最好的手编模板系统的两倍，同时也更精确。这些模板是根据真实补丁的特定类型“订制”而成，因此不会产生尽可能多的无用备选。

6.入侵检测与防御

入侵检测与防御是指对入侵行为的发现并采取相应的防御行动。除了现有的内网入侵检测等AI应用，本部分将列举“APT检测与防范”与“C2链接分析”两例。

高级攻击入侵检测——APT检测与防范
进行APT攻击的攻击者从侦查目标，制作攻击工具，传递攻击工具，利用漏洞或者弱点来进行突防，拿下全线运行工具，后期远端的维护这个工具，到最后达到了长期控制目标的目的。针对这种现在日益广泛的APT 攻击，威胁情报存在于整个攻击的各个环节。

威胁情报是基于证据的描述威胁的一组关联的信息，包括威胁相关的环境信息，如具体的攻击组织、恶意域名。恶意域名又包括远控的IOC、恶意文件的HASH和URL以及威胁指标之间的关联性，时间纬度上攻击手法的变化。这些信息汇总在一起形成高级威胁情报。除此之外，所关注的情报，还包括传统威胁种类的扩充，包括木马远控，僵尸网络，间谍软件， Web后门等。利用机器学习来处理威胁情报，检测并识别出APT攻击中的恶意载荷，提高APT攻击威胁感知系统的效率与精确性，让安全研究人员能更快实现 APT攻击的发现和溯源。

DGA域名检测——C2链接分析
DGA（域名生成算法）是一种利用随机字符来生成C2域名，从而逃避域名黑名单检测的技术手段。而有了DGA域名生成算法，攻击者就可以利用它来生成用作域名的伪随机字符串，这样就可以有效的避开黑名单列表的检测。伪随机意味着字符串序列似乎是随机的，但由于其结构可以预先确定，因此可以重复产生和复制。该算法常被运用于远程控制软件上。

首先攻击者运行算法并随机选择少量的域（可能只有一个），然后攻击者将该域注册并指向其C2服务器。在受害者端恶意软件运行DGA并检查输出的域是否存在，如果检测为该域已注册，那么恶意软件将选择使用该域作为其命令和控制（ C2）服务器。如果当前域检测为未注册，那么程序将继续检查其它域。因此，安全人员可以通过收集样本以及对DGA进行逆向，来预测哪些域将来会被生成和预注册并将它们列入黑名单中。

二.基于机器学习的恶意代码检测

1.传统的恶意代码检测

传统的恶意代码检测包括基于签名特征码（ signature ）的检测和基于启发式规则（heuristic）的检测，在应对数量繁多的未知恶意代码时，正面临越来越大的挑战。

(1) 基于签名特征码的检测
签名特征码检测方法通过维护一个已知的恶意代码库，将待检测代码样本的特征码与恶意代码库中的特征码进行比对，如果特征码出现匹配，则样本为恶意代码。该方法需要耗费大量的人力、物力对恶意代码进行研究并要求用户及时更新恶意代码库，检测效率和效果越来越力不从心，并且很难有效抵御未知恶意代码。

(2) 基于启发式规则的检测
启发式规则检测方法通过专业的分析人员对现有的恶意代码进行规则提取，并依照提取出的规则对代码样本进行检测。但面对现阶段恶意代码爆炸式的增长趋势，仅依赖人工进行恶意代码分析，在实施上变得愈发困难。

2.基于机器学习的恶意代码检测

基于机器学习算法的防护技术为实现高准确率、自动化的未知恶意代码检测提供了行之有效的技术途径，已逐渐成为业内研究的热点。根据检测过程中样本数据采集角度的不同，可以将检测分为：静态分析与动态分析。

静态分析不运行待检测程序，而是通过程序（如反汇编后的代码）进行分析得到数据特征，而动态分析在虚拟机或仿真器中执行程序，并获取程序执行过程中所产生的数据（如行为特征），进行检测和判断。

根据 Cohen 对恶意代码的研究结果，可知恶意代码检测的本质是一个分类问题，即把待检测样本区分成恶意或合法的程序。其核心步骤为：

采集数量充分的恶意代码样本
对样本进行有效的数据处理，提取特征
进一步选取用于分类的主要数据特征
结合机器学习算法的训练，建立分类模型
通过训练后的分类模型对未知样本进行检测

详见作者文章：[网络安全自学篇] 十.论文之基于机器学习算法的主机恶意代码

3.机器学习在安全领域的特点及难点

机器学习是个多元学科，其本质是在数据中进行学习，通过合适的算法建模，最终在无规则的情况下，实现分类、聚类或是预测。从第一部分的案例可以看出，机器学习在安全攻防最常应用于在于恶意代码识别、社工安全防范，入侵攻击检测这三大方向。

在恶意代码识别方面： 区别传统的黑白名单库、特征检测、启发式等方法机器学习的安全应用从反病毒的代码分类、恶意文件检测、恶意URL的网页代码识别等
在社工安全防范方面： 区别传统的技术与业务经验分析、安全宣传、金融模型等评估方法，机器学习的安全应用从鱼叉式网络钓鱼检测，恶意用户点击流识别，欺诈电话与短信分析，到金融信用欺诈等
在入侵攻击检测方面： 区别传统的基于规则与策略、正则匹配等，机器学习的安全应用从DDoS防御，webshell检测， DGA防范到APT检测等等。

总体上，即使机器学习在训练模型后无法达到百分百的效果，但相比传统手段，均有不同程度地检测效果提升。

虽然机器学习技术在安全领域已有诸多场景应用，为现有的用户安全防护策略提供了新的视角。从上述的案例中不难看出，机器学习在安全与风控方面应用难点主要包括如：

机器学习需要尽可能平衡的高质量数据集，而在安全领域，无论是风险欺诈、网络钓鱼、恶意软件等，通常包含大量的正常样本与极少量的安全隐患，因此恶意访问、攻击样本的不充分，导致模型训练后的检测准确率有待提高。
机器学习的模型一般均为黑盒分析，无法得到足够的信息。不像其他AI应用（如商品推荐系统），在应用安全领域的模型分类错误具有极高的成本，并且在面对网络威胁与隐患时，安全分析人员希望在网络对抗中取得对形势的了解与情报的掌握，以作出相应的人工干预。
现阶段所有需监督学习的机器学习模型，均需要输入合理且高相关的特征集，即需要从源数据到特征空间映射的特征工程。在安全领域，会产生网络监控到实际的检测对象之间的抽象成本，如软件缺陷与底层实现代码与结构之间的对应关系有一个抽象、翻译的难度。

与此同时，机器学习作为新兴的前沿技术，即使解决或克服传统安全攻防技术的问题与难点，在一些场景与环境下，仍有无法避免的缺陷或者是即使解决了问题也无法满足实际需求，即无法采用机器学习算法进行安全攻防的盲点。

无法发现未知模式的恶意行为
误报大量测试异常的正常行为
对数据数量与质量有强依赖性

三.逻辑回归识别网站恶意请求

接下来作者复现了Github上exp-db大神的代码，推荐大家阅读之前的参考文献中大神的作品。该代码的基本思想是通过机器学习（逻辑回归）建立检测模型，从而识别网站的恶意请求和正常请求。基本流程如下图所示：

读取正常请求和恶意请求数据集，预处理设置类标y和数据集x
通过N-grams处理数据集，并构建TF-IDF特征矩阵，每个请求对应矩阵的一行数据
数据集拆分为训练数据和测试数据
使用机器学习逻辑回归算法对特征矩阵进行训练，得出对应的模型
使用训练的模型对未知URL请求进行检测，判断其是恶意请求或正常请求

1.数据集

在https://github.com/foospidy/payloads中收集了常见的网站恶意请求，如SQL注入、XSS攻击等的Payload。实验数据包括：

正常请求：goodqueries.txt ，1265974条，来自http://secrepo.com网站日志请求
恶意请求：badqueries.txt，44532条，XSS、SQL注入等攻击的payload

注意，资源和精力有限，数据集假定http://secrepo.com网站的日志请求全部都是正常的请求，有精力可以进行降噪处理，去除异常的标签数据。

该部分的核心代码为：

import os
import urllib

# 获取文本中的请求列表
def get_query_list(filename):
    directory = str(os.getcwd())
    print(directory)
    filepath = directory + "/" + filename
    data = open(filepath, 'r', encoding='UTF-8').readlines()
    query_list = []
    for d in data:
        # 解码
        d = str(urllib.parse.unquote(d))   #converting url encoded data to simple string
        #print(d)
        query_list.append(d)
    return list(set(query_list))

# 主函数
if __name__ == '__main__':
    
    # 获取正常请求
    good_query_list = get_query_list('goodqueries.txt')
    print(u"正常请求: ", len(good_query_list))
    for  i in range(0, 5):
        print(good_query_list[i].strip('\n'))
    print("\n")
        
    # 获取恶意请求
    bad_query_list = get_query_list('badqueries.txt')
    print(u"恶意请求: ", len(bad_query_list))
    for  i in range(0, 5):
        print(bad_query_list[i].strip('\n'))
    print("\n")

    # 预处理 good_y标记为0 bad_y标记为1
    good_y = [0 for i in range(0, len(good_query_list))]
    print(good_y[:5])
    bad_y = [1 for i in range(0, len(bad_query_list))]
    print(bad_y[:5])
    
    queries = bad_query_list + good_query_list
    y = bad_y + good_y

2.N-grams和TF-IDF结合构造特征矩阵

本段代码的一个亮点是将N-grams和TF-IDF结合来构造特征矩阵。作者前文：[python] 使用scikit-learn工具计算文本TF-IDF值

TF-IDF（Term Frequency-InversDocument Frequency）是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法，根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要本的词语，同时保留影响整个文本的重要字词。计算方法如下面公式所示。

其中，式中tfidf表示词频tf和倒文本词频idf的乘积。TF-IDF值越大表示该特征词对这个文本的重要性越大。其基本思想是将文本转换为特征矩阵，并且降低常用词（如we、all、www等）的权重，从而更好地表达一个文本的价值。如下图示例：

# coding:utf-8
from sklearn.feature_extraction.text import CountVectorizer
 
#语料
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]
#将文本中的词语转换为词频矩阵
vectorizer = CountVectorizer()
#计算个词语出现的次数
X = vectorizer.fit_transform(corpus)
#获取词袋中所有文本关键词
word = vectorizer.get_feature_names()
print word
#查看词频结果
print X.toarray()
 
from sklearn.feature_extraction.text import TfidfTransformer
 
#类调用
transformer = TfidfTransformer()
print transformer
#将词频矩阵X统计成TF-IDF值
tfidf = transformer.fit_transform(X)
#查看数据结构 tfidf[i][j]表示i类文本中的tf-idf权重
print tfidf.toarray()

无论是恶意请求数据集还是正常请求数据集，都是不定长的字符串列表，很难直接用逻辑回归算法对这些不规律的数据进行处理，需要找到这些文本的数字特征，用来训练我们的检测模型。在这里，使用TD-IDF来作为文本的特征，并以数字矩阵的形式进行输出。在计算TD-IDF之前，首先需要对每个文档（URL请求）的内容进行分词处理，也就是需要定义文档的词条长度，这里我们选择长度为3的N-grams，可以根据模型的准确度对这个参数进行调整。

该部分的核心代码如下，详见注释：

from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

# tokenizer function, this will make 3 grams of each query
# www.foo.com/1 转换为 ['www','ww.','w.f','.fo','foo','oo.','o.c','.co','com','om/','m/1']
def get_ngrams(query):
    tempQuery = str(query)
    ngrams = []
    for i in range(0, len(tempQuery)-3):
        ngrams.append(tempQuery[i:i+3])
    return ngrams

# 主函数
if __name__ == '__main__':
    ....
    # 定义矢量化 converting data to vectors
    # TfidfTransformer + CountVectorizer  =  TfidfVectorizer
    vectorizer = TfidfVectorizer(tokenizer=get_ngrams)

    # 把不规律的文本字符串列表转换成规律的 ( [i,j], tdidf值) 的矩阵X
    # 用于下一步训练逻辑回归分类器
    X = vectorizer.fit_transform(queries)
    print(X.shape)

3.训练模型

通过构建的特征矩阵作为训练集，调用逻辑回归进行训练和测试，Python中机器学习两个核心函数为fit()和predict()。这里，调用train_test_split()函数将数据集随机划分，核心代码如下所示：

from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

# 主函数
if __name__ == '__main__':
    ....
    # 使用 train_test_split 分割 X y 列表
    # X_train矩阵的数目对应 y_train列表的数目(一一对应)  -->> 用来训练模型
    # X_test矩阵的数目对应 	 (一一对应) -->> 用来测试模型的准确性
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=20, random_state=42)

    # 定理逻辑回归方法模型
    LR = LogisticRegression()
    
    # 训练模型
    LR.fit(X_train, y_train)

    # 使用测试值 对 模型的准确度进行计算
    print('模型的准确度:{}'.format(LR.score(X_test, y_test)))
    print("\n")

4.检测新数据集是恶意请求还是正常请求

模型训练好之后，发现其精确度挺高的，真实的实验还需要通过准确率、召回率和F值判断。接下来调用Predict()函数对新的RUL进行判断，检测其是恶意请求还是正常请求
。核心代码如下：

from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

# 主函数
if __name__ == '__main__':
    ....
    # 对新的请求列表进行预测
    new_queries = ['www.foo.com/id=1',
                   'www.foo.com/name=admin\' or 1=1','abc.com/admin.php',
                   '">,
                   'test/q=,
                   'q=../etc/passwd',
                   '/stylesheet.php?version=1331749579',
                   '/.idc',
                   '',
                   '/jhot.php?rev=2 |less /etc/passwd']
    
    # 矩阵转换
    X_predict = vectorizer.transform(new_queries)
    res = LR.predict(X_predict)
    res_list = []

    # 结果输出
    for q,r in zip(new_queries, res):
        tmp = '正常请求' if r == 0 else '恶意请求'
        q_entity = html.escape(q)
        res_list.append({'url':q_entity,'res':tmp})

    for n in res_list:
        print(n)

最终输出结果如下图所示，可以发现其判断较为准确。

5.完整代码

完整代码如下，并推荐大家去Github学习很多有些的代码，也推荐大家去FreeBuf、安全客、CVE等网站学习。作者Github有完整代码：https://github.com/eastmountyxz/NetworkSecuritySelf-study

# coding: utf-8
import os
import urllib
import time
import html
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

# 获取文本中的请求列表
def get_query_list(filename):
    directory = str(os.getcwd())
    print(directory)
    filepath = directory + "/" + filename
    data = open(filepath, 'r', encoding='UTF-8').readlines()
    query_list = []
    for d in data:
        # 解码
        d = str(urllib.parse.unquote(d))   #converting url encoded data to simple string
        #print(d)
        query_list.append(d)
    return list(set(query_list))

# tokenizer function, this will make 3 grams of each query
# www.foo.com/1 转换为 ['www','ww.','w.f','.fo','foo','oo.','o.c','.co','com','om/','m/1']
def get_ngrams(query):
    tempQuery = str(query)
    ngrams = []
    for i in range(0, len(tempQuery)-3):
        ngrams.append(tempQuery[i:i+3])
    return ngrams

# 主函数
if __name__ == '__main__':
    
    # 获取正常请求
    good_query_list = get_query_list('goodqueries.txt')
    print(u"正常请求: ", len(good_query_list))
    for  i in range(0, 5):
        print(good_query_list[i].strip('\n'))
    print("\n")
        
    # 获取恶意请求
    bad_query_list = get_query_list('badqueries.txt')
    print(u"恶意请求: ", len(bad_query_list))
    for  i in range(0, 5):
        print(bad_query_list[i].strip('\n'))
    print("\n")

    # 预处理 good_y标记为0 bad_y标记为1
    good_y = [0 for i in range(0, len(good_query_list))]
    print(good_y[:5])
    bad_y = [1 for i in range(0, len(bad_query_list))]
    print(bad_y[:5])
    
    queries = bad_query_list + good_query_list
    y = bad_y + good_y

    # 定义矢量化 converting data to vectors
    # TfidfTransformer + CountVectorizer  =  TfidfVectorizer
    vectorizer = TfidfVectorizer(tokenizer=get_ngrams)

    # 把不规律的文本字符串列表转换成规律的 ( [i,j], tdidf值) 的矩阵X
    # 用于下一步训练逻辑回归分类器
    X = vectorizer.fit_transform(queries)
    print(X.shape)

    # 使用 train_test_split 分割 X y 列表
    # X_train矩阵的数目对应 y_train列表的数目(一一对应)  -->> 用来训练模型
    # X_test矩阵的数目对应 	 (一一对应) -->> 用来测试模型的准确性
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=20, random_state=42)

    # 定理逻辑回归方法模型
    LR = LogisticRegression()
    
    # 训练模型
    LR.fit(X_train, y_train)

    # 使用测试值 对 模型的准确度进行计算
    print('模型的准确度:{}'.format(LR.score(X_test, y_test)))
    print("\n")

    # 对新的请求列表进行预测
    new_queries = ['www.foo.com/id=1',
                   'www.foo.com/name=admin\' or 1=1','abc.com/admin.php',
                   '">,
                   'test/q=,
                   'q=../etc/passwd',
                   '/stylesheet.php?version=1331749579',
                   '/.idc',
                   '',
                   '/jhot.php?rev=2 |less /etc/passwd']
    
    # 矩阵转换
    X_predict = vectorizer.transform(new_queries)
    res = LR.predict(X_predict)
    res_list = []

    # 结果输出
    for q,r in zip(new_queries, res):
        tmp = '正常请求' if r == 0 else '恶意请求'
        q_entity = html.escape(q)
        res_list.append({'url':q_entity,'res':tmp})

    for n in res_list:
        print(n)

四.总结

写到这里，一篇基于机器学习的恶意代码请求识别讲述完毕，希望读者喜欢，不喜勿喷。该代码的亮点是N-grams融合到TF-IDF，当然也可以换成其他分类模型，虽然代码很基础，但也花费了作者三个小时时间，并且查阅了大量网页文章复现的（如下图所示）。

一步一个脚印前行，接下来希望通过深度学习实现更多的恶意代码识别和对抗样本，准备开启TensorFlow2.0和更多的安全基础系列的学习。作为安全领域的菜鸟，感觉自己要学习的知识好多、好杂，而且很多收费资料很贵，这系列文章都是作者自学且免费分享给博友们的，希望你们喜欢和点赞，未来继续加油！因为有你的阅读，才有我写作的动力，秀璋共勉。

(By:Eastmount 2019-11-01 中午2点于武汉 http://blog.csdn.net/eastmount/ )

你可能感兴趣的:(网络安全,Web安全)

计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
信息系统安全相关概念(下) YuanDaima2048 基础概念课程笔记安全
文章总览：YuanDaiMa2048博客文章总览上篇指路：信息系统安全相关概念(上)信息系统安全相关概念[下]信息系统风险评估安全风险评估信息系统等级保护网络安全法等级保护等级保护工作流程环境安全信息系统风险评估安全风险评估对信息系统整体安全态势的感知和对重大安全事件的预警，实现“事前能预防，事中能控制，事后能处理”。安全风险组成的四要素：信息系统资产（Asset）信息系统脆弱性（Vulnerab
使用游戏盾就可以保证游戏不被攻击吗？德迅云安全小李游戏网络服务器安全网络安全
游戏服务器不管是个人的还是企业的，被攻击都是，很常见的，在所难免的。特别是游戏新上线时，都要承受的住哪些外来压力，玩家突然猛增，被攻击等等。如果承受不住可能会直接宣布游戏倒闭。这里我们一起来说说怎么用游戏盾防御游戏服务器。首先我们要了解的一点是，什么是"游戏盾"游戏盾是针对游戏行业所推出的高度可定制的网络安全解决方案，除了能针对大型DDoS攻击（T级别）进行有效防御外，还能彻底解决游戏行业特有的T
Web安全:Web体系架构存在的安全问题和解决方室程序员-张师傅前端安全 web安全前端
Web体系架构在提供丰富功能和高效服务的同时，也面临着诸多安全问题。这些问题可能涉及数据泄露、服务中断、系统被控制等多个方面，对企业和个人造成不可估量的损失。以下是对Web体系架构中存在的安全问题及解决方案的详细分析：Web体系架构存在的安全问题注入攻击SQL注入：攻击者通过在输入字段中插入恶意SQL代码，操控后台数据库，窃取、篡改或删除数据。OS命令注入：攻击者通过输入字段插入恶意代码，执行系统
构建常态化安全防线：XDR的态势感知与自动化响应机制安胜ANSCEN 网络安全运维威胁分析自动化响应网络安全常态化安全运营
当前，网络安全威胁日益复杂多变，企业正面临前所未有的严峻挑战。为有效应对这些挑战，态势感知与自动化响应机制在提升网络安全运营效率与防御效果中扮演着至关重要的角色。它们能够实时监测网络状态，智能分析潜在威胁，并在发现异常时立即触发自动化响应流程，从而迅速遏制安全风险，保障企业数字资产的安全。态势感知网络安全的“预警雷达”态势感知，作为网络安全运营的核心组件，犹如一张无形的“预警雷达”，全面监测网络环
【网络安全】漏洞挖掘：php代码审计秋说网络安全 php web安全漏洞挖掘
未经许可，不得转载。文章目录正文正文在应用程序中，通过一个JavaScript注释发现了一个备份ZIP文件。解压后，获取了应用程序的代码，其中包含如下代码片段：代码首先检查变量$action是否等于'convert'，如果是，则继续执行。随后对传入的变量$data使用trim()函数去除两端空白字符，并使用eval()函数执行$data的内容。显然，代码对$data没有进行任何过滤或验证，因此可以
【网络安全 | 代码审计】JFinal之DenyAccessJsp绕过秋说网络安全 web安全 java 代码审计漏洞挖掘
未经许可，不得转载。文章目录前言代码审计推理绕过Tomcat解析JSP总结概念验证阐发前言JFinal是一个基于Java的轻量级MVC框架，用于快速构建Web应用程序。它的设计理念是追求极简、灵活、高效，旨在提高开发效率，减少冗余代码的编写，适合中小型项目以及对性能有较高要求的项目。在较新的JFinal版本中，默认情况下无法直接通过浏览器地址栏输入.jsp文件名来访问对应的JSP文件。也就是说，主
为什么需要DDos高防服务器呢？ 666IDCaaa ddos 服务器网络
在当今信息化快速发展的时代，网络安全问题显得尤为重要。DDoS攻击是一种耗尽系统资源的攻击方式，可以导致正常服务请求无法得到响应。这种攻击不仅影响用户体验，还可能导致企业声誉受损、经济损失以及客户流失等严重后果。因此，选择有效的DDoS高防服务对于保护网络安全至关重要。DDoS高防服务可以通过云端清洗集群、数据库监控牵引系统等技术进行有效的削弱。这些技术能够识别并过滤恶意流量，确保正常用户能够顺利
都2024年了，还在问网络安全怎么入门，气得我当场脑血栓发作网安大师兄 web安全网络安全网络安全学习
前言本人从事网路安全工作12年，曾在2个大厂工作过，安全服务、售后服务、售前、攻防比赛、安全讲师、销售经理等职位都做过，对这个行业了解比较全面。下面就开始进入正题，如何从一个萌新一步一步进入网络安全行业。正题首先,在准备进入这个行业之前，我们要问一下我们的内心，工作千千万，为什么要想进入这个行业？相信每个人的答案都不一样，有的人会说，这个行业整体上比其他行业赚钱多，有的人会说特别喜欢技术，想钻研一
流量牵引技术与传统防火墙的区别 666IDCaaa ddos
在网络安全领域，流量牵引技术和传统防火墙都起着重要的作用，但它们在很多方面存在着明显的区别。一、工作原理不同传统防火墙主要是通过设置访问控制规则来过滤网络流量。它基于预先设定的策略，对进入和离开网络的数据包进行检查，根据源地址、目的地址、端口号等信息决定是否允许数据包通过。例如，企业可以设置防火墙规则，只允许特定IP地址的设备访问内部网络资源，或者禁止某些端口的流量进入，以防止潜在的攻击。而流量牵
网络安全测评技术与标准坚持可信信息安全 web安全网络安全
网络安全测评是评估信息系统、网络和应用程序的安全性，以发现潜在的漏洞和威胁，并确保系统符合安全标准和政策的过程。以下是常见的网络安全测评类型：1.渗透测试（PenetrationTesting）描述：通过模拟真实的攻击，评估系统、网络和应用程序的安全性，识别和修复漏洞。目标：发现系统中的安全漏洞，评估其可能被利用的风险。方法：黑盒测试：测试人员没有系统内部信息，模拟外部攻击者。白盒测试：测试人员拥
2021国家开放大学计算机网络安全技术形成性考核五 chaoliang.top 国开试题网络安全网络安全
本人还会继续更新其他国家开放大学的试题，请大家多多关注，如果有什么建议，还希望大家提出来，本人也好完善本人在测试答案的时候发现，本章考试回顾结果中明明选对了答案，但是提示错误的情况，并且该题没有提示正确答案，这种情况应该是国开试题出现bug导致，请大家不要担心，如果有追求完美的同学，多答几次，可能就会避开这种题，因为出题是随机的。1.SQL注入一般可通过网页表单直接输入选择多项：对错正确答案：对2
如何提高网络安全意识亿林网络安全事业部网络 web安全安全
提升网络安全意识的方法提升网络安全意识是个人和企业都需要重视的问题。以下是一些有效的方法：加强教育和培训：通过参加网络安全培训课程，学习识别网络攻击的常见迹象、安全密码的设置、不点击可疑链接等知识。建立网络安全政策：制定个人网络安全规则，如定期更改密码、不在公共网络上进行敏感操作等。定期更新系统：保持操作系统和软件程序的最新状态，及时修补安全漏洞。加强网络防护：使用防火墙、反病毒软件、入侵检测系统
CTF——web方向学习攻略一则孤庸 CTF 网络安全 CTF
1计算机基础操作系统：熟悉Linux命令，方便使用Kali。网络技术：HCNA、CCNA。编程能力：拔高项，有更好。2web应用HTTP协议：必须掌握web开发框架web安全测试3数据库数据库基本操作SQL语句数据库优化4刷题
学习笔记：FW内容安全概述 TKE_yinian
内容安全概述信息安全概述主要威胁关于防护简介内容安全威胁应用层威胁内容安全技术WEB安全应用安全入侵防御检测邮件安全数据安全网络安全反病毒全局环境感知沙箱检测信息安全概述•信息安全是对信息和信息系统进行保护，防止未授权的访问、使用、泄露、中断、修改、破坏并以此提供保密性、完整性和可用性。•为关键资产提供机密性、完整性和可用性（CIA三元组）保护是信息安全的核心目标。CIA（Confidential
安全隔离上网的有效途径：沙箱 Canon_YK 零信任防泄密源代码防泄密安全网络服务器网络安全 web安全
在数字化浪潮日益汹涌的今天，网络安全成为了不可忽视的重要议题。沙箱技术作为一种高效的隔离机制，为企业和个人提供了一种在享受网络便利的同时，保障系统安全的解决方案。本文旨在深入探讨沙箱技术如何做到隔离上网，从而为用户提供一个安全、可靠的上网环境。一、沙箱技术的原理与定义沙箱技术，顾名思义，就像是在计算机系统中构建一个“沙箱”，将应用程序或系统进程的运行限制在这个“沙箱”内，使其无法访问或修改系统核心
2024世界技能大赛某省选拔赛“网络安全项目”B模块--数据包分析(SMB流量) 落寞的魚丶 web安全安全 2024世界技能大赛选拔赛网络安全 B模块 SMB流量分析
2024世界技能大赛某省选拔赛“网络安全项目”B模块--数据包分析③任务二、网络数据包分析取证解析：总结：任务二、网络数据包分析取证解析：A集团的网络安全监控系统发现有恶意攻击者对集团官方网站进行攻击，并抓取了部分可疑流量包。请您根据捕捉到的流量包，搜寻出网络攻击线索，并分析黑客的恶意行为。本任务素材清单：捕获的网络数据包文件（*.pcap）请按答题卡的要求完成该部分的工作任务。序号任务要求11.
第十二章虚拟局域网VLAN 电脑菜鸡计算机网络第一阶段智能路由器网络
【基础词汇】status：状态active：活动ports:端口default:默认一、分割广播方式：物理分割：路由器逻辑分割：vlan技术二、VLAN：虚拟局域网.VLAN的优势：控制广播、增强网络安全性、简化网络管理.三、VLAN的分类.1.静态VLAN：基于端口划分.（1）指定交换机的端口属于哪个VLAN.（2）当主机连接到交换机端口上时，就被分配到了对应的VLAN中2.动态VLAN：基于M
AttackGen - AI 网络安全事件响应测试工具，附下载链接白帽学子安全工具 web安全安全网络安全漏洞挖掘红队
为了提高我们团队在安全活动中的响应效率，我关注到了一款叫AttackGen的工具，我们需要的是一个既能快速生成场景又能准确反映现实威胁的工具。在红蓝对抗中，我们经常要模拟各种攻击场景，以测试我们的防御水平。这不仅仅是为了“打”出个结果，更重要的是从中识别出潜在的弱点，并制定相应的修复策略。传统的做法往往需要我们手动构建这些攻击场景而AttackGen能够根据指定的威胁行为者组和组织的特征来自动生成
网络安全（黑客）自学白帽子凯哥 web安全安全网络安全服务器网络
一、什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。无论网络、Web、移动、桌面、云等哪个领域，都有攻与防两面性，例如Web安全技术，既有Web渗透，也有Web防御技术（WAF）。作为一个合格的网络安全工程师，应该做到攻守兼备，毕竟知己知彼，才能百战百胜。二、怎样规划网络安全如果你是一
网络安全学习路线图（2024版详解）白帽子008 web安全学习安全网络安全运维
近期，大家在网上对于网络安全讨论比较多，想要学习的人也不少，但是需要学习哪些内容，按照什么顺序去学习呢？其实我们已经出国多版本的网络安全学习路线图，一直以来效果也比较不错，本次我们针对市场需求，整理了一套系统的网络安全学习路线图，供大家学习参考。希望大家按照路线图进行系统学习不仅可以更高效的完成上岸，还能够系统化学习，提升自己的后期竞争力。第一阶段：数通安全Windows系统安全1.企业资产安全规
云服务器如何预防黑客攻击？云安全范德彪网络安全负载均衡 ddos 服务器游戏
随着互联网科技的发展，网络安全问题日益突出，企业服务器被进犯的事情也越来越频频，怎么有用处理了中小企业DDOS进犯问题。云服务器被ddos进犯了怎么办?互联网服务器遭到大流量进犯时，用户可通过装备高防，将歹意进犯流量引向高防，对维护体系进行流量过滤清洗，再将正常流量返回服务器，确保源站正常可用。1.提高服务器防护攻击流量过大，超过服务器的防护能力，就会被打封，会出现远程不上服务器、用户掉线等情况，
网络安全（黑客）——自学2024 白帽子黑客-宝哥 web安全安全嵌入式硬件网络单片机
一、什么是网络安全网络安全是一种综合性的概念，涵盖了保护计算机系统、网络基础设施和数据免受未经授权的访问、攻击、损害或盗窃的一系列措施和技术。经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。作为一个合格的网络安全工程师，应该做到攻守兼备，毕竟知己知彼，才能百战百胜。二、网络安全怎么入门安全并非孤立存在，而是建立在其计算机基础之上的应用技术。
2024网络安全学习路线非常详细推荐学习白帽黑客-晨哥 web安全学习安全数据库 php
关键词：网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线首先咱们聊聊，学习网络安全方向通常会有哪些问题1、打基础时间太长学基础花费很长时间，光语言都有几门，有些人会倒在学习linux系统及命令的路上，更多的人会倒在学习语言上；2、知识点掌握程度不清楚对于网络安全基础内容，很多人不清楚需要学到什么程度，囫囵吞枣，导致在基础上花费太多时间；看到很多小伙伴，买了HTML，PHP，数据库，计算机
入门网络安全工程师要学习哪些内容白帽黑客2659 web安全学习安全网安入门网络安全
大家都知道网络安全行业很火，这个行业因为国家政策趋势正在大力发展，大有可为!但很多人对网络安全工程师还是不了解，不知道网络安全工程师需要学什么?知了堂小编总结出以下要点。网络安全工程师是一个概称，学习的东西很多，具体学什么看自己以后的职业定位。如果你以后想成为安全产品工程师，学的内容侧重点就和渗透测试工程师不一样，如果你想成为安全开发工程师，学的侧重点就和安全运维工程师不一样。网络安全工程师学的东
【网络安全】漏洞挖掘之CVE-2019-9670+检测工具秋说网络安全 web安全漏洞挖掘 CVE
未经许可，不得转载。文章目录漏洞介绍正文工具漏洞介绍CVE-2019-9670是一个与ZimbraCollaborationSuite(ZCS)相关的严重漏洞。ZCS中的AutoDiscover服务存在不正确的XML解析处理，该漏洞可被利用来注入恶意XML代码（例如外部实体注入（XXE）攻击），从而导致服务器任意文件读取或远程代码执行(RCE)。Zimbra]>
为什么说千万别学网络安全专业？小杰的网工专栏 web安全网络安全
前言很多人说千万别学网络安全专业的原因是因为网络安全专业学习的课程非常难。就业要求高。很多同学在大学开始接触网络空间安全专业时，才发现：对于自己来说，网络空间安全专业相关的课程学习难度有点高。为什么说千万别学网络安全专业的原因小编看来网络安全专业是很好的专业，前景很好。但是很多人说千万别学网络安全专业主要有以下原因：1、网络安全专业大多需要的是高端技术人才。国家需要的是专业水平在前1%技术大牛，简
程序员下班以后做什么副业合适？_程序员下班需要学什么网络安全乔妮娜网络安全 web安全安全职场和发展人工智能
我就是一个最普通的网络安全工程师，出道快10年了，不出意外地遭遇到瓶颈期，但是凭技术在各大平台挖漏洞副业，硬是妥妥扛过来了。因为对于程序员来讲，这是个试错成本很低、事半功倍的选择。编程技能是一种强大生产力，决定程序员是一个高薪职业，同时由于技术迭代太快，决定程序员也是一种高风险职业，不仅有学习门槛，还有黄金时间，过期产生不了过多价值，稍不留神就被淘汰，所以35岁危机是众多程序员的梦魇，如何化解？惟
网络安全要点总结大嘴巴子计算机网络 web安全安全
1.入侵检测与防御：1）入侵检测与系统IDS(intrusiondetectionsystem):防火墙之后的第二道闸门；IDS的部署：采用镜像端口或者集线器方式；部署在：服务器交换机上，internet接入路由器后面的第一台交换机上；IRSintrusionresponsesystem入侵响应系统：2）.IPS（intrusionpreventionsystem）:入侵防御系统；检测并中断；检测
网络安全的相关比赛有哪些？需要掌握哪些必备技能？网安学习 web安全安全网络安全的相关比赛有哪
01、CTF（夺旗赛）这是一种最常见的网络安全竞技形式，要求参赛者在限定时间内解决一系列涉及密码学、逆向工程、漏洞利用、取证分析等领域的挑战，获取标志（flag）并提交得分。通过举办CTF来培养网络安全人才，已经发展成为了国际网络安全圈的共识。CTF赛事可以分为线上赛和线下赛，线上赛通常是解题模式（Jeopardy），线下赛通常是攻防模式（Attack-Defense）。CTF赛事的代表性线下赛事
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那