Eastmount

[网络安全自学篇] 三十五.恶意代码攻击溯源及恶意样本分析

本文主要结合作者的《系统安全前沿》作业，师姐的论文及绿盟李东宏老师的博客，从产业界和学术界分别详细讲解恶意代码攻击溯源的相关知识。在学术界方面，用类似于综述来介绍攻击追踪溯源的不同方法；在产业界方面，主要参考李东宏老师从企业恶意样本分析的角度介绍溯源工作。关于攻击溯源的博客和论文都比较少，希望这篇文章对您有所帮助，如果文章中存在错误或理解不到位的地方，还请告知作者与海涵~

这是作者的系列网络安全自学教程，主要是关于安全工具和实践操作的在线笔记，特分享出来与博友们学习，希望您们喜欢，一起进步。同时，更希望您能与我一起操作和进步，后续将深入学习网络安全和系统安全知识并分享相关实验。总之，希望该系列文章对博友有所帮助，写文不易，大神们不喜勿喷，谢谢！如果文章对您有帮助，将是我创作的最大动力。

下载地址：https://github.com/eastmountyxz/NetworkSecuritySelf-study
资源下载地址：

文章目录

一.前言
二.恶意代码攻击溯源的相关研究

1.恶意代码溯源
2.追踪溯源案例

三.学术界恶意代码溯源

1.特征提取
2.特征预处理
3.相似性计算
4.同源判定

四.产业界恶意代码溯源

1.恶意攻击流程及溯源方法
2.域名/IP
3.入侵日志
4.全流量分析
5.同源分析
6.攻击模型

五.总结

前文学习：
[网络安全自学篇] 一.入门笔记之看雪Web安全学习及异或解密示例
[网络安全自学篇] 二.Chrome浏览器保留密码功能渗透解析及登录加密入门笔记
[网络安全自学篇] 三.Burp Suite工具安装配置、Proxy基础用法及暴库示例
[网络安全自学篇] 四.实验吧CTF实战之WEB渗透和隐写术解密
[网络安全自学篇] 五.IDA Pro反汇编工具初识及逆向工程解密实战
[网络安全自学篇] 六.OllyDbg动态分析工具基础用法及Crakeme逆向破解
[网络安全自学篇] 七.快手视频下载之Chrome浏览器Network分析及Python爬虫探讨
[网络安全自学篇] 八.Web漏洞及端口扫描之Nmap、ThreatScan和DirBuster工具
[网络安全自学篇] 九.社会工程学之基础概念、IP获取、IP物理定位、文件属性
[网络安全自学篇] 十.论文之基于机器学习算法的主机恶意代码
[网络安全自学篇] 十一.虚拟机VMware+Kali安装入门及Sqlmap基本用法
[网络安全自学篇] 十二.Wireshark安装入门及抓取网站用户名密码（一）
[网络安全自学篇] 十三.Wireshark抓包原理（ARP劫持、MAC泛洪）及数据流追踪和图像抓取（二）
[网络安全自学篇] 十四.Python攻防之基础常识、正则表达式、Web编程和套接字通信（一）
[网络安全自学篇] 十五.Python攻防之多线程、C段扫描和数据库编程（二）
[网络安全自学篇] 十六.Python攻防之弱口令、自定义字典生成及网站暴库防护
[网络安全自学篇] 十七.Python攻防之构建Web目录扫描器及ip代理池（四）
[网络安全自学篇] 十八.XSS跨站脚本攻击原理及代码攻防演示（一）
[网络安全自学篇] 十九.Powershell基础入门及常见用法（一）
[网络安全自学篇] 二十.Powershell基础入门及常见用法（二）
[网络安全自学篇] 二十一.GeekPwn极客大赛之安全攻防技术总结及ShowTime
[网络安全自学篇] 二十二.Web渗透之网站信息、域名信息、端口信息、敏感信息及指纹信息收集
[网络安全自学篇] 二十三.基于机器学习的恶意请求识别及安全领域中的机器学习
[网络安全自学篇] 二十四.基于机器学习的恶意代码识别及人工智能中的恶意代码检测
[网络安全自学篇] 二十五.Web安全学习路线及木马、病毒和防御初探
[网络安全自学篇] 二十六.Shodan搜索引擎详解及Python命令行调用
[网络安全自学篇] 二十七.Sqlmap基础用法、CTF实战及请求参数设置（一）
[网络安全自学篇] 二十八.文件上传漏洞和Caidao入门及防御原理（一）
[网络安全自学篇] 二十九.文件上传漏洞和IIS6.0解析漏洞及防御原理（二）
[网络安全自学篇] 三十.文件上传漏洞、编辑器漏洞和IIS高版本漏洞及防御（三）
[网络安全自学篇] 三十一.文件上传漏洞之Upload-labs靶场及CTF题目01-10（四）
[[网络安全自学篇] 三十二.文件上传漏洞之Upload-labs靶场及CTF题目11-20（五）]
[网络安全自学篇] 三十三.文件上传漏洞之绕狗一句话原理和绕过安全狗（六）

前文欣赏：
[渗透&攻防] 一.从数据库原理学习网络攻防及防止SQL注入
[渗透&攻防] 二.SQL MAP工具从零解读数据库及基础用法
[渗透&攻防] 三.数据库之差异备份及Caidao利器
[渗透&攻防] 四.详解MySQL数据库攻防及Fiddler神器分析数据包

声明：本人坚决反对利用教学方法进行犯罪的行为，一切犯罪行为必将受到严惩，绿色网络需要我们共同维护，更推荐大家了解它们背后的原理，更好地进行防护。

一.前言

近年来，网络安全事件和恶意代码攻击层出不穷，它们给国家、社会和个人带来了严重的危害，如分布式拒绝服务攻击(DDoS)、基于僵尸网络(Botnet)的攻击、勒索病毒WannaCry、高级可持续威胁(APT)攻击、利用远程控制木马的信息窃取等。

2017年以来，恶意代码数量依然呈上升的趋势，尤其是新型恶意代码，其数量始终呈逐年递增状态，这对网络空间安全造成了极大的威胁。在这些恶意代码攻击中，攻击者会向目标主机(受害主机)，发送特定的攻击数据包或执行恶意行为。如果能追踪这些攻击数据包的来源，定位攻击者的真实位置，受害主机不但可以采用应对措施，如在合适位置过滤攻击数据包，而且可以对攻击者采取法律手段。因此在网络取证和安全防御领域，网络攻击溯源一直是一个热点问题。

下图展示了APT组织Lazarus（APT38）的重大攻击时间线。如果某次攻击发生时或发生前，我们能够追踪溯源到是某个组织发起的，那是不是就能有效避免一次安全攻击呢？
强推这篇文章：APT组织Lazarus的攻击历程 - Freebuf深信服团队

网络攻击追踪溯源旨在利用各种手段追踪网络攻击的发起者。相关技术提供了定位攻击源和攻击路径，针对性反制或抑制网络攻击，以及网络取证能力，其在网络安全领域具有非常重要的价值。当前，网络空间安全形势日益复杂，入侵者的攻击手段不断提升，其躲避追踪溯源的手段也日益先进，如匿名网络、网络跳板、暗网、网络隐蔽信道、隐写术等方法在网络攻击事件中大量使用，这些都给网络攻击行为的追踪溯源工作带来了巨大的技术挑战。

传统的恶意代码攻击溯源方法是通过单个组织的技术力量，获取局部的攻击相关信息，无法构建完整的攻击链条，一旦攻击链中断，往往会使得前期大量的溯源工作变得毫无价值。同时，面对可持续、高威胁、高复杂的大规模网络攻击，没有深入分析攻击组织之间的关系，缺乏利用深层次恶意代码的语义知识，后续学术界也提出了一些解决措施。

下图展示了Lazarus盗窃孟加拉国央行的行动流程，通过Alreay攻击组件篡改SWIFT软件，使得黑客能够操作银行账号任意进行转账，从而窃取了8100万美元。同时，在2017年最早版本的WannaCry病毒中，安全厂商发现了其中存在着Lazarus使用过的代码，从而判断该病毒是由Lazarus制作的。Lazarus确实是一支非常厉害的APT组织。

为了进一步震慑黑客组织与网络犯罪活动，目前学术界和产业界均展开了恶意代码溯源分析与研究工作。其基本思路是：

同源分析： 利用恶意样本间的同源关系发现溯源痕迹，并根据它们出现的前后关系判定变体来源。恶意代码同源性分析，其目的是判断不同的恶意代码是否源自同一套恶意代码或是否由同一个作者、团队编写，其是否具有内在关联性、相似性。从溯源目标上来看，可分为恶意代码家族溯源及作者溯源。
家族溯源： 家族变体是已有恶意代码在不断的对抗或功能进化中生成的新型恶意代码，针对变体的家族溯源是通过提取其特征数据及代码片段，分析它们与已知样本的同源关系，进而推测可疑恶意样本的家族。例如，Kinable等人提取恶意代码的系统调用图，采用图匹配的方式比较恶意代码的相似性，识别出同源样本，进行家族分类。
作者溯源： 恶意代码作者溯源即通过分析和提取恶意代码的相关特征，定位出恶意代码作者特征，揭示出样本间的同源关系，进而溯源到已知的作者或组织。例如，Gostev等通过分析Stuxnet与Duqu所用的驱动文件在编译平台、时间、代码等方面的同源关系，实现了对它们作者的溯源。2015年，针对中国的某APT攻击采用了至少4种不同的程序形态、不同编码风格和不同攻击原理的木马程序，潜伏3年之久，最终360天眼利用多维度的“大数据”分析技术进行同源性分析，进而溯源到“海莲花”黑客组织。

由此可见，发现样本间的同源关系对于恶意代码家族和作者的溯源，甚至对攻击组织的溯源以及攻击场景还原、攻击防范等均具有重要意义。

二.恶意代码攻击溯源的相关研究

1.恶意代码溯源

在与恶意样本的的对抗过程中，恶意软件分析和检测技术也在不断发展。基于静态分析的检测、基于动态分析的检测以及基于机器学习的检测等技术不断涌现。基于静态分析的检测对非混淆样本更为准确，而基于动态分析的检测在检测混淆恶意软件方面表现更为出色；基于机器学习的检测是通过对大规模恶意样本进行特征提取(如 API(application programming interface)、CFG(control flow graph)、关键字符串值等)，然后采用机器学习算法(例如分类或聚类)训练样本，以构建模型判断软件的恶意特性。这为安全研究人员提供了良好的辅助功能，有效地提高了大规模恶意软件的检测速度。

恶意代码溯源： 是指通过分析恶意代码生成、传播的规律以及恶意代码之间衍生的关联性，基于目标恶意代码的特性实现对恶意代码源头的追踪。了解恶意代码的演化，有助于更好地把握恶意代码的发展趋势，为攻击追踪溯源提供相关启示。宋文纳等从时间维度给出了恶意软件典型功能演变历程，并将恶意软件的演化历程分为3个阶段。

第一阶段为1971年至1999年，恶意软件主要以原始程序的形式出现，恶意软件功能单一，破坏程度小，无对抗行为。
第二阶段为2000年至2008年，恶意软件的破坏性增强，恶意软件及其工具包数量急剧增长，借助网络感染速率加快，电子邮件类蠕虫、受损网站、SQL注入攻击成为主流。
第三阶段为2000年之后，经济利益和国家利益的驱使下的恶意软件存在团队协作紧密、功能日趋复杂、可持续性强及对抗性强等特点。

PC端恶意软件的演化及影响详见下表：

时间段	代表样本	软件类型	目的或影响	样本功能技术特征
1971	Creeper	一般程序	实验	能够在计算机之间移动
1974	Wabbit	一般程序	致使系统奔溃	具有自我复制功能
1982	Elk cloner	病毒	克隆	具有传播、自我复制功能
1986	PC-Write trojan	病毒	测试公司软件漏洞	可以感染MS-DOS计算机
1991	Michelangelo virus	病毒	在3月6日擦除硬盘中信息	感染,擦除硬盘信息
1999	Melissa virus	病毒	群发邮件	感染计算机,获取其outlook地址薄，群发邮件
2000	ILOVEYOU worm	蠕虫	损害大型企业和政府机构	以良性主题发送电子邮件传播，感染5000万台计算机,蔓延至全球.
2001	Annna Kournikova virus	病毒	传播恶意软件，进行破坏	将恶意软件隐藏在吸引人的照片中，通过电子邮件发送进行传播
2003	SQL slammer worm	蠕虫	感染计算机实施破坏	利用漏洞，传播速度快，感染范围广
2005	Koobface virus	病毒	针对社交网络进行攻击	感染PC然后传播到社交网站
2008	ConFicker worm	蠕虫	造成自Slammer出现以来最严重破坏	感染并实施破坏
2010	Stuxnet worm	蠕虫	攻击伊朗的核电站，包括其硬件与软件功能	具有APT团队开发的复杂性和先进性，具有密集资源信息
2011	Zeus trojan	木马	窃取银行信息	影响范围广，通过浏览器按键记录和表单抓取来窃取银行信息.
2014	Backoff	后门	盗取信用卡数据	破坏POS系统以窃取信用卡数据
2017	Wannacry ransomware	勒索软件	获取支付赎金	利用漏洞，将用户数据锁定，致使感染150多个国家超过23万台Windows系统瘫痪

网络攻击追踪溯源按照追踪的深度和精准度可分为：

追踪溯源攻击主机
追踪溯源攻击控制主机
追踪溯源攻击者
追踪溯源攻击组织机构

常用方法包括域名/IP地址分析、入侵日志监测、全流量分析、同源分析、攻击模型分析等。为了进一步防御网络犯罪活动和威慑黑客组织，目前学术界和产业界均展开了恶意代码溯源分析与研究工作。

下图展示了网络追踪溯源体系结构：

网络追踪溯源常用工具包括：磁盘和数据捕获工具、文件查看器、文件分析工具、注册表分析工具、互联网分析工具、电子邮件分析工具、移动设备分析工具、网络流量取证工具、数据库取证工具等。

推荐三篇相关工具及技术的文章：

恶意软件分析大合集
恶意代码分析相关工具&漏洞挖掘相关工具
探寻APT的化学本质与破解之术

2.追踪溯源案例

这里分享两个简单的案例，一个是铁人王进喜案例，另一个是Lazarus溯源案例。

(1) 铁人王进喜案例
中国最著名“照片泄密案”是1964年《中国画报》封面刊出的一张照片。在这张照片中，中国大庆油田的“铁人”王进喜头戴大狗皮帽，身穿厚棉袄，顶着鹅毛大雪，握着钻机手柄眺望远方。日本情报专家根据这张照片，解开了中国最大的石油基地大庆油田的秘密，分析出大庆油田及其产油量和规模，从而在同中方谈判购买设备时占得先机。

从第一张照片中分析出：大庆可能位于东北省。
根据照片上王进喜的衣着判断，只有在北纬46度至48度的区域内，冬季才有可能穿这样的衣服，因此推断大庆油田位于齐齐哈尔与哈尔滨之间。

从第二张照片中分析出：油井的直接。

从第三张照片中分析出：马家窑是大庆的中心。

从第四张照片中分析出：马家窑离火车站不远。

从第五张照片中分析出：大庆已经大量产油。

从工作报告中分析出：大庆油田的产油量。同时，从王进喜所站的钻井与背后油田间的距离和井架密度，推断出油田的大致储量和产量。

有了如此多的准确情报，日本人迅速设计出适合大庆油田开采用的石油设备。当中国政府向世界各国征求开采大庆油田的设备方案时，日本人一举中标。庆幸的是，日本当时是出于经济危机，根据情报分析结果，向我国高价推销炼油设施，而不是用于其他战略意图。看了这个案例，您会想到什么呢？其实这就是安全领域一个非常经典的社会工程学案例。

(2) Lazarus溯源案例

该部分源自：https://www.freebuf.com/articles/system/221008.html

对APT组织进行追踪需要一定的积累，只有熟悉了该组织的常用攻击手法（TTPs），才能在新型的攻击中将其辨识出来。其中，通过样本共用代码段进行关联是最高效的方式，这也突显了使用yara规则进行样本分析的好处。

首先，我们需要从已有的样本中筛选出相同的特征码，可以使用Bindiff来比较已有样本相似的代码片段，如下：找到相似度较高且不是系统API的函数。

然后优先选取Blocks数较多、匹配指令数较多的函数。

可以重点挑选一些加密算法代码作为特征码，这样比较没那么容易误报。除此之外，也可以使用一些自动化提取yara规则的工具可以使用，比如yargen：https://github.com/Neo23x0/yarGen。

如下，是提取出来的wannacry的特征码，可以在VT上进行关联，来追踪Lazarus的相似攻击组件。

在VT搜索框中，输入：content:”{51 53 55 8B 6C 24 10 56 57 6A 20 8B 45 00 8D 75 04 24 01 0C 01 46 89 45 00 C6 46 FF 03 C6 06 01 46 56 E8}”，就能筛选出所有具有这个代码片段的样本，直到今年7月份，都还有相关的样本活跃。

打开详细信息，发现这是Lazarus用于攻击孟加拉国的alreay攻击组件，那么也就说明，WannaCry和Alreay确实有共用的代码片段，通过这种方式，就可以关联出Lazarus所使用的攻击组件。

将yara规则添加到hunting中，一旦VT捕获到新的样本符合这条规则，就会立刻通知我们。

三.学术界恶意代码溯源

学术界旨在采用静态或动态的方式获取恶意代码的特征信息，通过对恶意代码的特征学习，建立不同类别恶意代码的特征模型，通过计算待检测恶意代码针对不同特征类别的相似性度量，指导恶意代码的同源性判定。常见的恶意代码溯源主要包括4个阶段：特征提取、特征预处理、相似性计算、同源判定，各阶段间的流程关系如下图所示。

上图是将溯源对象Windows平台的PE恶意文件或Android平台的APK恶意文件输入溯源系统，经过特征提取、特征预处理、相似性计算、同源分析获取溯源结果，最终判定攻击家族或作者。

1.特征提取

特征提取是溯源分析过程的基础，具有同源性的恶意代码是通过它们的共有特征与其他代码区分开来的。所提取的特征既要反映出恶意代码的本质和具有同源性恶意代码之间的相似性，又要满足提取的有效性。

依据溯源目的，溯源特征提取包括溯源家族的特征提取和溯源作者的特征提取。Faruki等在字节码级别提取统计性强的序列特征，包括指令、操作码、字节码、API代码序列等。Perdisci R等通过n-gram提取字节码序列作为特征。Ki Y等提出了捕获运行过程中的API序列作为特征，利用生物基因序列检测工具ClustalX对API序列进行相似性分析，得到恶意代码的同源性判定。DNADroid使用PDG作为特征，DroidSim是一种基于组件的CFG来表示相似性代码特征，与早期的方法相比，该系统检测代码重用更准确。

2.特征预处理

特征提取过程中会遇到不具有代表性、不能量化的原始特征，特征预处理针对这一问题进行解决，以提取出适用于相似性计算的代表性特征。特征预处理一方面对初始特征进行预处理，另一方面为相似性计算提供基础数据。常见的特征类型包括序列特征和代码结构特征。

序列特征预处理： 包括信息熵评估、正则表达式转换、N-grams序列、序列向量化、权重量化法等，序列特征预处理会将初始特征中冗余特征消除、特征语义表达式增强、特征量化等以便于进行相似性计算。L. Wu通过分析恶意软件敏感API操作以及事件等，将API序列特征转换为正则表达式，并在发生类似的正则表达式模式时检测恶意代码。IBM研究小组先将N-gram方法应用于恶意软件分析中，使用N-gram的统计属性预测给定序列中下个子序列，从而进行相似度计算。Kolosnjaji等提出对API调用序列进行N-gram处理获取子序列，采用N-gram方法将API调用序列转换为N-gram序列，实现过程下图所示。

代码结构特征预处理： 在相似度比较时存在边、节点等匹配问题即子图同构算法复杂性，同时代码结构特征中存在冗余结构，因此除去冗余、保留与恶意操作相关的代码结构是预处理的主要目的。常见的方法包括API调用图预处理、CFG图预处理、PDG图预处理等。

3.相似性计算

溯源旨在通过分析样本的同源性定位到家族或作者，样本的同源性可以通过分析代码相似性来获取。相似性计算旨在衡量恶意代码间相似度，具体为采用一种相似性模型对恶意代码的特征进行运算。根据预处理特征类型的不同以及溯源需求、效率、准确性等差异，采用不同的相似性运算方法。

目前比较流行的相似性计算方法主要集中在对集合、序列、向量、图等特征表现形式的处理。Qiao等基于集合计算相似性，在不同恶意样本API集合的相似性比较中采用了Jaccard系数方法，将为A、B两个集合的交集在并集中所占的比例作为相似度，比例值越大，证明越相似，如公式所示。

Faruki等提出了采用SDhash相似性散列技术构建样本的签名序列，并采用汉明距离法对序列进行相似性计算，从而识别同源性样本。Suarez-Tangil 等用数据挖掘算法中向量空间模型展示家族的恶意代码特征形式，将同家族提取出来的具有代表性的CFG元素作为特征中维度，采用余弦算法对不同家族的向量空间模型进行相似度计算，根据余弦值来判断它们的相似性，从而识别出相似性样本，进而归属到对应的家族。用于比较向量的余弦相似度反映了恶意代码间的相似性，其具体公式如公式所示。

Cesare等提出了最小距离匹配度量法，比较不同样本的CFG图特征的相似性。Kinable等通过静态分析恶意代码的系统调用图，采用图匹配的方式计算图相似性得分，该得分近似于图的编辑距离。利用该得分比较样本的相似性，采用聚类算法将样本进行聚类，实现家族分类。

4.同源判定

学术界常见的同源判定方法主要包括基于聚类算法的同源判定、基于神经网络的同源判定等。Kim等采用DBSCAN算法对基于调用图聚类，发现类似的恶意软件。Feizollah等提出采用层聚类算法，构建家族间演化模型，进而发掘家族功能的演化。Niu等提出了层次聚类和密度聚类算法结合的快速聚类算法对操作码序列特征进行聚类，以识别恶意软件变体，该方法识别变体效率较高。

神经网络是一种多层网络的机器学习算法，可以处理多特征以及复杂特征的同源判定。基本思想为：将样本特征作为输入层数据，然后不断调整神经网络参数，直到输出的样本与该样本是一种同源关系未为止。它会将恶意代码特征送输入层，即可判断恶意代码的同源性.。赵炳麟等提出了基于神经网络的同源判定方法，其整体实现框架如下图所示。

四.产业界恶意代码溯源

产业界除了采用与学术界类似的同源判定方法之外，还会通过关联的方法对恶意代码进行溯源。产业界的溯源意图除了溯源出编写恶意代码作者、恶意代码家族之外，还要挖掘出攻击者及攻击者背后的真正意图，从而遏制攻击者的进一步行动。

产业界与学术界溯源方法的差异主要表现在特征提取和同源判定两个方面：在特征提取上，产业界更倾向于从代码结构、攻击链中提取相似性特征；在同源判定上，除了采用与已有的历史样本进行相似度聚类分析之外，产业界还会采用一些关联性分析方法。相比学术界溯源特征，产业界溯源特征更加详细全面，信息复杂度大。因此，学术界的同源判定方法并不能完全用于产业界各类特征的相似性分析中，常见产业界溯源方法分类如下表所示。

接下来补充绿盟李东宏老师的系统分析：http://blog.nsfocus.net/trace-source/

1.恶意攻击流程及溯源方法

恶意样本溯源追踪主要去了解攻击者或者团队的意图。恶意攻击的活动大概有如下7步骤：

Reconnaissance：侦查，充分的社会工程学了解目标。
Weaponization：定向攻击工具的制作。常见的工具交付形态是带有恶意代码的pdf文件或office文件。
Delivery：把攻击工具输送到目标系统上。APT攻击者最常用这三种来传送攻击工具，包括邮件附件、网站（挂马）、USB等移动存储。
Exploitation：攻击代码在目标系统触发，利用目标系统的应用或操作系统漏洞控制目标。
Installation：远程控制程序的安装。使得攻击者可以长期潜伏在目标系统中。
Command and Control (C2) ：被攻破的主机一般会与互联网控制器服务器建立一个C2信道，即与C2服务器建立连接。
Actions on Objectives：经过前面六个过程，攻击者后面主要的行为包括：偷取目标系统的信息，破坏信息的完整性及可用性等。进一步以控制的机器为跳转攻击其它机器，扩大战果。

追踪溯源方法
恶意样本的追踪溯源需要以当前的恶意样本为中心，通过对静态特征和动态行为的分析，解决如下问题：

谁发动的攻击？
攻击背景是什么？
攻击的意图是什么？
谁编写的样本？
样本使用了哪些攻击技术？
攻击过程中使用了那些攻击工具？
整个攻击过程路径是怎样的？

恶意样本追踪溯源可以采取如下方法：

全流量分析
同源分析
入侵日志
域名/IP
攻击模型

2.域名/IP

这种溯源方法是最基本的方法，通过对攻击者使用的域名和IP地址进行分析，挖掘攻击源头。查询域名的whois信息，可以关联到攻击者部分信息，如注册名、注册邮箱、注册地址、电话、注册时间、服务商等。

下面是通过样本分析对域名进行溯源分析的典型案例：

案例1：
Checkpoint经过细致分析后，最终归纳出一个首要嫌疑犯，即昵称为“Nexxus Zeta”的一个犯罪分子，原因在于攻击者在注册僵尸网络的某个C&C域名（nexusiotsolutions.net）时，所使用的邮箱地址包含相关信息。

该邮件地址（[email protected]）与C&C域名有一些交集，因此怀疑这个地址并不是一次性邮件地址，可以根据该地址来揭晓攻击者的真实身份。当搜索Nexus Zeta 1337时，在HackForums上找到了一个活跃的成员，该成员的用户昵称为“Nexus Zeta”，自2015年8月起已经是HackForums的一份子。虽然这个人在这种论坛上活跃度很低，但他发表了几篇帖子，从这些帖子中并没有发现他的专业水平有多高。不过有趣的是，他最近关注的是如何建立起类似Mirai的IoT僵尸网络。

“NexusZeta”在社交媒体上也颇为活跃，主要是在Twitter以及Github上，他在这两个平台上都公布了自己的IoT僵尸网络项目。实际上，这个人还将其Github账户关联到前面提到的某个恶意域名（nexusiotsolutions.net）。分析人员也找到了他所使用的Skype以及SoundCloud账户，使用人名为Caleb Wilson（caleb.wilson37 / Caleb Wilson 37），然而无法确定这个名字是否就是其真实姓名。

样本分析及详细的溯源分析内容可参考链接：https://research.checkpoint.com/good-zero-day-skiddie/ 。

案例2：
样本分析过程中，通过网络抓包，获取到攻击者的控制域名信息：

域名信息关联后，如下图所示：

这里点到为止，对上述信息进行进一步分析后，最终可定位到攻击者本人，并且最终成功接管攻击控制的域名。

案例3：
通过分析获取到的样本，该样本为downloader程序，主要通过下载恶意软件之后运行，下载的IP地址如下所示：

对该IP进行渗透测试，最终获取到主机权限，通过对攻击者掌握的主机进行深入分析，最终定位到攻击者相关信息。

3.入侵日志

这种溯源分析方法偏向于主机取证分析，攻击者在入侵到主机后的行为分析。对攻击者留下的大量操作日志进行分析后，可以提取相关攻击者的信息，包括：

连接服务器使用VPS信息。
登陆主机后，一般为了维持对主机的访问权限，会尝试创建自己的账号及密码。
攻击者为了偷取数据，使用的ftp或者数据服务器信息。
通过对攻击者的登陆时间进行分析，可以基本定位所在大区域（北半球，南半球）。
登陆主机后的操作模型，不同的攻击者，入侵成功后进行的行为有差异，每个人都有自己的行为指纹特征。

简单举个例子，不少攻击者习惯使用自动化的工具，去提取主机上的敏感信息（网站，邮箱，比特币，网银等账号密码），入侵成功后（钓鱼，社工，水坑攻击等），会在受害者机器上安装间谍软件，进行主机行为监控，并且定时将截获的敏感信息上传到服务上。

大多使用三种通信方式窃取敏感信息：ftp、smtp、http。

案例1：
通过分析入侵日志，最终分析其留的监控程序，溯源分析的案例，该样本中攻击者使用加密的smtp服务器窃取敏感信息，在样本分析过程中可以获取到邮箱的用户名与密码：

利用获取到的登陆凭证可成功登陆攻击者邮箱：

在邮件内容中，发现了攻击者的真实邮箱，之后通过进一步溯源分析，定位到了攻击者。下图是攻击者真实的twitter账号：

案例2：
攻击者在入侵成功后，留下的启动脚本中包含了攻击者的个人网络id，通过对该网络ID及QQ号码进行溯源分析，最终也成功定位到攻击者。

QQ: 2228668564
ID: icnanker
shadow:
icnanker:$6$EIZwhnAX$m/IclCqhsFOBaZEgT2mVCYFy5bKH75rJ8Rlh/hwGs7De
R5AovmhrLS.V3naL6oizn6FCViwqKn6k9gqmoYNhs0:16866:0:99999:7:::

4.全流量分析

某些攻击者或者组织的反跟踪意识非常强，基本上不会留下任何痕迹，在达成入侵目的之后（窃取数据），会完全清除入侵痕迹，或者干脆销毁主机硬盘。

例如：2015年乌克兰电厂遭受攻击之后，攻击者利用killdisk组件销毁了全部数据。当然有些也不会留下在主机上的任何操作痕迹，部分勒索软件也是通过同样的手段进行痕迹擦除。这类案例也非常多，基本上在受害者机器上找不到任何痕迹，这时进行全流量分析溯源就相当有效了。

例如：以2017年Flareon 4th逆向挑战赛最后一题为例。

描述了一个APT攻击场景，需要通过分析数据包及PE文件，还原整个攻击过程。从网络下载加密的恶意代码在本地进行解密：

解密后的内容为一个远控端，其和主控端的通讯流量通过了全加密，网络传输数据格式如下：

相关的加解密及功能模块如下：

过流量分析发现攻击者入侵行为如下：

黑客入侵到168.221.91后，先获取了屏幕截图（内容包含了一个密码）。
查看c:\work\FlareOn2017\Challenge_10\TODO.txt，发现larry相关提示（根据前期信息收集结果，可以知道johnson主机名）。
通过ping命令获取到内网johnson主机IP地址（192.168.221.105）。
使用psexec在johnson的主机上安装后门srv2.exe（监听本地16452端口）。
之后通过内网代理连接该后门，通过代理插件上传加密模块到了johnson的主机上c:\staging\cf.exe。
利用加密程序（exe）对lab10的文件进行加密，之后将原始文件删除，并且通过代理传到了黑客手里。

该案例中仅通过全流量分析，最终还原整个入侵过程、黑客攻击行为以及窃取的内容，而在真实的环境中需要结合入侵日志进一步对恶意样本攻击进行追踪溯源。

5.同源分析

该方法主要为在获取到恶意样本后，很难第一时间关联到攻击者或者恶意样本提供者的信息，但是可以通过和历史恶意代码进行相似度分析，获得历史攻击事件，从而关联到相应的组织或团体。这种溯源方法多用于定位APT组织或者某些知名的黑客团体（方程式）的行动，需要投入大量的人力，时间去完成溯源跟踪分析。

APT组织或者知名黑客团队，一般都有各自的工具定制开发部门，负责各类工具的开发，以及漏洞利用工具的量产（从今年4月份泄露的方程式组织内部的工具以及CIA泄露的部分文档就可以看出端倪）。其部分划分组织架构都非常清晰，有专门负责工具开发的部门，例如：远控开发部门，硬件研究部门，漏洞挖掘部门，漏洞利用工具编写的部门等。

(1) 设计思路
每个程序员在软件实现的时候，会使用自己比较熟悉的一套代码风格和实现算法，每个团伙或者组织在攻击目标时也会有一套自己特有的攻击方法，针对恶意样本可以通过行为日志的相似度、代码混淆风格以及相关的实现算法进行同源判定。

例如：利用“破壳”漏洞投放的6个Bot具有同源性。

图片来源：安天

(2) 编码特征
程序员在开发过程中，经常会复用部分现有代码（加密算法，功能模块），以提高开发效率。样本分析人员通过跟踪分析某组织的大量攻击样本后，对其工具开发人员的编码风格（函数变量命名习惯，语种信息等），编程习惯有了深入了解。在此基础上，就能够通过编码风格准确溯源到相关组织。

下面是今年5月份爆发的wanncry蠕虫的溯源分析的案例：
https://blog.comae.io/wannacry-links-to-lazarus-group-dcea72c99d2d

Google研究者Neel Mehta在Twitter率先发布消息称，早期的WannaCry样本与Lazarus团伙使用的一款后门程序Contopee存在较高相似度。稍后卡巴斯基和赛门铁克研究者基于此发布了更多分析结果。并且给出了代码相似度对比的图，以证明其推论：

(3) 通讯协议
每个恶意样本为了和之前的版本通讯协议进行兼容，一般会复用之前的通讯协议代码，通过跟踪分析通讯数据的格式特征进行同源判定。

Billgates上线数据格式如下图所示：

Xitele上线数据包格式如下图所示：

通过对比上面两个恶意样本上线包数据格式特征可以判定其为同源样本。

(4) 数字证书
数字证书是一个经证书授权中心数字签名的包含公开密钥拥有者信息以及公开密钥的文件。最简单的证书包含一个公开密钥、名称以及证书授权中心的数字签名。数字证书还有一个重要的特征就是只在特定的时间段内有效。

数字证书是一种权威性的电子文档，可以由权威公正的第三方机构，即CA中心签发的证书，也可以由企业级CA系统进行签发。恶意软件为了躲避安全软件的检测，会使用数字证书对代码进行签名，而签名证书中的颁发给部分包含了软件的开发商的相关信息。

6.攻击模型

这种溯源方法主要见于某些专业化程度比较高的个人或者组织，他们有自己的攻击常规套路，并且长期专注于一个领域的攻击。

案例1：
之前的一次应急分析过程中遇到一个团伙，主要进行ssh弱口令爆破，该团队的就主要关注于ssh弱口令爆破，通过对该团队的溯源分析，了解到其攻击模型是：

扫描全网开放ssh服务端口的主机。
根据开放服务端口号，将每个端口号对应的ip保存到一个文件中。
并且定时的会对全网全端口进行扫描探测以便及时更新攻击目标数据。
对存在ssh弱口令的主机进行攻击。
利用成功入侵的主机作为节点，继续进行ssh弱口令爆破。
旨在构造一个大型的botnet系统。

除上面该实例外，还遇到不少，利用单一漏洞进行攻击的案例，如：struts2框架漏洞以及近期发现某团队利用webloglic WLS漏洞进行入侵挖矿的案例。

案例2：
下面举一个最有名的例子，2016年10月爆发的Mirai僵尸网络曾经一度使互联网产生恐慌，通过溯源分析最终定位到了该僵尸网络的作者。

Mirai僵尸网络就是一个很好的例子，攻击者主要利用物联网设备默认口令的问题，感染大量设备，之前沟通对其攻击模型的匹配，可以清楚的了解的组织的活动轨迹，并且通过对每一次活动留下的线索进行关联分析，最终定位到了攻击者团伙。

美国司法部最终披露称，三名男子就创建Mirai恶意软件并利用Mirai僵尸网络攻击多个目标的事实表示认罪。从法庭文档来看，这三名男子的名字是Paras Jha、Josiah White和Dalton Norman。

案例3：
在一次应急响应中通过取证分析，了解到攻击使用的攻击模型如下：

注册域名，根据攻击目标选择有意义的域名。
在GitHub上注册一个新账户和创建一个开源项目。
编译源码后捆绑恶意软件，一般选择advanced installer作为捆绑打包器（还有AutoIt，NSIS）。
发布到搭建的网站上。
在互联网上发布推广其软件。
窃取用户敏感数据（账号密码）。
进行数据直接套现，或者通过信息倒卖平台间接变现。

之后利用该攻击模型对样本库中的文件进行筛选，定位到另外3套与该模型完全匹配的案例，进一步分析匹配到的样本后，首先确认了该4套样本出于同一开发团队，经过溯源分析准确定位到了攻击者。

溯源分析旨在通过现象去发掘样本背后的故事，没有固定的套路可循，在分析过程中，要像侦探破案一样，大胆心细，不放过任何细枝末节，是一场人与人之间斗智斗勇的过程。

“天网恢恢疏而不漏“，溯源篇旨在抛砖引玉，将感兴趣的读者带入这个谜一样的世界！以上纯属笔者个人的观点角度，意在抛砖引玉，引发读者去思考作为一名合格的恶意样本分析人员应该具备那些技能？仁者见仁智者见智点到为止。

不过有一点可以确认单纯掌握样本分析技能是远远不够的。下面列举了几个方向，感兴趣的读者可以去进行深入学习：

渗透测试
应急响应
取证分析
数据分析
漏洞分析

掌握上述技能后，以守为攻，变换角色，从多个维度去进行样本分析攻击溯源，进而输出高质量的样本分析报告。

五.总结

严峻的网络安全对抗和博弈形势，使得对恶意代码的演化与溯源技术的研究价值凸显，学术界、产业界近年来分别从攻击和防护两个方面展开了深入的研究。前文基于已有的研究总结了恶意代码的生成过程和编码特征，并对来自产业界、学术界恶意代码的溯源机理和溯源对抗方法进行了详细描述。

目前，学术界和产业界在恶意代码溯源技术方面取得了较大的进步，在追踪恶意代码组织、黑客组织(攻击者)、发现未知恶意代码方面取得了部分研究成果，例如海莲花、白象、方程式组织等典型 APT 攻击计划和黑客团队的不断曝光，但依然存在不足和挑战。

写到这里，这篇基础性文章就此结束，最后希望这篇基础性文章对您有所帮助。突然发现，作者已经写了400多篇文章了，非常值得纪念，今后也希望帮到更多的读者。也觉得自己的技术好浅，要学的知识好多，读博真心不容易，之前很少遇到睡不着觉，这学期很多次惊醒，希望自己这四年能不断成长，身体和心理都健康！一定要好好的，有时候只是看着开心阳光，其背后的苦和痛都要去炼化，祝福所有博士战友们。

(By:Eastmount 2019-12-26 晚上11点写于武汉 http://blog.csdn.net/eastmount/ )

参考文献：
[1]姜建国,王继志,孔斌,等. 网络攻击溯源追踪技术研究综述[J]. 信息安全学报, 2018,3(1):111-131.
[2]刘剑,苏璞睿,杨珉,等. 软件与网络安全研究综述[J]. 软件学报, 2018,29(1):42-68.
[3]赫尧,陈周国,蒲石,黄宸. 多源网络攻击追踪溯源技术研究[J]. 通信技术, 2013,46(12):77-81.
[4]袁得嵛,高见,叶萌熙,王小娟. 基于拓扑扩展的在线社交网络恶意信息源定位算法[J]. 计算机科学, 2019,46(5): 129-134.
[5]宋文纳,彭国军,傅建明,等. 恶意代码演化与溯源技术研究[J]. 软件学报, 2019,30(8): 2229−2267.
[6]李东宏.恶意样本分析手册——溯源篇.2018. http://blog.nsfocus.net/trace-source/.
[7]钱雨村,彭国军,王滢,梁玉. 恶意代码同源性分析及家族聚类[J]. 计算机工程与应用, 2015, 51(18): 76−81.
[8]Ge YW, Kang F, Peng XX. Homology analysis of malicious code based on dynamic BP neural network. Journal of Chinese Computer System, 2016,37(11):2527−2531.
[9]Faruki P, Laxmi V, Bharmal A, Gaur M, Ganmoor V. Androsimilar: Robust signature for detecting variants of android malware. Joural of Information Security and Applications, 2015,22:66−80.
[10]Perdisci R, Lanzi A, Lee W. Mcboost: Boosting scalability in malware collection and analysis using statistical classification of executables. In: Proc. of the ACSAC. 2008. 301−310.
[11]Ki Y, Kim E, Kim HK. A novel approach to detect malware based on API call sequence analysis. Int’l Journal of Distributed Sensor Networks, 2015,11(6):No.659101.
[12]Crussell J, Gibler C, Chen H. Attack of the clones: Detecting cloned applications on android markets. In: Proc. of the European Symp. on Research in Computer Security. Berlin, Heidelberg: Springer-Verlag, 2012. 37−54.
[13]Sun X, Zhongyang YB, Xin Z, Mao B, Xie L. Detecting code reuse in Android applications using component-based control flow graph. In: Proc. of the ICT. Springer-Verlag, 2014. 142−155.
[14]Wu L, Ping R, Ke L, Hai D. Behavior-Based malware analysis and detection. In: Proc. of the 2011 1st Int’l Workshop on Complexity and Data Mining (IWCDM). New York: IEEE, 2011. 39−42.
[15]A biologically inspired immune system for computers. In: Proc. of the Artificial Life IV: 4th Int’l Workshop on the Synthesis and Simulation of Living Systems. MIT Press, 2011. 130−139.
[16]Kolosnjaji B, Zarras A, Webster G, Eckert C. Deep learning for classification of malware system call sequences. In: Proc. of the Australasian Joint Conf. on Artificial Intelligence. Cham: Springer-Verlag, 2016. 137−149.
[17]Zhao BL, Meng X, Han J, Wang J, Liu FD. Homology analysis of malware based on graph. Journal on Communications, 2017, 38(Z2):86−93 (in Chinese with English abstract).
[18]Awad RA, Sayre KD. Automatic clustering of malware variants. In: Proc. of the 2016 IEEE Conf. on Intelligence and Security Informatics (ISI). IEEE, 2016. 298−303.
[19]Crussell J, Gibler C, Chen H. Andarwin: Scalable detection of semantically similar Android applications. In: Proc. of the European Symp. on Research in Computer Security. Springer, Berlin, Heidelberg, 2013. 182−199.
[20]Qiao Y, Yun X, Zhang Y. How to automatically identify the homology of different malware. In: Proc. of the 2016 IEEE Trustcom/ BigDataSE/I SPA. IEEE, 2016. 929−936.
[21]Faruki P, Laxmi V, Bharmal A, Gaur M, Ganmoor V. Androsimilar: Robust signature for detecting variants of android malware. Joural of Information Security and Applications, 2015,22:66−80.
[22]Suarez-Tangil G, Tapiador JE, Peris-Lopez P, Blasco J. Dendroid: A text mining approach to analyzing and classifying code structures in Android malware families. Expert Systems with Applications, 2014,41(4):1104−1117.
[23]Cesare S, Xiang Y, Zhou W. Control flow-based malware variant detection. IEEE Trans. on Dependable and Secure Computing, 2014,11(4):307−317.
[24]Fredrikson M, Jha S, Christodorescu M, Sailer R, Yan X. Synthesizing near-optimal malware specifications from suspicious behaviors. In: Proc. of the 2010 IEEE Symp. on Security and Privacy (Oakland 2010). 2010. 45−60.
[25]Kim J, Kim TG, Im EG. Structural information based malicious app similarity calculation and clustering. In: Proc. of the 2015 Conf. on Research in Adaptive and Convergent Systems. ACM Press, 2015. 314−318.
[26]Feizollah A, Anuar NB, Salleh R, Amalina F. Comparative study of k-means and mini batch k-means clustering algorithms in Android malware detection using network traffic analysis. In: Proc. of the 2014 Int’l Symp. on Biometrics and Security Technologies (ISBAST). IEEE, 2014. 193−197.
[27]Niu Z, Qin Z, Zhang J, Yin H. Malware variants detection using density based spatial clustering with global opcode matrix. In: Proc. of the Int’l Conf. on Security, Privacy and Anonymity in Computation, Communication and Storage. Cham: Springer-Verlag, 2017. 757−766.
[28]Zhao BL, Meng X, Han J, Wang J, Liu FD. Homology analysis of malware based on graph. Journal on Communications, 2017, 38(Z2):86−93 (in Chinese with English abstract).

你可能感兴趣的:(Web安全,渗透&攻防,网络安全,网络安全,恶意代码,溯源,综述,恶意样本分析)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
今日分享：有的孩子家长常常在对于小朋友老是说谎，还特别爱推卸责任，很头痛，不知道该怎么办！雨燕Cassie
其实六岁以前都不叫撒谎，只能叫做逃避和害怕，因为他们都是没有撒谎的这个概念，家长所谓的撒谎只能说是因为做错了事情，怕受到责罚而找一个「台阶」给自己一下而已，所以家长不能给孩子一个贴上撒谎的这个标签，如果说孩子出现家长所说的撒谎，我们应该做的是：1.允许孩子将事情的原委进行一个表达，给孩子说明的机会，不提示孩子说谎，不急著批评孩子。2.不使用问句，不恐吓和严刑逼供，耐心的以故事或者以分析的形式和孩子
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默