浏览器的自解码机制(用于XSS编码绕过)

1.浏览器大致的工作流程

(1)浏览器解析HTML

(2)标签转化为DOM节点,识别标签时,HTML解析器无法识别被实体编码的内容,在建立起DOM树,才能对每个节点的内容进行识别

(3)JS DOM API(JS解析器)参与,对DOM树进行修改,改变其内容。此时CSS解析器解析外部CSS及style标签,一起构成rendering tree==

(4)这里CSS在构造rendering tree之前,会有CSS rule tree

(5)布局完之后,使用UI后端完成每个节点的绘制,从而显示

在上述有两个解析器需要特别注意,分别是HTML解析器、JS解析器、CS解析器(这个暂时不提)。因为基本上XSS编解码payload就是靠这两个来利用的。

 

2.解析器

  • HTML解析器

作用:构造DOM树,对节点内容进行解析

 

  • JS解析器

作用:在处理script,style标签,解析器会自动切换为JS解析模式,而src,href后面加的JS伪协议也会进入JS解析模式。进入该模式时,DOM已经建立起来了

 

3.案例(所有测试均在firefox浏览器进行)

1.使用实体编码绕过,例子如下:

 

 

注意:实体编码不能对标签字段进行,例如:标签表达式: <标签名 控制字符 属性名="数据值" 事件名="事件值">

此时只能对数据值事件值进行实体编码才能弹窗。

 

此时,有相同作用的编码格式有:

(1)HTML实体编码:a

(2)十六进制:a

(3)十进制:a

(4)支持数字部分高位补充0,a(a)

 

2.JS解析

 

 

打开页面后能够正常弹窗,说明进行了Unicode解码.【同样只能对字符数据进行编码,不能对alert()中的()进行编码】

 

4.总结

不管是HTML解析还是JS解析,都是对其字符部分进行操作,例如对于 来说,

1)双引号“  ”里面的内容属于HTML标签的字符部分【所以:;这个能弹窗】


2)onerror事件同时也由JS处理,【所以:;这个能弹窗】

 

3)HTML和JS同时处理:【

3.1 第一步:HTML实体解码:

\u0061\u006c\u0065\u0072\u0074 解码为==》 \u0061\u006c\u0065\u0072\u0074

3.2 第二部:JS解码:

\u0061\u006c\u0065\u0072\u0074 解码为==》alert

你可能感兴趣的:(解析问题,编码问题,浏览器解析)