在 ASP.net 构建的Web页面中,查看源文件,我们经常会看到下面的Html文本
<script src="/WebResource.axd?d=QfRKDnWw93T08KaF3ioSKQ2&t=633313193233609691" type="text/javascript"></script> <script src="/WebResource.axd?d=9iVKU5SS0wd5al1SYg8zjL8XXbP97LbENHerY4aLtJk1&t=633313193233609691" type="text/javascript"></script>
这是 ASP.net 2.0 提供的新的资源管理方式产生的脚本。
使用 WebResource管理资源时, 我们会经常收到类似下面的异常:
System.Web.HttpException: 无效的视图状态。
System.Security.Cryptography.CryptographicException: 填充无效,无法被移除。
这是因为 WebResource.axd URL 的参数具有时效性,但是对于搜索引擎的爬虫来说,他们会经常访问这些参数过期的地址,所以就会出现上面的异常。 (本人查看自己服务器上的IIS日志后发现是对的,即出错的那个时间点和文件名与IIS日志上对比后发现访问它的是Google的爬虫)
这个问题的解决方案,目前没有更好的方案,微软论坛中只是建议在robots.txt 文件中增加下面的信息:
User-agent: *
Disallow: /*.axd$
但是这要求遵循 robots.txt 规范的爬虫们下次获得最新的 robots.txt 才会起作用。而对于那些不遵循 robots.txt 规范的爬虫,可一点办法都没有。
我现在的想法是,能不用 WebResource.axd 就不要用,因为国内不遵循robots.txt 规范的爬虫们太多了。这就需要我们来分析那些场景使用了 WebResource.axd 中的资源,也就是 需要对 WebResource.axd 的格式进行分析。
WebResource.axd 的 URL 的格式是:
WebResource.axd?d=encrypted 标识符 & T = 时间戳值。
其中:
" d " 代表请求 Web 资源。 (encrypted identifier)
" t " 是 timestamp 对程序集, 这有助于在确定如果已经对资源的更改请求。
t 参数对于我们分析谁使用它,没有意义,我们下面就来分析 d 参数。
d 参数的解析代码如下:
<%@ Page Language="C#" AutoEventWireup="true" %> <script runat="server"> public static string PageDecryptString(string input) { Type type = typeof(System.Web.UI.Page); object o = Activator.CreateInstance(type); System.Reflection.MethodInfo mi = type.GetMethod("DecryptString", System.Reflection.BindingFlags.NonPublic | System.Reflection.BindingFlags.Static, null, new Type[] { typeof(string) }, null); object result = mi.Invoke(o, new object[] { input }); return result.ToString(); } protected void btn_Post_Click(object sender, EventArgs e) { this.l_Info.Text = PageDecryptString(HttpUtility.UrlDecode(tb_WebResourceDValue.Text)); } </script> <html xmlns="
http://www.w3.org/1999/xhtml"> <body> <form id="form1" runat="server"> <asp:TextBox ID="tb_WebResourceDValue" runat="server" /><br /> <asp:Label ID="l_Info" runat="server" /><br /> <asp:Button ID="btn_Post" runat="server" Text="计算" OnClick="btn_Post_Click" /> </form> </body> </html>
我们在 C:\Windows\Microsoft.NET\Framework64\v2.0.50727\CONFIG\web.config 文件中,可以看到 WebResource.axd 文件是配置的通过下面 HttpHandle 来解析的:
<add path="WebResource.axd" verb="GET" type="System.Web.Handlers.AssemblyResourceLoader" validate="True"/>
在 System.Web.Handlers.AssemblyResourceLoader 类中,使用 Reflector 工具看,又可以看到下面代码:
void IHttpHandler.ProcessRequest(HttpContext context) { // ... string str = context.Request.QueryString["d"]; // .... string str2 = Page.DecryptString(str); // ... }
显然, d 的参数, 是应该通过 Page.DecryptString 函数来解析的。
而 Page.DecryptString 函数 中,涉及到调用 web 配置中配置的默认加密key。 简单起见,我们这里的解析方法就用 ASP.net 页面来实现了。由于 Page.DecryptString 函数是 internal static 的,我们上面代码就用反射来调用这个函数,就会获得我们期望的值。
(为了保证解密算法的解密key一致,最简单的做法就是我们把上面这个解密ASPX页面跟需要解析的放在同一个服务器上)
上面 的 QfRKDnWw93T08KaF3ioSKQ2 解密的结果是: s|WebForms.js 竖线只是用于分隔字符串中不同的值。“s”表示该数据为脚本,“WebForms.js”是要检索的资源名称。WebForms.js 资源可从 System.Web.dll 检索。
同理上面 的 9iVKU5SS0wd5al1SYg8zjL8XXbP97LbENHerY4aLtJk1 解密的结果是 : s|WebUIValidation.js
显然如果出现这样的 WebResource.axd 调用,应该是验证控件在调用.
我们要想上面的
<script src="/WebResource.axd?d=QfRKDnWw93T08KaF3ioSKQ2&t=633313193233609691" type="text/javascript"></script> <script src="/WebResource.axd?d=9iVKU5SS0wd5al1SYg8zjL8XXbP97LbENHerY4aLtJk1&t=633313193233609691" type="text/javascript"></script>
不出现,就需要让调用 WebForms.js , WebUIValidation.js 脚本的验证控件不使用。