chm转换成txt的url顺序问题

作者:帅得不敢出门   C++爱好者灌水天堂群 3503799   转载请保留此信息
目的:chm转换成txt
首先反编译解压chm文件
解压后的html文件是以字母顺序生成的,这样把所有html转成一个txt过程顺序无法查知。
解决方法:
1种.打开.hhc文件,分析
文件内容以如下结构组织
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
<HTML>
<HEAD>
<meta name="GENERATOR" content="Microsoft&reg; HTML Help Workshop 4.1">
<!-- Sitemap 1.0 -->
</HEAD><BODY>

<UL>

<LI> <OBJECT type="text/sitemap">
<param name="Name" value="原作者的说明">
<param name="Local" value="1313.html">
</OBJECT>
<LI> <OBJECT type="text/sitemap">
<param name="Name" value="进行重新编译的说明">
<param name="Local" value="1314.html">
</OBJECT>
.................
如上面 1313.html就是第一个页面,而1314.html则是第二个,依此类推


2种方法.分析#URLSTR文件
用文本打开,有部分乱码,其中夹杂着1313.html    1314.html 等信息
用ultraedit-32打开
发现其组织形式如下:
0000000: 4200 0000 0000 0000 0031 3331 332e 6874  B........1313.ht
0000010: 6d6c 0000 0000 0000 0000 0031 3331 342e  ml.........1314.
0000020: 6874 6d6c 0000 0000 0000 0000 0031 3031  html.........101
可见用windows自带的文件编译器查看时显示的乱码其实是都是二进制0。
大部分间隔都是9个0x00,但是仔细观察发现并非如此
中间有21个0x00间隔。所以分析的时候要小心。
且文件最后会以0d0a做为结束标志:

你可能感兴趣的:(html,object,url,chm,generator,编译器)