yasa98

电子书格式及其反编译思路

1. 前言
　　2. 常见电子书格式及其反编译思路
　　 2.1 PDF格式
　　 2.2 基于IE内核的电子书
　　 2.2.1 CHM格式
　　 2.2.2 EXE格式
　　 2.2.2.1 Web Compiler 1.67
　　 2.2.2.2 Caislabs eBook Pack Express 1.6
　　 2.2.2.3 通用反编译思路
　　 2.3 HLP格式
　　 2.4 小说网/小说世界（ebx/XReader）
　　3. 结论
　　附录基于IE内核电子书的实现方式探讨
　　
　　1. 前言
　　本文所描述的电子书，指的是将原始的、可编辑的HTML、TXT、RTF、图像文件等，打包成一个独立的EXE，或其它只有专用浏览器才能读取的文件，打包后的文件通常不可用常规工具进行编辑、全文检索。
　　
　　本文所描述的电子书反编译，指的是将电子书中的内容提取出来，还原或转换成标准的、可编辑的HTML、TXT、RTF及图像文件等。
　　
　　就像世间其它事物一样，电子书编译器和反编译器的出现也都不是偶然的，都有其必然性。
　　
　　在电子书编译器这一方来说，大概从有电子文档那天开始，就有人琢磨着要对电子文档打包了。我个人认为这主要是从以下几个方面进行考虑：
　　
　　便于阅读、管理。当年在DOS下阅读文本文件，尤其是中文文件比较麻烦，因此出现了自带中文字库、自带基本浏览（翻页、滚动）功能的DOS电子书；由于需要在不同OS平台上获得相同的阅读效果，因此产生了跨平台的PDF格式电子书；随着互联网络的发展，大量信息以HTML格式出现，但是面对一大堆HTML文件，并不是每个人都知道该去双击index.htm或default.htm的，而且文件太多，管理也成问题，因此出现了CHM格式和各种基于IE内核的EXE格式电子书。
　　便于保护知识产权、商业机密。这个问题的重要性相信大家现在都能理解了，不要说那些包含核心商业机密的东西，就算是区区一本小说，都会有些卑鄙小人把原始的HTML、TXT文件拿去加LOGO、打包，然后声称是自己“辛苦扫校的成果”，再堂而皇之地收取所谓“VIP费用”。因此PDF一直将文档安全性作为卖点之一，国内的各种独门格式电子书也以防反编译、防内容复制为首要目标。
　　而反对将通用格式打包成独门格式的人，当然也有自己的道理：
　　
　　便于全文检索。如前所述，电子书一般不可用通常的检索工具进行全文检索，这就为资料的有效利用设置了障碍。我个人认为，藏书量在几十本、上百本的时候，手工建立摘要、索引可能还可以接受；再多以后，我想要的就只是一个快速的全文检索工具，就好像在互联网环境下，对google的依赖一样。
　　便于修改。俗话说：“金无足赤，人无完人”，电子书也是人做的，有时难免会出点什么错，或者因为资讯的发展，需要对原有内容加以修正、补充，这个时候如果面对的是一个不可编辑的EXE，您会有什么感想？
　　节省时间和耐心。Windows在显示文件列表的时候，需要读取文件信息，EXE文件还要读取ICON等，如果装有反病毒软件，进入文件夹的时候，反病毒软件一般还会自动对文件夹中的EXE文件进行自动检查，而电子书大小一般都在MB级，因此打开包含EXE格式电子书的时候，感觉速度巨慢，比较令人反感。
　　节省空间。一般EXE格式电子书的标准架构是：可执行体＋内容＋TOC。可执行体指的是电子书的执行代码部分，包括程序代码、插件代码、界面资源等。内容指的是电子书中真正包含的文本、图像内容，一般使用某种压缩、加密算法进行处理。TOC（Table Of Content）相当于目录索引，作用是加速对内容的访问。因此相对于直接用WinZip、WinRAR对原始内容进行压缩，每一本EXE格式的电子书都会浪费一部分磁盘空间，以存储执行体部分。电子书的软件界面越花哨，这种浪费一般也越大，我见过最夸张的电子书比原始内容足足多出 1 MB多的东西。
　　避免垃圾。对于某些基于IE内核的电子书来说，由于实现技术的限制，可能会在注册表和系统目录下留下垃圾。
　　安全。如果说如今的网络社会是一个充满恶意、毫无诚信的环境，可能有点夸张了，不过确实有人不知“做人要厚道”为何物。老实说，每次拿到一个来路不明的EXE格式的电子书的时候，我都在怀疑里面有没有什么木马、病毒，实在难受。
　　便于平台转换，包括转换到手持设备。EXE格式的电子书看起来可能很爽，但是毕竟只能在Windows下看，如果想在其它系统下看，尤其是在手持设备上看，唯一的出路就是反编译了它。
　　当然，在反编译后，也必须寻找合适的替代品，以继续满足原先的需要：
　　
　　打包工具。建议选择Winzip或WinRAR，不仅使用方便，而且打包后文件也小，进入目录还快。
　　阅读工具。现在可以不解包就直接阅读zip/rar文件内容的软件不少，一搜一大把，我自己都做过一个MyReader，不仅可以直接从ZIP/RAR中读取内容，还有自动定位index.htm、书签、现场保护、资源浏览器右键菜单扩展、zip/rar密码自动记忆等功能。
　　全文检索工具。可以直接在zip/rar中全文检索的软件也有不少，我自己也做过一个FindStr，支持加密zip/rar，这个工具还可以与MyReader集成，搜索结果可以直接用MyReader直接打开，不需解包。另外它还支持批量文本替换，所以也经常被我用来整理下载到的或反编译出来的小说，包括去除广告链接、绝对URL改成相对URL等。
　　对劳动成果的保护。这个直接用zip/rar的密码保护就好。
　　2. 常见电子书格式及其反编译思路
　　2.1 PDF格式
　　PDF格式是Adobe公司推出的一种跨平台电子文档格式，Adobe公司提供专用的文档浏览器，使用户可以在不同平台下获得相同的阅读效果。
　　
　　其实Adobe公司提供的PDF编辑工具－－Adobe Acrobat本身，就已经支持将PDF文件另存为RTF格式，因此我对PDF的反编译研究不多。不过这个功能似乎受到“文档安全性”的限制，好在我google了一下，破解PDF安全保护的软件似乎不少。如果真的对批量转换有兴趣，在codeproject上也有一篇文章，提供将PDF转换成纯文本的源代码。
　　
　　从我使用的情况看，Adobe Acrobat本身输出的RTF格式，对英文文档来说应该没有什么太大的问题，顶多是格式有点变化，但是在输出中文文档的时候，偶尔会因为字符集代码错误，导致输出的文件在Word、写字板中打开的时候，只能看到一堆乱码。对于这种情况，手工替换一下字符集编码即可解决。
　　
　　出现乱码还有一种可能就是PDF文件中使用了自定义的字库，导致转换出来后的文件无法正常显示，这个比较麻烦。PDF文件自带字库有两种方式：自带一种完整的字库，称为font embedding；只自带一种字库中要用到的那几个字符，称为font subsetting。在ｅ类出版物论坛的“图书制作、阅读工具区”对此有过讨论，需要的可以自己去看。
　　
　　不过有一次我试着用过一个叫PDF2Html的软件，这个软件的思想是将PDF文件的每一页转换成一个JPG文件，然后将JPG文件封装到HTML文件里，加上目录、翻页按钮等，这样在网络浏览的时候，连客户端的Acrobat Reader及客户端字体支持都可以省了。这个软件的HTML文件模板做得怎样先不去说它，最令我奇怪的是，转换出来的图像格式只能是JPG，不能是PNG。其实对于有大片白色背景的页面来说，使用PNG格式不仅文件长度比JPG小，而且不会象JPG格式一样，在文字、图像边缘产生许多细小的碎片（高次杂波）。
　　
　　2.2 基于IE内核的电子书
　　随着互联网的发展，现在越来越多的网络文档内容是以HTML格式提供的，而微软本身又以控件的形式提供了IE浏览器的内核，可以很方便地被几乎所有Windows下的编程工具所调用，因此目前基于IE内核的电子书似乎占据了主流位置。
　　
　　2.2.1 CHM格式
　　CHM（发音为“chum”）的原意是Compiled HTML help file，是微软作为HLP格式（16位Windows下的标准帮助文件格式）的替代格式提出的，因此微软自己不仅随4.01以上版本的IE一起提供免费的浏览器，而且免费提供制作工具Microsoft HTML Help Workshop。
　　
　　CHM文件内部使用ITS格式，这是一种非常优秀的压缩格式，感觉压缩比要比zip、rar大。
　　
　　由于ITS格式的开放性，国外早就有人做出了CHM格式的独立编译、反编译工具，并且公开了全部源代码，需要的人可以到这里看：
　　
　　 [url]http://bonedaddy.net/pabs3/hhm/[/url]
　　
　　这个网站除了提供CHM编译、反编译工具及其源代码外，还提供CHM格式的详细说明，当然是英文的。我做的UnEBook在开始的时候，就使用了其中chmdeco的源代码，实现批量反编译CHM的功能。如果这个网站不幸登录不了，google一下chmdeco就好，有很多备份站点的。chmdeco内部使用的是chmlib的源代码，这份源代码很有名，除chmdeco外，chmtools用的也是它。
　　
　　不过在使用了一段时间后，我发现这份代码在反编译某些CHM文件的时候，会出现数组越界错误。这种错误出现的概率虽然不大，但是出现后还是比较心烦，因此最终放弃了这份代码。
　　
　　现在UnEBook使用的CHM反编译代码是从这里改出来的：
　　
　　 [url]http://www.codeproject.com/winhelp/htmlhelp.asp[/url]
　　
　　这份代码使用了微软未公开的ITS文件访问接口，直接对文件进行操作。由于使用的都是微软的东西，不仅目标码比较小，兼容性也好得多，目前还没有遇到反编译不出来的CHM文件（唯一的一次例外，是那个CHM文件本身就打不开），内存漏洞什么的也没有发现。看来微软的东西还是要由微软来对付，方为王道。
　　
　　另外某些人制作CHM电子书的时候，为了省事，没有制作index.htm，而是单纯依赖左侧的目录树进行导航。对于这样的电子书，在反编译后，一般还需要根据生成的hcc文件，自动生成一个索引页，以免看的时候不方便。hcc文件结构大致如下：
　　
　　多级目录通过<UL>控制，见到<UL>的时候往下走一级目录，</UL>往回走一级。
　　目录项以<OBJECT type="text/sitemap">开始，以</OBJECT>结束。以<PARAM NAME="Name" VALUE="xxx">存放项名称，<PARAM NAME="Local" VALUE="xxx.html">存放项链接。
　　某些目录项可能只有名称，没有链接。
　　在UnEbook中，不仅能够根据hcc文件自动生成索引页，还能自动生成框架页，将索引页和显示页嵌入框架中，以最大限度模仿CHM中的目录效果。如果要完全模仿能够动态伸缩的树形目录效果，则需要增加图片、js、css等文件，实在得不偿失。
　　
　　2.2.2 EXE格式
　　
　　除了CHM格式外，大量基于IE内核的电子书是以EXE格式提供的。制作EXE格式的电子书工具现在似乎已成为一个产业，养活了大批的程序员。虽然很多人认为这种格式的电子书很酷：一个文件就可以执行，界面也可以做得很漂亮，还可以带密码保护。但是我个人对这种格式的电子书是最最痛恨的：除了前面说到的安全性、速度、空间、检索等问题外，我最心烦的一点是目前的EXE电子书都没有好用的书签功能，尤其是没有能够定位到页面中任意位置的书签功能，看长文档看到一半的时候被打断会很麻烦，所以自从MyReader实现了书签功能后，我就下定决心一定要解决反编译问题。
　　
　　2.2.2.1 Web Compiler 1.67
　　这种格式的电子书，因为其制作工具在国内出现得比较早，而且有非常彻底的汉化解密版，所以曾经比较流行，E书时空提供的很多电子书都是这种格式。不过也正因为它的流行，导致想反编译它的人也多，引出了各种反编译工具，所以现在用的人似乎已经不多了。
　　
　　反编译工具里，收费的就不去说它了，国内RMH和Fbilo还联合推出过免费的unwebcompiler，并且提供全套的Delphi源代码，有需要的到google或百度搜索一下unwebcompiler就有了。不过可能国内大多数软件网站的管理员都不是开发人员出身，对源代码不感兴趣，所以收藏的都是212 KB的EXE，有源代码的不多，需要仔细找一下。
　　
　　在unwebcompiler的源代码里，RMH和Fbilo对Web Compiler 1.67生成的电子书的文件格式进行了详细描述，在这里我就不做无聊的重复，有兴趣就自己去看吧。我做的UnEBook也使用了他们提供的源代码，实现对Web Compiler 1.67生成的电子书的批量反编译，不过被我将代码从Delphi改成了C，似乎长度缩短了一些（原代码中有一段在字符串和十六进制数之间转换来、转换去，看起来比较怪异，被我省了），不过LHA解压缩部分改起来实在太麻烦，我直接在网上找了一段现成的C代码来用。
　　
　　2.2.2.2 Caislabs eBook Pack Express 1.6
　　这个电子书制作工具也出过汉化版，所以在国内也有一定影响，不过这种影响似乎还没有大到足以使反编译工具满天飞的程度，嘿嘿……
　　
　　在分析这种格式的电子书的时候，我没有使用任何反汇编工具，用UltraEdit32和系统监视工具就猜出来了：
　　
　　文件标识：以十六进制串 00 F8 03 00 结尾。这个似乎是一种惯例，差不多所有EXE格式的电子书都有自己特殊的文件结尾。
　　目录块起始地址指针：0003F81C
　　目录块中目录项结构：以0字符结尾的文件名＋4字节起始地址，文件名起始字节为FF则目录块结束。
　　如果文件存放在子目录里，则文件名首字符：02＝../，01：第一个00变成/，直到遇到02。
　　文件内容实际起始地址：目录项里的4字节起始地址＋9
　　文件内容长度：目录项里4字节起始地址所指内容，DWORD。
　　在分析出目录结构后，我曾经想通过调试工具，分析文件加密算法，再反编译出具体的文件内容，但是很快我就发现那样干太累了，实在是得不偿失。
　　
　　不过在经过几次尝试后，我还是找到了一个偷懒的办法：
　　
　　通过安装hook的方法，往电子书的进程空间注入一个DLL。
　　在这个DLL里，用Windows标准的API函数URLDownloadToFile，就可以下载到指定的文件。文件的URL可以按前面说的方法，从目录项得到相对路径，再加上一个固定前缀（"file://Z:\\com_caislabs_ebk\\"）构成绝对路径。
　　UnEbook在批量反编译这种格式的电子书的时候，就是按照上面的分析结果实现的。
　　
　　不过到了更高版本的Caislabs eBook Pack Express的时候，似乎Caislabs公司也开始意识到文件内容保护的重要性，因此不仅对文件内容采用更强的加密算法，杜绝了可以用URLDownloadToFile下载的漏洞，连目录块的加密强度都强到足够使我不想去分析了。幸好这个时候我已经有了更好的反编译思路－－与具体文件格式无关的，专门针对使用IE内核的电子书的通用反编译思想。
　　
　　2.2.2.3 通用反编译思路
　　在分析过几种电子书格式后，我开始领悟到一个真理：电子书内部文件结构的变化是无穷的，而我的时间和精力是有限的；把有限的时间和精力投入到对抗无穷的变数中去，早晚会有累死的一天。
　　
　　有此认识后，我开始思考有没有什么通用的方法，可以解决大部分电子书的反编译问题（我还没有幼稚到相信这世上会有万能药的程度）。按照惯例（不可救药的职业病），第一步当然是市场调查、产品定位，结论是目前大多数电子书都是基于IE内核的，但是根据我在开发MyReader时对IE内核的了解，这里面明显存在一个误区：微软以控件的形式提供IE内核，其目的就是希望通过控件接口的开放性、方便性，吸引更多的人加入微软的标准阵营，如果想在此基础上添加加密、保护等等内容，恐怕与微软的初衷不合（我说的是当时，以后微软改主意了也说不定）。因此我相信IE内核一定有后门可走！经过一番努力，果然没有令我失望。
　　
　　1、基本原理
　　
　　针对IE内核电子书的通用破解技术实现起来可能需要一些技术和技巧，但是原理却很简单，几句话就可以说清楚：不论电子书在存储的时候如何对内容进行加密，在将内容传递给IE内核进行显示的时候，一定要将内容转换成IE内核能够识别的标准格式－－HTML格式。而IE内核为了便于显示、刷新，在对HTML代码进行解析后，并不是立刻就把这些HTML代码抛弃，而是在内存里保存了一份备份。因此只要将这份备份从IE内核里搞出来，就得到了解码后的内容，也就是反编译想得到的内容。
　　
　　至于网页中的其它内容，包括图片、css、js、Flash文件等，就更简单了：模拟IE内核，直接找电子书要就好。如果电子书分辨不出请求是来自IE内核还是来自其它地方，自然会乖乖把我们需要的东西双手奉上！
　　
　　虽然反编译的原理几句话就可以说清，但是要加以实现，还需要经过艰苦的探索和试验，我自己就经过了长期的努力，IE内核的源代码都翻来覆去看了好几遍（吹的，别当真！）。而我思想的发展也大概经历了两个阶段：第一个阶段是在得到某份传说中的源代码（没错，就是那份展开后近700MB，被国内主流媒体形容为噱头、无足轻重、充满无聊垃圾的东西）之前，完全立足于微软公开的IE内核接口。当时我考虑将电子书内容按照HTML、图像等分类，分别解决获取问题。第二个阶段是在得到那份源代码之后，我突然发现其实对于所有文件，我都可以直接找电子书要，只要假装是IE内核在要就行了。
　　
　　由于某些东西比较敏感，因此下面叙述的主要是我第一个阶段的想法，其中有些属于基础性的东西。第二个阶段的实现恕我不便奉告。
　　
　　2、获取HTML源代码的方法
　　
　　从IE内核获取HTML源代码的方法不仅我一个人在想，从国内到国外，从CSDN（CSDN的VC/MFC区有一个栏目专门讨论IE内核编程）到MSDN，早就有很多人讨论过了，归纳起来，一般认为可以通过下列步骤实现：
　　
　　不管是通过鼠标点击也好，通过EnumChildWindow也好，总之先找到IE内核的显示窗口，也就是电子书显示网页内容的那个窗口。
　　通过这个窗口的句柄（HWND），取得这个窗口对应的IE内核文档接口IHTMLDocument2的接口指针。取得的方法目前认为有两种，我个人认为这两种需要结合使用，否则总有一些电子书会搞不定：一个是通过MSAA，一个是通过WM_HTML_GETOBJECT消息。至于具体的实现代码，在CSDN上都快被讨论烂了，因此此处从略，有需要的自己到CSDN上找。不过这两种方法都对平台有要求：XP下是完全没有问题，2000下可能需要装IE 6，98/Me/NT就不要想了。
　　在得到IHTMLDocument2接口指针后，按照这个接口提供的标准方法，即可获得文档的HTML代码。具体实现代码见CSDN中的例子。
　　除了上面这种方法外，我自己还尝试过一种方法：使用MIME Filter。
　　
　　对于搞过网页在线翻译、网页内容过滤的人来说，MIME Filter可是吃饭的本钱，它的作用和实现机理应该早就烂熟于心，但是对于其它人来说，可能还不是很熟，所以这里简单介绍一下：为了便于对IE内核的功能进行扩展，微软规定在IE内核显示某种标准格式（HTML、TEXT等）的内容之前，会先将要显示的内容传递给这种格式的过滤器，即MIME Filter，由它先对内容进行预处理（如将英文翻译成中文，将下流文字替换成星号等），然后再显示。
　　
　　按照这个原理，如果实现一个针对HTML格式的MIME Filter，即可拦截到最原汁原味的HTML代码。可惜，经过我的尝试，这招对IE本身是灵的，对某些电子书也有效，但是对另一些无效。再加上使用IHTMLDocument2接口指针的方法要比这种方法简单得多，也可靠得多，所以后来在我开发的反编译工具KillEBook、IECracker和CtrlN里就没有使用这种方法。不过这种方法也有一个好处：与平台无关，我在98/Me/2000/XP下都试过，当然都是在虚拟机下试的啦。
　　
　　MIME Filter的作用机理、实现方法在MSDN里有详细说明，并提供了详细的实例代码，有需要的可以到MSDN上搜“MIME Filter”。
　　
　　3、获取图像的方法
　　
　　与HTML代码相似，IE内核对图像的处理也有一个“下载->解码->显示”的过程。考虑到显示代码的抽象性，原来各种各样的图像格式，包括JPG、GIF、PNG、TIFF等，在解码后都被统一表示成位图格式，而原有格式数据在解码后即被从内存中释放，只在IE的cache中留有文件备份。如果指定不允许保存本地cache，则连这个备份都没有。在IE中通过右键菜单选“图片另存为...”的时候，其实就是将cache中的文件备份拷贝一份出来，如果cache中已经没有备份，就只能保存内存中的位图（*.bmp）了。现在明白为什么有些图片明明是jpg格式，但是用IE却只能保存为“无标题.bmp”了吧？
　　
　　因此，获取图像文件要比获取HTML文件难得多。而且在MSDN里说得很清楚，用IHTMLDocument2接口只能得到图像的链接，用MIME Filter也不能搞到网页里的图像数据，因此需要另想办法。我想过、试过的包括：
　　
　　先将图像复制到剪贴板，再从剪贴板里获取图像数据，然后根据图像文件扩展名（可以从图像元素的URL里解析），编码成原始图像格式，包括jpg、png、gif、tiff等。这个方法实现比较简单，到MSDN KB里搜索Q293125，拷贝图像到剪贴板的现成源代码就有了，图像编码的源代码则可以参考cximage，这个也是google一下就有的。不过这个方法远非完美无缺：a). 对于png、gif等允许带透明背景的格式，用这种方法处理后就不透明了。b). gif动画处理后就动不起来了，只能显示其中的某一帧。c). 对于jpg这样的有损压缩格式来说，每压缩一次就损失一次，多压缩几次可能就没法看了。d). 在电子书里，可以通过标准的Windows API函数，使剪贴板失效。
　　将IE内核导航到图片，然后通过IViewObject接口获取图片的拷贝。这个方法与上面的方法基本相同，不过不通过剪贴板，可以防止因为剪贴板被封锁而搞不到图像。
　　使用IE图像解码插件。IE内核在下载到某种格式的图像文件后，会调用对应的解码器，对图像进行解码（类似于MIME Filter）。为了便于扩充，解码器是做成插件形式的。如果自己做一个图像解码器插件，对解码请求进行拦截，即可获得解码前的原始图像格式数据。解码器的接口、实现方法在微软公开文档中没有任何蛛丝马迹，但是在那份传说中的源代码里，不仅有详细的接口规范，而且有好几个内嵌图像解码器的实现代码，可供借鉴。奇怪的是，虽然在MSDN中找不到，但是我在google上搜的时候，却发现有一个日本人在自己的个人网站上，早就给出了详细的图像解码器插件实现方法，一步一步说得很清楚，而且落款时间是2002年12月！看来这份源代码的泄漏时间可能比想象的要早。当然这个日本人也可能本来就在微软工作，或与微软有合作关系，可以光明正大地查看解码器源代码也说不定。
　　4、通用反编译器的实现
　　
　　在解决了HTML、页面元素等的获取方法后，通用反编译器KillEBook的实现就很简单了，其算法可以描述如下：
　　
　　打开电子书。
　　定位电子书的显示窗口。
　　获取当前显示页面的HTML代码。
　　解析页面HTML代码，得到其中的所有链接。
　　获取页面上的所有元素内容，包括图片等。
　　引导IE内核依次加载HTML链接页面。
　　重复步骤3～6，直到所有页面及其中的元素都已获取到。
　　5、进一步讨论
　　
　　在完成KillEBook后，我发现其实对它扩展一下，就可以成为一种新的离线浏览器，解决传统离线浏览器（Offline Explorer Pro、Webzip等）面临的一个问题：传统离线浏览器多半与IE内核没什么瓜葛，因此在抓静态网页的时候都没有什么问题，但是在抓用session维持的动态网页时，都有点问题，更不用说抓需要PKI证书验证的HTTPS网站。
　　
　　因此我考虑可以实现这样一个离线浏览器：
　　
　　提供一个地址栏供用户输入起始URL。
　　内嵌一个微软web browser控件（IE内核），供用户交互，包括在网页上输入用户名/密码、从IE证书库中选择证书。
　　用户登录成功、进入需要开始抓取的网页后，设定递归深度、URL过滤条件，点“开始”按钮开始抓取。
　　离线浏览器自动引导web browser进入每个页面，每进入一个页面，都通过web browser控件获取客户端HTML源代码及页面元素，包括图片、css、js、flash等。
　　采用这种方法实现的离线浏览器，由于使用web browser控件，因此可以维持客户端session，抓取到动态网页。虽然网页抓取下来就成了静态的，但是对离线浏览来说应该不成问题，对付收费的网上教育等网站正好合适。
　　
　　2.3 HLP格式
　　这种格式出现得比较早，在16位Windows（Windows 95以前的各Windows版本）下曾是标准的帮助文件格式，因此大概也算是Windows下出现得最早的电子书格式之一了。
　　
　　由于这种格式比较流行，国外研究的也比较多，不过公开源代码的我似乎只见过一个HELPDECO v2.1。这个软件是一个控制台程序，因此有人做了一个GUI外壳DuffOS对它进行封装。国内有人对HELPDECO进行过汉化，到汉化新世纪搜索一下就可以找到，包括全部源代码。
　　
　　在UnEBook中使用了HELPDECO的源代码，实现对HLP文件的批量反编译。不过从我使用的情况看，原版HELPDECO有一个小小的不足：反编译出来的RTF文件没有指定字符集。这对英文RTF来说没有任何影响，但是对中文RTF来说，其影响足够强到使您打开RTF后看到的是一堆乱码。它的修正方法有两个：
　　
　　用文本编辑器打开反编译出来的RTF文件，手工指定中文字符集。这个是一种比较累的方法。
　　修改HELPDECO源代码，加上字符集修正，这个是一劳永逸的办法。但是不知道为什么，在汉化新世纪推出的汉化版上，我看到的还是原版的HELPDECO。看来汉化者只是用它反编译过英文HLP，没有反编译过中文HLP。
　　另外这份源代码还有一个不知道算不算是严重的问题：变量没有统一初始化、释放，因此不仅在程序退出的时候，VC++会报告有内存漏洞，而且就象当年的DOS内核一样，几乎没有可重入性。我曾经试图修复这个bug，但是在经过一个下午的奋斗后，有两处泄漏死活找不到。最后我还是决定向DuffOS学习：将HELPDECO代码封装成一个独立的DLL，每反编译一个HLP文件，都动态加载、释放一次DLL。这样一方面可以利用Windows本身的DLL管理机制，弥补HELPDECO产生的内存漏洞，一方面解决不可重入问题。收费的“耶书制造”软件提供的HLP反编译功能也是用DLL文件实现的，因此我严重怀疑它的作者可能也曾遇到过相同的烦恼，嘿嘿嘿……
　　
　　从HLP文件反编译出来的RTF文件，一般包含大量书签、分页符等与实际文本内容无关的东西，有必要转换成纯文本格式。这个实现倒是比较简单：
　　
　　创建一个Windows标准的RichEdit控件，当然没有必要在用户界面上显示出来。
　　按SF_RTF格式，StreamIn原RTF文件内容。
　　按SF_TEXT格式，StreamOut文本内容。
　　UnEBook提供的从RTF到TXT的批量转换功能，就是按照上面的方法实现的。
　　
　　2.4 小说网/小说世界（ebx/XReader）
　　这两家网站提供的电子书使用的是同一个阅读器，只不过小说网出现得比较早，提供的电子书多半不需要验证码，而小说世界出现得比较晚，提供的电子书多半需要输入验证码。
　　
　　这种电子书分两种：ebx和EXE格式。ebx格式的电子书需要用专用浏览器XReader才能浏览，EXE文件的内容其实就是XReader + ebx包构成。
　　
　　国内Cyu曾经推出过反编译这种EXE格式的工具－－xReader Unpacker。从我试用的情况来看，这个工具的实现应该是基于对EXE文件格式的辛苦分析，果然勤劳善良的中国人什么时候都有啊！不过从我试用的结果看，这个工具也存在下列问题：
　　
　　一次只能反编译一个文件，不能批量反编译，使用起来略有不便。
　　反编译出来的文件用左侧目录树中对应的节点命名，完全失去了文件的先后顺序。
　　在反编译某些文件，如《血酬定律--中国历史中的生存游戏》的时候，会出错退出。我个人猜想可能是因为对书中多级目录处理不当。
　　奇怪得很，只能对EXE文件进行反编译，不能对ebx文件反编译，其实这两种文件本是两位一体的。
　　当然，我试用的只是最初版本的xReader Unpacker，后来听说作者又进行了更新，这些问题都解决了也说不定。
　　
　　在考虑反编译这种格式的电子书的时候，因为我已经在思考针对IE内核的通用反编译方法，因此从一开始我就没打算对文件格式进行分析，而是打算从界面元素入手，看看有没有什么后面可走：
　　
　　先用IECracker抓一下窗口，发现根本就不是基于IE内核的东西。这个时候首先想到的就是：软件作者会不会向起点中文网学习，将内容转换成图片，然后再显示？但是很快就否定了这个可能，一方面是因为XReader提供了文字放大、缩小功能，另一方面是因为启动金山词霸后，将光标往窗口上一放，词霸显示出了抓词内容。这个时候脑袋里一闪念间，也曾出现过一个反编译方案：干脆向金山词霸学习，做一个API hook，抓它的显示内容算了，哈哈……
　　在确定XReader显示的东西不是图片后，我就启动SPY++，打算看看XReader的显示窗口用的是什么东西。但是查看的结果令人惊奇：每启动一次XReader，显示窗口的class name就会变化一次，是一个完全随机的字符串，从上面根本看不出这个窗口使用了什么控件。
　　再多看几本电子书后，我发现所有电子书都有一个特点：完全没有图片，清一色都是纯文本，但是鼠标放到窗口上的时候，光标不会变成通常文本窗口的插入光标（一条竖线），还是箭头光标。到这个时候，我已经开始准备相信软件作者完全继承了国人勤劳善良的光荣传统，自己写了一个文本输出控件了。……且慢，为什么在打开这个大文件的时候光标会闪一下，从竖线变成箭头？再前后动动鼠标滚轮看看，每次不多不少，正好滚动3行，这个不是RichEdit控件的特性之一吗？！
　　立刻启动SPY++，这次不看class name了，改看消息流。果然每次点击左侧目录树，都会向右侧显示窗口发送一堆RichEdit控件的消息：EM_SETBKGNDCOLOR（设置窗口背景色）、EM_SETCHARFORMAT（设置光标形状）、EM_SETMARGINS（设置左右页边距）、EM_STREAMIN（导入显示内容）。
　　既然已经确定右侧显示区用的是一个标准的RichEdit控件，而左侧目录树是一个标准的TreeCtrl控件，那么反编译方案其实也就出来了：周游左侧目录树，依次选中每个节点，然后拦截右侧RichEdit控件的输出，写入文件即可。
　　不过在搞清楚XReader的原理后，我也产生了一个疑问：RichEdit控件本身是可以同时显示文本、图片的（RTF格式），但是为什么XReader只显示纯文本，不显示图片呢？要知道这样可是会使做出来的电子书增色不少。开始我以为是为了保密，象我自己一开始不也差点误入歧途？如果不是偶然看到光标闪烁，再动动鼠标滚轮，可能我一时也想不起来他用的是标准RichEdit控件。后来在看到早期版本的XReader后，我想更大的可能是为了兼容：早期版本用WM_SETTEXT传递显示信息，只能显示纯文本，后来才改用EM_STREAMIN的。
　　
　　总结一下，XReader中采取了下列措施防拷贝、防反编译：
　　
　　随机更改RichEdit控件的class name，防止被人识破。
　　对光标形状进行设置，一方面防止被人识破使用的是RichEdit，一方面避免用鼠标选择、复制内容。
　　对WM_COPY、WM_GETTEXT、EM_STREAMOUT等等消息进行了过滤，因此直接从窗口获得文本内容就不要想了。
　　可惜，微软提供的RichEdit控件是用于开放环境的，一旦被识破，用微软本身提供的接口就足以搞到所需的内容了。
　　
　　后来看到小说网早期放出来的EXE格式电子书，才发现XReader这个软件也是不断发展的，而版本升级的目的主要就是为了加强安全性，ebx格式本身却没有什么变化，一直很稳定，新的ebx文件也可以用老的XReader打开：
　　
　　早期版本的XReader支持用命令行参数的方式，传入需要打开的ebx文件路径，这样容易被人利用，实现文件自动打开。后来版本的XReader就只能通过菜单或工具条，点“打开电子书”才能打开文件。当然这个限制也不是不可以突破，不过毕竟没有用命令行参数传递这么方便。
　　早期版本的XReader其实就使用WM_SETTEXT消息显示文本。如果早点看到这个版本的电子书，说不定我还可以少费点周折。后来版本改用EM_STREAMIN，估计一方面是为了保密，另一方面是为了速度和性能：在显示大文件的时候，EM_STREAMIN比WM_SETTEXT快得多；EM_STREAMIN可以显示RTF文件，而WM_SETTEXT只能显示文本文件；EM_STREAMIN可以显示大型文件，而WM_SETTEXT支持的文件长度是有限的。3. 结论
　　就像信息安全中的攻与防一样，电子书的编译与反编译之间的斗争也将是一个永无止境的死循环。我相信不论电子书反编译技术如何发展，都不会导致电子书的绝迹，毕竟有实际的需要。但是本文的发表，毫无疑问将会刺激电子书制作软件和制作技术的新一轮升级。那么我的文章和软件会不会随之升级呢？我自己是没什么自信啦，毕竟我的自由时间越来越少，而如果没有其他人愿意象我这样研究反编译技术和软件（收费的免谈），我想最终胜利的一定是有商业利益支撑的电子书制作软件。
　　先分析电子书的详细文件格式，再有针对性推出专用反编译器的方法，在初期确实是一个不错的方法，但是随着电子书格式的增多，如果每一种都要去分析一遍，早晚会累死。
　　电子书制作软件其实也是人开发的，开发者当然也会有人类的通病――懒！只要有现成的东西可用，很少有人会再花力气去修练自己的独门功夫。而目前Windows下的东西，开放性的考虑要比安全性的考虑更多一些，如果能够找到这些东西的突破口，即可突破同一类使用这些东西的电子书。
　　利用现成控件的接口或漏洞，实现通用电子书反编译，这其实也是程序员懒惰的一种体现。这种方法虽然比老老实实分析、跟踪电子书简单许多，但是也有其天然缺陷：只能反编译显示到控件中的内容。通俗一点说，如果电子书是加密码保护的，那么这种方法并不能在不知道密码的情况下，反编译出电子书的内容。
　　附录基于IE内核电子书的实现方式探讨
　　电子书看多了，有时候我也会想，如果是我自己做一个电子书制作工具，我会采用什么样的技术加以实现？考虑到现在HTML格式文档的普遍性，在有人开放出新的HTML render之前，我的想法还是只能围绕IE内核打转。下面就是我想到的一些思路。
　　
　　1、基于res协议
　　
　　res协议是IE内核提供的一种非常简单的协议，允许将需要浏览的页面存放在EXE或DLL的资源（resource）中，IE根据URL定位EXE或DLL，装载其中的资源。下面这个URL就是这种协议的一个例子：
　　
　　res://C:\WINNT\system32\shdoclc.dll/http_404.htm
　　
　　如果您在IE中要浏览的页面不存在，IE就会通过这个URL，打开C:\WINNT\system32\shdoclc.dll，查找其中名为http_404.htm的资源，找到后提取、显示出来，您看到的就是一个提示页面不存在的网页。
　　
　　从上面这个页面的源代码可以看到，除HTML代码外，res协议还允许在页面中包含图片等内容，如上面这个页面就显示了一个名为pagerror.gif的图片，其绝对URL为res://C:\WINNT\system32\shdoclc.dll/pagerror.gif。
　　
　　虽然res协议非常简单，基本上不需要额外的编程，但是我目前还没有看到有人用它做电子书，最多只看到有人用它显示软件的About信息。仔细想想，可能是因为这种协议太不保密了：随便找一个资源编辑器，就可以直接获取、替换资源内容了。
　　
　　2、基于文件方式
　　
　　这种方式的思路其实非常简单：需要显示网页的时候，先将网页解压缩到临时目录，然后用IE控件显示，退出的时候删除临时文件。
　　
　　这种方式我早就知道，但是因为它实在是太简单了，所以连我自己都不相信有人真的会用它做电子书，直到我见到雄风网的电子书：这个网站早期发行的电子书，虽然要求用户输入密码进行验证，但是在密码输对以后，就会把全部内容解压缩到temp目录下，然后用IE控件打开文件进行浏览。虽然temp目录下的文件属性被设置为隐藏，但是这点小伎俩实在不值一提，所以只要破解了认证密码，电子书本身就已经提供了完整的反编译功能了。
　　
　　该网站后来发行的电子书虽然经过升级，但还是延续了这种模式，只不过在temp目录里存放的是加过密的HTML文件，但是图像文件却是不加密的，因此我猜测他们可能改用MIME Filter技术了。
　　
　　3、基于流或document.write方法
　　
　　用流往IE控件中写入内容的方法，在MSDN和CSDN中都有详细的讨论，连源代码都有。有需要的到MSDN搜索“Loading HTML content from a Stream”即可。
　　
　　document.write在动态网页中比较常用，很多网页加密工具都是使用这招来实现网页源代码的隐藏。对于VC、Delphi等来说，这招不过是换成了IHTMLDocument2::write，效果是一样的。
　　
　　使用这种方法做电子书的虽然不多，不过毕竟还是有的，我见过的就是读写网。由于打开这个网站的电子书后，IE主页就会自动设置为这个网站的URL，所以在这里就不给出这个网站的URL了，以免各位受到意外伤害。破解这种电子书的收费验证的方法，已经有人在紫宸殿网络论坛的技术区贴出来过，有兴趣的可以去看看。
　　
　　在MSDN中对这种基于流的方法的局限性说得很清楚：
　　
　　页面不能太复杂，如果页面包含的tag太多，显示出来的就不是解析后生成的页面，而是原始的HTML代码。大概就是因为这个原因，所以读写网放出来的电子书清一色都只有纯文本，加背景色。
　　当前页面的URL永远不变（读写网的永远都是about:blank），因此IE内核没有办法从相对URL自动构造出绝对URL。就是因为这个原因，读写网早期的电子书在页面中使用jpg文件作为背景，就只能将这个背景图片写到temp目录下，然后在网页中使用绝对URL引用这个图片。也正是因为这个原因，所以在页面中不能包含“上一页”、“下一页”、“回目录”等链接，只能自己在左侧放一棵目录树，让用户一页、一页去点。
　　由于这种电子书的页面没有自己的URL，因此不能用KillEBook进行反编译，只能用IECracker或CtrlN，一页、一页手工抓取。
　　
　　4、采用MIME Filter
　　
　　与基于流的方法相比，这种方法不仅支持包含众多tag的复杂HTML页面，而且可以从相对URL构造绝对URL，因此支持页面之间的链接，实现也不复杂，MSDN上就有现成的例子可供参考。
　　
　　不过这种方法的缺点也很明显：不能对图像等内容进行加密处理。下面说的协议插件方法就比这种方法强些。
　　
　　5、基于web服务器
　　
　　对于不懂行的人来说，“web服务器”听起来可能是一个很了不起的东东，但是对于懂行的人来说，实现其实很简单：
　　
　　起一个监听线程，对本地80或任何一个指定的端口进行监听。
　　每监听到一个连接请求，起一个服务线程，根据请求内容，按照HTTP协议，返回内容。
　　在codeguru和codeproject上，有很多现成的web server代码，直接拿来用就好，自己只要考虑怎么填写返回内容即可。VC 6自带的MSDN光盘上，也带了一个名为HTTPSVR的例子，说明如何用MFC和WinSock创建web server。
　　
　　使用这种方法虽然简单、直截了当，而且只要愿意，差不多能够模拟一个真正web server的功能（就算想实现app server也并非不可能，不过要花点功夫），但是也有问题：
　　
　　基本上没有什么保密性可言，服务器起来后，本机其它进程很轻松就能下载到需要的内容。
　　如果本机上其它进程也提供TCP/IP服务，可能会产生端口冲突。
　　6、协议插件（Asynchronous Pluggable Protocols）
　　
　　这个是微软专门为IE扩展的东西。
　　
　　在互联网上，常见的应用层协议包括http、FTP等。出于种种原因，微软允许用户在标准的应用层协议之外，扩展自己的协议，称为Asynchronous Pluggable Protocol。到MSDN、codeguru和codeproject上搜索这几个关键字，从理论到源代码都能找出一堆，在这里我就不罗嗦了。
　　
　　Asynchronous Pluggable Protocol可以指定对所有进程有效，这个在注册表的HKEY_CLASSES_ROOT\PROTOCOLS\Handler下注册一下就好；也可以指定只在某个进程内有效，以增加保密性，不过这个时候微软就不叫它Asynchronous Pluggable Protocol了，而是Pluggable Namespace Handler。
　　
　　由于Asynchronous Pluggable Protocol具有一定的保密性，实现起来又有例子可参考，而且差不多与架设web server一样，能够对网页显示提供全面的支持，因此在电子书中得到了广泛的应用，我见过的就有mk（chm）、ada99（eBook Workshop）、wc2p（Web Compiler 2000）、ic32pp（Web Compiler 2000―exe防反编译格式）、e-book（E-Book Creator）、mec（E-ditor eBook Compiler）等。不过这种技术如果使用不好，可能会在注册表中产生垃圾，或产生垃圾文件（插件本身是一个COM控件，一般用DLL实现，使用前必须在注册表中注册）。
　　
　　7、最后一招
　　
　　即使使用Asynchronous Pluggable Protocol，由于在IE内核中还存在可显示的HTML源代码，因此还是存在被导出的可能，这个就是上面正文里讨论了半天的东西。
　　
　　我想到的最后一招制作防反编译的电子书的办法就是：在制作的时候，将所有页面内容全部转换成图片，然后再打包。将网页转换成图片的源代码参见这里：
　　
　　 [url]http://www.codeproject.com/internet/htmlimagecapture.asp[/url]
　　
　　使用这种方法，在拿到一本制作好的电子书后，想得到原始文本信息的方法大概只有两个：OCR和key in。这个也可以用起点中文网的方法来对付：使用手写体，加水印，故意增加错别字或替换标点符号等。据传说，起点就是根据用户ID，生成错别字和错误标点的，因此如果是原样key in或OCR，就可能被查出来。
　　
　　但是回头一想，如果哪个电子书制作工具真的走到了这一步，大概也就离消亡不远了，用户还不如直接去做PDF：
　　
　　所有动态效果全部没有，页面上的链接也全部失效，大概又只能靠在左侧放一棵目录树才能导航了。
　　页面大小、字符大小基本固定，显示的时候很难放大、缩小，尤其是放大的时候，要么速度比较慢，要么必须忍受难看的锯齿。
　　文件尺寸大增。对于以收藏为目的的电子书来说，这是一个必须以严肃的态度，认真地加以考虑的问题。

你可能感兴趣的:(职场,编译,电子书,休闲)

【euclid】10.3 2D变换模块（transform2d.rs）bytemuck trait Source.Liu euclid库（完成）rust CAD
这段代码是一个Rust的unsafetrait实现，用于标记Transform2D类型在特定条件下可以安全地被视为由全零字节组成的有效实例。让我们详细解释每个部分：代码分解：#[cfg(feature="bytemuck")]unsafeimplZeroableforTransform2D{}#[cfg(feature=“bytemuck”)]:这是一个条件编译属性，表示只有当bytemuckfe
hi3531 SDK已编译文件系统制作jffs2文件系统镜像并解决问题 . 毛毛虫的爹 HI3531
一,安装SDK1、Hi3531SDK包位置在"Hi3531_V100R001***/01.software/board"目录下，您可以看到一个Hi3531_SDK_Vx.x.x.x.tgz的文件，
面向对象高级（5）接口暮湫 java
面向对象高级（5）接口接口就是规范，定义的是一组规则，体现了现实世界中“如果是...则必须能...”的思想。继承是一个"是不是"的is-a关系，而接口实现则是"能不能"的has-a关系。1、接口的定义格式接口的定义，它与定义类方式相似，但是使用interface关键字。它也会被编译成.class文件，但一定要明确它并不是类，而是另外一种引用数据类型。引用数据类型：数组，类，枚举，接口，注解。修饰符
OpenPose xiaofeilongyu
摘要我们提出了一个的方法，它能在有多个人的图像中高效地进行2D【二维】姿势检测。该方法运用了非参数表示【non-parametricrepresentation】，我们称之为部分亲和域【PAFs】，我们用它来学习怎么将身体部分和个体联系起来。该结构编译了全局，这允许了贪婪的自底向上分解的步骤，使得不管图片中有多少人，它都可以在实现实时性的同时保持高识别准确度。我们设计的这个结构，通过相同的顺序预测
以Typescript程序员视角对比Go与Rust 彭铖洋 javascript reactjs
就在昨天，微软发布了一则重磅消息，让编程界为之震惊：在代号为“Corsa”的项目中，TypeScript的编译器和工具链正在从JavaScript移植到Go。目标是什么？惊人的10倍性能提升。早期的基准测试已经显示，VisualStudioCode的150万行TypeScript编译时间仅为7.5秒，低于缓慢的77.8秒。特别有趣的是，微软明确选择Go而不是Rust来完成这个关键项目。他们的工程团
学科场景与代码场景 youhebuke225 deepseek deepseek 人工智能
一、deepseek应用场景概述deepseek技术已通过前期系统讲解形成完备的提示词使用体系，现通过具体案例展示其在生活、职场、学习等领域的实际应用。二、学科问题解决场景数学/物理领域应用•适用范围：覆盖小学至研究生阶段的各类理工科问题•典型案例：(1)第11个质数求解：•R1模型处理：通过客户端交互后给出精准数值结果（具体数值原文未公开）•对比测试：◦GPT-3.5：回应"无公开记录"◦GPT
Java 后期绑定 java
绑定绑定指的是一个方法调用与方法所在类(方法主体)关联起来前期&静态&编译时绑定若在程序执行前进行绑定（如果有的话，由编译器和连接程序实现），叫做前期/静态/编译时绑定前期绑定是面向过程语言中默认的绑定方式。这么做意味着编译器将产生对一个具体函数名字的调用，而运行时将这个调用解析到将要被执行的代码的绝对地址为何能将调用解析到将要被执行的代码的绝对地址？因为前期绑定在程序运行前的编译期间就已将方法调
2025 国内外主流静态分析类（SAST）工具汇总 DevSecOps选型指南安全 devops 代码复审
1.灵脉SASThttps://sast.xmirror.cn/悬镜安全Xmirror公司产品核心能力Al多模检测引擎轻量级检测引擎检出速度更快，并支持不编译检测和编译检测，检测场景灵活。核心引擎均内置大量第三方库并支持常用框架，支持过程间污点跟踪分析和API扫描识别敏感参数，检出结果更全面精准。深度融合SCA融合SCA双倍Al驱动引擎进行同步检测，并支持组件漏洞可达性分析，一次检测双重安全。多维
python之基本概论前端技术 python python 编程语言
python简介Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越多被用于独立的、大型项目的开发。自从20世纪90年代初Python语言诞生至今，它已被逐渐广泛应用于系统管理任务的处理和Web编程。Python的创始人为荷兰人吉多·范罗苏姆（Guidova
【Python基础】01 Python概论 Stu_Yang Python python基础
Python概论 Python是近年来越来越受欢迎的编程语言，python语言短小精悍，拥有大量的第三方库，形成了辽阔的计算生态。下面就走进python语言的世界，Lifeisshort,weneedpython!更新历史：2021年5月25日完成初稿 Python是一门年轻的编程语言，由荷兰数学和计算机科学研究学会的GuidovanRossum于1990年代初设计，第1个python编译器/
编译语言的命名规范 DeafReady 编程的一些范式代码规范开发语言
文章目录前言**`省流版本：`****变量名的最低规范**变量名常用的两种规范1.驼峰命名规范：2.类ruby命名规范：**`精讲内容`**1.变量命名小写字母加下划线（snake_case）：驼峰命名法（camelCase）：大驼峰命名法（PascalCase）：2.常量命名3.函数和方法命名4.类和接口命名5.文件和目录命名6.命名约定7.语言特定的命名规范8.文档和注释总结前言编程语言的命名
《extern：如何在编译时“暗通款曲“》胡乱儿起个名 C++c++开发语言
C++中extern关键字的完整用法总结extern是C++中管理链接性（linkage）的重要关键字，主要用于声明外部定义的变量或函数。以下是详细的用法分类和完整示例：一、基本用法1.声明外部全局变量//globals.cppintg_globalVar=42;//实际定义//other.cppexternintg_globalVar;//声明使用外部变量voidfoo(){std::coutc
区块链7-智能合约编程语言-solidity 百战成王区块链比特币
Solidity语言详解1.文件结构2.数据结构3.错误处理11.参数12.控制结构13.可见性14.函数1.1合约文件结构1.1.1版权申明1.1.2import1.1.3合约1.1.3.1状态变量1.1.3.2函数1.1.3.3结构类型1.1.3.4事件1.1.3.5函数修改器1.1.4代码注释语言类型动态：运行时确定某个变量类型egg：javascript静态：声明的时候，编译的时候，指定变
AndroidStudio编译报错 Duplicate class kotlin 大秦樗里疾 Android AndroidStudio 编译 kotlin android
具体的编译报错信息如下：Duplicateclasskotlin.collections.jdk8.CollectionsJDK8Ktfoundinmoduleskotlin-stdlib-1.8.10(org.jetbrains.kotlin:kotlin-stdlib:1.8.10)andkotlin-stdlib-jdk8-1.6.21(org.jetbrains.kotlin:kotlin
DeepSeek：清华大学团队打造的职场智能革命行路独迷见人工智能 ai
引言：AI赋能职场的新范式由清华大学人机共生研究团队领衔开发的DeepSeek，正以多模态大模型技术重构职场效率边界。这款聚焦人机协同的智能系统，通过「基础模型（V3）」与「深度思考模型（R1）」双引擎驱动，实现了从标准化流程到开放式创新的全覆盖，为职场人提供了全场景智能解决方案。一、DeepSeek双模型能力矩阵1.基础模型（V3）：职场效率加速器强规范性：适用于流程明确的标准化任务（如合同审核
visual studio 常用的快捷键（已经熟悉的就不记录了） Ring__Rain visual studio c++git
以下是VisualStudio中最常用的快捷键分类整理，涵盖代码编辑、调试、导航等核心场景：一、生成与编译生成解决方案Ctrl+Shift+B一键编译整个解决方案，检查编译错误（最核心的生成操作）编译当前文件Ctrl+F7仅编译当前打开的代码文件，适合快速验证局部修改二、代码编辑注释/取消注释注释选中行：Ctrl+K,C取消注释：Ctrl+K,U（支持多行快速操作）代码格式化格式化文档：Ctrl+
centos rpm 命令参数使用详解天下琴川
rpm执行安装包二进制包（Binary）以及源代码包（Source）两种。二进制包可以直接安装在计算机中，而源代码包将会由RPM自动编译、安装。源代码包经常以src.rpm作为后缀名。常用命令组合：－ivh：安装显示安装进度--install--verbose--hash－Uvh：升级软件包--Update；－qpl：列出RPM软件包内的文件信息[QueryPackagelist]；－qpi：列出
Go 语言中的 package main、 func main() 和main.go的使用规范打工小熊猫 Coding 所遇拦路小猛虎 golang 开发语言后端
本文旨在解释Go语言中packagemain、funcmain()和main.go的关系及其使用规则，解决如下典型问题：是否可以在一个项目中定义多个funcmain()？是否可以在非packagemain中写funcmain()？多个文件中都写funcmain()会冲突吗？main.go是必须的命名方式吗？正确的结构设计与推荐实践是什么？一、核心概念1.packagemain唯一被Go编译器当作“
编译时，无法链接的错误处理 stanleyrain c++visual studio code vim vscode
编译一个代码时，使用VScode编辑，Cmake工具链编译C++代码，出现了一个报错，提示：无法链接。/usr/bin/ld:cubic_spiral.cpp:(.text+0xed1):undefinedreferenceto`IntegrateBySimpson'使用nm工具分析.o文件，发现没有符号输出使用objdump也检查没有任何符号输出objdump-tCMakeFiles/path_
【ShuQiHere】配置和使用 VS Code + LaTeX Workshop：全方位指南 ShuQiHere latex
配置和使用VSCode+LaTeXWorkshop：全方位指南目录引言什么是LaTeX以及为什么选择LaTeXWorkshop？安装步骤1.安装VSCode和LaTeXWorkshop插件2.安装LaTeX编译工具3.验证安装4.使用LaTeXWorkshop编写和编译文档LaTeX使用小窍门1.自动补全和宏定义2.使用数学环境3.管理参考文献在LaTeX中绘制函数1.使用TikZ绘图2.使用PG
分享一些使用DeepSeek的实际案例小宁学技术 DeepSeek使用手册
文章目录前言职场办公领域生活领域学习教育领域商业领域技术开发领域前言以下是一些使用DeepSeek的实际案例：DeepSeek使用手册资源链接：https://pan.quark.cn/s/fa502d9eaee1职场办公领域行业竞品分析：刚入职的小李被领导要求一天内完成新能源车行业竞品分析，他使用DeepSeek输入“新能源车2025年市场趋势”，AI不仅生成了SWOT矩阵，还附上数据图表模板，
Rust编程学习（一）: 变量与数据类型 Linux编程用C rust 开发语言后端
我们先从Rust基本的变量声明定义与数据类型开始学习，了解这门语言基本特性。1变量与可变性变量声明变量声明以let关键字开头，x为变量名，变量名后紧跟冒号和数据类型,但是rust编译器有自动推导变量类型的功能，可以省略显式的声明。let x:i32 = 10;//等价于let x = 10;默认变量是不可变的只读状态let x = 10;x = 20;//错误❌ 不能对不可变变量进行赋值可变变
【gcc/g++编译器安装】研发环境搭建之gcc/g++编译器安装三金哥行道 linux编译 linux gcc 编译
背景因为项目需求，需要家里的Win10PC安装Ubuntu20.04虚拟机并搭建编译环境，需要安装gcc/g++编译器安装方法1-直接使用命令安装情况1：gcc-v提示从来没安装过，则执行以下命令安装即可sudoadd-apt-repositoryppa:ubuntu-toolchain-r/testsudoaptupdatesudoaptinstallgcc-9sudoaptinstallg++
【Linux】gcc/g++与动静态库好像有点东西 Linux linux
目录一、gcc和g++编译器的简单使用1.1编译C语言程序1.2编译C++语言程序1.3使用注意事项二、gcc实现程序的翻译过程2.1预处理(进行宏替换)2.2编译(生成汇编)2.3汇编(生成机器可识别代码)2.4连接(生成可执行文件或库文件)三、gcc的常用选项四、函数库4.1库的概念4.2静态库与动态库4.2.1静态库4.2.2动态库4.3静态链接与动态链接4.3.1静态链接4.3.2动态链接
2025年转行网安到底行不行，网络安全有没有发展前途，零基础转行难不难？ QXXXD web安全安全 php 服务器数据库网络
在被新冠疫情常态化影响的今天，职场当中呈现出了严重的两极分化现象，具体的表现形式为：一些人薪资翻倍、愈加繁忙，另一些人则加入了失业大军、不知所措；一些行业实现了井喷式增长，一些行业却不断裁员、随时面临倒闭的风险。也有这样一个行业，正因为疫情的出现，使其变得更加重要，它就是——网络安全。相较于病毒肆虐造成的人身健康威胁，今年网络世界的安全威胁则显得更加突出和难以察觉。伴随着国家战略信息化建设进入高速
关于python与c++效率的对比实战鸿雁拉着我飞 python 效率 C++排序
c语言是编译型语言，python是解释型语言，因此两者的效率有不小的差距，可没想到差距那么大。最近跟hackerrank上一道排序的题目杠上了(感兴趣的同学可以去看看，名为sortedsubsegment)，用的python，废了几天功夫都没解出来。终于还是看了答案(用的是二分查找的思想与线段树的数据结构)，答案是java写的。于是我用python实现出来，速度依然不行。于是又用c++写了一遍。结
很透彻！50个Pytorch核心操作！！！我不是小upper 机器学习数据科学数据挖掘 pytorch 人工智能 python
大家好，我不是小upper。今天，咱们一起来深入探讨Pytorch。Pytorch官网为https://pytorch.org，这里能找到最新且最完整的语法解释，是学习和使用Pytorch的重要资源宝库。现阶段来说，无论是在职场拼搏的专业人士，还是在校潜心钻研的学生，依据NeurIPS、ICML等顶级学术会议论文的统计数据，超过70%的深度学习研究代码是基于PyTorch实现的，这一比例远超Ten
C++之静态方法2 埜玊 c++c++
-静态成员是所有对象共享的，所以不能在静态方法里访问非静态的元素。-非静态方法可以访问类的静态成员，也可以访问类的非静态成员。为什么?...一、C++内存分配方式详解--堆、栈、自由存储区、全局/静态存储区和常量存储区栈就是那些由编译器在需要的时候分配，在不需要的时候自动清除的变量的存储区。里面的变量通常是局部变量、函数参数等。在一个进程中，位于用户虚拟地址空间顶部的是用户栈，编译器用它来实现函数
ARM处理器开发详解（一）「已注销」笔记嵌入式
文章目录嵌入式系统定义电气工程协会（IEEE）的定义：更广泛的定义：嵌入式系统的特点嵌入式系统的发展嵌入式系统主要经历的4个阶段：未来嵌入式系统的发展趋势：嵌入式系统的组成嵌入式系统的硬件组成嵌入式处理器：外围设备：嵌入式系统软件组成嵌入式操作系统举例嵌入式开发流程嵌入式开发概述交叉编译：交叉调试：软件调试：硬件调试：ROM监视器：ROM仿真器：在线仿真器：在线调试器：微处理器在嵌入式学习中的重要
C++习题1——24、30— 爱吃涮毛肚的肥肥笔试面试 c++开发语言
24、C++程序下列说法正确的有（)A)对调用的虚函数和模板类都进行迟后编译B)基类与子类中函数如果要构成虚函数，除了要求在基类中用virtual声明，而且必须名字相同且参数类型相同返回类型相同C)重载的类成员函数都必须要：或者返回类型不同，或者参数数目不同，或者参数序列的类型不同D)静态成员函数和内联函数不能是虚函数，友员函数和构造函数也不能使虚函数，但是析构函数可以。ABD迟后编译：编译的时候
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class