一点实用代码

阅读更多

有限状态机
实现了一个确定型的有限状态机,可以向它注册状态跃迁规则和动作,然后在事件发生的时候通知它,别的都由它实现了。动作的原型是一个void (*)(void* params)的函数指针。
FSM的实现不依赖于任何超越标准C++的内容,也就是说,它可以使用在任何支持标准C++的环境中。顺便说一下,我在WinCE和Windows上都使用过它。

HTML2TEXT
一 个简单的例子使用有限状态机,它能够实现快速的把HTML文件转换为TEXT文件,具体的说,就是把标签(头尾tag)去掉,同时其属性也被去掉,把注释 内容去掉,把脚本和内嵌样式单中的内容去掉,把实体引用转换为实体代表的内容本身。该例子只是为了展现有限状态机的使用方式,没有考虑HTML中的标签的 大小写的问题,如果要考虑也不会复杂多少。
HTML2TEXT的实现也完全是标准语言和库实现的,只是采用了*_s之类的安全的函数,在某些环境下不可实现,不过可以简单的替换成没有_s的相应版本。

实现的基本描述:
顺 次的扫描HTML文件(当作一个以零结尾的内存区域),碰到标签<字符,开始忽略其内容,碰到>字符,重新开始记录。碰到时重新开始记录,同时,碰到时重新开始,style也 是一样的处理方式,状态机的状态相当少,包括Normal、Tag、Comment、Style、Script、Entity、End,状态机的开始状态 是Normal,最后状态是End,中间可以在这些状态之间跳转。可能的事件包括:    eFindScriptBegin,eFindScriptEnd,eFindStyleBegin,eFindStyleEnd, eFindCommentBegin,eFindCommentEnd,eFindTagStart,eFindTagStop, eFindEntityStart,eFindEntityStop,eFindEnd。它们都很清晰直白,尤其是参看了initFSM_的时候更是如 此。它的输出文件也是一个以零终止的内存区域,不需要由客户分配,在析构该对象时自动释放。

其中比较差的一点是我对Parameter结构的使用,我是特意这样演示的,主要是想展现对于FSM灵活的使用方式,其实最常见也最实用的方式是只使用this作为参数。

显然,HTML2TEXT可以非常容易得扩展成一个完整的HTML Parse【可以加上DOM支持】,再加上HTML Render【包括CSS的支持】,Javascript支持和HTTP支持,就是一个Web Browser了。

  • Html2Text.rar (2.7 KB)
  • 描述: 源文件
  • 下载次数: 8

你可能感兴趣的:(WinCE,JavaScript,CSS,HTML,脚本)