用HTMLParser解析网页出现的小问题

用Heritrix抓取网站后,我用HTMLParser对抓取的网页进行解析。不可否认,HTMLParser的确是一个功能强大且使用方便的解析器。但我在使用中也发现了一些小问题,比如像这样:

写道
各有关二级学院、部门 :<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
根据台科〔2009〕70号文件《关于2010年台州市科学技术重大贡献奖推荐工作的通知》(详见http://www.tzinfo.gov.cn/news.php?newsi=&id=2447&q=),2010年台州市科学技术重大贡献奖申报工作现已开始。台州市科学技术重大贡献奖实行限额推荐,我校的推荐名额为1名。要申报的老师请根据评奖条件,填写《台州市科学技术重大贡献奖推荐书》,连同附件于2010年3月15日前送交科研处,逾期恕不受理。申报材料包括推荐书(一式17份,电子文档一份)、附件2份。成果中涉及重大经济效益的需提供财税证明,请将推荐书正文一份和附件材料报送时装订成册。

 在解析文本信息的过程中,把XML的代码也当做文本信息抓取了出来。

 

有什么办法可以把它去掉呢?

你可能感兴趣的:(xml,PHP,工作,Microsoft,Office)