《自己动手写网络爬虫》第二篇笔记

第二篇:自己动手抽取Web内容

  1. 正则表达式
  2. HtmlParser:文本抽取,链接抽取,资源抽取,链接检查,站点检查,URL重写,广告清除,将HTML转化为XML,HTML页面清理。
  3. 抽取正文:驱除杂质,JavaScript抽取方案。
  4. 提取PDF内容 |————|
  5. 提取Office内容 | 各种库 |
  6. 抽取RTF |————|
  7. 抽取视频:关键帧(基于镜头边界系数),镜头,情节,节目
  8. 抽取音频,MP3格式分为三个部分
  9. 网页中的噪声:与主要内容无关的文本、链接、图片、Flash等等。可以人工提取组织模式,一般用统计的方法实现网页去噪。

你可能感兴趣的:(《自己动手写网络爬虫》第二篇笔记)