python爬虫第5天 读取文档

本章重点介绍文档处理的相关内容,包括把文件下载到文件夹里,以及读取文档并提取数 据。我们还会介绍文档的不同编码类型,让程序可以读取非英文的 HTML 页面



纯文本

beautifulsoup()只对HTML文件有作用

一个常见的误解是 UTF-8 把所有字符都存储成 8 位。其实“8 位”只是显示一个字符需要的最小位数,而不是最大位数


读取CSV文件 

对于在线的文件

• 手动把 CSV 文件下载到本机,然后用 Python 定位文件位置; 

• 写 Python 程序下载文件,读取之后再把源文件删除; 

• 从网上直接把文件读成一个字符串,然后转换成一个 StringIO 对象,使它具有文件的 属性


csv.DictReader 会返回把 CSV 文件每一行转换成 Python 的字典对象返回,而不是列表对 象,并把字段列表保存在变量 dictReader.fieldnames 里,字段列表同时作为字典对象的键


PDF

PDFMiner3K 就是一个非常好用的库



微软Word和.docx

想读取 Microsoft Office 文件的正文内容,我们需要自己动手找方法









你可能感兴趣的:(python爬虫)