Python 3 爬虫学习笔记 6 StringIO, DictReader, PDF,word

此学习笔记整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 6 reading documents

CSV file

作者提供了处理网路csvfile的一个方法,不存储,直接处理。用到了StringIO,然后直接处理。


Python 3 爬虫学习笔记 6 StringIO, DictReader, PDF,word_第1张图片

主要还是两个步骤,一个是把urlopen得到的文件用stringio 来处理一下。得到一个stringio文件,然后直接用csv.reader 来读取一下。读取后就可以进行操作了,读取后可以进行迭代操作。

也可以将csv数据处理成字典

只是将第8句换掉就好了


Python 3 爬虫学习笔记 6 StringIO, DictReader, PDF,word_第2张图片


第八句换成csv.DictReader。第九句只是用来检验得到的字段。

二,pdf

说实话,我没看懂,也没查到中英文的资料。


Python 3 爬虫学习笔记 6 StringIO, DictReader, PDF,word_第3张图片


作者上面的代码少了一句 from urllib.request import urlopen.不过书中的正确代码都可以在网上找到。

作者说这个代码对处理全是text且layout比较可以的pdf效果较好。

三,word

也不懂,就把代码贴这里吧。


Python 3 爬虫学习笔记 6 StringIO, DictReader, PDF,word_第4张图片


P.S.:没能上车的小伙伴欢迎留言,如果我会我直接回答你!如果不会,我谷歌后回答你!如果要加我微信,不行。

你可能感兴趣的:(Python 3 爬虫学习笔记 6 StringIO, DictReader, PDF,word)