python day4总结

通过这四天的练习,学习了一些知识,比如urllib, requests, re, beatifulSoup, lxml, xpath等等,
但是在其中一些细节东西,比如采集丁香园论坛的回复内容时,出现一堆空格,换行的内容,往往需要过滤掉这些
但是使用lxml的xpath方法是过滤不了这些的
contents = tree.xpath('//td[@class="postbody"]/text()')
结果会将内容提取出来,但是内容中包含\n\n的话,会提取成两个结果,
这个是属于lxml.etree.xpath的提取问题吧

PS: 若你觉得可以、还行、过得去、甚至不太差的话,可以“关注”一下,就此谢过!

你可能感兴趣的:(python day4总结)