初学爬虫小结

初学爬虫小结

requests.get 带参数headers 可实现简单反爬
soup.find_all 找全部跟参数有关节点生成列表
getText() 获取节点文本
soup.find(‘span’,attrs = {‘class’,‘next’}).find(‘a’) 获取a标签
next_page[‘href’] 获取‘href’属性
codecs.open(文件名,mod,encoding) 中文编码
f.write(u’{movie}\n’.format(movie = ‘\n’.join(…)))
格式化写入文件
第一个\n分隔多页
第二个\n分隔当前页内容
soup = BeatifulSoup(html,‘html.parser’) html.parser去warning

你可能感兴趣的:(python)