Python爬虫入门之豆瓣短评爬取

采用工具pyCharm,python3,工具的安装在这就不多说了,之所以采用python3是因为python2只更新维护到2020年。

  1. 新建python项目
    Python爬虫入门之豆瓣短评爬取_第1张图片

  2. File-Settings-project interpreter,点右上角+号,安装requests,lxml,openpyxl,pandas四个包。
    requests爬取豆瓣短评
    lxml解析定位豆瓣短评
    panda转换并保存豆瓣短评数据
    openpyxl是读写excel文件所用到的包
    Python爬虫入门之豆瓣短评爬取_第2张图片
    Python爬虫入门之豆瓣短评爬取_第3张图片

  3. 在项目下新建一个python file,实例代码如下:
    Python爬虫入门之豆瓣短评爬取_第4张图片

  4. 这里着重说一下,xpath路径如何获取,在网页中选中评论内容,右击-检查,自动跳到对应代码行,再在该代码行上右击-Copy-Copy XPath;粘贴出来你的代码好比如是://[@id=“comments”]/ul[1]/li[1]/div[2]/p/span,这时你要结合你的前端基础知识和页面世界节点去分析,最后把xpath改成//[@class=“comment”]/p/span/text()Python爬虫入门之豆瓣短评爬取_第5张图片

  5. 运行代码,在项目目录下生成comments.xlsx文件。大功告成!
    Python爬虫入门之豆瓣短评爬取_第6张图片

你可能感兴趣的:(python爬虫)