我的爬虫进阶之路

python爬虫之路

  • python基础:函数、类、list、dict 中的常用方法

  • HTML基础:30分钟入门教程 https://deerchao.net/tutorials/html/html.htm

  • HTTP基础:

    • Python 自带有 urllib,httplib,Cookie等内容
    • 可以直接跳过这些,直接学习 Requests 怎么用,前提是你熟悉了 HTTP协议的基本内容
    • 数据爬下来,可能格式有: HTML文本、XML 格式、 Json。对应解决方 案: 对于 HTML 数据,可以使用 BeautifulSoup、lxml 等库去处理,对于xml 数据,除了可以使用 untangle、xmltodict 等第三方库,JSON数据可以直接使用 Python自带的模块 json
  • 爬虫工具:

    • 使用 Chrome 或者 FireFox 浏览器去审查元素,跟踪请求信息等等。大部分网站有配有APP和手机浏览器访问的地址,优先使用这些接口,相对更容易。还有 Fiddler 等代理工具的使用。
    • 学习正则表达式并不是必须的,你可以在你真正需要的时候再去学,比如你把数据爬取回来后,需要对数据进行清洗,当你发现使用常规的字符串操作方法根本没法处理时,这时你可以尝试了解一下正则表达式,往往它能起到事半功倍的效果。Python 的 re 模块可用来处理正则表达式。这里也推荐一个教程:Python正则表达式指南https://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
  • 数据存储

    • 数据清洗完最终要进行持久化存储,你可以用文件存储,比如CSV文件,也可以用数据库存储,简单的用 sqlite,专业点用 MySQL,或者是分布式的文档数据库 MongoDB,这些数据库对Python都非常友好,有现成的库支持,你要做的就是熟悉这些 API 怎么使用。

你可能感兴趣的:(爬虫)