Python爬虫系列博客

自己一直在做Python网络爬虫,在这一系列的博文中,我将分享自己在Python爬虫学习之路的一些笔记、一些总结、一些感悟。博主乃学生一枚,还请各位看官多多指教。

个人博客的地址是:www.line-coding.tech

  1. Python爬虫基础-正则表达式与Http请求
    网络爬虫又称为网络机器人,它可以按照程序设定的规则自动抓取网页上的信息。网络是信息的海洋,但是网络中的数据是零散的、无序的且存在着冗余,如何从复杂的网页代码中提取有用的信息便是爬虫需要解决的问题。Python语法简洁,代码风骚,数据的处理能力强,比如函数参数的打包解包,列表解析,矩阵处理,非常方便,所以Python非常适合做网络爬虫。我将在这里很大家分享我的一些网络爬虫小程序,让我们一起体验爬虫带来的乐趣吧!

  2. Python爬虫利器—BeautifulSoup
    数据抓取纯粹靠正则表达式会显得比较麻烦,代码写起来会比较复杂,还好有BeautifulSoup这个强大的工具,使得python数据爬取变得简单,这也正是python为什么如此强大的原因吧,太多太多强大的第三方库使得很多的开发变得简单而高效,下面就一起来了解一下BeautifulSoup吧。BeautifulSoup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

  3. Python操作Mysql数据库
    在正式开始Python网络爬虫实战之前,我们需要先来了解一下Python的一些基础知识,包括网络请求、数据存储以及异常处理等,这篇博客主要讲解Python的Mysql数据库操作,我们使用爬虫爬取下来的数据需要存储,而数据库就是常用的存储方式之一,所以熟练地掌握数据库操作对于网络爬虫的学习是很有必要的。

  4. Python文件操作
    上一篇博文中我们介绍了Python使用Mysql数据库进行数据存储,数据库存储的数据需要特定的工具进行打开,而普通的数据文件是一般的电脑都能打开进行查看的,因此数据库存储的通用性没有文件存储那么好,文件存储也是Python网络爬虫的常用存储方式之一,特别是csv文件,所以我们对于文件的输入输出流操作、缓存、基本的读写方式、文件迭代器等我们都需要有一些基本的了解,并熟练掌握文件的读写操作,为我们的爬虫实战打下坚实的基础。

  5. Python Http网络请求
    Python网络爬虫开发离不开Http网络请求,此前的几篇Python网络爬虫博客中,对网络爬虫已经有了一些基本的介绍,也使用了一些网络请求库,但是没有对Python网络请求做详细的说明,此篇博客将对Python的Http网络请求进行一个总结,通过列举不同的Http请求库的不同请求写法来熟悉Python的网络请求,从而有利于后续的网络爬虫开发。

后期将陆续更新,更多详情请移步:www.line-coding.tech

你可能感兴趣的:(python)