Python爬虫爬取古诗文网站项目分享

作为一个靠python自学入门的菜鸟,想和大家分享自己写的第一个也是目前为止唯一一个爬虫代码


写爬虫要具备的能力基础:python入门基础,html5基础知识,然后这边用的是scrapy框架,所以还要需要学习scrapy。其实beautifulSoup也可以,我也是先学习了beautifulsoup写了一点之后发现scrapy更方便简单,于是又学习用scrapy


附链接:
python基础教程(廖雪峰老师的):https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000

爬虫基础(崔庆才老师的):http://cuiqingcai.com/1052.html

scrapy框架:http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

Html5(菜鸟教程):http://www.runoob.com/html/html-tutorial.html


先附一张别人的构思图片,我就是看到这个才有思路的。再这边感谢那个作者,(已经忘记名字了)

Python爬虫爬取古诗文网站项目分享_第1张图片

我爬取的网站是“古诗文网(http://www.gushiwen.org/)”接下来就直接分享构思图和代码吧

Python爬虫爬取古诗文网站项目分享_第2张图片


Python爬虫爬取古诗文网站项目分享_第3张图片


最后爬取下来有几万首古诗词,先存着吧,应该会用作为毕业设计。

这边还要感谢知乎上交我写正则表达式的大神们,(比如大神“黄哥”)

你可能感兴趣的:(Python)