作为一个靠python自学入门的菜鸟,想和大家分享自己写的第一个也是目前为止唯一一个爬虫代码
写爬虫要具备的能力基础:python入门基础,html5基础知识,然后这边用的是scrapy框架,所以还要需要学习scrapy。其实beautifulSoup也可以,我也是先学习了beautifulsoup写了一点之后发现scrapy更方便简单,于是又学习用scrapy
附链接:
python基础教程(廖雪峰老师的):https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
爬虫基础(崔庆才老师的):http://cuiqingcai.com/1052.html
scrapy框架:http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html
Html5(菜鸟教程):http://www.runoob.com/html/html-tutorial.html
先附一张别人的构思图片,我就是看到这个才有思路的。再这边感谢那个作者,(已经忘记名字了)
我爬取的网站是“古诗文网(http://www.gushiwen.org/)”接下来就直接分享构思图和代码吧
最后爬取下来有几万首古诗词,先存着吧,应该会用作为毕业设计。
这边还要感谢知乎上交我写正则表达式的大神们,(比如大神“黄哥”)