Python-Scrapy 个人兴趣教程(一):买好装备再出门

出于工作原因,接触python半年,又由于工作原因,暂别python。

作为一个从C直接跳跃到python的迷途码农,真的觉得编程突然好幸福,再也不用自己管内存了,再也不用重复早轮子了,再也不用检查类型了,什么东西都有库支持!

当然,以上感觉只停留了一个星期。。。python就像是瑞士军刀,万能的工具,只是打开后你会发现,重复的工具比较多,选哪一个都觉得另一个好- -。


吐槽结束,这个教程主要是针对有一点编程基础,对python爬虫有点兴趣,想要试水的童鞋们。


基本环境:

1. Ubuntu 14.04,我这里是放在阿里云服务器上的。

2. python 2.7.* (Ubuntu自带)


准备工作:


  • 为python安装scrapy准备必须的库。

    sudo apt-get install python-dev libffi-dev libssl-dev libxml2-dev libxslt1-dev

  • 安装pip,通过get-pip.py。(国内可能要多试几次)
  • 安装scrapy,pip install scrapy
  • 安装beautifulsoup4,方便解析html,pip install beautifulsoup4
  • 安装mongodb,很多db可以使用,这里用mongo纯粹是为了学习。 sudo apt-get install mongodb
  • 安装mongodb的python API,pip install pymongo
以上都装好后,运行一下:

scrapy startproject GoProxy

成功之后,就会得到我们所创建的一个爬虫项目GoProxy。


你可能感兴趣的:(python,爬虫)