博主的毕设是要做一个指定领域的问答系统,寒假要做的就是确定领域,拿到数据。自己比较喜欢看书,所以选择书籍领域,数据找了好久都没找到现成的数据,就想着自己学学python写写爬虫,上网爬些数据。但对python一丁点都不了解,在学习的过程中整理了一下笔记。
请移步至python下载地址。我下载的是3.6.x版本的。
cp27代表是python2.7,cp34代表python3.4,amd64是64位的系统,不加代表32位。
下载后把它放进python的安装目录下,此操作与Beautiful Soup一样,这样主要是为了方便管理。在cmd命令里,先执行“python -m pip install wheel”,安装wheel,成功后在python目录下的Lib\site-packages,能查看到wheel文件夹,代表安装成功。
然后安装lxml,“python -m pip install 你的lxml的路径(D:\workapps\python3.4.4\lxml-3.6.4-.....)
import urllib.request
url = "http://www.baidu.com"
page_info = urllib.request.urlopen(url).read()
page_info = page_info.decode('utf-8')
print(page_info)