Python学习日记 12

继续上一次日记的调试。

我百度了下,有可能是pip的版本问题。

Python学习日记 12_第1张图片
如图

于是我又试了试,这次还是报错,只是报错不一样了。

Python学习日记 12_第2张图片
报错

难道问题解决了?我继续查看。
原来是lxml还是没有安装,我继续安装。

Python学习日记 12_第3张图片
终于开始安装了

好麻烦。。。看来还是的自己多学习。

趁着安装的时间,我又查了下一些关于爬虫的资料。
对于我这边半路出家的人来说,好像最好的办法是做一个垂直的领域,专门去研究python爬虫,反正我学python也是为了爬虫。

恩,我找了不少教程,等到windows电脑ok了,就正式开始。
现在这本书算是我的启蒙。

照例,这个也得requests重新装一次。


Python学习日记 12_第4张图片
重装

然后,终于成功了。


Python学习日记 12_第5张图片
成功的爬去界面

还是有点小激动。

from bs4 import BeautifulSoup
from lxml import html
import xml
import requests

url = "https://movie.douban.com/chart"
f = requests.get(url)                 #Get该网页从而获取该html内容
soup = BeautifulSoup(f.content, "lxml")  #用lxml解析器解析该网页的内容, 好像f.text也是返回的html
#print(f.content.decode())
#content = soup.find_all('div',class_="p12" )   #因为calss和关键字冲突,所以改名class_

for k in soup.find_all('div',class_='pl2'):#,找到div并且class为pl2的标签
   a = k.find_all('span')       #在每个对应div标签下找span标签,会发现,一个a里面有四组span
   print(a[0].string)            #取第一组的span中的字符串

运行的代码还是这样的。

大概明白了,之后继续。

see you

你可能感兴趣的:(Python学习日记 12)