一期Python爬虫群作业-Week2

加入爬虫群已经第二周了，这周的作业是：

学习HTML
http://www.w3school.com.cn/html/
学习正则表达式
http://www.imooc.com/learn/550
试着爬一个网页
http://www.jianshu.com/p/1c25e7f8cd74

这周的作业虽然没有做的连滚带爬，但是也不轻松。因为学习内容有一个跃升。事实上到现在所以还不是很熟练。特别是正则表达式部分，绝对是一眼晕。
后来还是看了《python核心编程》。这本书的第一章就是正则（！），内容有40页，所以讲的满透彻的（我能不能理解又是another story）。

这周可能有点混，随便看看正则马上就到周四了，老师公布了爬虫作业。第一步是按照向右老师的代码敲。这步还算挺顺利的，主要遇到的坑是自己写路径，然后格式写错，写正确路径之后又遇到保护，换了个盘就好了。

urllib.urlretrieve(imgurl, ' G: /%s.jpg' % x)

第二步是试着自己爬花瓣网（因为图片比较美貌）。这个网址不是以jpg gif结尾。我又很直接的用了右键查看源代码网页，所以。后来向右老师提醒我，才记得要用检查，才能看到正确的代码：

如果用Chrome浏览器的右键-查看源代码功能，搜索 “

图片.png

但是把鼠标移到图片上，右键选择检查，图片的链接就是介个了：

图片.png

所以，

#coding = utf-8
import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html= page.read()
    return html

html = getHtml('http://huaban.com/pins/1034928829/')

reg= r'

 
 先运行的时候是报错的，还傻傻的不知道怎么回事，又跑去找大神看代码。向右老师加了个 'http:'+ 就行了，这就是内行外行的区别啊...
 老师语录：要注意检查url路径 
 虽然作业都是抄的，但爬出来的感觉还是很酸爽的... 
 
 
  
   
    
     
    
   
  
    图片.png 
   
  
 
 
 这个代码同时也爬了头像，我后来手动删了。 
 好吧，接下来是爬站酷网。重复的代码不写了，其实就是改了两条 
 ......

html =  getHtml('http://www.zcool.com.cn/work/ZMjE1NjY2MzY=.html')

reg = r'src="([.*\S]*.jpg)"'

......

 
 只爬下自己看中的一张图，算是小ok吧。作者其余帖子的没爬下来。总是疑神疑鬼的觉得对方写了保护。
 总之不算很成功，初步了解而已，不过总是爬下来一个半网站，给自己六十分吧 
 不关程序但小困扰的小白问题：
 运行框中中文显示不出来
 无法运行选中的一段程序
 哪天缓过气来，解决一下！

一期Python爬虫群作业-Week2

你可能感兴趣的:(一期Python爬虫群作业-Week2)