python爬虫设计刷博客访问量(刷访问量,赞,爬取图片)

需要准备的工具:

安装python软件,下载地址:https://www.python.org/    

Fiddler抓包软件:http://blog.csdn.net/qq_21792169/article/details/51628123


刷博客访问量的原理是:打开一次网页博客访问量就增加一次。(新浪,搜狐等博客满足这个要求)

count.py

<span style="font-size:18px;">import webbrowser as web  
import time  
import os  
import random  
count = random.randint(1,2)  
j=0  
while j<count:  
    i=0  
    while i<=8 :  
        web.open_new_tab('http://blog.sina.com.cn/s/blog_552d7c620100aguu.html')  #网址替换这里
        i=i+1  
        time.sleep(3)  #这个时间根据自己电脑处理速度设置,单位是s
    else:  
        time.sleep(10)  <span style="font-family: Arial, Helvetica, sans-serif;">#这个时间根据自己电脑处理速度设置,单位是s</span>
        os.system('taskkill /F /IM chrome.exe')  #google浏览器,其他的更换下就行
        #print 'time webbrower closed'
        
    j=j+1  
</span>


刷赞就需要用Fiddler来获取Request header数据,比如Cookie,Host,Referer,User-Agent等

sina.py

<span style="font-size:18px;">import urllib.request
import sys

points = 2   #how count ?
if len(sys.argv) > 1:
    points = int(sys.argv[1])

aritcleUrl = ''
point_header = {
    'Accept' : '*/*',
    'Cookie' : 	'',#填你的cookie信息

    'Host':'',  #主机
    'Referer' : '',
    'User-Agent' : 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36',
}

for i in range(points):
    point_request = urllib.request.Request(aritcleUrl, headers = point_header)
    point_response = urllib.request.urlopen(point_request)
</span>


上面的header头通过抓包数据可以获取,这里只是提供思路。


爬取网页上的图片:

getimg.py

#coding=utf-8
import urllib
import urllib2
import re

def getHtml(url):

	headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
	req = urllib2.Request(url,headers=headers)

	page = urllib2.urlopen(req);
	html = page.read()
	return html

def getImg(html):
     reg = r'src="(h.*?g)"'
    #reg = r'<img src="(.+?\.jpg)"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    print imglist
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1


html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

print getImg(html)


1、    .*? 三个符号可以匹配任意多个任意符号

2、   \.  是将 ‘.’ 转义,代表的就是HTML中的  .

3、 ()表示 我们只取括号中的部分,省略之外的。



推荐文章:http://blog.csdn.net/qq_21792169/article/details/51627026

你可能感兴趣的:(python爬虫设计刷博客访问量(刷访问量,赞,爬取图片))