love666666shen

Python网络爬虫阶段总结

学习python爬虫有一个月了，现在将学习的东西和遇到的问题做一个阶段总结，以作复习备用，另对于python爬虫感兴趣的，如果能帮到你们少走些弯路，那也是极好的。闲话少说，下面直接上干货：

Python学习网络爬虫主要分3个大的版块：抓取，分析，存储

另外，比较常用的爬虫框架Scrapy，这里最后也详细介绍一下。

当我们在浏览器中输入一个url后回车，后台会发生什么？

简单来说这段过程发生了以下四个步骤：

· 查找域名对应的IP地址。

· 向IP对应的服务器发送请求。

· 服务器响应请求，发回网页内容。

· 浏览器解析网页内容。

网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。

抓取

这一步，你要明确要得到的内容是什么？是HTML源码，还是Json格式的字符串等。

1. 最基本的抓取

抓取大多数情况属于get请求，即直接从对方服务器上获取数据。

首先，Python中自带urllib及urllib2这两个模块，基本上能满足一般的页面抓取。另外，requests也是非常有用的包，与此类似的，还有httplib2等等。

Requests：

import requests

response = requests.get(url)

content = requests.get(url).content

print "response headers:", response.headers

print "content:", content

Urllib2：（标签整齐，清晰，看着比较舒服，以后可以用它，便于阅读HTML）

import urllib2

response = urllib2.urlopen(url)

content = urllib2.urlopen(url).read()

print "response headers:", response.headers

print "content:", content

Httplib2：

import httplib2

http = httplib2.Http()

response_headers, content = http.request(url, 'GET')

print "response headers:", response_headers

print "content:", content

此外，对于带有查询字段的url，get请求一般会将来请求的数据附在url之后，以?分割url和传输数据，多个参数用&连接。

data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests：data为dict，json

import requests

response = requests.get(url=url, params=data)

Urllib2：data为string

import urllib, urllib2

data = urllib.urlencode(data)

full_url = url+'?'+data

response = urllib2.urlopen(full_url)

2. 对于登陆情况的处理

2.1 使用表单登陆

这种情况属于post请求，即先向服务器发送表单数据，服务器再将返回的cookie存入本地。

data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests：data为dict，json

import requests

response = requests.post(url=url, data=data)

Urllib2：data为string

import urllib, urllib2

data = urllib.urlencode(data)

req = urllib2.Request(url=url, data=data)

response = urllib2.urlopen(req)

2.2 使用cookie登陆

使用cookie登陆，服务器会认为你是一个已登陆的用户，所以就会返回给你一个已登陆的内容。因此，需要验证码的情况可以使用带验证码登陆的cookie解决。

import requests

requests_session = requests.session()

response = requests_session.post(url=url_login, data=data)

若存在验证码，此时采用response = requests_session.post(url=url_login, data=data)是不行的，做法应该如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies)

response1 = requests.get(url_login) # 未登陆

response2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Response Cookie！

response3 = requests_session.get(url_results) # 已登陆，因为之前拿到了Response Cookie！

3. 对于反爬虫机制的处理

3.1 使用代理

适用情况：限制IP地址情况，也可解决由于“频繁点击”而需要输入验证码登陆的情况。

这种情况最好的办法就是维护一个代理IP池，网上有很多免费的代理IP，良莠不齐，可以通过筛选找到能用的。对于“频繁点击”的情况，我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

关键代码，如下几行：

proxies = {'http':'http://XX.XX.XX.XX:XXXX'}

Requests：

import requests

response = requests.get(url=url, proxies=proxies)

Urllib2：

import urllib2

proxy_support = urllib2.ProxyHandler(proxies)

opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)

urllib2.install_opener(opener) # 安装opener，此后调用urlopen()时都会使用安装过的opener对象

response = urllib2.urlopen(url)

这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。此时，可以在middlewares.py中通过类对代理IP进行封装,详细代码如下：

class ProxyMiddleware(object):

def process_request(self, request, spider):

proxy = random.choice(PROXIES)

if proxy['user_pass'] is not None:

request.meta['proxy'] = "http://%s" % proxy['ip_port']

encoded_user_pass = base64.encodestring(proxy['user_pass'])

request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

print "**************ProxyMiddleware have pass************" + proxy['ip_port']

else:

print "**************ProxyMiddleware no pass************" + proxy['ip_port']

request.meta['proxy'] = "http://%s" % proxy['ip_port']

PROXIES = [

{'ip_port': '218.4.101.130:83', 'user_pass': ''},

{'ip_port': '113.121.47.97:808', 'user_pass': ''},

{'ip_port': '112.235.20.223:80', 'user_pass': ''},

{'ip_port': '27.151.30.68:808', 'user_pass': ''},

{'ip_port': '175.155.25.50:808', 'user_pass': ''},

{'ip_port': '222.85.50.207:808', 'user_pass': ''},

{'ip_port': '116.255.153.137:8082', 'user_pass': ''},

{'ip_port': '119.5.0.26:808', 'user_pass': ''},

{'ip_port': '183.32.88.223:808', 'user_pass': ''},

{'ip_port': '180.76.154.5:8888', 'user_pass': ''},

{'ip_port': '221.229.44.174:808', 'user_pass': ''},

{'ip_port': '27.151.30.68:808', 'user_pass': ''},

{'ip_port': '60.178.86.7:808', 'user_pass': ''},

{'ip_port': '58.243.104.149:8998', 'user_pass': ''},

{'ip_port': '120.27.49.85:8090', 'user_pass': ''},

]

注意，由于代理IP一般都有时效性，需要找到能用的代理IP将上面ip_port关键字对应的值替换下来。

3.2 时间设置

适用情况：限制频率情况。

Requests，Urllib2都可以使用time库的sleep()函数：

import time

time.sleep(1)

3.3 伪装成浏览器，或者反“反盗链”

有些网站会检查你是在使用真的浏览器访问，还是机器自动访问的。这种情况，加上User-Agent，表明你是浏览器访问即可。有时还会检查是否带Referer信息，还会检查你的Referer是否合法，一般再加上Referer。

headers = {'User-Agent':'XXXXX'} # 伪装成浏览器访问，适用于拒绝爬虫的网站

headers = {'Referer':'XXXXX'}

headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}

Requests：

response = requests.get(url=url, headers=headers)

Urllib2：

import urllib, urllib2

req = urllib2.Request(url=url, headers=headers)

response = urllib2.urlopen(req)

详细的，可以在middlewares.py中通过类对代理（浏览器）进行封装

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class RotateUserAgentMiddleware(UserAgentMiddleware):

def __init__(self, user_agent=''):

self.user_agent = user_agent

def process_request(self, request, spider):

ua = random.choice(self.user_agent_list)

if ua:

#print ua, '-----------------yyyyyyyyyyyyyyyyyyyyyyyyy'

request.headers.setdefault('User-Agent', ua)

# the default user_agent_list composes chrome,IE,firefox,Mozilla,opera,netscape

# for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php

user_agent_list = [ \

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \

"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \

"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

4. 对于断线重连

不多说。

def multi_session(session, *arg):

retryTimes = 20

while retryTimes>0:

try:

return session.post(*arg)

except:

print '.',

retryTimes -= 1

或者

def multi_open(opener, *arg):

retryTimes = 20

while retryTimes>0:

try:

return opener.open(*arg)

except:

print '.',

retryTimes -= 1

这样我们就可以使用multi_session或multi_open对爬虫抓取的session或opener进行保持。

或者设置失败后自动重试

def get(self,req,retries=3):

try:

response = self.opener.open(req)

data = response.read()

except Exception , what:

print what,req

if retries>0:

return self.get(req,retries-1)

else:

print 'GET Failed',req

return ''

return data

5. 多进程抓取

单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发地。

from threading import Thread

from Queue import Queue

from time import sleep

#q是任务队列

#NUM是并发线程总数

#JOBS是有多少任务

q = Queue()

NUM = 2

JOBS = 10

#具体的处理函数，负责处理单个任务

def do_somthing_using(arguments):

print arguments

#这个是工作进程，负责不断从队列取数据并处理

def working():

while True:

arguments = q.get()

do_somthing_using(arguments)

sleep(1)

q.task_done()

#fork NUM个线程等待队列

for i in range(NUM):

t = Thread(target=working)

t.setDaemon(True)

t.start()

#把JOBS排入队列

for i in range(JOBS):

q.put(i)

#等待所有JOBS完成

q.join()

6. 对于Ajax请求的处理

对于“加载更多”情况，使用Ajax来传输很多数据。

它的工作原理是：从网页的url加载网页的源代码之后，会在浏览器里执行JavaScript程序。这些程序会加载更多的内容，“填充”到网页里。这就是为什么如果你直接去爬网页本身的url，你会找不到页面的实际内容。

这里，若使用Google Chrome分析”请求“对应的链接(方法：右键→审查元素→Network→清空，点击”加载更多“，出现对应的GET链接寻找Type为text/html的，点击，查看get参数或者复制Request URL)，循环过程。

· 如果“请求”之前有页面，依据上一步的网址进行分析推导第1页。以此类推，抓取Ajax地址的数据。

· 对返回的json格式数据(str)进行正则匹配。json格式数据中，需从'\uxxxx'形式的unicode_escape编码转换成u'\uxxxx'的unicode编码。

7. 自动化测试工具Selenium

Selenium是一款自动化测试工具。它能实现操纵浏览器，包括字符填充、鼠标点击、获取元素、页面切换等一系列操作。总之，凡是浏览器能做的事，Selenium都能够做到。

如:如何在给定城市列表后，使用selenium来动态抓取去哪儿网的票价信息的代码?

8. 验证码识别

对于网站有验证码的情况，我们有三种办法：

· 使用代理，更新IP。

· 使用cookie登陆。

· 验证码识别。

使用代理和使用cookie登陆之前已经讲过，下面讲一下验证码识别。

可以利用开源的Tesseract-OCR系统进行验证码图片的下载及识别，将识别的字符传到爬虫系统进行模拟登陆。当然也可以将验证码图片上传到打码平台上进行识别。如果不成功，可以再次更新验证码识别，直到成功为止。

参考项目：验证码识别项目第一版：Captcha1

爬取有两个需要注意的问题：

· 如何监控一系列网站的更新情况，也就是说，如何进行增量式爬取？

· 对于海量数据，如何实现分布式爬取？

9.编码问题

在解析的过程中要注意编码问题,因为网页有UTF-8 编码的,也有GBK编码的,还有GB2312等等. 如果编码问题没有处理好,很有可能会导致输入输出异常,正则表达式匹配错误等问题.我的解决办法是坚持一个中心思想: "不管你是什么编码来的,到解析程序统一换成utf-8编码".比如有的网页是GBK编码,在处理之前我会先对它进行一个转码操作:

utf8_page = GBK_page.decode("GBK").encode("utf8")

同时在代码的初始化位置(或者是最开始部分)我一般会加上以下代码:

import sys

reload(sys)

sys.setdefaultencoding('utf8')

同时代码文件的编码方式也要保证是utf-8.

这样处理调理比较清晰,统一.不会出现一个utf-8的正则表达式和一个GBK的字符串做匹配最后啥也匹配不出来.或者输出的数据即有utf8编码的字符串,又有GBK编码的字符串导致IO错误.

如果事先不知道网页是什么编码,建议使用python 的第三方包chardet:https://pypi.python.org/pypi/chardet/ 它可以自动帮你识别出网页的编码.用法是:

import chardetimport urllib2

#可根据需要，选择不同的数据

TestData = urllib2.urlopen('http://www.baidu.com/').read()print chardet.detect(TestData)

分析

抓取之后就是对抓取的内容进行分析，你需要什么内容，就从中提炼出相关的内容来。

常见的分析工具有正则表达式，BeautifulSoup，lxml等等。

存储

分析出我们需要的内容之后，接下来就是存储了。

我们可以选择存入文本文件，也可以选择存入MySQL或MongoDB数据库等。

存储有两个需要注意的问题：

· 如何进行网页去重？

· 内容以什么形式存储？

Scrapy

Scrapy是一个基于Twisted的开源异构的Python爬虫框架，在工业中应用非常广泛。

你可能感兴趣的:(python与爬虫)

ks滑块验证码逆向分析与python识别吴秋霖反爬虫与风控对抗 python 算法滑动验证码
文章目录1.写在前面3.接口分析3.算法实现【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！包括但不限于
最新xhs旋转滑块验证码分析（含识别与轨迹算法）吴秋霖深耕爬虫领域算法验证码滑块验证 Python
文章目录1.写在前面2.接口分析3.验证轨迹4.算法还原【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！
使用Python爬取小红书笔记与评论（仅供学习交流）_python爬取小红书关键词所有笔记评论(1) 2401_83817171 程序员 python 笔记学习
2.分析加密入口3.使用JS注入4.爬虫工程化【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！包括但不限
【爬虫逆向实战篇】手把手教你如何扣取JS代码还原加密算法吴秋霖爬虫JS逆向爬虫 javascript python 算法
文章目录1.写在前面2.扣JS代码【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！包括但不限于：各类验证
【JS逆向实战-入门篇】某gov网站加密参数分析与Python算法还原吴秋霖 Python爬虫实战 javascript 算法 python
文章目录1.写在前面2.请求分析3.断点分析4.算法还原【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》还有未来会持续更新的验证码突防、APP逆向、Python领域等一系列文
【Python爬虫入门到精通】小白也能看懂的知识要点与学习路线吴秋霖 Python爬虫实战 python 爬虫学习
文章目录1.写在前面2.爬虫行业情况3.学习路线【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》还有未来会持续更新的验证码突防、APP逆向、Python领域等一系列文章1.写
一文带你快速了解Python史上最快Web框架程序员老冉 python 前端开发语言
文章目录1.写在前面2.Sanic框架简介2.1背景2.2特征与优势3.Sanic框架实战3.1.安装Sanic3.2.Demo案例编写【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与
X-Bogus加密参数分析与jsvmp算法（仅供学习）吴秋霖 Python爬虫实战 python 算法
文章目录1.抓包分析2.X-Bogus参数分析【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》还有未来会持续更新的验证码突防、APP逆向、Python领域等一系列文章1.抓包
【爬虫JS混淆分析】某网站票房响应数据加密（含JS补环境调用与Python解密算法）吴秋霖爬虫逆向实战 javascript 开发语言 python 算法
文章目录1.接口分析2.断点调试3.扣解密JS代码4.补环境调用接口5.Python实现解密算法【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》还有未来会持续更新的验证码突防
使用Python爬取GooglePlay并从复杂的自定义数据结构中实现解析吴秋霖 Python爬虫实战 python 开发语言爬虫
文章目录【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》还有未来会持续更新的验证码突防、APP逆向、Python领域等一系列文章说到GooglePlay，自定义的数据结构
【OpenCV+OCR】计算机视觉：识别图像验证码中指定颜色文字吴秋霖算法计算机视觉 opencv ocr
文章目录1.写在前面2.读取验证码图像3.生成颜色掩码4.生成黑白结果图5.OCR文字识别6.测试结果【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》还有未来会持续更新的验证
某软件商店app抓包分析与sign加密算法实现吴秋霖 APP逆向算法移动安全 app逆向
文章目录1.写在前面2.抓包配置3.抓包分析4.接口测试5.sign加密算法6.数据效果展示【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》还有未来会持续更新的验证码突防、A
一文带你快速了解Python史上最快Web框架吴秋霖 Python python sanic 前端
文章目录1.写在前面2.Sanic框架简介2.1背景2.2特征与优势3.Sanic框架实战3.1.安装Sanic3.2.Demo案例编写【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与
【异步并发编程】使用aiohttp构建Web应用程序吴秋霖 Python python restful aiohttp 并发编程
文章目录1.写在前面1.什么是aiohttp？1.1.什么是异步编程？2.安装aiohttp3.异步HTTP服务器4.异步请求5.aiohttpREST实例【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《
python爬虫什么意思-Python为什么叫爬虫?Python与爬虫有什么关系? 编程大乐趣
今天听到有人问：Python为什么叫爬虫?我的脑袋里第一反应不是答案，而是为什么有人会问这个问题，我想大家对Python的概念有点模糊，将Python与爬虫混淆，所以今天我向大家解释一下。什么是Python?Python是什么?如果你在英文词典里边查Python，他会给出你Python是大蟒蛇的释义，这样读：英[ˈpaɪθən]、美[ˈpaɪθɑ:n]，Python是著名的"龟叔”Guidovan
Python与爬虫有什么关系？ qq^^614136809 爬虫 python 爬虫开发语言
爬虫一般是指网络资源的获取，因为python的脚本特征，Python易于配置，对字符的处理也非常灵活，加上python有丰富的网络抓取模块，所以两者经常联系在一起。接下来我们可以详情了解python到底有什么作用。首先Python翻译成汉语是蟒蛇的意思，并且Python的logo也是两条缠绕在一起的蟒蛇的样子，然而Python语言和蟒蛇实际上并没有一毛钱关系。那么Python到底有什么应用方向和特
python与爬虫-02复杂的HTML解析「已注销」 python爬虫 python
序：基于位置、上下文、属性、内容选择标签的标准方式和创新方式；1.进一步使用BeautifulSoup抓取网页（1）代码如下fromurllib.requestimporturlopenfrombs4importBeautifulSouphtml=urlopen('https://www.pythonscraping.com/pages/warandpeace.html')bs=Beautiful
Python为什么叫爬虫？Python与爬虫有什么关系？戏精程序媛 Python
爬虫一般是指网络资源的抓取，由于Python的脚本特性，易于配置对字符的处理非常灵活，Python有丰富的网络抓取模块，因此两者经常联系在一起Python就被叫作爬虫。爬虫可以抓取某个网站或者某个应用的内容提取有用的价值信息。还可以模拟用户在浏览器或者app应用上的操作行为，实现程序自动化。那么，Python为什么叫爬虫呢？本文，带大家了解一下。Python为什么叫爬虫？Python作为一门编程语
Python爬取Boss直聘，获取全国Python薪酬榜清风Python
深感抱歉本来这篇文章应该是在昨天发的，可是电脑出了问题蓝屏了。晚上回来重装了系统，结果还是搞到了现在。今天想和大家聊聊Python与爬虫python之所以能迅速风靡全国，和大街小巷各种的培训机构脱不开关系。一会pythonAI未来以来，一会儿4个月培养人工智能与机器学习顶尖人才，更有甚者什么一周成就爬虫分析师...我这一把年纪了，胆子小只敢在自己的公众号里说说。至于出去了，你们该实力互吹、生猛造势
Python与爬虫入门实践——简易搜狐新闻爬虫02 gcn_Raymond
Python与爬虫入门实践——简易搜狐新闻爬虫02爬虫的基础内容参考：Python与爬虫入门实践——简易搜狐新闻爬虫01：https://blog.csdn.net/gcn_Raymond/article/details/86741843首先新项目中建立如下的内容，db是数据库相关操作，spider是爬虫内容，view是一个操作主界面的程序spider.pyfromurllib.requestim
一步一步爬着学Python SyPy
闲话少说，先列出学习内容索引（后期内容会有增删，相关文章更新后会在本文加链接）：一、Python基础1.Python入门(1).Python语言特点-Python与爬虫的简单介绍(2).环境配置-Python简单入门指北-环境配置(3).Linux环境配置-Python环境配置2-Linux和虚拟机2.Python基础(1).基本语法-Python基础-语法初试(2).数据类型-Python基础-
Python爬取Boss直聘，获取全国Python薪酬榜清风Python
深感抱歉本来这篇文章应该是在昨天发的，可是电脑出了问题蓝屏了。晚上回来重装了系统，结果还是搞到了现在。今天想和大家聊聊Python与爬虫python之所以能迅速风靡全国，和大街小巷各种的培训机构脱不开关系。一会pythonAI未来以来，一会儿4个月培养人工智能与机器学习顶尖人才，更有甚者什么一周成就爬虫分析师...我这一把年纪了，胆子小只敢在自己的公众号里说说。至于出去了，你们该实力互吹、生猛造势
Python爬取Boss直聘，获取全国Python薪酬榜清风 python Python
深感抱歉本来这篇文章应该是在昨天发的，可是电脑出了问题蓝屏了。晚上回来重装了系统，结果还是搞到了现在。今天想和大家聊聊Python与爬虫python之所以能迅速风靡全国，和大街小巷各种的培训机构脱不开关系。一会pythonAI未来以来，一会儿4个月培养人工智能与机器学习顶尖人才，更有甚者什么一周成就爬虫分析师…我这一把年纪了，胆子小只敢在自己的公众号里说说。至于出去了，你们该实力互吹、生猛造势的，
Python爬取Boss直聘，帮你获取全国各类职业薪酬榜华为云 Python Python爬虫爬虫编程程序员技术交流
今天想和大家聊聊Python与爬虫python之所以能迅速风靡全国，和大街小巷各种的培训机构脱不开关系。一会pythonAI未来以来，一会儿4个月培养人工智能与机器学习顶尖人才，更有甚者什么一周成就爬虫分析师...我这一把年纪了，胆子小只敢在自己的公众号里说说。至于出去了，你们该实力互吹、生猛造势的，我看看就好不说话。网上经常看到爬虫的文章，什么爬了几十万数据，一把撸下来几千万评论的，听起来高大上
Python与爬虫入门实践——简易搜狐新闻爬虫01 gcn_Raymond
Python与爬虫入门实践——简易搜狐新闻爬虫01写在前面：笔者在寒假期间进行了一些简短的实训，主要内容包括简单的爬虫和简单的人脸识别算法，由于时间有限，对于python也是第一次详细学习，功能较为简单，提供给入学者参考，帮助大家进入py的世界，若有不正确或不明确的地方欢迎指正。以下是一个简单爬虫项目所需要的基本内容，整体的项目代码参考另一片文章：Python与爬虫入门实践——简易搜狐新闻爬虫02
Python瀑布流爬虫-爬取360网站图片+爬取百度图片 Smile_Mr
Python瀑布流爬虫本章所讲内容：1、爬虫认识2、Python与爬虫3、关于爬取图片的设想4、瀑布流爬虫的分析实战：快速爬取360网站图片实战：快速爬取百度图片瀑布流爬虫实现，批量下载图片!1、爬虫认识爬虫（spider：网络蜘蛛）:是一个用脚本代替浏览器请求服务器获取服务器资源的程序。数据收集（数据分析、人工智能）模拟操作（测试、数据采集）接口操作（自动化）瀑布流我们数据比较多的时候，为了更好
python与爬虫技术总结 magicalstudent 个人总结
做Python爬虫已经有一小段时间了，从去年12月的两天公司培训与项目安排到毕业设计的实现，再到转正后的项目，到现在我有过几次python爬虫抓取经历，对python与爬虫有了一个初步的了解，特此拿出来与大家分享。讲真，刚刚接触Python时候第一直觉觉得它是一个要多不靠谱有多不靠谱，要多业余有多业余的语言。变量的定义完全不需要指定类型，不同类型的变量说覆盖就覆盖，print功能不需要括号，但是在
Python与爬虫的简单介绍 SyPy
本文为《爬着学Python》系列第一篇文章。关于用爬虫辅助Python的学习原因就不再赘述了。直接进入正题。Python首先是Python(Python-Wikipedia)语言的特点，也就是，为什么要学习Python?原因很简单，因为Python是一门简单的语言，”人生苦短，我用Python“。但是，简单的同时功能强大，这是Python能真正流行的原因。Python的简单体现在：语句清晰简洁，结
mdwiki开发之路一技术选型 weixin_33834075 运维 java markdown
mdwiki是一款markdownwiki系统，可以作为个人或小型团队的知识库管理系统。项目地址：本系列文章最后一篇给出(需要时间整理和测试)为什么我要开发mdwiki?目前本人的知识库管理系统采用的是dokuwiki，它是一款用PHP开发的非常强大的一款wiki系统。但是很遗憾不支持markdown语法写作。再加上目前开始学习Python与爬虫。所以决定用Python写一个markdownwik
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class