攻城狮--晴明

用python爬虫抓站的一些技巧总结

欢迎加入Python学习交流群：535993938 禁止闲聊！名额有限！非喜勿进！

学用python也有很长时间了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。

这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。

1.最基本的抓站

 
Python
 
            1 
          
            2 
          
           import 
             
           urllib2 
          
           content 
             
           = 
             
           urllib2 
           . 
           urlopen 
           ( 
           'http://XXXX' 
           ) 
           . 
           read 
           ( 
           )

2.使用代理服务器

这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。

Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
           import 
             
           urllib2 
          
           proxy_support 
             
           = 
             
           urllib2 
           . 
           ProxyHandler 
           ( 
           { 
           'http' 
           : 
           'http://XX.XX.XX.XX:XXXX' 
           } 
           ) 
          
           opener 
             
           = 
             
           urllib2 
           . 
           build_opener 
           ( 
           proxy_support 
           , 
             
           urllib2 
           . 
           HTTPHandler 
           ) 
          
           urllib2 
           . 
           install_opener 
           ( 
           opener 
           ) 
          
           content 
             
           = 
             
           urllib2 
           . 
           urlopen 
           ( 
           'http://XXXX' 
           ) 
           . 
           read 
           ( 
           )

3.需要登录的情况

登录的情况比较麻烦我把问题拆分一下：

3.1 cookie的处理

 
Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
           import 
             
           urllib2 
           , 
             
           cookielib 
          
           cookie_support 
           = 
             
           urllib2 
           . 
           HTTPCookieProcessor 
           ( 
           cookielib 
           . 
           CookieJar 
           ( 
           ) 
           ) 
          
           opener 
             
           = 
             
           urllib2 
           . 
           build_opener 
           ( 
           cookie_support 
           , 
             
           urllib2 
           . 
           HTTPHandler 
           ) 
          
           urllib2 
           . 
           install_opener 
           ( 
           opener 
           ) 
          
           content 
             
           = 
             
           urllib2 
           . 
           urlopen 
           ( 
           'http://XXXX' 
           ) 
           . 
           read 
           ( 
           )

是的没错，如果想同时用代理和cookie，那就加入proxy_support然后operner改为

Python
 
            1 
          
           opener 
             
           = 
             
           urllib2 
           . 
           build_opener 
           ( 
           proxy_support 
           , 
             
           cookie_support 
           , 
             
           urllib2 
           . 
           HTTPHandler 
           )

3.2 表单的处理

登录必要填表，表单怎么填？首先利用工具截取所要填表的内容。

比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包

这个我就举个例子好了，以verycd为例，先找到自己发的POST请求，以及POST表单项：

可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项，其中fk是随机生成的（其实不太随机，看上去像是把epoch时间经过简单的编码生成的），需要从网页获取，也就是说得先访问一次网页，用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义可以随便写，login_submit是固定的，这从源码可以看出。还有username，password那就很显然了。

好的，有了要填写的数据，我们就要生成postdata

 
Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
           import 
             
           urllib 
          
           postdata 
           = 
           urllib 
           . 
           urlencode 
           ( 
           { 
          
           'username' 
           : 
           'XXXXX' 
           , 
          
           'password' 
           : 
           'XXXXX' 
           , 
          
           'continueURI' 
           : 
           'http://www.verycd.com/' 
           , 
          
           'fk' 
           : 
           fk 
           , 
          
           'login_submit' 
           : 
           '登录' 
          
           } 
           )

然后生成http请求，再发送请求：

Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
           req 
             
           = 
             
           urllib2 
           . 
           Request 
           ( 
          
           url 
             
           = 
             
           'http://secure.verycd.com/signin/*/http://www.verycd.com/' 
           , 
          
           data 
             
           = 
             
           postdata 
          
           ) 
          
           result 
             
           = 
             
           urllib2 
           . 
           urlopen 
           ( 
           req 
           ) 
           . 
           read 
           ( 
           )

3.3 伪装成浏览器访问

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现：

 
Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
           headers 
             
           = 
             
           { 
          
           'User-Agent' 
           : 
           'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' 
          
           } 
          
           req 
             
           = 
             
           urllib2 
           . 
           Request 
           ( 
          
           url 
             
           = 
             
           'http://secure.verycd.com/signin/*/http://www.verycd.com/' 
           , 
          
           data 
             
           = 
             
           postdata 
           , 
          
           headers 
             
           = 
             
           headers 
          
           )

3.4 反”反盗链”

某些站点有所谓的反盗链设置，其实说穿了很简单，就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像3.3一样，把headers的referer改成该网站即可，以黑幕著称地cnbeta为例：

Python
 
            1 
          
            2 
          
            3 
          
           headers 
             
           = 
             
           { 
          
           'Referer' 
           : 
           'http://www.cnbeta.com/articles' 
          
           }

headers是一个dict数据结构，你可以放入任何想要的header，来做一些伪装。例如，有些自作聪明的网站总喜欢窥人隐私，别人通过代理访问，他偏偏要读取header中的X-Forwarded-For来看看人家的真实IP，没话说，那就直接把X-Forwarde-For改了吧，可以改成随便什么好玩的东东来欺负欺负他，呵呵。

3.5 终极绝招

有时候即使做了3.1-3.4，访问还是会被据，那么没办法，老老实实把httpfox中看到的headers全都写上，那一般也就行了。再不行，那就只能用终极绝招了，selenium直接控制浏览器来进行访问，只要浏览器可以做到的，那么它也可以做到。类似的还有pamie，watir，等等等等。

4.多线程并发抓取

单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发地。

 
Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
            9 
          
            10 
          
            11 
          
            12 
          
            13 
          
            14 
          
            15 
          
            16 
          
            17 
          
            18 
          
            19 
          
            20 
          
            21 
          
            22 
          
            23 
          
            24 
          
            25 
          
            26 
          
            27 
          
            28 
          
            29 
          
           from 
             
           threading 
             
           import 
             
           Thread 
          
           from 
             
           Queue 
             
           import 
             
           Queue 
          
           from 
             
           time 
             
           import 
             
           sleep 
          
           #q是任务队列 
          
           #NUM是并发线程总数 
          
           #JOBS是有多少任务 
          
           q 
             
           = 
             
           Queue 
           ( 
           ) 
          
           NUM 
             
           = 
             
           2 
          
           JOBS 
             
           = 
             
           10 
          
           #具体的处理函数，负责处理单个任务 
          
           def 
             
           do_somthing_using 
           ( 
           arguments 
           ) 
           : 
          
           print 
             
           arguments 
          
           #这个是工作进程，负责不断从队列取数据并处理 
          
           def 
             
           working 
           ( 
           ) 
           : 
          
           while 
             
           True 
           : 
          
           arguments 
             
           = 
             
           q 
           . 
           get 
           ( 
           ) 
          
           do_somthing_using 
           ( 
           arguments 
           ) 
          
           sleep 
           ( 
           1 
           ) 
          
           q 
           . 
           task_done 
           ( 
           ) 
          
           #fork NUM个线程等待队列 
          
           for 
             
           i 
             
           in 
             
           range 
           ( 
           NUM 
           ) 
           : 
          
           t 
             
           = 
             
           Thread 
           ( 
           target 
           = 
           working 
           ) 
          
           t 
           . 
           setDaemon 
           ( 
           True 
           ) 
          
           t 
           . 
           start 
           ( 
           ) 
          
           #把JOBS排入队列 
          
           for 
             
           i 
             
           in 
             
           range 
           ( 
           JOBS 
           ) 
           : 
          
           q 
           . 
           put 
           ( 
           i 
           ) 
          
           #等待所有JOBS完成 
          
           q 
           . 
           join 
           ( 
           )

5.验证码的处理

碰到验证码咋办？这里分两种情况处理：

google那种验证码，凉拌
简单的验证码：字符个数有限，只使用了简单的平移或旋转加噪音而没有扭曲的，这种还是有可能可以处理的，一般思路是旋转的转回来，噪音去掉，然后划分单个字符，划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库，然后把验证码和特征库进行比较。这个比较复杂，一篇博文是说不完的，这里就不展开了，具体做法请弄本相关教科书好好研究一下。
事实上有些验证码还是很弱的，这里就不点名了，反正我通过2的方法提取过准确度非常高的验证码，所以2事实上是可行的。

6 gzip/deflate支持

现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。这就意味着抓取速度会快5倍。

然而python的urllib/urllib2默认都不支持压缩，要返回压缩格式，必须在request的header里面写明’accept-encoding’，然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码，很繁琐琐碎。如何让urllib2自动支持gzip, defalte呢？

其实可以继承BaseHanlder类，然后build_opener的方式来处理：

Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
            9 
          
            10 
          
            11 
          
            12 
          
            13 
          
            14 
          
            15 
          
            16 
          
            17 
          
            18 
          
            19 
          
            20 
          
            21 
          
            22 
          
            23 
          
            24 
          
            25 
          
            26 
          
            27 
          
            28 
          
            29 
          
            30 
          
            31 
          
            32 
          
            33 
          
            34 
          
            35 
          
            36 
          
           import 
             
           urllib2 
          
           from 
             
           gzip 
             
           import 
             
           GzipFile 
          
           from 
             
           StringIO 
             
           import 
             
           StringIO 
          
           class 
             
           ContentEncodingProcessor 
           ( 
           urllib2 
           . 
           BaseHandler 
           ) 
           : 
          
           """A handler to add gzip capabilities to urllib2 requests """ 
          
           # add headers to requests 
          
           def 
             
           http_request 
           ( 
           self 
           , 
             
           req 
           ) 
           : 
          
           req 
           . 
           add_header 
           ( 
           "Accept-Encoding" 
           , 
             
           "gzip, deflate" 
           ) 
          
           return 
             
           req 
          
           # decode 
          
           def 
             
           http_response 
           ( 
           self 
           , 
             
           req 
           , 
             
           resp 
           ) 
           : 
          
           old_resp 
             
           = 
             
           resp 
          
           # gzip 
          
           if 
             
           resp 
           . 
           headers 
           . 
           get 
           ( 
           "content-encoding" 
           ) 
             
           == 
             
           "gzip" 
           : 
          
           gz 
             
           = 
             
           GzipFile 
           ( 
          
           fileobj 
           = 
           StringIO 
           ( 
           resp 
           . 
           read 
           ( 
           ) 
           ) 
           , 
          
           mode 
           = 
           "r" 
          
           ) 
          
           resp 
             
           = 
             
           urllib2 
           . 
           addinfourl 
           ( 
           gz 
           , 
             
           old_resp 
           . 
           headers 
           , 
             
           old_resp 
           . 
           url 
           , 
             
           old_resp 
           . 
           code 
           ) 
          
           resp 
           . 
           msg 
             
           = 
             
           old_resp 
           . 
           msg 
          
           # deflate 
          
           if 
             
           resp 
           . 
           headers 
           . 
           get 
           ( 
           "content-encoding" 
           ) 
             
           == 
             
           "deflate" 
           : 
          
           gz 
             
           = 
             
           StringIO 
           ( 
             
           deflate 
           ( 
           resp 
           . 
           read 
           ( 
           ) 
           ) 
             
           ) 
          
           resp 
             
           = 
             
           urllib2 
           . 
           addinfourl 
           ( 
           gz 
           , 
             
           old_resp 
           . 
           headers 
           , 
             
           old_resp 
           . 
           url 
           , 
             
           old_resp 
           . 
           code 
           ) 
              
           # 'class to add info() and 
          
           resp 
           . 
           msg 
             
           = 
             
           old_resp 
           . 
           msg 
          
           return 
             
           resp 
          
           # deflate support 
          
           import 
             
           zlib 
          
           def 
             
           deflate 
           ( 
           data 
           ) 
           : 
               
           # zlib only provides the zlib compress format, not the deflate format; 
          
           try 
           : 
                           
           # so on top of all there's this workaround: 
          
           return 
             
           zlib 
           . 
           decompress 
           ( 
           data 
           , 
             
           - 
           zlib 
           . 
           MAX_WBITS 
           ) 
          
           except 
             
           zlib 
           . 
           error 
           : 
          
           return 
             
           zlib 
           . 
           decompress 
           ( 
           data 
           )

然后就简单了，

 
Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
           encoding_support 
             
           = 
             
           ContentEncodingProcessor 
          
           opener 
             
           = 
             
           urllib2 
           . 
           build_opener 
           ( 
             
           encoding_support 
           , 
             
           urllib2 
           . 
           HTTPHandler 
             
           ) 
          
           #直接用opener打开网页，如果服务器支持gzip/defalte则自动解压缩 
          
           content 
             
           = 
             
           opener 
           . 
           open 
           ( 
           url 
           ) 
           . 
           read 
           ( 
           )

7. 更方便地多线程

总结一文的确提及了一个简单的多线程模板，但是那个东东真正应用到程序里面去只会让程序变得支离破碎，不堪入目。在怎么更方便地进行多线程方面我也动了一番脑筋。先想想怎么进行多线程调用最方便呢？

1、用twisted进行异步I/O抓取

事实上更高效的抓取并非一定要用多线程，也可以使用异步I/O法：直接用twisted的getPage方法，然后分别加上异步I/O结束时的callback和errback方法即可。例如可以这么干：

Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
            9 
          
            10 
          
            11 
          
            12 
          
            13 
          
            14 
          
            15 
          
            16 
          
            17 
          
            18 
          
            19 
          
           from 
             
           twisted 
           . 
           web 
           . 
           client  
           import 
             
           getPage 
          
           from 
             
           twisted 
           . 
           internet  
           import 
             
           reactor 
          
           links 
             
           = 
             
           [ 
             
           'http://www.verycd.com/topics/%d/' 
           % 
           i 
             
           for 
             
           i 
             
           in 
             
           range 
           ( 
           5420 
           , 
           5430 
           ) 
             
           ] 
          
           def 
             
           parse_page 
           ( 
           data 
           , 
           url 
           ) 
           : 
          
           print 
             
           len 
           ( 
           data 
           ) 
           , 
           url 
          
           def 
             
           fetch_error 
           ( 
           error 
           , 
           url 
           ) 
           : 
          
           print 
             
           error 
           . 
           getErrorMessage 
           ( 
           ) 
           , 
           url 
          
           # 批量抓取链接 
          
           for 
             
           url  
           in 
             
           links 
           : 
          
           getPage 
           ( 
           url 
           , 
           timeout 
           = 
           5 
           ) 
             
           \ 
          
           . 
           addCallback 
           ( 
           parse_page 
           , 
           url 
           ) 
             
           \ 
             
           #成功则调用parse_page方法 
          
           . 
           addErrback 
           ( 
           fetch_error 
           , 
           url 
           ) 
                 
           #失败则调用fetch_error方法 
          
           reactor 
           . 
           callLater 
           ( 
           5 
           , 
             
           reactor 
           . 
           stop 
           ) 
             
           #5秒钟后通知reactor结束程序 
          
           reactor 
           . 
           run 
           ( 
           )

twisted人如其名，写的代码实在是太扭曲了，非正常人所能接受，虽然这个简单的例子看上去还好；每次写twisted的程序整个人都扭曲了，累得不得了，文档等于没有，必须得看源码才知道怎么整，唉不提了。

如果要支持gzip/deflate，甚至做一些登陆的扩展，就得为twisted写个新的HTTPClientFactory类诸如此类，我这眉头真是大皱，遂放弃。有毅力者请自行尝试。

这篇讲怎么用twisted来进行批量网址处理的文章不错，由浅入深，深入浅出，可以一看。

2、设计一个简单的多线程抓取类

还是觉得在urllib之类python“本土”的东东里面折腾起来更舒服。试想一下，如果有个Fetcher类，你可以这么调用

 
Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
           f 
             
           = 
             
           Fetcher 
           ( 
           threads 
           = 
           10 
           ) 
             
           #设定下载线程数为10 
          
           for 
             
           url  
           in 
             
           urls 
           : 
          
           f 
           . 
           push 
           ( 
           url 
           ) 
              
           #把所有url推入下载队列 
          
           while 
             
           f 
           . 
           taskleft 
           ( 
           ) 
           : 
             
           #若还有未完成下载的线程 
          
           content 
             
           = 
             
           f 
           . 
           pop 
           ( 
           ) 
              
           #从下载完成队列中取出结果 
          
           do_with 
           ( 
           content 
           ) 
             
           # 处理content内容

这么个多线程调用简单明了，那么就这么设计吧，首先要有两个队列，用Queue搞定，多线程的基本架构也和“技巧总结”一文类似，push方法和pop方法都比较好处理，都是直接用Queue的方法，taskleft则是如果有“正在运行的任务”或者”队列中的任务”则为是，也好办，于是代码如下：

Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
            9 
          
            10 
          
            11 
          
            12 
          
            13 
          
            14 
          
            15 
          
            16 
          
            17 
          
            18 
          
            19 
          
            20 
          
            21 
          
            22 
          
            23 
          
            24 
          
            25 
          
            26 
          
            27 
          
            28 
          
            29 
          
            30 
          
            31 
          
            32 
          
            33 
          
            34 
          
            35 
          
            36 
          
            37 
          
            38 
          
            39 
          
            40 
          
            41 
          
            42 
          
            43 
          
            44 
          
            45 
          
            46 
          
            47 
          
            48 
          
            49 
          
            50 
          
            51 
          
            52 
          
            53 
          
            54 
          
            55 
          
            56 
          
           import 
             
           urllib2 
          
           from 
             
           threading 
             
           import 
             
           Thread 
           , 
           Lock 
          
           from 
             
           Queue 
             
           import 
             
           Queue 
          
           import 
             
           time 
          
           class 
             
           Fetcher 
           : 
          
           def 
             
           __init__ 
           ( 
           self 
           , 
           threads 
           ) 
           : 
          
           self 
           . 
           opener 
             
           = 
             
           urllib2 
           . 
           build_opener 
           ( 
           urllib2 
           . 
           HTTPHandler 
           ) 
          
           self 
           . 
           lock 
             
           = 
             
           Lock 
           ( 
           ) 
             
           #线程锁 
          
           self 
           . 
           q_req 
             
           = 
             
           Queue 
           ( 
           ) 
             
           #任务队列 
          
           self 
           . 
           q_ans 
             
           = 
             
           Queue 
           ( 
           ) 
             
           #完成队列 
          
           self 
           . 
           threads 
             
           = 
             
           threads 
          
           for 
             
           i 
             
           in 
             
           range 
           ( 
           threads 
           ) 
           : 
          
           t 
             
           = 
             
           Thread 
           ( 
           target 
           = 
           self 
           . 
           threadget 
           ) 
          
           t 
           . 
           setDaemon 
           ( 
           True 
           ) 
          
           t 
           . 
           start 
           ( 
           ) 
          
           self 
           . 
           running 
             
           = 
             
           0 
          
           def 
             
           __del__ 
           ( 
           self 
           ) 
           : 
             
           #解构时需等待两个队列完成 
          
           time 
           . 
           sleep 
           ( 
           0.5 
           ) 
          
           self 
           . 
           q_req 
           . 
           join 
           ( 
           ) 
          
           self 
           . 
           q_ans 
           . 
           join 
           ( 
           ) 
          
           def 
             
           taskleft 
           ( 
           self 
           ) 
           : 
          
           return 
             
           self 
           . 
           q_req 
           . 
           qsize 
           ( 
           ) 
           + 
           self 
           . 
           q_ans 
           . 
           qsize 
           ( 
           ) 
           + 
           self 
           . 
           running 
          
           def 
             
           push 
           ( 
           self 
           , 
           req 
           ) 
           : 
          
           self 
           . 
           q_req 
           . 
           put 
           ( 
           req 
           ) 
          
           def 
             
           pop 
           ( 
           self 
           ) 
           : 
          
           return 
             
           self 
           . 
           q_ans 
           . 
           get 
           ( 
           ) 
          
           def 
             
           threadget 
           ( 
           self 
           ) 
           : 
          
           while 
             
           True 
           : 
          
           req 
             
           = 
             
           self 
           . 
           q_req 
           . 
           get 
           ( 
           ) 
          
           with 
             
           self 
           . 
           lock 
           : 
             
           #要保证该操作的原子性，进入critical area 
          
           self 
           . 
           running 
             
           += 
             
           1 
          
           try 
           : 
          
           ans 
             
           = 
             
           self 
           . 
           opener 
           . 
           open 
           ( 
           req 
           ) 
           . 
           read 
           ( 
           ) 
          
           except 
             
           Exception 
           , 
             
           what 
           : 
          
           ans 
             
           = 
             
           '' 
          
           print 
             
           what 
          
           self 
           . 
           q_ans 
           . 
           put 
           ( 
           ( 
           req 
           , 
           ans 
           ) 
           ) 
          
           with 
             
           self 
           . 
           lock 
           : 
          
           self 
           . 
           running 
             
           -= 
             
           1 
          
           self 
           . 
           q_req 
           . 
           task_done 
           ( 
           ) 
          
           time 
           . 
           sleep 
           ( 
           0.1 
           ) 
             
           # don't spam 
          
           if 
             
           __name__ 
             
           == 
             
           "__main__" 
           : 
          
           links 
             
           = 
             
           [ 
             
           'http://www.verycd.com/topics/%d/' 
           % 
           i 
             
           for 
             
           i 
             
           in 
             
           range 
           ( 
           5420 
           , 
           5430 
           ) 
             
           ] 
          
           f 
             
           = 
             
           Fetcher 
           ( 
           threads 
           = 
           10 
           ) 
          
           for 
             
           url  
           in 
             
           links 
           : 
          
           f 
           . 
           push 
           ( 
           url 
           ) 
          
           while 
             
           f 
           . 
           taskleft 
           ( 
           ) 
           : 
          
           url 
           , 
           content 
             
           = 
             
           f 
           . 
           pop 
           ( 
           ) 
          
           print 
             
           url 
           , 
           len 
           ( 
           content 
           )

8. 一些琐碎的经验

1、连接池：

opener.open和urllib2.urlopen一样，都会新建一个http请求。通常情况下这不是什么问题，因为线性环境下，一秒钟可能也就新生成一个请求；然而在多线程环境下，每秒钟可以是几十上百个请求，这么干只要几分钟，正常的有理智的服务器一定会封禁你的。

然而在正常的html请求时，保持同时和服务器几十个连接又是很正常的一件事，所以完全可以手动维护一个HttpConnection的池，然后每次抓取时从连接池里面选连接进行连接即可。

这里有一个取巧的方法，就是利用squid做代理服务器来进行抓取，则squid会自动为你维护连接池，还附带数据缓存功能，而且squid本来就是我每个服务器上面必装的东东，何必再自找麻烦写连接池呢。

2、设定线程的栈大小

栈大小的设定将非常显著地影响python的内存占用，python多线程不设置这个值会导致程序占用大量内存，这对openvz的vps来说非常致命。stack_size必须大于32768，实际上应该总要32768*2以上

3、设置失败后自动重试

Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
            9 
          
            10 
          
            11 
          
            12 
          
           def 
             
           get 
           ( 
           self 
           , 
           req 
           , 
           retries 
           = 
           3 
           ) 
           : 
          
           try 
           : 
          
           response 
             
           = 
             
           self 
           . 
           opener 
           . 
           open 
           ( 
           req 
           ) 
          
           data 
             
           = 
             
           response 
           . 
           read 
           ( 
           ) 
          
           except 
             
           Exception 
             
           , 
             
           what 
           : 
          
           print 
             
           what 
           , 
           req 
          
           if 
             
           retries 
           & 
           gt 
           ; 
           0 
           : 
          
           return 
             
           self 
           . 
           get 
           ( 
           req 
           , 
           retries 
           - 
           1 
           ) 
          
           else 
           : 
          
           print 
             
           'GET Failed' 
           , 
           req 
          
           return 
             
           '' 
          
           return 
             
           data

4、设置超时

 
Python
 
            1 
          
            2 
          
           import 
             
           socket 
          
           socket 
           . 
           setdefaulttimeout 
           ( 
           10 
           ) 
             
           #设置10秒后连接超时

5、登陆

登陆更加简化了，首先build_opener中要加入cookie支持，参考“总结”一文；如要登陆VeryCD，给Fetcher新增一个空方法login，并在init()中调用，然后继承Fetcher类并override login方法：

Python
 
            1 
          
            2 
          
            3 
          
            4 
          
            5 
          
            6 
          
            7 
          
            8 
          
            9 
          
           def 
             
           login 
           ( 
           self 
           , 
           username 
           , 
           password 
           ) 
           : 
          
           import 
             
           urllib 
          
           data 
           = 
           urllib 
           . 
           urlencode 
           ( 
           { 
           'username' 
           : 
           username 
           , 
          
           'password' 
           : 
           password 
           , 
          
           'continue' 
           : 
           'http://www.verycd.com/' 
           , 
          
           'login_submit' 
           : 
           u 
           '登录' 
           . 
           encode 
           ( 
           'utf-8' 
           ) 
           , 
          
           'save_cookie' 
           : 
           1 
           , 
           } 
           ) 
          
           url 
             
           = 
             
           'http://www.verycd.com/signin' 
          
           self 
           . 
           opener 
           . 
           open 
           ( 
           url 
           , 
           data 
           ) 
           . 
           read 
           ( 
           )

于是在Fetcher初始化时便会自动登录VeryCD网站。

9. 总结

如此，把上述所有小技巧都糅合起来就和我目前的私藏最终版的Fetcher类相差不远了，它支持多线程，gzip/deflate压缩，超时设置，自动重试，设置栈大小，自动登录等功能；代码简单，使用方便，性能也不俗，可谓居家旅行，杀人放火，咳咳，之必备工具。

之所以说和最终版差得不远，是因为最终版还有一个保留功能“马甲术”：多代理自动选择。看起来好像仅仅是一个random.choice的区别，其实包含了代理获取，代理验证，代理测速等诸多环节，这就是另一个故事了。

欢迎加入Python学习交流群：535993938 禁止闲聊！名额有限！非喜勿进！

python爬虫框架Scrapy简介码农~明哥 python python 爬虫 scrapy
当你写了很多个爬虫程序之后，你会发现每次写爬虫程序时，都需要将页面获取、页面解析、爬虫调度、异常处理、反爬应对这些代码从头至尾实现一遍，这里面有很多工作其实都是简单乏味的重复劳动。那么，有没有什么办法可以提升我们编写爬虫代码的效率呢？答案是肯定的，那就是利用爬虫框架，而在所有的爬虫框架中，Scrapy应该是最流行、最强大的框架。Scrapy概述Scrapy是基于Python的一个非常流行的网络爬虫
【算法】经典博弈论问题——斐波那契博弈 + Zeckendorf 定理 python 查理零世算法 python 数据结构
目录斐波那契博弈（FibonacciNim）齐肯多夫（Zeckendorf）定理示例分析实战演练斐波那契博弈（FibonacciNim）先说结论：当初始石子数目n是斐波那契数时，先手必败；否则，先手有策略获胜。证明概要:当n=2时，先手只能取1颗石子，后手直接取剩下的1颗石子获胜，因此先手必败。假设对于所有小于等于某个斐波那契数f[k]的情况，结论都成立。归纳：对于f[k+1]=f[k]+f[k-
用 Python 实现经典的 2048 游戏：一步步带你打造属于你的小游戏！一位小说男主 python python 游戏
用Python实现经典的2048游戏：一步步带你打造属于你的小游戏！（结尾附完整代码）简介2048是一个简单而又令人上瘾的数字拼图游戏。玩家通过滑动方块使相同数字的方块合并，目标是创造出数字2048！在这篇博客中，我们将用Python的Tkinter库从零开始实现这款游戏，涵盖从界面设计到逻辑实现的每一个细节，帮助你全面了解背后的开发思路。游戏特点经典玩法：滑动合并相同数字，尽可能达到2048。随
Python跨年烟花代码花洵琴
Python跨年烟花代码【下载地址】Python跨年烟花代码分享本资源文件提供了一个使用Python编写的跨年烟花代码，代码中使用了`pygame`、`random`和`math`库来实现烟花的模拟效果。代码中定义了三个类：`Firework`、`Particle`和`Trail`，分别代表烟花、烟花中的颗粒以及颗粒的轨迹点项目地址:https://gitcode.com/open-source-
Python web框架——Django xiabe python python django web开发
简介django是一个免费的开源的pythonweb框架。它遵循了model-view-template（MVT）的架构模式。由DjangoSoftwareFoundation维护，一个以501©(3)非营利组织形式成立的独立组织。django的主要目标是简单的去开发一个复杂的数据库驱动的网站。该框架强调组件的可重用性和“可插拔性”、代码更少、低耦合、快速开发以及“不要重复自己”的原则。Pytho
python 建立并使用 venv 波格斯特问题备忘 python 开发语言
python建立并使用venv[smf@5GC-10mmlShell]$python3-mvenv./.venv[smf@5GC-10mmlShell]$source./.venv/bin/activate(.venv)[smf@5GC-10mmlShell]$(.venv)[smf@5GC-10mmlShell]$(.venv)[smf@5GC-10mmlShell]$pip3installre
Tensorflow入门——训练结果的保存与加载 weixin_34087301 人工智能 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>训练完成以后我们就可以直接使用训练好的模板进行预测了但是每次在预测之前都要进行训练，不是一个常规操作，毕竟有些复杂的模型需要训练好几天甚至更久所以将训练好的模型进行保存，当有需要的时候重新加载这个模型进行预测或者继续训练，这才是一个常规操作我们依然使用最简单的例子进行说明，这里沿用Tensorflow入门——实现最简单的线性回归模型的预测这个例
【Python学习】网络爬虫-获取京东商品评论并制作柱状图西攻城狮北 Python实用案例学习 python 爬虫京东评论柱状图
一、实现目标获取京东网站上商品的评论统计数据，并使用该数据制作了一个简单的柱状图。二、实现步骤2.1网页分析首先打开链接https://www.jd.com/。在搜索框中输入巧克力关键词后，点击第一件商品打开商品网页，找到商品评价，在商品评价模块能够看到用户选择的评论标签。由于该商品的全部用户评论有50万+，数据量较大。我们需要收集商品特点，所以我们选择对评价标签进行分析。打开https://it
python弹窗（tkinter库）：在弹窗中放置图片的两种方法独白不白 python 开发语言
我了解到的方法有两种，但无一例外，重点都是将图片转化成PhotoImage的形式，然后才能在弹窗中显示。相当于PhotoImage是tkinter库导出图片的专属格式。方法1基础写法：首先把gif格式的图片转化成PhotoImage形式，再利用Label导出。importtkinterastkroot=tk.Tk()a=tk.Frame(root)a.pack()b=tk.PhotoImage(f
爬虫实战--- （6）链家房源数据爬取与分析可视化 rain雨雨编程爬虫实战系列 python 爬虫数据分析
文章持续跟新，可以微信搜一搜公众号[rain雨雨编程]，第一时间阅读，涉及数据分析，机器学习，Java编程，爬虫，实战项目等。目录前言1.爬取目标2.所涉及知识点3.步骤分析（穿插代码讲解）步骤一：发送请求步骤二：获取数据步骤三：解析数据步骤四：保存数据4.爬取结果5.完整代码6数据可视化前言今天我将为大家分享一个非常实用的Python项目——链家房源数据的爬取与分析可视化。在这篇文章中，我们将分
Python 项目国际化：使用 Babel 实现多语言支持衫水 python进阶 python
文章目录如何使用Babel实现Python项目国际化1.安装Babel2.设置项目目录结构3.标记可翻译的文本4.提取可翻译的文本生成文件——生成pot文件4.1有配置文件方式（使用`babel.cfg`）4.1.1.创建`babel.cfg`文件4.1.2.提取翻译内容4.2无配置文件方式（直接指定文件路径）5.后续步骤（通用步骤）5.1.初始化翻译文件——生成po文件5.2.编辑po文件5.3
python创建虚拟环境 k47 python python linux 开发语言
python创建虚拟环境准备工作python3.8.8(python3.3以上自带venv模块)环境windows10步骤在D盘创建文件夹Env进入Env文件夹执行命令：python-mvenvtest_env(这里名称自己填)进入上一步创建的文件夹内，并进入scripts文件夹下执行命令进入虚拟环境：.\activatecmd命令窗口前面出现（你自己写的名称）就成功了退出虚拟环境deactiva
查找地理处理工具 pianmian1 arcgis
操作方法:1.在arcmap中打开目标地图2.单机Geoprocessing菜单,选择SearchForTools,打开Search窗口3.在搜索文本框中输入Clip,当开始输入这个单词时,搜索文本框会根据用户输入的字母自动匹配搜索结果4.单机Search按钮,即可生成一个匹配的工具列表.在搜索结果中,锤子图标表示工具,卷轴图标表示python脚本,含有彩色方格的表示模型5.选择Clip工具,将打
关于python语言程序设计课本的总结 pianmian1 python 开发语言
不知不觉就学完了整本书.今天来总结一下内容吧.目录第一章:程序设计基本方法;第二章:python语言基本语法元素第三章:基本数据类型第四章:程序的控制结构第五章:函数和代码复用第一章:程序设计基本方法;本章讲述了程序设计的基本语言概述与python语言特点.讲述了如何正确安装python程序.介绍了python语言的优点:语法简介,生态丰富,多语言集成,平台无关,强制可读,支持中文,模式多样等.并
ArcGis批量导出地图杨汶达@ ArcGis arcgis
ArcGIS软件从诞生之日起就引领着地理信息系统技术的潮流，极大地提高了制图的质量和效率，目前可以满足大多数用户的需求。但是在具有部分行业特色或存在大量重复工作的应用需求中，仅凭ArcGIS软件来完成制图工作不仅费时费力，而且工作量可能超过了可承受范围。因此，通过编程来实现自动化制图技术，则可以起到事半功倍的效果。以林地征占用项目使用林地现状图制图为例，介绍如何使用Python编写代码，利用Arc
python3+TensorFlow 2.x（四）反向传播刀客123 python学习 tensorflow 人工智能 python
目录反向传播算法反向传播算法基本步骤：反向中的参数变化总结反向传播算法反向传播算法（Backpropagation）是训练人工神经网络时使用的一个重要算法，它是通过计算梯度并优化神经网络的权重来最小化误差。反向传播算法的核心是基于链式法则的梯度下降优化方法，通过计算误差对每个权重的偏导数来更新网络中的参数。反向传播算法基本步骤：前向传播：将输入数据传递通过神经网络的各层，计算每一层的输出。计算损失
Python pdf转word 树上灵溪 python
最新在翻译英文文档，但都是pdf的，有点不方便，花了点时间做了一个小工具，分享一下，希望对大家有所帮助。这里录了一个视频传到B站了，比较详细可以看一下：传送门。最终结果是生成了一个可执行文件，可以批量转换文件夹中的pdf文件，包含图片和简单的格式转换（复杂的就不用考虑自己搞了QAQ）下面简单描述一下大概思路：1.引用pdf2docx库：frompdf2docximportConverter2.找到
Python SQLAlchemy库详解寒秋丶 Python python 开发语言数据库测试开发软件测试软件开发自动化测试
大家好，在Python生态系统中，SQLAlchemy库是一个强大的工具，为开发人员提供了便捷的方式来处理与数据库的交互。无论是开发一个小型的Web应用程序，还是构建一个大型的企业级系统，SQLAlchemy都能满足你的需求，并提供灵活性和性能上的优势。本文将带你深入探索SQLAlchemy库，从基础概念到高级用法，让你对其有一个全面的了解。一、介绍SQLAlchemy是Python中一个强大的开
三种国产大语言模型Python免费调用小软件大世界 python 人工智能
基础三大模型，需要先去官方注册获得key；后续可以使用下列代码调用1.腾讯安装：pip install -i https://mirrors.tencent.com/pypi/simple/ --upgrade tencentcloud-sdk-python实例：importjsonimporttypesfromtencentcloud.commonimportcredentialfromtenc
Flask教程5：flask数据库SQLAlchemy Cachel wood Flask入门教程数据库 flask oracle python 阿里云开发语言 LLM
文章目录SQLAlchemy为什么使用ORM初始化数据库配置表模型的定义与数据库映射数据的增、删、改、查操作数据的添加数据的查找数据的修改数据的删除init_app作用详解SQLAlchemySQLAlchemy是一个基于Python实现的ORM(ObjectRelationalMapping，对象关系映射）框架。该框架建立在DBAPI(数据库应用程序接口系统)之上，使用关系对象映射进行数据库操作
python对word文档与PDF的操作深海里的盐汽水 python
python操作word文档与PDF对word文档的操作在操作前需要安装第三方库pipinstallpython-docxpillow。用python创建一个word文档创建一个对象添加一个大标题添加段落保存文件fromdocximportDocumentfromdocx.sharedimportInchesfromdocx.documentimportDocumentasDoc#创建一个对象do
＜Python＞＜ffmpeg＞基于python使用PyQt5构建GUI实例：音频格式转换程序（MP3/aac/wma/flac）(优化版2) 机构师 python编程实例 python ffmpeg qt pyqt5 vscode
前言本文是基于python语言使用pyqt5来构建的GUI，功能是使用ffmpeg来对音频文件进行格式转换，如mp3、aac、wma、flac等音乐格式。UI示例：环境配置系统：windows平台：visualstudiocode语言：python库：pyqt5、ffmpeg概述本文是建立在之前的博文的基础上的优化版，前文链接：1、python使用ffmpeg来制作音频格式转换工具（优化版）2、利
第30篇：Python开发进阶：网络安全与测试猿享天开 python从入门到精通 python web安全开发语言
第30篇：网络安全与测试目录网络安全概述什么是网络安全常见的安全威胁Python中的网络安全工具常用安全库介绍安全编码实践密码学基础加密与解密哈希函数数字签名安全认证与授权用户认证访问控制OAuth与JWTWeb应用安全常见的Web安全漏洞防护措施安全测试网络安全测试渗透测试自动化测试工具安全漏洞扫描使用Python进行安全测试使用Scapy进行网络嗅探使用Requests进行安全测试使用Beau
PyQt4 的图片切割编辑器烛火萤辉 Python python pyqt
一、编辑器功能明确允许用户加载图片、选择切割模式、对切割后的图片片段进行操作（如移动、复制、粘贴、删除等），并支持撤销和重做操作。环境：Py2.7PyQt4.11二、导入模块介绍sys:用于访问与Python解释器强相关的变量和函数。os:提供操作系统相关功能，如文件路径操作。random:用于生成随机数，主要用于自动保存文件名。json:用于数据序列化和反序列化，方便保存和加载编辑状态。glob
知网爬虫，作者、摘要、题目、发表期刊等主要内容的获取大懒猫软件爬虫
爬取知网内容的详细过程爬取知网内容需要考虑多个因素，包括网站的结构、反爬虫机制等。以下是一个详细的步骤和代码实现，帮助你使用Python爬取知网上的论文信息，包括作者、摘要、题目、发表期刊等主要内容。1.数据准备首先，需要准备一些基础数据，如知网的URL、请求头等。2.模型构建使用requests库发送HTTP请求，使用BeautifulSoup库解析HTML内容。如果遇到动态加载的内容，可以使用
使用Python和Flask搭建导航网站需要注意的问题有哪些？大懒猫软件 python flask 开发语言
使用Python和Flask搭建导航网站时，需要注意以下几个关键问题，以确保网站的性能、安全性和可维护性。以下是一些常见问题和建议：1.性能优化静态文件缓存：确保静态文件（如CSS、JavaScript、图片）被浏览器缓存，减少重复请求。在Nginx中配置缓存头：nginx复制location~*\.(css|js|jpg|jpeg|png|gif)${expires1d;#设置缓存有效期为1天}
python【数据结构与算法】最长公共子串详解（附代码）理想不闪火算法
文章目录1定义1定义和最长公共子序列一样，使用动态规划的算法。下一步就要找到状态之间的转换方程。和LCS问题唯一不同的地方在于当A[i]!=B[j]时，res[i][j]就直接等于0了，因为子串必须连续，且res[i
Python之Spire.XLS进行Excel与CSV文件互转换一晌小贪欢 Python自动化办公 python excel python办公 python自动化
目录专栏导读背景安装Excel转CSV文件(推荐速度会快一点)代码CSV转Excel文件(小文件推荐)代码结尾专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅文章作者技术和水平有限，如果文中出现错误，希望大家能指正❤️欢迎各位佬关注！❤️背景安装我们利用
大数据生态的Apache RocketMQ5.0 Apache RocketMQ java 开发语言
本文作者：李伟-ApacheRocketMQCommitter，RocketMQPython客户端项目Owner，ApacheDorisContributor，腾讯云消息队列资深开发工程师，著有《RocketMQ分布式消息中间件(核心原理与最佳实践)》。一、RocketMqueue101RocketMQ拥有诸多出色的特性：比如多副本机制，RocketMQ支持存储层的多副本Dledger，它是基于R
python+playwright自动化测试(八)：iframe切换、多窗口切换觅远自动化测试 python 爬虫开发语言 python 自动化
目录浏览器上下文context对象常用操作设置默认导航时间iframe切换窗口切换浏览器上下文context对象常用操作context.pages:获取context所有page对象context.new_page():生成一个新的page对象context.add_cookies()：将cookie添加到此浏览器上下文所在的所有页面中。context.clear_cookies()：清除cont
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

用python爬虫抓站的一些技巧总结

欢迎加入Python学习交流群：535993938 禁止闲聊 ！ 名额有限 ！ 非喜勿进 ！

1.最基本的抓站

2.使用代理服务器

3.需要登录的情况

3.1 cookie的处理

3.2 表单的处理

3.3 伪装成浏览器访问

3.4 反”反盗链”

3.5 终极绝招

4.多线程并发抓取

5.验证码的处理

6 gzip/deflate支持

7. 更方便地多线程

1、用twisted进行异步I/O抓取

2、设计一个简单的多线程抓取类

8. 一些琐碎的经验

1、连接池：

2、设定线程的栈大小

3、设置失败后自动重试

4、设置超时

5、登陆

9. 总结

欢迎加入Python学习交流群：535993938 禁止闲聊 ！ 名额有限 ！ 非喜勿进 ！

你可能感兴趣的:(Python,爬虫,Python)

欢迎加入Python学习交流群：535993938 禁止闲聊！名额有限！非喜勿进！

欢迎加入Python学习交流群：535993938 禁止闲聊！名额有限！非喜勿进！