zhyh1435589631

Python爬虫实战一之爬取糗事百科段子

点我进入原文

另外，中间遇到两个问题：

1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128)

解决方法：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

原因是， python 2.xx 默认的 string 是ascii 类型编码，而网页上一般都是unicode 因而出现问题

2. Python 在 Eclipse报错 Undefined variable from import: setdefaultencoding

经过查阅资料发现，这只是pydev 的一个bug 而已，不影响程序运行

这是我们的参考博文写出来的代码，亲测可用

运行效果图：

#coding:utf-8
'''
Created on 2016-5-2
说明： 参考 博文  http://cuiqingcai.com/990.html 实现糗百段子抓取
@author: ThinkPad User
'''

import urllib
import urllib2
import re

class QBSpider():
    '''
    classdocs
    '''  
    
    def __init__(self):
        '''
        Constructor
        '''
        self.pageIndex = 1  
        self.user_agent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2438.3 Safari/537.36" 
        self.headers = {"User-Agent" : self.user_agent}
        self.stories = []
        self.enable = True
        
    '''获取网页源代码'''
    def getHtml(self, pageIndex):
        import sys
        reload(sys)
        sys.setdefaultencoding('utf-8')
        
        try:
            self.url = "http://www.qiushibaike.com/hot/page/" + str(pageIndex) 
            request = urllib2.Request(self.url, headers = self.headers)
            response = urllib2.urlopen(request)
            return response.read().encode('utf-8')
        except urllib2.URLError, e:
            if hasattr(e, "code"):
                print e.code
            if hasattr(e, "reason"):
                print e.reason
                
    # 加载每页的段子， 存储在 pageStories 中
    def getDuanZi(self, pageIndex):
        content = self.getHtml(pageIndex)
        if not content:
            print "加载异常"
            return None
        
        pageStories = []
        string = r'<div.*?"author.*?</span>.*?<h2>(.*?)</h2>.*?"content">(.*?)</div>(.*?)<div class="stats.*?"number">(.*?)</i>'
        pattern = re.compile(string, re.S)
        res = re.findall(pattern, content)
        for item in res:
            haveimg = re.search("img", item[2])
            if not haveimg:
                replaceBR = re.compile('<br.*?>', re.S)
                text = re.sub(replaceBR, "\n", item[1])
                pageStories.append([item[0].strip(), text.strip(), item[3].strip()])
        return pageStories
    
    # 自动获取后面1页的段子信息， 保证现有段子数 >= 2
    def loadPage(self):
        if len(self.stories) < 2:
            pageStories = self.getDuanZi(self.pageIndex)
            if pageStories:
                self.stories.append(pageStories)
                self.pageIndex += 1
                
                
    def getOneStory(self, pageStories, page):
        for story in pageStories:
            input = raw_input()
            self.loadPage()
            if input == "Q":
                self.enable = False
                return
            print u"第%d页\t发布人:%s\t赞:%s\n%s" %(page,story[0],story[2],story[1])
        
    def start(self):
        print u"正在读取糗百信息， 按回车查看新段子， Q退出"
        self.enable = True
        self.loadPage()
        
        nowpage = 0
        while self.enable:
            if (len(self.stories) > 0):
                pageStories = self.stories[0]
                nowpage += 1
                del self.stories[0]
                self.getOneStory(pageStories, nowpage)
                
if "__main__" == __name__:
    qb = QBSpider()
    qb.start()

需要注意的是，距离作者的原文发布的时间有一段距离了，糗百的html 代码发生部分变化，因而正则表达式模块需要自己重新根据实际情况进行编写~~

Python爬虫实战一之爬取糗事百科段子

大家好，前面入门已经说了那么多基础知识了，下面我们做几个实战项目来挑战一下吧。那么这次为大家带来，Python爬取糗事百科的小段子的例子。

首先，糗事百科大家都听说过吧？糗友们发的搞笑的段子一抓一大把，这次我们尝试一下用爬虫把他们抓取下来。

友情提示

糗事百科在前一段时间进行了改版，导致之前的代码没法用了，会导致无法输出和CPU占用过高的情况，是因为正则表达式没有匹配到的缘故。

现在，博主已经对程序进行了重新修改，代码亲测可用，包括截图和说明，之前一直在忙所以没有及时更新，望大家海涵！

更新时间：2015/8/2

糗事百科又又又又改版了，博主已经没心再去一次次匹配它了，如果大家遇到长时间运行不出结果也不报错的情况，请大家参考最新的评论，热心小伙伴提供的正则来修改下吧～

更新时间：2016/3/27

本篇目标

1.抓取糗事百科热门段子

2.过滤带有图片的段子

3.实现每按一次回车显示一个段子的发布时间，发布人，段子内容，点赞数。

糗事百科是不需要登录的，所以也没必要用到Cookie，另外糗事百科有的段子是附图的，我们把图抓下来图片不便于显示，那么我们就尝试过滤掉有图的段子吧。

好，现在我们尝试抓取一下糗事百科的热门段子吧，每按下一次回车我们显示一个段子。

1.确定URL并抓取页面代码

首先我们确定好页面的URL是 http://www.qiushibaike.com/hot/page/1，其中最后一个数字1代表页数，我们可以传入不同的值来获得某一页的段子内容。

我们初步构建如下的代码来打印页面代码内容试试看，先构造最基本的页面抓取方式，看看会不会成功

 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
         # -*- coding:utf-8 -*- 
        
         import  
         urllib 
        
         import  
         urllib2 
        
         page 
           
         = 
           
         1 
        
         url 
           
         = 
           
         'http://www.qiushibaike.com/hot/page/' 
           
         + 
           
         str 
         ( 
         page 
         ) 
        
         try 
         : 
        
         request 
           
         = 
           
         urllib2 
         . 
         Request 
         ( 
         url 
         ) 
        
         response 
           
         = 
           
         urllib2 
         . 
         urlopen 
         ( 
         request 
         ) 
        
         print  
         response 
         . 
         read 
         ( 
         ) 
        
         except  
         urllib2 
         . 
         URLError 
         , 
           
         e 
         : 
        
         if 
           
         hasattr 
         ( 
         e 
         , 
         "code" 
         ) 
         : 
        
         print 
           
         e 
         . 
         code 
        
         if 
           
         hasattr 
         ( 
         e 
         , 
         "reason" 
         ) 
         : 
        
         print 
           
         e 
         . 
         reason

运行程序，哦不，它竟然报错了，真是时运不济，命途多舛啊

 
          1 
        
          2 
        
          3 
        
         line 
          
         373 
         , 
          
         in 
          
         _read_status 
        
         raise 
         BadStatusLine 
         ( 
         line 
         ) 
        
         httplib 
         . 
         BadStatusLine 
         : 
          
         ''

好吧，应该是headers验证的问题，我们加上一个headers验证试试看吧，将代码修改如下

 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
         # -*- coding:utf-8 -*- 
        
         import  
         urllib 
        
         import  
         urllib2 
        
         page 
           
         = 
           
         1 
        
         url 
           
         = 
           
         'http://www.qiushibaike.com/hot/page/' 
           
         + 
           
         str 
         ( 
         page 
         ) 
        
         user_agent 
           
         = 
           
         'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
        
         headers 
           
         = 
           
         { 
           
         'User-Agent' 
           
         : 
           
         user 
         _agent 
           
         } 
        
         try 
         : 
        
         request 
           
         = 
           
         urllib2 
         . 
         Request 
         ( 
         url 
         , 
         headers 
           
         = 
           
         headers 
         ) 
        
         response 
           
         = 
           
         urllib2 
         . 
         urlopen 
         ( 
         request 
         ) 
        
         print  
         response 
         . 
         read 
         ( 
         ) 
        
         except  
         urllib2 
         . 
         URLError 
         , 
           
         e 
         : 
        
         if 
           
         hasattr 
         ( 
         e 
         , 
         "code" 
         ) 
         : 
        
         print 
           
         e 
         . 
         code 
        
         if 
           
         hasattr 
         ( 
         e 
         , 
         "reason" 
         ) 
         : 
        
         print 
           
         e 
         . 
         reason

嘿嘿，这次运行终于正常了，打印出了第一页的HTML代码，大家可以运行下代码试试看。在这里运行结果太长就不贴了。

2.提取某一页的所有段子

好，获取了HTML代码之后，我们开始分析怎样获取某一页的所有段子。

首先我们审查元素看一下，按浏览器的F12，截图如下

我们可以看到，每一个段子都是<div class=”article block untagged mb15″ id=”…”>…</div>包裹的内容。

现在我们想获取发布人，发布日期，段子内容，以及点赞的个数。不过另外注意的是，段子有些是带图片的，如果我们想在控制台显示图片是不现实的，所以我们直接把带有图片的段子给它剔除掉，只保存仅含文本的段子。

所以我们加入如下正则表达式来匹配一下，用到的方法是 re.findall 是找寻所有匹配的内容。方法的用法详情可以看前面说的正则表达式的介绍。

好，我们的正则表达式匹配语句书写如下，在原来的基础上追加如下代码

 
  
 
    
     
      
          1 
        

          2 
        

          3 
        

          4 
        

          5 
        

          6 
        
 
       
         content 
          
         = 
          
         response 
         . 
         read 
         ( 
         ) 
         . 
         decode 
         ( 
         'utf-8' 
         ) 
        
 
         pattern 
          
         = 
          
         re 
         . 
         compile 
         ( 
         '<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?' 
         + 
        
 
                                  
         'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">(.*?)</i>' 
         , 
         re 
         . 
         S 
         ) 
        
 
         items 
          
         = 
          
         re 
         . 
         findall 
         ( 
         pattern 
         , 
         content 
         ) 
        
 
         for 
          
         item 
         in 
          
         items 
         : 
        
 
              
         print 
         item 
         [ 
         0 
         ] 
         , 
         item 
         [ 
         1 
         ] 
         , 
         item 
         [ 
         2 
         ] 
         , 
         item 
         [ 
         3 
         ] 
         , 
         item 
         [ 
         4 
         ] 
        
 
     
 
    
  

现在正则表达式在这里稍作说明

1）.*? 是一个固定的搭配，.和*代表可以匹配任意无限多个字符，加上？表示使用非贪婪模式进行匹配，也就是我们会尽可能短地做匹配，以后我们还会大量用到 .*? 的搭配。

2）(.*?)代表一个分组，在这个正则表达式中我们匹配了五个分组，在后面的遍历item中，item[0]就代表第一个(.*?)所指代的内容，item[1]就代表第二个(.*?)所指代的内容，以此类推。

3）re.S 标志代表在匹配时为点任意匹配模式，点 . 也可以代表换行符。

这样我们就获取了发布人，发布时间，发布内容，附加图片以及点赞数。

在这里注意一下，我们要获取的内容如果是带有图片，直接输出出来比较繁琐，所以这里我们只获取不带图片的段子就好了。

所以，在这里我们就需要对带图片的段子进行过滤。

我们可以发现，带有图片的段子会带有类似下面的代码，而不带图片的则没有，所以，我们的正则表达式的item[3]就是获取了下面的内容，如果不带图片，item[3]获取的内容便是空。

 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
         < 
         div  
         class 
         = 
         "thumb" 
         > 
        
         < 
         a 
           
         href 
         = 
         "/article/112061287?list=hot&amp;s=4794990" 
           
         target 
         = 
         "_blank" 
         > 
        
         < 
         img  
         src 
         = 
         "http://pic.qiushibaike.com/system/pictures/11206/112061287/medium/app112061287.jpg" 
           
         alt 
         = 
         "但他们依然乐观" 
         > 
        
         < 
         / 
         a 
         > 
        
         < 
         / 
         div 
         >

所以我们只需要判断item[3]中是否含有img标签就可以了。

好，我们再把上述代码中的for循环改为下面的样子

现在，整体的代码如下

 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
         # -*- coding:utf-8 -*- 
        
         import  
         urllib 
        
         import  
         urllib2 
        
         import  
         re 
        
         page 
           
         = 
           
         1 
        
         url 
           
         = 
           
         'http://www.qiushibaike.com/hot/page/' 
           
         + 
           
         str 
         ( 
         page 
         ) 
        
         user_agent 
           
         = 
           
         'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
        
         headers 
           
         = 
           
         { 
           
         'User-Agent' 
           
         : 
           
         user 
         _agent 
           
         } 
        
         try 
         : 
        
         request 
           
         = 
           
         urllib2 
         . 
         Request 
         ( 
         url 
         , 
         headers 
           
         = 
           
         headers 
         ) 
        
         response 
           
         = 
           
         urllib2 
         . 
         urlopen 
         ( 
         request 
         ) 
        
         content 
           
         = 
           
         response 
         . 
         read 
         ( 
         ) 
         . 
         decode 
         ( 
         'utf-8' 
         ) 
        
         pattern 
           
         = 
           
         re 
         . 
         compile 
         ( 
         '<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?' 
         + 
        
         'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">(.*?)</i>' 
         , 
         re 
         . 
         S 
         ) 
        
         items 
           
         = 
           
         re 
         . 
         findall 
         ( 
         pattern 
         , 
         content 
         ) 
        
         for 
           
         item  
         in 
           
         items 
         : 
        
         haveImg 
           
         = 
           
         re 
         . 
         search 
         ( 
         "img" 
         , 
         item 
         [ 
         3 
         ] 
         ) 
        
         if 
           
         not 
           
         haveImg 
         : 
        
         print  
         item 
         [ 
         0 
         ] 
         , 
         item 
         [ 
         1 
         ] 
         , 
         item 
         [ 
         2 
         ] 
         , 
         item 
         [ 
         4 
         ] 
        
         except  
         urllib2 
         . 
         URLError 
         , 
           
         e 
         : 
        
         if 
           
         hasattr 
         ( 
         e 
         , 
         "code" 
         ) 
         : 
        
         print 
           
         e 
         . 
         code 
        
         if 
           
         hasattr 
         ( 
         e 
         , 
         "reason" 
         ) 
         : 
        
         print 
           
         e 
         . 
         reason

运行一下看下效果

恩，带有图片的段子已经被剔除啦。是不是很开森？

3.完善交互，设计面向对象模式

好啦，现在最核心的部分我们已经完成啦，剩下的就是修一下边边角角的东西，我们想达到的目的是：

按下回车，读取一个段子，显示出段子的发布人，发布日期，内容以及点赞个数。

另外我们需要设计面向对象模式，引入类和方法，将代码做一下优化和封装，最后，我们的代码如下所示

 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
          35 
        
          36 
        
          37 
        
          38 
        
          39 
        
          40 
        
          41 
        
          42 
        
          43 
        
          44 
        
          45 
        
          46 
        
          47 
        
          48 
        
          49 
        
          50 
        
          51 
        
          52 
        
          53 
        
          54 
        
          55 
        
          56 
        
          57 
        
          58 
        
          59 
        
          60 
        
          61 
        
          62 
        
          63 
        
          64 
        
          65 
        
          66 
        
          67 
        
          68 
        
          69 
        
          70 
        
          71 
        
          72 
        
          73 
        
          74 
        
          75 
        
          76 
        
          77 
        
          78 
        
          79 
        
          80 
        
          81 
        
          82 
        
          83 
        
          84 
        
          85 
        
          86 
        
          87 
        
          88 
        
          89 
        
          90 
        
          91 
        
          92 
        
          93 
        
          94 
        
          95 
        
          96 
        
          97 
        
          98 
        
          99 
        
          100 
        
          101 
        
          102 
        
          103 
        
          104 
        
          105 
        
          106 
        
          107 
        
          108 
        
          109 
        
          110 
        
          111 
        
          112 
        
         __author__ 
          
         = 
          
         'CQC' 
        
         # -*- coding:utf-8 -*- 
        
         import 
         urllib 
        
         import 
         urllib2 
        
         import 
         re 
        
         import 
         thread 
        
         import 
         time 
        
         #糗事百科爬虫类 
        
         class 
          
         QSBK 
         : 
        
         #初始化方法，定义一些变量 
        
         def 
         __init__ 
         ( 
         self 
         ) 
         : 
        
         self 
         . 
         pageIndex 
          
         = 
          
         1 
        
         self 
         . 
         user_agent 
          
         = 
          
         'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
        
         #初始化headers 
        
         self 
         . 
         headers 
          
         = 
          
         { 
          
         'User-Agent' 
          
         : 
          
         self 
         . 
         user 
         _agent 
          
         } 
        
         #存放段子的变量，每一个元素是每一页的段子们 
        
         self 
         . 
         stories 
          
         = 
          
         [ 
         ] 
        
         #存放程序是否继续运行的变量 
        
         self 
         . 
         enable 
          
         = 
          
         False 
        
         #传入某一页的索引获得页面代码 
        
         def 
         getPage 
         ( 
         self 
         , 
         pageIndex 
         ) 
         : 
        
         try 
         : 
        
         url 
          
         = 
          
         'http://www.qiushibaike.com/hot/page/' 
          
         + 
          
         str 
         ( 
         pageIndex 
         ) 
        
         #构建请求的request 
        
         request 
          
         = 
          
         urllib2 
         . 
         Request 
         ( 
         url 
         , 
         headers 
          
         = 
          
         self 
         . 
         headers 
         ) 
        
         #利用urlopen获取页面代码 
        
         response 
          
         = 
          
         urllib2 
         . 
         urlopen 
         ( 
         request 
         ) 
        
         #将页面转化为UTF-8编码 
        
         pageCode 
          
         = 
          
         response 
         . 
         read 
         ( 
         ) 
         . 
         decode 
         ( 
         'utf-8' 
         ) 
        
         return 
          
         pageCode 
        
         except 
         urllib2 
         . 
         URLError 
         , 
          
         e 
         : 
        
         if 
          
         hasattr 
         ( 
         e 
         , 
         "reason" 
         ) 
         : 
        
         print 
          
         u 
         "连接糗事百科失败,错误原因" 
         , 
         e 
         . 
         reason 
        
         return 
          
         None 
        
         #传入某一页代码，返回本页不带图片的段子列表 
        
         def 
         getPageItems 
         ( 
         self 
         , 
         pageIndex 
         ) 
         : 
        
         pageCode 
          
         = 
          
         self 
         . 
         getPage 
         ( 
         pageIndex 
         ) 
        
         if 
          
         not 
          
         pageCode 
         : 
        
         print 
          
         "页面加载失败...." 
        
         return 
          
         None 
        
         pattern 
          
         = 
          
         re 
         . 
         compile 
         ( 
         '<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?' 
         + 
        
         'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">(.*?)</i>' 
         , 
         re 
         . 
         S 
         ) 
        
         items 
          
         = 
          
         re 
         . 
         findall 
         ( 
         pattern 
         , 
         pageCode 
         ) 
        
         #用来存储每页的段子们 
        
         pageStories 
          
         = 
          
         [ 
         ] 
        
         #遍历正则表达式匹配的信息 
        
         for 
          
         item 
         in 
          
         items 
         : 
        
         #是否含有图片 
        
         haveImg 
          
         = 
          
         re 
         . 
         search 
         ( 
         "img" 
         , 
         item 
         [ 
         3 
         ] 
         ) 
        
         #如果不含有图片，把它加入list中 
        
         if 
          
         not 
          
         haveImg 
         : 
        
         replaceBR 
          
         = 
          
         re 
         . 
         compile 
         ( 
         '<br/>' 
         ) 
        
         text 
          
         = 
          
         re 
         . 
         sub 
         ( 
         replaceBR 
         , 
         "\n" 
         , 
         item 
         [ 
         1 
         ] 
         ) 
        
         #item[0]是一个段子的发布者，item[1]是内容，item[2]是发布时间,item[4]是点赞数 
        
         pageStories 
         . 
         append 
         ( 
         [ 
         item 
         [ 
         0 
         ] 
         . 
         strip 
         ( 
         ) 
         , 
         text 
         . 
         strip 
         ( 
         ) 
         , 
         item 
         [ 
         2 
         ] 
         . 
         strip 
         ( 
         ) 
         , 
         item 
         [ 
         4 
         ] 
         . 
         strip 
         ( 
         ) 
         ] 
         ) 
        
         return 
          
         pageStories 
        
         #加载并提取页面的内容，加入到列表中 
        
         def 
         loadPage 
         ( 
         self 
         ) 
         : 
        
         #如果当前未看的页数少于2页，则加载新一页 
        
         if 
          
         self 
         . 
         enable 
          
         == 
          
         True 
         : 
        
         if 
          
         len 
         ( 
         self 
         . 
         stories 
         ) 
          
         < 
          
         2 
         : 
        
         #获取新一页 
        
         pageStories 
          
         = 
          
         self 
         . 
         getPageItems 
         ( 
         self 
         . 
         pageIndex 
         ) 
        
         #将该页的段子存放到全局list中 
        
         if 
          
         pageStories 
         : 
        
         self 
         . 
         stories 
         . 
         append 
         ( 
         pageStories 
         ) 
        
         #获取完之后页码索引加一，表示下次读取下一页 
        
         self 
         . 
         pageIndex 
          
         += 
          
         1 
        
         #调用该方法，每次敲回车打印输出一个段子 
        
         def 
         getOneStory 
         ( 
         self 
         , 
         pageStories 
         , 
         page 
         ) 
         : 
        
         #遍历一页的段子 
        
         for 
          
         story 
         in 
          
         pageStories 
         : 
        
         #等待用户输入 
        
         input 
          
         = 
          
         raw_input 
         ( 
         ) 
        
         #每当输入回车一次，判断一下是否要加载新页面 
        
         self 
         . 
         loadPage 
         ( 
         ) 
        
         #如果输入Q则程序结束 
        
         if 
          
         input 
          
         == 
          
         "Q" 
         : 
        
         self 
         . 
         enable 
          
         = 
          
         False 
        
         return 
        
         print 
          
         u 
         "第%d页\t发布人:%s\t发布时间:%s\t赞:%s\n%s" 
          
         % 
         ( 
         page 
         , 
         story 
         [ 
         0 
         ] 
         , 
         story 
         [ 
         2 
         ] 
         , 
         story 
         [ 
         3 
         ] 
         , 
         story 
         [ 
         1 
         ] 
         ) 
        
         #开始方法 
        
         def 
         start 
         ( 
         self 
         ) 
         : 
        
         print 
          
         u 
         "正在读取糗事百科,按回车查看新段子，Q退出" 
        
         #使变量为True，程序可以正常运行 
        
         self 
         . 
         enable 
          
         = 
          
         True 
        
         #先加载一页内容 
        
         self 
         . 
         loadPage 
         ( 
         ) 
        
         #局部变量，控制当前读到了第几页 
        
         nowPage 
          
         = 
          
         0 
        
         while 
          
         self 
         . 
         enable 
         : 
        
         if 
          
         len 
         ( 
         self 
         . 
         stories 
         ) 
         > 
         0 
         : 
        
         #从全局list中获取一页的段子 
        
         pageStories 
          
         = 
          
         self 
         . 
         stories 
         [ 
         0 
         ] 
        
         #当前读到的页数加一 
        
         nowPage 
          
         += 
          
         1 
        
         #将全局list中第一个元素删除，因为已经取出 
        
         del 
         self 
         . 
         stories 
         [ 
         0 
         ] 
        
         #输出该页的段子 
        
         self 
         . 
         getOneStory 
         ( 
         pageStories 
         , 
         nowPage 
         ) 
        
         spider 
          
         = 
          
         QSBK 
         ( 
         ) 
        
         spider 
         . 
         start 
         ( 
         )

好啦，大家来测试一下吧，点一下回车会输出一个段子，包括发布人，发布时间，段子内容以及点赞数，是不是感觉爽爆了！

我们第一个爬虫实战项目介绍到这里，欢迎大家继续关注，小伙伴们加油！

转载请注明：静觅 » Python爬虫实战一之爬取糗事百科段子

python使用技巧超超是超超 python
1、耗时装饰器importtimedefdecorate(func):definner():begin=time.time()result=func()end=time.time()print(f'函数{func}耗时{end-begin}')returnresultreturninner2、查看代码运行耗时fromline_profilerimportLineProfilerdefoperati
Anaconda与python和pycharm的安装及其关系 Daylight.. 学习笔记 pycharm python ide
Anaconda与python和pycharm的安装及其关系一、Anaconda与python和pycharm的关系：1.Anaconda包含python，并且里面含有许多常用的库。（安装了Anaconda就不需要安装python了）2.pycharm是一种IDE（集成开发环境），在其中可以编写Python程序。（工具和语言的关系）。二、如何安装？Anaconda的安装Anaconda官网下载地址
ImportError: cannot import name ‘Mapping‘ from ‘collections‘ AI算法网奇 python基础前端 javascript 数据库
ImportError:cannotimportname'Mapping'from'collections'解决方法：fromcollections.abcimportMapping#正确导入Mappingdefprocess_mapping(data):ifisinstance(data,Mapping):#使用Mapping进行类型检查#处理映射类型的代码pass测试命令：python-c"f
python图形界面化编程GUI（二）常用的组件(Text、Radiobutton、Checkbutton、Canvas)和布局管理器(gird、pack、place) hwwaizs python-GUI图形化编程 python 开发语言
Text文本框Text(多行文本框)的主要用于显示多行文本，还可以显示网页链接,图片,HTML页面,甚至CSS样式表，添加组件等。主要用来显示信息，也常被当做简单的文本处理器、⽂本编辑器或者网页浏览器来使用。IDLE就是Text组件构成的。insert插入的时候可以用INSERT代表当前光标的位置，END代表在结尾的位置，也可以用插入小数的形式，2.3代表第二行第三列后插入。fromtkinter
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
全网最全！DeepSeek 新手入门教程合集人工智能deepseek
如果你是初次接触DeepSeek的普通用户或开发者，面对海量教程却无从下手？别担心！本文为你整理全网最易懂、最实用的DeepSeek学习资源，涵盖快速上手、编程实战、系统手册等，附直达链接，收藏这一篇就够了！一、快速入门指南《DeepSeek入门教程》-博客园亮点：手把手教你注册账号、获取APIKey，并提供Python调用多轮对话的代码示例，适合初级开发者。直达链接：点击查看核心内容：API调用
【Python】Python入门——判断语句 zhoushanguhe Python python 编程开发语言
Python入门——判断语句。内容包括if语句、条件表达式、三元运算、match语句等。目录一、if语句1.基本if-else语句2.常用比较运算符3.if-else连写4.pass语句5.变量的作用域二、条件表达式三、三元运算四、match语句五、其他一、if语句1.基本if-else语句当条件成立时，执行某些语句；否则执行另一些语句。注意：if和else后需要加上冒号:if语句的代码块需要缩进
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
Python的那些事第二十七篇：Python中的“数据魔法师”NumPy 暮雨哀尘 Python的那些事 python numpy 开发语言数据分析算法数组索引
摘要在这篇幽默风趣的论文中，我们将深入探讨NumPy——Python中最强大的数值计算库之一。它不仅提供了高性能的多维数组对象，还让复杂的数学运算变得像吃冰淇淋一样简单。本文将通过生动的代码示例和幽默的比喻，带你领略NumPy的魔法世界，让你在欢笑中掌握这个强大的工具。一、引言：为什么NumPy是程序员的“超级英雄”？1.1NumPy的起源：从“数据苦力”到“数据魔法师”想象一下，你被困在一个全是
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
排序算法：冒泡排序（Python）娱乐不打烊丶排序算法算法数据结构
思路：大家一定都喝过汽水吧，汽水中常常有许多小小的气泡，往上飘，这是因为组成小气泡的二氧化碳比水要轻，所以小气泡才会一点一点的向上浮。而冒泡排序之所以叫冒泡排序，正是因为这种排序算法的每一个元素都可以向小气泡一样，根据自身大小，一点一点向着数组的一侧移动。一图解百惑，上图！那么，话不多说，上代码！defbubble_sort(input_list):#冒泡排序：每次循环，锁定一个最值，并朝着最大或
supervisord 命令介绍和使用案例 lisanmengmeng linux 命令工具系统运维 shell编程服务器 linux 运维
supervisord命令介绍和使用案例supervisord是一个用Python编写的进程管理工具，用于监控和管理Linux系统中的进程。它可以将普通的命令行进程转变为后台守护进程（daemon），并监控进程状态，在进程异常退出时自动重启。它通过fork/exec的方式把被管理的进程当作自己的子进程来启动。主要功能:进程管理：能够启动、停止、重启和关闭进程.自动重启：监控进程状态，并在进程崩溃时
ptython setup.py install 设置python包编译时的并行数 leo0308 基础知识 Python python pytorch3d
通过源码编译安装pytorch3d的时候，直接执行pythonsetup.pyinstall时，默认开的并行数很多，有10几个，直接导致机器卡死。通过设置下面的环境变量，可以设置较小的并行数，避免占用过多的资源。exportMAX_JOBS=4设置后，同时只有4个编译的进程。
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

Python爬虫实战一之爬取糗事百科段子

Python爬虫实战一之爬取糗事百科段子

友情提示

本篇目标

1.确定URL并抓取页面代码

2.提取某一页的所有段子

3.完善交互，设计面向对象模式

你可能感兴趣的:(python,爬虫,糗事百科)