>>> __author__ = 'Administrator'
>>> import urllib.request
>>> import re
>>> from bs4 import BeautifulSoup
>>> class CsdnUtils(object):
... def __init__(self):
... user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
... self.headers ={'Cache-Control':'max-age=0',
... 'Connection':'keep-alive',
... 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
... 'User-Agent':user_agent,
... }
... self.contentAll=set()
... def getPage(self,url=None):
... request=urllib.request.Request(url,headers=self.headers)
... response=urllib.request.urlopen(request)
... soup=BeautifulSoup(response.read(),"html.parser")
... #print(soup.prettify())
... return soup
... def parsePage(self,url=None,page_num=None):
... soup=self.getPage(url)
... itemBlog=soup.find_all('dl','blog_list clearfix')
... cnArticle=CsdnUtils
... print("========================第",page_num,"页======================================")
... for i,itemSingle in enumerate(itemBlog):
... cnArticle.num=i
... cnArticle.author=itemSingle.find('a','nickname').string
... cnArticle.postTime=itemSingle.find('label').string
... cnArticle.articleView=itemSingle.find('em').string
... cnArticle.title=itemSingle.find('h3',"tracking-ad").string
... cnArticle.url=itemSingle.find("h3").find("a").get("href")
... print("数据:",cnArticle.num+1,'\t',cnArticle.author,'\t',cnArticle.postTime,'\t',cnArticle.articleView,'\t',cnArticle.title,'\t',cnArticle.url)
...
>>> if __name__ =="__main__": ... url = "http://blog.csdn.net" ... cnblog=CsdnUtils() ... for i in range(0,2): ... cnblog.parsePage(url,i+1) ... ========================第 1 页====================================== ========================第 2 页======================================
>>>
---------------------------------------------------------------------------
>>> # -*- coding: utf-8 -*- ... from bs4 import BeautifulSoup >>> import urllib >>> import urllib.request >>> >>> url = "http://www.qiushibaike.com/" >>> print(url) http://www.qiushibaike.com/ >>> user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' >>> req = urllib.request.Request(url, headers={ ... 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' ... }) >>> response = urllib.request.urlopen(req) >>> content = response.read().decode('utf-8') >>> print(content)
糗事百科 - 超搞笑的原创糗事笑话分享社区 >>> soup = BeautifulSoup(content, "lxml")
>>> items1 = soup.select("div.author a img")
>>> items2 = soup.select("a div.content span")
>>> items3 = soup.select("div.thumb a img")
>>> n = 0
>>> length1 = len(items1)
>>> length3 = len(items3)
>>> while n < length1:
... print('作者信息:\n名称:'+items1[n]['alt']+'\n头像链接:'+items1[n]['src']+'\n\n')
... print('段子信息:\n段子:'+items2[n].text+'\n')
... #以免有些没有图片的段子报错
... if n < length3:
... print('段子图片链接:'+items3[n]['src']+'\n\n\n')
... else:
... print('\n\n\n')
... n += 1
...
作者信息:
名称:等等哈哈tua
头像链接://pic.qiushibaike.com/system/avtnew/3296/32969464/thumb/2018021621471714.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
今早我还在睡的很香的时候,我妈一顿催,说我侄女腿不能走路了,怕是骨髓炎。我赶紧起床吃完早餐就带她去医院检查,全程都是抱着她的,手的酸了,医生说要照X光,我缴好费用抱着她来照片,结果吸精来了,一顿哭,硬是不肯照,那个哭啊,我就把她放在地上,当 我准备强行拉她照片的时候,她蹦哒的跑了,对,没错,跑的比兔子还快。这他妈,戏咋那么多呢,顿时我跟我妈都笑翻了。难道是我被她的戏份给含糊了吗[捂脸][捂脸][捂脸][捂脸]这家伙回家还知道不好意思了[机智][机智][机智]
段子图片链接://pic.qiushibaike.com/system/pictures/12007/120070197/medium/app120070197.jpg
作者信息:
名称:你家邻居叫马乐
头像链接://pic.qiushibaike.com/system/avtnew/19/190315/thumb/2018012320534647.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
昨天去医院体检,做彩超检查肝胆脾,进了彩超室,女大夫让我把帘子拉上,然后指着旁边的床说:躺上去,把衣服撩起来,裤子往下褪。趁大夫和女助理说话的间隙,我迅速躺到床上,把上半身脱了个精光,就在我解开皮带准备脱裤子的时候,女大夫转过头来大声喝止:哎哎哎你干嘛呢?把衣服穿上,撩起来就行,裤子也不用脱,褪到小腹就可以了。哎呀我去,脑子一抽竟然把彩超室当成了洗头房!
段子图片链接://pic.qiushibaike.com/system/pictures/12006/120069837/medium/app120069837.jpg
作者信息:
名称:哥、爱你
头像链接://pic.qiushibaike.com/system/avtnew/981/9812585/thumb/20170319151916.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
这几天东莞天气潮湿闷热,今天上班身着齐b短裙的美女同事问我:你穿着毛衣不嫌热吗,我回答热不热不重要,重要的是我对春天留恋尊重。其实我还有别的想法,只是不知道说出来会不会挨揍。
段子图片链接://pic.qiushibaike.com/system/pictures/11987/119872015/medium/app119872015.jpg
作者信息:
名称:极致炫蓝
头像链接://pic.qiushibaike.com/system/avtnew/1435/14350249/thumb/20150223141024.jpg?imageView2/1/w/90/h/90
段子信息:
段子:
via.@圈圈喵喵喵
段子图片链接://pic.qiushibaike.com/system/pictures/12007/120070166/medium/app120070166.jpg
作者信息:
名称:小墨轻羽
头像链接://pic.qiushibaike.com/system/avtnew/3195/31957677/thumb/20170729193511.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
刚割完包皮,看到这个桌面,啊!
段子图片链接://pic.qiushibaike.com/system/pictures/12006/120068020/medium/app120068020.jpg
作者信息:
名称:老子卖切糕的
头像链接://pic.qiushibaike.com/system/avtnew/3330/33303677/thumb/20180221102142.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
记得以前去桑拿洗澡,洗完澡就躺在大厅里睡着了.醒了之后发现我睡袍带子开了,问题我是个妹子啊,没穿罩罩啊…
段子图片链接://pic.qiushibaike.com/system/pictures/12007/120070121/medium/app120070121.jpg
作者信息:
名称:别莫我的小鸡鸡
头像链接://pic.qiushibaike.com/system/avtnew/1154/11543148/thumb/2016112220101850.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
我当初月薪才两千五,我老婆还不是非我不嫁!!!不是所有女人都物质的,现在经过我的努力,终于用家里拆迁补款买房买车,过上幸福生活。
段子图片链接://pic.qiushibaike.com/system/pictures/11987/119871592/medium/app119871592.jpg
作者信息:
名称:小资太太
头像链接://pic.qiushibaike.com/system/avtnew/3214/32140679/thumb/20160709010006.jpg?imageView2/1/w/90/h/90
段子信息:
段子:
现在的小学生都这么有责任感!
作者信息:
名称:土豆饼饼肥肠面
头像链接://pic.qiushibaike.com/system/avtnew/3487/34872922/thumb/2017101608401785.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
因为爸妈都是最小,最大的舅舅都是80多了,我的辈分大,我一个小侄子她的姐姐比我还大,但是他叫我小姑,他觉得别扭,就一直叫我小姑姐姐,现在大学都毕业了终于改口叫小姑了
作者信息:
名称:大湿的乳来伸掌
头像链接://pic.qiushibaike.com/system/avtnew/2892/28928320/thumb/20160117233014.jpg?imageView2/1/w/90/h/90
段子信息:
段子:
夏天晚上睡不着觉,口渴啊!肚子里就像着火了一样,翻冰箱找冰水喝喝啦大概有六瓶冰水,楼主心满意足的上床休息了,早上肚子就开始疼,哎哟哎哟啊
作者信息:
名称:吃了两碗又盛
头像链接://pic.qiushibaike.com/system/avtnew/3221/32215536/thumb/201711071252265.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
我儿子上初三,他说今天两个同学在班里吵起来了。吵到后面其中一个说了句:"你连做我儿子都不配。"结果另外一个二货指定是听到这句话气昏头了。竟然拉这那人的衣领说:"我配不配?!配不配!!!???"。。。我和我老婆笑的饭都吃不下去了!!!
作者信息:
名称:睡觉撞墙卡跟头
头像链接://pic.qiushibaike.com/system/avtnew/3059/30591370/thumb/20171217185111.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
三十年前,二舅上城办事,坐公交车,听见有人说:钱什么的都保管好了啊,别让小偷偷去!二舅下意识地摸了摸自己的上衣口袋。。。 下车后他发现摸过的那个口袋被割破了,里面带信封的‘感谢信’不翼而飞!
作者信息:
名称:等到冬天看下雪
头像链接://static.qiushibaike.com/images/thumb/missing.png?imageView2/1/w/90/h/90
段子信息:
段子:
女同事之前的男友,送她一部苹果手机,后来发现是个渣男,劈腿,分手,想着手机都用了,也没法还,于是就给那渣男七千块钱,就当自己买了!直到同事又找了个新男朋友,是个修手机的,才知道她用的原来是个二手翻新机!!
作者信息:
名称:范兔兔兔兔
头像链接://pic.qiushibaike.com/system/avtnew/3708/37083092/thumb/2018022820173450.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
田馥甄有着另别的女人都羡慕的一生,因为有两个大才子喜欢她,一个林俊杰,一个我
作者信息:
名称:我是煮茶
头像链接://pic.qiushibaike.com/system/avtnew/3349/33491754/thumb/2017122100143878.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
今天发现老公的一个软件登录密码是(他名字的拼音)520(他初恋了六七年的前女友名字的拼音),感觉自己像个笑话,想暴揍他一顿[生气了][生气了][生气了]
作者信息:
名称:奶爸1000,83
头像链接://pic.qiushibaike.com/system/avtnew/1657/16572175/thumb/20180214221750.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
最尴尬的事情能有多尴尬,我高中时的一位男同学,上厕所时灯光昏暗,错把教导主任看成自己的好基友,遂解开裤带猛抽主任屁股,用身体一边抽一边怼,嘴里还喊着:爽吗?宝贝儿?给我大声叫出来!。抽完两人对视很久,主任说:同学,我可能会记你一辈子的。…
作者信息:
名称:网络荷尔蒙
头像链接://pic.qiushibaike.com/system/avtnew/2324/23241991/thumb/20141212081046.jpg?imageView2/1/w/90/h/90
段子信息:
段子:
我朋友打电话给我:“我失恋了,在家喝了点酒……你半小时不到,我就跳下去!”我:“不要冲动,能不能把期限延长到两小时,我正堵 车!”
作者信息:
名称:西湖醋鱼夹生
头像链接://pic.qiushibaike.com/system/avtnew/1388/13882240/thumb/20171126094808.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
载媳妇和她外甥到市郊一空旷地,那儿有个临时招聘会。三人各自行走,一圈咨询下来,每人手上都收到好几张招工传单。肌肉虬结的外甥收到的多是岗亭、安保、海产捕捞、快递员的岗位传单。稍显福态的媳妇收到的则是护理、收费员、美容技师等岗位传单。我就低调多嘞!一张张的抖给她俩看:工程、销售、人事经理。。。等,等一下!哪个眼瞎的还给我派送一张保姆、育婴、催乳师的?是看上我的两 只大手掌吗?
作者信息:
名称:小丸子的大头贴
头像链接://pic.qiushibaike.com/system/avtnew/425/4252191/thumb/20170422222620.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
各位大哥发几个资源啊[流鼻血]
作者信息:
名称:哇噻福清人耶
头像链接://pic.qiushibaike.com/system/avtnew/1038/10383144/thumb/20180227212913.JPEG?imageView2/1/w/90/h/90
段子信息:
段子:
公司有个同事名字叫李嘉宾,有次公司搞一个发布会,活动公司问公司行政要出席活动的嘉宾名单, 提供完毕,最后问李嘉宾叫什么名 字?行政:李嘉宾 活动公司:我问的是名字! 行政:李嘉宾 活动公司急了:我他妈问的是名字不是姓!行政也急了:我他妈说的就是名字!名字就叫李嘉宾!活动公司:。。。。接近崩溃
作者信息:
名称:撩波女汉子
头像链接://pic.qiushibaike.com/system/avtnew/1143/11432960/thumb/20160121200836.jpg?imageView2/1/w/90/h/90
段子信息:
段子:
我就是想要俩儿子!
作者信息:
名称:聆听り
头像链接://pic.qiushibaike.com/system/avtnew/3138/31382987/thumb/20160311114202.jpg?imageView2/1/w/90/h/90
段子信息:
段子:
老公的哥们一直没遇到合适的另一半,见面就跟我们抱怨:最近见的妹子都是吃顿饭就没下文了,走不了心,也走不了肾,啥也没有。老公打趣他:但是你走胃了呀!机智,他竟无言以对。