Kanny广小隶

利用Python进行简单爬虫（爬取豆瓣《湮灭》短评）

写在最前

（最新更新时间：20190516）

许多初学者想学习爬虫，但是不知道如何上手。其实在百度或者必应搜索用Python进行网页爬虫，会有很多大神的爬取方式与相应的结果。其实很多数据并不是本身就有的，而是需要通过网络爬虫进行爬取获得（例如想要对高分电影或者高分图书进行分析；对一年中某些商品的购买数量的变化情况进行分析等）。所以对网页进行爬虫，是数据分析中一个非常重要的技能。

网络上最多的也是最容易的，其实就是爬取豆瓣的评论与相应的评分信息。正巧本周看了电影《湮灭》，自己感觉，就单纯从科幻、伏笔与悬念的角度而言，不考虑一些硬性逻辑，是一部不可多得的神作。在国外这部电影是高分神片，而在国内，豆瓣对其两极分化非常严重，所以这次就尝试进行对《湮灭》的豆瓣短评以及评分进行爬取，后续还会对爬取的结果用R进行分析。

爬虫的语句或多或少都借助了网上一些前辈经验与代码，特别感谢这些大神。同时也感谢一些实验室的小萌新，本代码是在他们的代码基础上汇总修改的。

爬虫

利用Python进行爬虫（对于简单的静态网页）其实简单来说就是两个步骤：

爬取网页的HTML源代码
对爬下来的网页进行正则表达式的匹配（使用BeautifulSoup可以基本不用记正则表达式，后面也会作介绍）

本文实现的是最简单的爬虫技巧，也就是不进行ip地址伪装的对静态页面的爬取。这里分别介绍使用正则表达式以及使用BeautifulSoup两种方式进行爬虫。

下面我们先整理爬虫整体的思路：

1、将网页的HTML源码爬下来

假设我们想爬取一部电影的100条短评，但通常在一个页面中，是不会罗列那么多条短评。所以我们的做法是让计算机自动切换网页，然后进行爬取。但这里就涉及到了很多学问，因为很多网站是不希望爬虫的人爬他们的网站，这样会加剧他们服务器的负担以及被别人利用他们的数据，所以通常都会做一些反爬虫机制。正所谓道高一尺，魔高一丈，对绝大多数的反爬虫机制，爬虫者们都有办法进行解决，这部分在我们这篇博客中，不会进行说明，后面进阶爬虫再来详细叙述。（豆瓣的前200条短评不会涉及到这个问题）

所以第一步的关键是如何让计算机自动切换网页，数十条数十条的爬取，然后拼接在一起。这一步的关键是观察。

我们可以发现第一页短评的网址是：
https://movie.douban.com/subject/26384741/comments?start=0&limit=20&sort=new_score&status=P&percent_type=

第二页：
https://movie.douban.com/subject/26384741/comments?start=20&limit=20&sort=new_score&status=P&percent_type=

第三页：
https://movie.douban.com/subject/26384741/comments?start=40&limit=20&sort=new_score&status=P&percent_type=

可以发现，在start= 与 &limit=20 之间的数值都是20，20的递增，并且每一页恰好都是20条短评，所以想要整理100条短评，就需要下载5个页面，并且是有规律的，这就可以直接写for循环替换中间的数字来实现。

2、通过目标字段前后的内容进行筛选整理

这里可以用两种做法，分别是正则表达式匹配以及BeautifulSoup，对内容进行截取。

举个栗子：我们想要得到每个短评，以及其相应的评分，这就需要我们从源码中找到相应的字符前后对应的源码了。通常我们都是先使用google浏览器，然后对想要爬取的网页先点击右键，然后再点击检查，然后就会出现其源码。然后我们在源码的框框中移动鼠标，左侧就会有原网页的变化。

首先找到全局都框起来的代码，通常都是，效果如下：

然后点击展开，继续滑动鼠标，一层一层搜索并展开。最后找到我们想要的短评与评分相对应的位置，具体位置如下图所示：

评分：

短评：

我们找到短评的前后分别是：

以及

。评分的前后分别是：

，中间夹着 50 就是5星， 40 就是4星等等。我们可以根据这两点信息分别进行匹配。 
  找到之后，我们开始用代码进行匹配。 
  3、最后对所有的数据进行整理并导出Excel表格 
  这一步直接使用 pandas 库就可以非常轻松的完成。 
   
  正则表达式匹配做法 
  首先我们先载入相关的包： 
  import urllib.request  # 从网页上将html源码爬下来
import re              # 进行正则表达式匹配
import pandas as pd    # 整理成最后的表格以及输出
import time            # 每次爬取设置停止时间
import numpy as np     # 随机设置停止时间
 
  定义读取网页的函数： 
  def getHtml(url):
    try:
        page = urllib.request.urlopen(url)  # 将网页爬取下来
        html = page.read()                  # 存源码到html变量中
    except:
        print("failed to geturl")           # 如果网络连接异常，则报错。
    else:
        return html
 
  定义正则表达式匹配的函数，其中由于短评较为容易，由于短评没有缺失值，所以使用 re.findall 函数直接进行匹配即可。每页有20条短评，所以每页list的长度都为20。 
  # 匹配对电影的短评
def getComment(html):
    commentList = re.findall(r'(.*?)<', html, re.S) # 可能需要根据实际情况进行修改
    return commentList
 
  评分汇总起来相对就比较复杂了。因为部分用户在进行短评的时候并没有进行评分，所以爬取每个用户的评分时不能像爬取短评的时候那样，简单的汇总成一个list长度就一定是20，这就需要做一个判断。这里我们使用的判断是每一条短评都有的部分，  。 
   
  然后再判断其中有没有评分，也就是在每一个小block中寻找有没有rating，于是就得到我们下面的匹配对电影评分的一个函数： 
  # 匹配对电影的评分
def getScore(html):
    is_scoreList = re.findall(r'(.*?), html, re.S)
    scoreList = []
    for item in is_scoreList:
        if item.count('rating') == 0:
            scoreList.append("NA")
        else:
            scoreList.append(re.findall(r', item, re.S))
    return scoreList
 
  细心的童鞋到这里可能对 re.findall 函数中的内容有些疑问，不知道其中为什么是这样的。还有一些正则表达式的匹配方式又是什么？这里另外开了一篇博客来简述(.*?) 与 re.S 分别是什么含义，并且详细地演示了为什么我们使用如上的匹配能够提取出我们想要的信息。 
  传送门在此 
  接着，我们正式编写for循环来进行自动化爬虫： 
  scoreList=[]
commentList=[]

for page in range(0,220,20): # 0~200，间隔20
    
    # 每个网页的通用表达，将page的内容补入{}中
    url = 'https://movie.douban.com/subject/26384741/comments?start={}&limit=20&sort=new_score&status=P&percent_type='.format(page)
    html = getHtml(url).decode("UTF-8") # 注意这里需要进行UTF-8转码，通常中文网页都是这种编码
    
    # 爬取分数与评论
    scoreList.extend(getScore(html))
    commentList.extend(getComment(html))
    
    # 设置每两个网页爬取的间隔时间，2~4s之间随机产生时间，一种反爬虫的手段（在这里可以不要）
    time.sleep(np.random.uniform(2, 4))
    print(page)
 
  最后，我们将爬取下来的短评与评分整理成数据框的形式，进行数据的存储，可以用于后续的分析等。 
  data = []
if len(scoreList) == len(commentList):
    len_mov = len(scoreList)
    for i in range(0,len_mov):
        print("score = "+ "".join(scoreList[i]) +" ,\n comment="+commentList[i])
        tmp = []
        tmp.append(scoreList[i])
        tmp.append(commentList[i])
        data.append(tmp) # 整理成list
        
name = ['score','comment']
data = pd.DataFrame(columns = name, data = data) # 利用pandas包转化成数据框形式

os.chdir('D:\Kanny') # 设置存储路径
data.to_csv("movie_annihilation_200.csv") # 存储出来
 
  到这其实一个简单的爬虫攻略就全部完成了，但如果我们不想使用正则表达式来进行匹配，是否有更简单的做法，将评分与短评等信息提取出来呢？ 
  我们来介绍使用 BeautifulSoup 进行字符串操作的方法。 
   
  BeautifulSoup做法 
  Beautiful Soup 是一个HTML/XML的解析器（就是从HTML 或 XML 文件提取你想要的数据），它可以大大节省我们编写正则表达式的时间。 
  Beautiful Soup 的中文文档：http://beautifulsoup.readthedocs.io/zh_CN/latest/（文档里面的说明已经非常非常的详细了！非常值得推荐！） 
  载入BeautifulSoup库： 
  from bs4 import BeautifulSoup
 
  下面就直接进行提取，省去了正则表达式匹配的环节： 
  scoreList=[]
commentList=[]

for page in range(0, 220, 20):
	
	# 爬取网页（同前面）
    url = 'https://movie.douban.com/subject/26384741/comments?start={}&limit=20&sort=new_score&status=P&percent_type='.format(page)
    soup = BeautifulSoup(getHtml(url).decode("UTF-8"))
    
    # 先初步提取内容，提取每篇短评的大框架
    tags = soup("div", {"class": "comment-item"})
    for tag in tags:
	    
	    # 获取短评信息
        comment = tag.p.getText()
        
        # 获取得分信息
        try:
            score = tag.find(class_ = re.compile("star"))['class'][0]
        except:
            score = 'NA'
        
        # 总和列表
        commentList.append(comment)
        scoreList.append(score)
    
    # 设置间隔时间，并输出循环爬取信息
    print(page)
    time.sleep(np.random.uniform(2, 4))
 
  这里对上面代码中使用到的BeautifulSoup进行详细的说明：
 首先 ： 
  soup("div",{"class":"comment"}) 
 
  等价于 
  soup.find_all("div",{"class":"comment"})
 
  其目的是将每个HTML中的 
与
 之间夹着的内容进行提取，组合成类似list的结构。有几个这样的结构，其长度就为几。我们将这个集合定义为tags，它由多个tag组成 
  tag长下面这样： 
  <div class="comment-item" data-cid="1341158132">
<div class="avatar">
<a href="https://www.douban.com/people/nezhaboy/" title="哪吒男">
<img class="" src="https://img3.doubanio.com/icon/u42174843-51.jpg"/>
a>
div>
<div class="comment">
<h3>
<span class="comment-vote">
<span class="votes">14span>
<input type="hidden" value="1341158132"/>
<a class="j a_show_login" href="javascript:;" onclick="">有用a>
span>
<span class="comment-info">
<a class="" href="https://www.douban.com/people/nezhaboy/">哪吒男a>
<span>看过span>
<span class="allstar30 rating" title="还行">span>
<span class="comment-time " title="2018-03-14 17:40:15">
                    2018-03-14
                span>
span>
h3>
<p class=""> 亚历克斯加兰的作品，最美、最有想象力、最动人心魄的就是片尾字幕的设计了！
        p>
div>
div>
 
  然后，我们获取短评信息所使用的： 
  comment = tag.p.getText()
 
  是找到每个tag中间的
与
的内容，这样获得的comment为： 
  ' 亚历克斯加兰的作品，最美、最有想象力、最动人心魄的就是片尾字幕的设计了！\n        '
 
  如果不加上.getText()，就会将前后的
与
这两个部分都加上。然后我们想要获取得分信息就使用了： 
          try:
            score = tag.find(class_ = re.compile("star"))['class'][0]
        except:
            score = 'NA'
 
  之所以用了try-except是因为如果用户没有评分，那么tag.find那串话会报错，而如果有进行评分，那么就会有如下部分： 
  <span class="allstar30 rating" title="还行">span>
 
  其中包含了star这个字符串，所以我们要使用 
  tag.find(class_ = re.compile("star"))
 
  将上面那个部分进行输出，其中的 re.compile 表示对"star"进行UNICODE编码，然后再使用['class']
 ，提取出： 
  ['allstar30', 'rating']
 
  然后我们保留前面一个。如果还想要将里面的3提取出来，再用一些字符串操作的技巧即可。 
  到这里我们就成功使用了BeautifulSoup进行爬虫后面的匹配操作。 
   
  最后 
  当然是大家喜欢哪个，就使用哪个！（虽然自己比较偏好于正则表达式） 
  一定要自己动手实践哦！ 
  分享一下我们的部分结果： 
  ,score,information
0,['3'],"属于“工作日宝贵的晚上看这个可能会比较懊悔”一类
        "
1,['3'],"前大半槽点太多扣一星：美帝军人/科学家就是死光了也不会派这么垃圾的队伍执行关乎人类存亡的任务。狗一样的心理学家就是盖茨/总统女儿也当不上项目/队伍领导。0生/物/化/核防护装备逗我【不懂怎么评价这个设定和世界观，并不硬核…洞里那段鸟肌…最后结束得太御都合。政府还有智商就该立马搞死男女主
        "
2,['4'],"1.又名《膨胀的保鲜膜》，讲一群人进入保鲜膜探险的故事。2.故事告诉我们：女生为了调查丈夫去哪儿了，什么事都干得出来。3.如果丈夫一年才回一次家，那他可能不是你丈夫。4.娜塔莉一次得到两个奥斯卡（·伊萨克）。5.泰莎汤普森演的是三毛转世，因为三毛说来生要做一颗树。6.雷神不去救女友和女武神吗
                
                "
3,['2'],"所以三年内全军覆没之后的决定就是派五个毫无防备的女科学家进去考察？你检疫站谈话都要隔离，然后派人进去就直接裸？全片就是个故弄玄虚外壳下的低成本b级片。充斥着exposition的谈话，谈话，然后谈话？全员智商掉线，表演生硬，摄影特效眩光亮瞎狗眼，最后随便丢一个高概念的结尾糊弄观众。。
        "
4,['4'],"文科生看不懂《降临》，理科生看不懂《湮灭》。
        "
5,['5'],"看完湮灭出来 漫天飞雪  市中心灯光如昼 高楼上的液晶屏在播放芭蕾表演  车站里几个女生簇拥说笑着 突然觉得能平凡活着真好 
        "
6,['4'],"科幻片拍成这样，可以说是相当高级了！惊心动魄又渗透着冷峻的美感，神秘莫测还搭配着复杂的内核，真的很久没有看一部怪奇题材的科幻电影能让人如此屏气凝神了。
        "
7,['3'],"看完前10分钟，扪心自问一次；看完30分钟后，再扪心自问一次；看到结尾，还想扪心自问，发现胸口都扣烂了……一开始，我觉得这片子就是拍砸了……后来，我看了大银幕，觉得都TMD怪资本家……
        "
8,['5'],"或许是今年最好的科幻片了！相比《降临》，《湮灭》在想象力上丝毫不逊色。加兰对于影片节奏与气氛的塑造完全是大师水准，而娜塔丽波特曼也贡献了极为精彩的表演！
        "
9,['2'],"只有我一个人觉得难看么？原著第一部读的时候那种氛围现在还记得，电影里那些花是淘宝包邮买的吗？还敢更假一点么？
        "
10,['2'],"对这漏洞百出的设定实在不能忍，本着对科学的忠诚还是回来给个差评
        "
11,['4'],"从机械姬中的未来极简主义 到这部的末世/废土美学 都可见导演高超的个人品味 剧情掌控极佳 叙事缓慢到来 视听效果上乘 音响马力十足轰炸全场 五位女主演都贡献精彩的演出 小说自身承载厚重 改编则简化剧情线索 但开放讨论与结局 不同观众可以得到不同答案
        "
12,['4'],"其实故事设定还是比较简单的，半程左右就说明白了，所以到了最后更多是被视觉效果所震，音乐也配的不错。科幻内核是不如机械姬的，整个电影更像是异形那种团队探险密室惊悚。老美的科幻片为啥总是设定成“一个人生活中受创，失去了爱人，生无可恋了于是决定赌上性命跟外星人搏斗”，看多了感觉略土
        "
13,['4'],"【8/10】原著已经被改得面目全非，更像是基于原著设定上的新故事，内核也更像是《机械姬》的延续（人/非人；己/非己）。整体场景设计和氛围营造实在太出色了，亦有近年来最出色的恐怖场景之一，甚至还有疑似的《异形》致敬。可惜结尾相对实在逊色，有些概念卖得也含糊隐晦。总体还是上佳之作。
        "
14,['2'],"在我看来，除了那带点艺术感的场景想象力之外，这片子可以说是一无是处的神棍片，甚至算不上科幻片，顶多就算个比较装逼的恐怖片
        "
15,['4'],"导演延续了【机械姬】的所有优点，而且能从中看出很多大导演的影子，在丹尼斯·维伦纽瓦之后，再一次看到有人致敬老塔的【潜行者】，剧作在类型上属于老雷的【异形】，不过是更克苏鲁气质的版本，从情绪上更像极简动作版的【降临】，但最终还是加兰导演自己，最爱死亡场景里装置艺术一般的视觉效果。
        "
16,['5'],"卧槽啊这他妈的恐怕是我看过的最creepy的东西了！
        "
17,['2'],"真的不喜欢如今软科幻的发展方向

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
爬虫和代理IP的关系 xiaoxiongip666 爬虫 tcp/ip 服务器
爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。
python语言爬虫爬取歌曲程序代码 EYYLTV python 爬虫 android
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“https://m703.music.126.net/20240915140140/670dfe5c0144991d4cb778d6662fd762/jd-musicrep-privatecloud-audio-public/o
python语言爬虫爬取歌曲代码X EYYLTV python 爬虫 java
importrequestssong_urls=[“https://m804.music.126.net/20240915142147/4e01caa69abda60b165e185607805ee1/jdyyaac/obj/w5rDlsOJwrLDjj7CmsOj/30379084686/b56a/dbd5/39fc/792d87f5d7014bb78547ec3804eeaac5.m4a?au
拼多多商家电话采集工具爬虫教程分享小电商达人爬虫
以下是使用Python编写的拼多多商家电话采集爬虫教程：一、前期准备安装Python：从Python官方网站下载并安装最新版本的Python，安装过程中注意勾选将Python添加到系统路径选项。安装相关库：在命令提示符中运行以下命令来安装所需的库。pipinstallrequests：用于发送HTTP请求获取网页内容。pipinstallbeautifulsoup4：用于解析HTML页面。二、分析
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
分布式框架Celery七(Django-Celery-Flower实现异步和定时爬虫及其监控邮件告警) yjjpp2301 Celery 分布式 django python 后端
Django中集成方式安装模块pipinstallDjango==3.2.22pipinstallcelerypipinstallredispipinstalleventlet#在windows环境下需要安装eventlet包-----------pipinstalldjango-celery-beatpipinstalldjango-celery-resultspipinstalldjango-
生产者消费者模式_Labview基础之生产者消费者设计模式（事件） weixin_39532699 生产者消费者模式
1绪论近期，开了一个QQ群，刚开始的目的也是想多拉写软件相关的大神，有问题的时候也可以交流交流。记得当时有个软件在写的时候遇到了一个棘手的问题，outlook邮箱配置账户密码的问题，到现在也没解决，算了，也不是很迫切。2000人群就留在那里爬虫发单吧！建群以后才发现，原来这一块的小白还挺多，总结起来就一个原因：做这个软件的大多数都不是软件出生，都是因为临时要搭建一个上位机平台，匆匆入门......
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

利用Python进行简单爬虫（爬取豆瓣《湮灭》短评）

写在最前

（最新更新时间：20190516）

爬虫

1、将网页的HTML源码爬下来

2、通过目标字段前后的内容进行筛选整理

3、最后对所有的数据进行整理并导出Excel表格

正则表达式匹配做法

传送门在此

BeautifulSoup做法

最后

你可能感兴趣的:(爬虫)