梦想橡皮擦

Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy

爬前叨叨

全站爬虫有时候做起来其实比较容易，因为规则相对容易建立起来，只需要做好反爬就可以了，今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说，使用scrapy确实用了牛刀，不过毕竟本博客这个系列到这个阶段需要不断使用scrapy进行过度，so，我写了一会就写完了。

你第一步找一个爬取种子，算作爬虫入口

https://www.zhihu.com/people/zhang-jia-wei/following

我们需要的信息如下，所有的框图都是我们需要的信息。

获取用户关注名单

通过如下代码获取网页返回数据，会发现数据是由HTML+JSON拼接而成，增加了很多解析成本

class ZhihuSpider(scrapy.Spider):
    name = 'Zhihu'
    allowed_domains = ['www.zhihu.com']
    start_urls = ['https://www.zhihu.com/people/zhang-jia-wei/following']

    def parse(self, response):
        all_data = response.body_as_unicode()
        print(all_data)

首先配置一下基本的环境，比如间隔秒数，爬取的UA，是否存储cookies,启用随机UA的中间件DOWNLOADER_MIDDLEWARES

middlewares.py 文件

from zhihu.settings import USER_AGENT_LIST # 导入中间件
import random

class RandomUserAgentMiddleware(object):
    def process_request(self, request, spider):
        rand_use  = random.choice(USER_AGENT_LIST)
        if rand_use:
            request.headers.setdefault('User-Agent', rand_use)

setting.py 文件

BOT_NAME = 'zhihu'

SPIDER_MODULES = ['zhihu.spiders']
NEWSPIDER_MODULE = 'zhihu.spiders'
USER_AGENT_LIST=[  # 可以写多个，测试用，写了一个
    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
]
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 2
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    'zhihu.middlewares.RandomUserAgentMiddleware': 400,
}
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'zhihu.pipelines.ZhihuPipeline': 300,
}

主要爬取函数,内容说明

start_requests 用来处理首次爬取请求，作为程序入口
下面的代码主要处理了2种情况，一种是HTML部分，一种是JSON部分
JSON部分使用re模块进行匹配，在通过json模块格式化
extract_first() 获取xpath匹配数组的第一项
dont_filter=False scrapy URL去重

 # 起始位置
    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url.format("zhang-jia-wei"), callback=self.parse)

    def parse(self, response):

        print("正在获取 {} 信息".format(response.url))
        all_data = response.body_as_unicode()

        select = Selector(response)

        # 所有知乎用户都具备的信息
        username = select.xpath("//span[@class='ProfileHeader-name']/text()").extract_first()  		# 获取用户昵称
        sex = select.xpath("//div[@class='ProfileHeader-iconWrapper']/svg/@class").extract()
        if len(sex) > 0:
            sex = 1 if str(sex[0]).find("male") else 0
        else:
            sex = -1
        answers = select.xpath("//li[@aria-controls='Profile-answers']/a/span/text()").extract_first()
        asks = select.xpath("//li[@aria-controls='Profile-asks']/a/span/text()").extract_first()
        posts = select.xpath("//li[@aria-controls='Profile-posts']/a/span/text()").extract_first()
        columns = select.xpath("//li[@aria-controls='Profile-columns']/a/span/text()").extract_first()
        pins = select.xpath("//li[@aria-controls='Profile-pins']/a/span/text()").extract_first()
        # 用户有可能设置了隐私，必须登录之后看到，或者记录cookie！
        follwers = select.xpath("//strong[@class='NumberBoard-itemValue']/@title").extract()



        item = ZhihuItem()
        item["username"] = username
        item["sex"] = sex
        item["answers"] = answers
        item["asks"] = asks
        item["posts"] = posts
        item["columns"] = columns
        item["pins"] = pins
        item["follwering"] = follwers[0] if len(follwers) > 0 else 0
        item["follwers"] = follwers[1] if len(follwers) > 0 else 0

        yield item



        # 获取第一页关注者列表
        pattern = re.compile('


    
        你可能感兴趣的:(爬虫100例教程)
        
            
                
                    学习用网址 自留
                        lsswear
学习学习
                        Swoole4文档PHP:PHP手册-Manualshell学习教程(超详细完整)_路人甲的博客-CSDN博客_shell学习Python基础-廖雪峰的官方网站Python爬虫100例教程导航帖（已完结）_梦想橡皮擦，专栏100例写作模式先行者-CSDN博客_python爬虫100例教程蓝桥杯算法全家桶（终极完结版）_JohnnyLin-CSDN博客_蓝桥杯算法Python爬虫100例教程导航帖（
                    
                    python爬虫100例教程 python爬虫实例100例子
                        YG亲测源码屋
爬虫python
                        python爬虫100例教程python爬虫实例100例子相关下载地址：https://download.csdn.net/download/dhyuan_88/31825677涉及主要知识点:web是如何交互的requests库的get、post函数的应用response对象的相关函数，属性python文件的打开，保存代码中给出了注释，并且可以直接运行哦如何安装requests库(安装好pyth
                    
                    【爬虫前置知识】OB 混淆与变量名混淆特性详解
                        梦想橡皮擦
精彩技术文爬虫python数据分析开发语言数据挖掘
                        文章目录Python爬虫系列专栏OB混淆与变量名混淆特性详解简介OB混淆特性UglifyJS实现OB混淆JavaScriptObfuscator实现OB混淆Python爬虫系列专栏爬虫100例教程Python爬虫120文末提供了一个投票，大家可以选择一下想要学习的内容。Python爬虫框架选择爬虫数据清洗爬虫数据存储爬虫爬取速度优化爬虫反爬虫技术爬虫代理IP使用爬虫自动化爬虫分布式部署爬虫定时任务
                    
                    CSDN 6月付费专栏榜单公布啦！
                        精品专栏
付费专栏排行榜
                        6月付费专栏榜单公布啦！6月销量榜Top10恭喜@雪云飞星@Inspiration666@点云侠荣登TOP3排序专栏标题作者昵称订单数1AutoSAR入门到精通系列讲解雪云飞星1682PCL学习点云侠1493C试题Inspiration6661194解决金税登录问题1185爬虫100例教程梦想橡皮擦1026RK3399平台开发入门到精通系列专栏内核笔记1017网络安全自学篇Eastmount968
                    
                    十行代码集齐2000张美女图，Python爬虫120例，再上征途！
                        进击的python君
零基础python爬虫人工智能python爬虫人工智能新媒体运营
                        Python爬虫100例教程，编写自2018-07-30到2020-10-28，将近800天，至今依旧是Python爬虫领域畅销专栏之一。但随着时间的变化，Python爬虫100例中部分抓取目标网站，地址已经失效，是时候进行迭代升级啦。2021年5月21日，升级版Python爬虫120例上线啦。更新内容如下：更新频率更快，上次800天完成100例，这次300天完成120例；更新所有目标网站；更新最
                    
                    3天学完10套Python顶级教程，端午节技术人消失之谜
                        梦想橡皮擦
IT行业分析编程语言python人工智能算法爬虫
                        端午节，擦姐粉丝群群友A：擦姐，消失去干啥了？群友B：听说擦姐去刷脸要福利去了群友C：啥课？端午节，擦姐慷(hou)慨(zhe)激(lian)昂(pi)从CSDN运营姐姐手中，要来了一波大促课程。只拿优惠价格购买课程，肯定还不够，擦姐为你还准备了如下福利：一旦你购买本文中任意课程，联系擦姐，都能拥有《爬虫100例教程》课程的一折购买资格，3.99元即可拥有100个爬虫案例。实实在在的买一赠一堆。这
                    
                    10行代码集2000张美女图，Python爬虫120例，再上征途
                        梦想橡皮擦
pythonjava人工智能正则表达式编程语言
                        《Python爬虫120例》专栏简介Python爬虫100例教程，编写自2018-07-30到2020-10-28，将近800天，至今依旧是Python爬虫领域畅销专栏之一。但随着时间的变化，Python爬虫100例中部分抓取目标网站，地址已经失效，是时候进行迭代升级啦。2021年5月21日，升级版Python爬虫120例上线啦。更新内容如下：更新频率更快，上次800天完成100例，这次300天完
                    
                    如何提升付费专栏的转化？
                        精品专栏

                        目录一、如何定位专栏？二、如何让专栏更有吸引力？三、如何能让专栏获得更多的流量？很多想要变现的博主很关心一个问题，如何让自己的付费文章能够更好的等到变现，其实只要学习一些转化比较好的专栏就会发现，原来这样做可能就会提升付费文章的转化。卖的比较好的专栏（可参考）爬虫100例教程https://blog.csdn.net/hihell/category_9280209.htmlESP8266Ardui
                    
                                分享100个最新免费的高匿HTTP代理IP
                                    mcj8089
代理IP代理服务器匿名代理免费代理IP最新代理IP
                                      
推荐两个代理IP网站： 
  
1. 全网代理IP：http://proxy.goubanjia.com/ 
  
2. 敲代码免费IP：http://ip.qiaodm.com/ 
  
  
120.198.243.130:80,中国/广东省
58.251.78.71:8088,中国/广东省
183.207.228.22:83,中国/
                                
                                mysql高级特性之数据分区
                                    annan211
java数据结构mongodb分区mysql
                                    


mysql高级特性
  1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。
  
  2 分区的原理
     分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层
	 表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
                                
                                JS采用正则表达式简单获取URL地址栏参数
                                    chiangfai
js地址栏参数获取
                                    GetUrlParam:function GetUrlParam(param){
		var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)");
		var r = window.location.search.substr(1).match(reg);
		if(r!=null
                                
                                怎样将数据表拷贝到powerdesigner (本地数据库表)
                                    Array_06
powerDesigner
                                    ================================================== 
 
1、打开PowerDesigner12，在菜单中按照如下方式进行操作 
file->Reverse Engineer->DataBase 
点击后，弹出 New Physical Data Model 的对话框 
2、在General选项卡中 
Model name:模板名字，自
                                
                                logbackのhelloworld
                                    飞翔的马甲
日志logback
                                    一、概述 
 
1.日志是啥？ 
当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 
当我项目工作时，以为是一堆得.log文件。 
这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。 
传送门1：日志的作用与方法： 
http://www.infoq.com/cn/articles/why-and-how-log 
上面的作
                                
                                新浪微博爬虫模拟登陆
                                    随意而生
新浪微博
                                    转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 
  
  
近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。 
     现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
                                
                                synchronized
                                    香水浓
javathread
                                        Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
                                
                                maven 简单实用教程
                                    AdyZhang
maven
                                    1. Maven介绍  1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源 见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
                                
                                Android 通过 intent传值获得null
                                    aijuans
android
                                    我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下        1   2   3   4   5   6   7   8   9      
public 
void 
getMap(View view){       
         
Intent i =
                                
                                apache 做代理 报如下错误：The proxy server received an invalid response from an upstream
                                    baalwolf
response
                                    网站配置是apache＋tomcat,tomcat没有报错，apache报错是： 
The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
                                
                                Tomcat6 内存和线程配置
                                    BigBird2012
tomcat6
                                    1、修改启动时内存参数、并指定JVM时区 （在windows server 2008 下时间少了8个小时） 
在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数：  
window下， 在catalina.bat最前面 
  set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
                                
                                Karam与TDD
                                    bijian1013
KaramTDD
                                    一.TDD 
        测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 
        TDD的原则很简单： 
a.只有当某个
                                
                                [Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States
                                    bit1129
zookeeper
                                        public enum States {
        CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态
        ASSOCIATING, //？？？
        CONNECTED, //链接建立，可以与Zookeeper服务器正常通信
        CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
                                
                                【Scala十四】Scala核心八：闭包
                                    bit1129
scala
                                    Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
                                
                                android发送json并解析返回json
                                    ronin47
android
                                    package com.http.test; 
 
 
import org.apache.http.HttpResponse; 
import org.apache.http.HttpStatus; 
import org.apache.http.client.HttpClient; 
import org.apache.http.client.methods.HttpGet; 
import 
                                
                                一份IT实习生的总结
                                    brotherlamp
PHPphp资料php教程php培训php视频
                                    今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
                                
                                据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。 将重物放到天平左侧，问在两边如何添加砝码
                                    bylijinnan
java
                                    
public class ScalesBalance {

	/**
	 * 题目：
	 * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。 （假设N无限大，但一种重量的砝码只有一个）
	 * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡
	 * 
	 * 分析：
	 * 三进制
	 * 我们约定括号表示里面的数是三进制，例如 47=(1202
                                
                                dom4j最常用最简单的方法
                                    chiangfai
dom4j
                                    要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 
解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
                                
                                简单HBase笔记
                                    chenchao051
hbase
                                     一、Client-side write buffer 客户端缓存请求   描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。   可以使用getWriteBuffer()方法来取得客户端缓存中的数据。 默认关闭。      二、Scan的Caching   描述： next( )方法请求一行就要使用一次RPC,即使
                                
                                mysqldump导出时出现when doing LOCK TABLES
                                    daizj
mysqlmysqdump导数据
                                    　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　 
导出表时，会报 
 
mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 
 
解决
                                
                                CSS渲染原理
                                    dcj3sjt126com
Web
                                       从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？   
  
       一、浏览器的发展与CSS      
  
   
                                
                                《阿甘正传》台词
                                    dcj3sjt126com

                                    Part Ⅰ: 
《阿甘正传》Forrest Gump经典中英文对白 
Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
                                
                                Java处理JSON
                                    dyy_gusi
json
                                    Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。 
在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 
1、读取json然后处理 
class ReadJSON
{
    public static void main(String[] args)
    
                                
                                win7下nginx和php的配置
                                    geeksun
nginx
                                    1.  安装包准备 
nginx :  从nginx.org下载nginx-1.8.0.zip 
php： 从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 
RunHiddenConsole: 用于隐藏命令行窗口 
  
2. 配置 
# java用8080端口做应用服务器，nginx反向代理到这个端口即可 
p
                                
                                基于2.8版本redis配置文件中文解释
                                    hongtoushizi
redis
                                    转载自： http://wangwei007.blog.51cto.com/68019/1548167 
       在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server   xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
                                
                                第五章 常用Lua开发库3-模板渲染
                                    jinnianshilongnian
nginxlua
                                    动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。 
  
如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
                                
                                JZSearch大数据搜索引擎
                                    颠覆者
JavaScript
                                    系统简介： 
 
 大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
                                
                                10招让你成为杰出的Java程序员
                                    pda158
java编程框架
                                    如果你是一个热衷于技术的  
Java 程序员， 那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。   　　 
1. 拥有扎实的基础和深刻理解 OO 原则   　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
                                
                                tomcat之oracle连接池配置
                                    小网客
oracle
                                    tomcat版本7.0 
配置oracle连接池方式： 
修改tomcat的server.xml配置文件： 
 <GlobalNamingResources>
 
			  <Resource name="utermdatasource" auth="Container"  
 type="javax.sql.DataSou
                                
                                Oracle 分页算法汇总
                                    vipbooks
oraclesql算法.net
                                        这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ 
 
 

-- Oracle 分页算法一
select * from (
       select page.*,rownum rn from (select * from help) page 
       -- 20 = (currentPag
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.