tulintao

。。。

一.项目问题：

1. 你写爬虫的时候都遇到过什么反爬虫措施，你最终是怎样解决的

　　1、基于User-agent反爬

　　2、基于IP地址进行反爬

2. 你写爬虫的时候使用的什么框架选择这个框架的原因是什么

　　python中的爬虫框架：

　　　　pyspider、crawley

　　scrapy，这是一个异步框架，基于python的web爬虫框架，抓取web站点并从页面提取结构化的数据

　　使用scrapy的原因：

　　　　容易构建大规模的抓取项目

　　　　异步处理请求的速度快

　　　　使用自动调节机制自动调整爬取的速度

二.框架问题：

1.scrapy的基本结构（五个部分都是什么，请求发出去的整个流程）

　　调度器

　　下载器

　　爬虫

　　实体管道

　　引擎

　　流程：

　　　　首先爬虫将需要发送请求的url通过引擎交给调度器

　　　　排序处理之后，经过ScrapyEngine，DownloadeMiddlewares（这里面有User_Agent、Proxy代理）交给Downloader

　　　　Downloader向互联网发送请求，并接受下载相应，将响应经过ScrapyEngine，可以选择交给Spiders；

　　　　Spiders处理response，提交数据并将数据经过ScrapyEngine交给ItemPipeline进行保存

　　　　提取url重新经过ScrapyEngine交给Scheduler进行下一次循环。直到Url请求程序停止结束

2.scrapy的去重原理（指纹去重到底是什么原理）

　　Scrapy本身是自带一个中间件的，在源码中可以找到一个dupefilters.py的去重器

　　需要将dont_filter设置为False设置为False开启去重，默认就是False去重的，要是改成True的话就是没有开启去重

　　对于每一个url的请求，调度器都会根据请求得相关信息加密得到一个指纹信息，并且将指纹信息和set集合中的指纹信息进行比对，如果set集合中已经存在了这个数据，那么就不再就不再将这个request放入到队列中，如果set集合中不存在这个加密后的数据的话，就将这个request对象放入到队列中等待被调用　　

3.scrapy中间件有几种类，你用过哪些中间件

　　downloadermiddleware

　　spidermiddleware

4.scrapy中间件在哪里起的作业（面向切片编程）

三.代理问题：

1.为什么会用到代理

　　爬虫程序从本质上讲也是浏览网页的用户，只不过不是那么的守规矩而已，服务器通常不喜欢这类型的用户，所以就会采取各种手段识别和禁止爬虫用户。比较常见的就是通过判断访问频率发现某个IP访问异常就会封禁该IP地址，但是做爬虫的就是要采集大量的数据，如果你的爬虫和一个普通人的访问频率差不多，那么你的爬虫存在意义也就不大了，所以这时候就凸现了代理IP的作用了，有些代理能够有效的隐藏真实的IP，突破服务器的反爬虫机制，同时降低你的爬虫速度，那样的话IP被封禁的概率就会大大降低了

2.代理怎么使用（具体代码，请求在什么时候添加的代理）

　　在下载中间件中进行设置，设置完之后，需要在settings中对设置的中间件进行调用

3.代理失效了怎么处理

　　设置线程池，要是其中的某个代理IP失效了就将它从这里面移除

4、如何设置代理

　　内置添加代理功能os.environ['HTTP_PROXY'] = '代理IP'

　　自定义下载中间件在中间件中进行配置

四.验证码处理：

1.登录验证码处理

2.爬取速度过快出现的验证码处理

　　可以在适当的位置模拟一下延迟

3.如何用机器识别验证码

　　利用极验进行破解

五.模拟登陆问题：

1.模拟登陆流程

　　有些网站要求你登录之后才会将数据从服务端发送给你，这时候你就需要模拟登录的流程，让爬虫来进行自动登录，一般用的是selenium，但是现在出现了pyppeteer，

　　对登录页面进行请求，从请求的页面源码中解析下载验证图片

　　使用打码平台对验证进行识别

　　基于登录按钮发起一个post请求（处理参数）

2.cookie如何处理

　　在模拟登录之后，将获取到的cookie进行格式化，然后保存在当前文件夹中的某个位置，后面需要对网页解析的时候，就可以直接读取这个文件来进行使用了

3.如何处理网站传参加密的情况

六.分布式：

1.分布式原理

　　虽然爬虫是异步加多线程的，但是我们只能在一台主机上运行，所以爬取的效率还是有限制的，分布式爬虫就是将多台主机组合在了一起，来共同完成一个爬取任务，会大大提高效率

2.分布式如何判断爬虫已经停止了

　　如果是利用scrapy框架进行抓取的时候，可以通过对请求队列的判断，如果请求队列为空的话就代表当前爬虫已经运行结束了

　　如果是单个爬虫的话就需要对

3.分布式的去重原理

七.数据存储和数据库问题：

1.关系型数据库和非关系型数据库的区别

2.爬下来数据你会选择什么存储方式，为什么

　　mongodb，非关系型数据库，就是一个个的kv键值对

3.各种数据库支持的数据类型，和特点

4.是否支持事务...

八.Python基础问题：

1.Python2和Python3的区别，如何实现python2代码迁移到Python3环境

2.Python2和Python3的编码方式有什么差别

3.迭代器，生成器，装饰器

4.Python的数据类型

九.协议问题：

1.http协议，请求由什么组成，每个字段分别有什么用，https和http有什么差距

　　请求是由请求首行（标识HTTP协议的版本，当前请求的方式）、请求头（一对kv键值对）、\r\n、请求体（post请求携带的数据）

　　http和https之间多了一个SSL加密协议

2.证书问题

　　https是HTTP+SSL的简称，是在HTTP传输方式的基础上将之前的明文进行了加密传输，在传输之前就会确定信息的加密方式和密钥，在传输过程中即使是被捕获或者伪造，那么也能保证信息不被泄露

　　而爬虫就是伪装成一个浏览器，发送请求给服务器，参与了整个过程，所以即使是https链接也可以抓取，但是前提是伪造的这个客户端拥有正确的SSL证书

　　当爬虫在运行过程中要是碰到SSL error的错误，一般是本地证书或者相关的SSL库没有正确的安装，服务器使用了自己制作的CA证书，没有权威机构的认证

3.TCP，UDP各种相关问题

十.数据提取问题：

1.主要使用什么样的结构化数据提取方式，可能会写一两个例子

2.正则的使用

3.动态加载的数据如何提取

4.json数据如何提取

十一.算法问题：

1.你们要善用Python的数据类型，对Python的数据结构深入了解。、

mongodb中的分布式和单只

JS逆向解析

　　过程：

　　　　如何找到登录接口

　　　　　　登录form表单中的action对应的url的地址

　　　　　　通过抓包发现，在这个url地址中和请求体中均是有参数的，切换到手机版参数的个数变少然后再分析JS

　　　　确定JS的位置

　　　　　　通过点击按钮，然后点击Event Listener，部分网站可以找到绑定的事件，对应的只需要点击就可以跳转到JS的位置就可以了

　　　　　　部分网站的按钮可能没有绑定JS事件监听，那么这个时候可以通过搜索请求中的关键字来找到JS的位置

　　　　观察JS的执行过程

　　　　　　找到JS的位置之后，我们可以通过观察JS的位置，找到JS具体好是如何执行的，后续我们可以通过python程序来模拟JS的执行，或者是使用类似js2py直接把JS代码转化为python 程序去执行

　　　　　　观察JS的执行过程最简单的方式就是添加断点

　　　　　　添加断点之后继续点击登录，每次程序在断点的位置上都会停止，如果这一行有变量产生的话，都会将变量的结果展示在Scoope中

　　　　直到JS的执行方法

　　　　　　观察代码知道需要哪些参数

　　　　　　　　1、我们要登录需要对密码进行加密和获取rkey字段的值

　　　　　　　　2、rkey字段的值我们直接发送请求rkey请求就可以获取到了

　　　　　　　　3、密码是先反转然后使用RSA进行加密，JS代码很复杂，我们使用python代码来执行JS实现

　　　　　　　　　　1、使用session发送rKey获取登录需要的信息

　　　　　　　　　　2、根据获取信息对密码进行加密

　　　　　　　　　　3、使用session发送登录请求

scrapy中如何实现暂停爬虫

　　一个把调度请求保存在磁盘的调度器

　　一个把访问请求保存在磁盘的副本过滤器[duplicates filter]

　　一个能持续保持爬虫（键值对）的扩展

　　job工作路径

　　要启用持久化支持，只需要通过JOBDIR设置job directory选项

　　这个路径将会存在所有的请求数据来保持一个单独任务的状态，要注意的是这个目录不允许被不同的spider共享，甚至是同一个spider的不同jobs/runs也不行，也就是说这个目录就是存储一个单独job的状态信息

scrapy中的pipelines工作原理

　　scrapy通过pipeline模块来执行保存数据的操作

　　在创建的scrapy项目中自动创建了一个pipeline.py文件，同时创建了一个默认的pipeline类，我们可以根据需要自定义Pipeline类，然后在settings中进行配置就可以了

scrapy的pipelines如何丢弃一个item对象

　　通过raise DropItem方法

scrapy中的爬虫中间件和下载中间件的作用

scrapy_redis组件的作用

　　实现了分布式爬虫，url去重、调度器、数据持久化

　　scheduler：调度器

　　dupefilter：URL去重规则，被调度器使用

　　pipeline：数据持久化

scrapy-redis组件中如何实现多任务的去重

　　内部进行配置，连接redis数据库

　　去重的规则通过redis的集合完成

　　去重规则中将url转换成唯一标识，然后在redis中检查是否已经在集合存在了

正反向代理：

　　正向代理：

　　　　客户端出去找一个代理去访问服务器，服务器不知道你的真实的IP

　　反向代理：

　　　　服务器找一个代理给你响应，你不知道服务器的真实IP

你可能感兴趣的:(。。。)

多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出