weixin_42894309

爬虫知识点总结

爬虫总结

一、

1.什么是爬虫？

爬虫就是：模拟浏览器发送请求，获取响应

2.爬虫的分类，爬虫的流程

聚焦爬虫：针对特定的网站的爬虫
- 准备url地址 -->发送请求获取响应–> 提取数据–> 保存
- 获取响应–> 提取url地址，继续请求
通用爬虫：搜索引擎的爬虫
- 抓取网页–> 数据存储–>预处理–> 提供检索服务，网站排名

3.浏览器发送请求的过程

爬虫请求的：url地址对应的响应
浏览器获取到的内容：elements的内容=url对应的响应+js+css+图片
爬虫获取的内容和elements内容不一样，进行数据提取的时候，需要根据url地址对应的响应为准进行数据的提取

4.http的请求头user-agent有什么用

user-agent:告诉对方服务器是什么客户端正在请求资源，爬虫中模拟浏览器非常重要的一个手段
爬虫中通过把user-agent设置为浏览器的user-agent，能够达到模拟浏览器的效果
cookie：获取登录只有才能够访问的资源

5.利用requests模板如何发送请求和获取响应

response = requests.get(url)
response.text -> str # 根据响应信息进行有规律的推测网页的编码
- response.encoding=“utf-8”
- response.encoding=”gbk”
response.content -> bytes
- response.content.decode(“utf8”)
  # 发送请求，获取响应
  def parse(self, url, data):
  response = requests.get(url，params=params,headers=self.headers)
  response = requests.post(url,data=data, headers=self.headers)
  return response.content.decode()
response.status_code
response.request.headers
response.headers
一般来说名词，往往都是对象的属性，对应的动词是对象的方法
获取网页源码的通用方式：
1. response.content.decode() 的方式获取响应的html页面
2. response.content.decode(“GBK”)
3. response.text

6.python2和python3中的字符串

ascii 一个字节表示一个字符
unicode 两个字节表示一个字符
utf-8 边长的编码方式，1，2，3字节表示一个字符

python2
- 字节类型：str,字节类型，通过decode()转化为unicode类型
- unicode类型：unicode ，通过encode转化为str字节类型
python3
- str：字符串类型，通过encode() 转化为bytes
- bytes：字节类型，通过decode（）转化为str类型

7.常见的状态响应码

200：成功
302：临时转移至新的url
307：临时转移至新的url
404：not found
500：服务器内部错误

二、

1.requests中headers如何使用，如何发送带headers的请求

模拟浏览器，欺骗服务器，获取和浏览器一致的内容
headers = {“User-Agent”:“从浏览器中复制”}
headers = {
“Origin”: “http://ntlias-stu.boxuegu.com”,
“Referer”: “http://ntlias-stu.boxuegu.com/”,
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.17 Safari/537.36”
}
requests.get(url,headers=headers)

2.发送带参数的请求

params = {"":""}
url_temp = “不完整的URL地址”
requests.get(url_temp,params=params)

3.requests如何发送post请求

data = {“从浏览器中form data的位置寻找”}
requests.post(url,data=data)

4.requests中如何使用代理，使用代理的目的，代理的分类

proxies = {“https”: “https://117.127.0.195:8080”}
proxies = {协议：协议+ip+端口}
requests.get(url,proxies=proxies)
目的：
- 反反爬
- 隐藏真实ip

代理的分类

高匿名代理：不知道在使用代理
匿名代理：知道在使用代理，但是不知道真实ip
透明代理(Transparent Proxy)：对方知道真实的ip

5.requests中session类如何使用，为什么要使用session

session = requests.Session()
session.post(url,data) #cookie会保存在session中
session.get(url) #用session发送请求会带上之前的cookie
注意：这块的session类和之前所学的session无任何关系

6.列表推导式

In [41]: [i for i in range(10)]
Out[41]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
In [42]: [i/2 for i in range(10)]
Out[42]: [0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5]
In [43]: [i/2 for i in range(10) if i%2==0]

三、

1.requests进行携带cookie登录

cookie字符串放在headers中
把cookie字典交给requests请求方法的cookies

2.寻找登录接口的方法

form表单action对应的url地址
- 用户名和密码的input标签中，name的值作为键，用户名和密码作为值的字典，作为post data
通过抓包，定位url地址
- form data

3.分析js，获取加密的数据

观察变化
定位js
- 通过event listener定位js的位置
- 通过搜索url地址中的关键字，通过chrome的search all file来进行搜索
进行分析
- 通过添加断点的方式分析js
执行js
- 完全的使用python模拟js的执行过程

4.requests处理ssl证书

requests.get(url,verify=False)

5.获取响应中的cookie，转化为字典

response = requests.get(url,headers=headers)
requests.utils.dict_from_cookiejar(response.cookies)

6.requests中超时参数的使用,retrying模块的使用

from retrying import retry
requests.get(url,timeout=3)
通过装饰器的方式使用retry，进行异常捕获，重新执行被装饰的函数
from retrying import retry
@retry(stop_max_attempt_number=3)
def fun():
pass

7.数据的分类

结构化数据 json, xml
- 直接使用模块转化为python类型
非结构化数据 html
- re，xpath

8.json模块的使用

数据交换格式
json.loads(json_str) json字符串转化为python类型
json.dumps(python_type,ensure_ascii=False,indent=2) python类型转化为json字符串
json.load() 把包含json的类文件对象中的数据提取出来转化为python类型
json.dump() python类型存入类文件对象中
那么对于为什么需要模拟登陆？
获取cookie，能够爬取登陆后的页面

9.requests模拟登陆的三种方法

session
- 实例化对象
- session.get(url) #cookie保存在session中
- session.get(url) #带上保存在session中cookie
cookie方法headers中
cookie传递给cookies参数
- cookie = {“cookie 的name的值”:“cookie 的value对应的值”}

10.三元运算符

a = 10 if  3<2 else 100

11.字典推导式

In [8]: {i:i+10 for i in range(10)}
Out[8]: {0: 10, 1: 11, 2: 12, 3: 13, 4: 14, 5: 15, 6: 16, 7: 17, 8: 18, 9: 19}

In [9]: {i:i+10 for i in range(10) if i%2==0}
Out[9]: {0: 10, 2: 12, 4: 14, 6: 16, 8: 18}

四、

1.正则的语法

字符
- . 能够匹配\n之外的所有字符 re.S模式下可以匹配\n
- \ 转义
- [] 或的效果，从中选择一个， [abc]+ 能够匹配多个
- | 或的效果
预定义的字符集
- \d 数字
- \s 空白字符串，包含空格、\n，\t
- \w 单词字符，a-zA-Z0-9_
数量词
- - 匹配0次或者多次
- - 能够匹配1次或者多次
- ? 能够匹配0-1次，让*，+非贪婪

2.re模块的常用方法

re.findall(“正则表达式regex”,“待匹配的字符串”) # 返回列表，或者是空列表
re.sub(“regex”,"_",“待替换的字符串”) # 返回字符串
p = re.compile(“regex”,re.S/re.DOTALL) # 返回一个p模型,编译，提高匹配效率
- p.findall(“待匹配的字符串”)
- p.sub("_",“待替换的字符串”)

注：re.S 匹配\n re.DOTALL 匹配Tab键

3.原始字符串r

定义：相对于特殊符号而言，表示特殊符号的字面意思
用途：
- 正则中，能够忽略转义符号带来的影响，待匹配的字符串中有几个\，正则表达式中加上r，照着几个\即可
- windows文件路径

4.xpath语法

xpath的安装 pip install lxml
// 的用途
- //a html中所有的a
- div//a div中所有的a，包括div下的后代节点中的a
- a//text() a下的所有的文本
@ 的使用
- a/@href 获取a的href的值
- //a[@class=‘b’]
text() 的使用
- //a/text() 获取所有的a下的文本
- //a[text()=‘下一页’] 获取文本为下一页的a标签
- a//text() a下的所有的文本
xpath包含的语法
- //div[contains(@class,“i”)] class包含i的div标签
- //a[contains(text(),“下一页”)] 文本包含下一页的a标签
兄弟标签
- /a/follow-sibling::ul[1]
xpath 选择特定位置
- //a[1] 第一个
- //a[last()] 最后一个
- //a[last()-1] 倒数第二个
- //a[postion()<4] 前三个

5.lxml模块的使用

from lxml import etree
element = etree.HTML(bytes/str) #返回element
ret_list = element.xpath("xpath字符串") #返回列表
bytes = etree.tostring(element) #返回bytes类型字符串
#数据提取时：先分组，再提取

五、

1.xpath包含的语法

//div[contains(@class,“i”)] class包含i的div标签
//a[contains(text(),“下一页”)] 文本包含下一页的a标签

2.url地址解码的方法

requests.utils.unquote(url)

3.准备url地址

知道url地址的规律，知道一共多少页，准备url列表，果壳，糗百
不知道url地址规律，或者不知道一共多少页，准备start_url ,贴吧

4.多线程爬虫

threading
- t1 = threading.Thread(targe=func,args=(,))
- t1.setDaemon(True) #设置为守护线程
- t1.start() #此时线程才会启动
队列
- from queue import Queue
- q = Queue()
- q.put() 队列计数+1
- q.get() 队列计数不会-1
- q.task_done() 和get()方法配合，队列计数-1
- q.join() #阻塞主线程，让主线程等待队列任务结束之后在结束，队列任务在计数为0时技术

5.多进程爬虫

multiprocessing
- p = multiprocessing.Process(trage=func,args=(,))
- p.daemon = True #设置为守护进程，主线程结束，子进程结束
- p.start()
from multiprocessing import JoinableQueue
- q = JoinableQueue()
- q.join() # 让主进程阻塞，等待队列任务计数，计数为0队列任务结束，
- q.put() # 计数+1
- q.get() # 计数不会-1
- q.task_done() # get和task_done一起使用才会减一

6.线程池和协程池的使用

线程池
- from multiprocessing.dummy import Pool
- pool = Pool(5)
- pool.apply_async(func,callback=func2)
协程池
- import gevent.monkey
- gevent.monkey.patch_all()
- from gevent.pool import Pool
- pool = Pool(5)
- pool.apply_async(func,callback=func2)

六、

1.安装driver

chromdriver 需要对应chrome版本
提示权限不足，sudo chmod +x phantomjs
chromdriver --version
phantomjs --version

2.selenium如何使用

功能：请求页面，提取数据，开启隐形的浏览器，能够执行其中的js，可获取cookie

from selenium import webdriver
driver = webdriver.PhantomJS() # 没有界面，不建议使用
driver = webdriver.Chrome() # 带界面
driver.get_cookie(‘name’) # 获取cookie值，需要传name
driver.get_cookies() # 获取cookie
driver.get(url) #发送请求
driver.quit()

3.selenium定位元素的方法

driver.find_element #返回第一个元素,如果没有报错
driver.find_elements 返回包含元素的列表，没有就是空列表
driver.find_elements_by_xpath() # 只能定位到标签（即元素），不能定位到文本值和属性值
driver.find_elements_class_name() #定位class属性
driver.find_elements_by_id() #定位id属性
driver.element.text #获取文本
driver.element.get_attribute(“textContent”) #获取隐藏元素的文本
driver.element.get_attribute(“href”) #元素获取属性值

4.selenium如何处理frame

driver.switch_to.frame(id,name,element)

5.验证码的识别

url地址不变，验证码不变
- 请求验证码的地址，获取响应，进行识别
url地址不变，验证码变化
- 请求验证码，发送登录请求，需要带上统一套cookie，才能够都能路成功，对应可以使用requests.Session()来实现
selenium处理验证码
- 带上selenium的driver中的cookie来请求验证码
- selenium截屏，获取验证

6.mongodb的服务端和客户端启动方法

服务端启动
- sudo service mongod start
- sudo mongod --config /ect/mongod.conf &
客户端启动
- mongo

7.mongodb中数据库的方法

数据库可以不需要提前创建，使用use一个不存在的数据库即可创建
use db_name 使用数据库数据库可以不存在
db 查看当前所在的数据库
show dbs /show databases 查看所有的数据库
db.dropDatabase() 删除数据库
数据库名.dropDatabase() #删除数据库

8.mongodb中集合的方法

集合不需要提前创建，插入数据的时候自动创建
show collections #查看所有的集合
db.集合名.drop() #删除集合
db.集合名.find() #集合的使用

9.mongodb的增删改查的方法

插入insert
- insert() 插入数据，_id相同会报错
- save() 保存数据_id相同会更新，不存在会插入
删除remove
- db.col_name.remove({条件},{justOne:flase}) #默认删除全部满足条件的内容
- db.col_name.remove({条件},{justOne:ture}) 删除一条满足条件的内容
更新update
- update 更改时，找到满足条件时，除id之外全部覆盖
- db.collection.update({条件},{$set:{name:10086}},{multi:true})
  #默认更新一条,multi为true会更新全部
- db.col_name.update({条件},{name:1}) #会把满足条件的数据的第一条更新为{name:1}
- db.col_name.update({条件}，{$set:{name:1}})
  - 把满足条件的第一条的name值更新成1
- db.col_name.update({条件}，{$set:{name:1}}，{multi:true})

七、

1.mongodb在pycharm中的增删改查

stu.insert({"name": "张三", "age": 12})  # 增
stu.remove({"age": 12}, multi=True)    # 删
stu.update({"age": 12}, {"$set": {"name": "李斯"}}, multi=True)  # 改
for data in stu.find():  # 查
     print(data)

2.mongodb的运算符

- 比较运算符
  - $gt 大于
  - $lt 小于
  - $gte 大于等于
  - $lte 小于等于
  - $ne 不等
- 逻辑运算符
  - and  {age:"",name:""}
  - or {$or:[{条件1},{条件2}]}
- 范围运算符
  - $in db.col.find({age:{$in:[18,19,30]}})
  - $nin 不在范围内

3.mongodb中的计数，去重，排序

- 计数
  - db.col.count({条件})
  - db.col.find({条件}).count()
- 去重
  - db.col.distinct("字段",{条件})
- 排序
  - db.col.find().sort({})
- 投影
  - 指定数据内容的字段
  - db.stu.find({条件},{name:1,_id:0})
  - 返回的数据中只会包含name字段，_id不会显示

4.mongodb聚合中$group的使用

分组

db.stu.aggregate(
{ $KaTeX parse error: Expected '}', got 'EOF' at end of input: group:{_id:"$ hometown",count:{ $KaTeX parse error: Expected 'EOF', got '}' at position 6: sum:1}̲,total_age:{$ sum:“ $KaTeX parse error: Expected 'EOF', got '}' at position 5: age"}̲,avg_age:{$ avg:”$age"}}}
)
_id分组的依据
$age 取age对应的值
$sum:1 把每条数据作为1进行统计，统计的是个数
$s u m : "$ age" 统计年龄对应的和
$group对应的字典中的键是输出数据的键
不分组

db.stu.aggregate(
{ $KaTeX parse error: Expected '}', got 'EOF' at end of input: \dotsid:null,count:{$ sum:1}}}
)

按照一个字段分组
db.col.aggregate(
{ $KaTeX parse error: Expected '}', got 'EOF' at end of input: group:{_id:"$ gender",count:{ $KaTeX parse error: Expected 'EOF', got '}' at position 6: sum:1}̲}} ) 按照多个\dots$ group:{_id:{gender:“ $g e n d e r ", h o m e t o w n : "$ hometown”},count:{ $KaTeX parse error: Expected 'EOF', got '}' at position 6: sum:1}̲}} ) 不分组,\dots$ group:{_id:null,count:{$sum:1}}}
)
$KaTeX parse error: Expected '}', got 'EOF' at end of input: \dotsggregate( {$ group:{_id:“ $KaTeX parse error: Expected '}', got 'EOF' at end of input: gender",name:{$ push:”$name"}}}
)

4.统计整个文档

数据透视
把不同行的数据，放到一行来展示

db.stu.aggregate(
{ $KaTeX parse error: Expected '}', got 'EOF' at end of input: group:{_id:"$ gender",name:{ $p u s h : "$ name"},hometown:{ $p u s h : "$ hometown"}}}
)
按照多个字段进行分组
按照多个字端进行分组，_id的值是一个json

db.stu.aggregate(
{ $KaTeX parse error: Expected '}', got 'EOF' at end of input: …_id:{hometown:"$ hometown",gender:" $KaTeX parse error: Expected 'EOF', got '}' at position 8: gender"}̲,count:{$ sum:1}}}
)
多字段分组练习
当某个键对应的值是字典的时候，取其中的值需要使用.操作，$_id.country表示取到_id这个字典下的country的键对应的值
第一条作为第二条的管道进行查找，计数

db.tv3.aggregate(
{ $KaTeX parse error: Expected '}', got 'EOF' at end of input: …{_id:{country:"$ country",province:“ $p r o v i n c e ", u s e r i d : "$ userid”}}},
{ $KaTeX parse error: Expected '}', got 'EOF' at end of input: …{_id:{country:"$ _id.country",province:" $KaTeX parse error: Expected 'EOF', got '}' at position 14: _id.province"}̲,count:{$ sum:1}}}
)

5.mongodb中$match

过滤

db.col.aggregate(
  {$match:{age:{$gt:18}}}
    )

6.mongodb中$project

投影,修改文档的输入输出结构

db.stu.aggregate(
  {$group:{_id:"$hometown",count:{$sum:1}}},
  {$project:{_id:0,sum:"$count",hometown:"$_id"}}
  )
db.tv3.aggregate(
  {$group:{_id:{country:"$country",province:"$province",userid:"$userid"}}},
  {$group:{_id:{country:"$_id.country",province:"$_id.province"},count:{$sum:1}}},
  {$project:{country:"$_id.country",province:"$_id.province",counter:"$count",_id:0}}
  )

7.limit $sort

db.stu.aggregate(
  {$group:{_id:"$hometown",count:{$sum:1}}},
  {$sort:{count:-1}},
  {$skip:1},
  {$limit:2}
  )

8.mongodb索引

创建索引
- db.col.ensureIndex({name:1})
- db.col.createIndex()
查看索引
- db.col.getIndexes()
删除索引
- db.col.dropIndex({name:1})
建立联合索引
- db.col.ensureIndex({name:1,age:-1})
建立唯一索引
- db.col.ensureIndex({name:1},{unique:true})

9.mongodb备份和恢复

备份
- mongodump -h host -d database -o output_path
恢复
- mongorestore -h host -d database --dir 恢复的路径

10.pymongo的使用

from pymongo import MongoClient

#实例化client
client = MongoClient(host,port)  
#选择集合
collection = client["db"]["collection"]

#查询
collection.find() #返回全部的数据，返回cursor对象，只能获取其中内容一次
collection.find_one() #返回一条

#插入
collection.isnert_one()
collection.insert_many()

#更新
collection.update_one({name:"a"},{"$set":{"name":"noob"}})
collection.update_many()

#删除
collection.delete_one()
collection.delete_many()

八、

1.scrapy框架安装

pip install Twirted.whl(本地)
pip install pywin32
pip install scrapy

2.scrapy 的数据传递的流程

五大组件
- 调度器：存储请求队列
- 下载器：根据request发情请求获得响应response
- 爬虫：提取url转为request，提取数据
- 管道：数据清洗和数据保存
- 引擎：负责连接其他四个组件(之间互不相通），保证数据的传递
中间件只能处理request和response
- 爬虫中间件
- 下载器中间件
运行过程
0.调用start_requests()方法，将start_urls中所有的url构造成request对象，并放入调度器
1.调度器取一个request -> 引擎 -> 下载器中间件 -> 下载器
2.下载器根据request下载得到response -> 下载器中间件 -> 引擎 -> 爬虫中间件 -> 爬虫
3.爬虫提取数据
3.1 爬虫提取url转为request -> 爬虫中间件 -> 引擎 -> 调度器
3.2 爬虫提取数据(item) -> 引擎 -> 管道
4.管道实现数据的处理和保存

3.scrapy爬虫项目的创建

创建项目
scrapy startproject myspider
创建爬虫
cd myspider
scrapy genspider spider_name allowed_domain
运行
scrapy crawl spider_name
构造一个request请求
yield scrapy.Request(url,callback,meta,dont_filter) # url需要手动补全
callback: 将来url响应的处理函数
meta:数据不完整时，传递当前数据到下一个响应函数
dont_filter:默认False，即过滤，过滤的情况下，不会重复发起相同的url请求
response.follow(url) # url不用补全，会根据response.url自动补全
完善爬虫：提取数据，提取url地址组成request
完善管道：数据的处理和保存
yield 能够yield None，item对象，字典，或者请求，不能够yield一个列表

4.完善spider

parse方法必须有，用来处理start_urls对应的响应的
extract() response.xpath() 从中提取数据的方法，没有就返回一个空列表
extract_first() response.xpath() 的结果中提取第一个字符串的方法，没有返回None值

5.完善管道

管道需要在settings中开启，添加管道的路径，对应的键：管道的位置，值表示的是管道距离引擎的远近，数字越小，优先级越高，越先经过
process_item(item,spider)方法必须有 ,spider表示的是传递item过来的爬虫实例
从爬虫中通过yield 把数据交给引擎传递给pipeline，只能是Request, BaseItem, dict or None

class YangguangPipeline(object):
def process_item(self, item, spider):
处理从spider发来的item数据

需要在配置文件中开启后才能生效
ITEM_PIPELINES = {
‘yangguang.pipelines.YangguangPipeline’: 300, # 300标识数据处理的优先级，数字越低，优先级越高}

6.数据提取url地址补全

手动字符串相加
urllib.parse.urljoin(baseurl,url)
- 后面的url会根据baseurl进行url地址的拼接
  - import urllib
  - url1 = “position.php?&start=2890#a”
  - url2 = “https://hr.tencent.com/position.php?&start=3580#a”
  - urllib.parse.urljoin(url2, url1)
  - 输出：“https://hr.tencent.com/position.php?&start=2890#a”
  - next_url = urllib.parse.urljoin(response.url, next_url) # response.url可以获取完整的url字符串，是response的一个属性
response.follow(url,callback)
- 能够根据response的地址把url拼接完整，构造成Request对象请求

7.scrapy如何构造请求

scrapy.Request(url,callback,meta,dont_filter)
- url:详情页，下一页的url
- callback：url地址响应的处理函数
- meta:在不同的函数中传递数据
- dont_filter ::默认是false表示过滤，scrapy请求过的url地址，在当前的运行过程中不会继续被请求，如果需要继续被请求，可以把dont_filter=True
yield scrapy.Request(url,callback,meta,dont_filter)

8.scrapy的Item如何使用

#定义
class Item(scrapy.Item):
  name = scrapy.Field()  

#使用
导入。使用name字典

9.scrapy中parse函数是做什么的

处理start_urls中的url地址的响应

九、

1.scrapy shell 如何使用，能干什么

scrapy shell url 能够进入交互式终端
查看scrapy中模块的属性
测试xpath

2.response对象有哪些常见属性

response.body 能够后去响应bytes字符串
response.url
response.request.url
response.headers
response.request.headers
resposne.text 能够后去响应str字符串

3.open_spider 和close_spider 在管道里面配置

open_spider(spider) #能够在爬虫开启的时候执行一次
close_spdier(spider) #能够在爬虫关闭的时候执行一次
在和数据库建立连接和断开连接的时候使用上述方法

4.deepcopy的使用，苏宁代码中为什么需要deepcopy

a = deepcopy(b) #强制传值
苏宁代码数据重复
- scrapy中的内容是异步执行的，解析函数可能同时在执行，操作的同一个item，
- 大分类下的所有的图书用的是一个item字典

十、

1.crwalspider如何创建爬虫

scrapy genspider -t crawl 爬虫名语序允许爬取的范围

2.crwalspdier中rules的编写

rules 元组，元素是Rule
Rule(LinkExtractor(allow=“正则”),follow=True，callback=“str”)
- LinkExtractor:传入正则匹配url地址
- follow：为True表示提取出来的响应还会经过rules中的规则进行url地址的提取
- callback:表示提取出来的响应还会经过callback处理

3.crwalspider中不同的解析函数间如何传递数据，如果不能，应该如何操作？

在前一个Rule的callback中实现手动构造请求

yield scrapy.Request(url,callback,meta)

4.下载器中间件如何使用

使用代理

request.meta[‘proxy’] = “协议+ip+端口”
在settings中开启中间件
SPIDER_MIDDLEWARES = {
‘book.middlewares.BookSpiderMiddleware’: 543,
}
DOWNLOADER_MIDDLEWARES = {
‘book.middlewares.BookDownloaderMiddleware’: 543,
}

class TestMid:
def process_request(self,request,spdier):
#处理请求
request.headers[“User-Agent”] = “” #使用ua
request.meta[“proxy”] = “协议+ip+端口”
return None #请求会继续后面处理
return Request #把请求交给调度器
return Response #把响应交给爬虫
```
def process_response(self,request,response,spider):
  #处理响应
  return response #把响应交给爬虫
  return request #把请求交给调度器
```

5.模拟登陆的三种方式

携带cookie进行登录
- yield scrapy.Request(url,callback=self.parse,cookies={},meta={})
发送post请求
- yield scrapy.FormReuqest(url,formdata={请求体},callback=self.parse_login)
表单提交
- yield scrapy.FormReuqest.from_response(response,formdata={},callback=self.parse_login)

6.正则比倒是忽略大小写

re.I/re.IGNORECASE

十一、

scrapy_redis

scrapy_redis 是scrapy框架的一个扩展组件，实现了两个功能：

增量式爬虫
分布式爬虫

实质：就是将请求队列和指纹集合进行了持久化存储

在seeeting.py中继续配置

# 指定了去重的类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 制定了调度器的类
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 调度器的内容是否持久化
SCHEDULER_PERSIST = True
REDIS_URL = "redis://127.0.0.1:6379"

注：scrapy_redis 只是scrapy框架的一个组件

2.scrapy_redis为什么能够实现去重和请求的持久化以及分布式爬虫

scrapy_redis把指纹和request对象存储在了redis，下一次程序启动起来之后会从之前的redis中读取数据
实现分布式：过个服务器上的爬虫公用一个redis

3.scray_redis中dmoz给我们展示了一个什么样的爬虫

增量式的爬虫：基于request对象的增量
分布式爬虫
主要体现在请求队列和指纹集合的持久化存储

4.scrapy_redis中如何实现一个增量式的爬虫

settings中进行配置，指定去重的类，调度器的类，添加上redis_url
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter” # 指定去重的类
SCHEDULER = “scrapy_redis.scheduler.Scheduler” # 调度器的类
SCHEDULER_PERSIST = True # 指定调度器的内容是否持久化
REDIS_URL = “redis://127.0.0.1:6379” # 添加redis_url地址

5.scrapy中如何生成的指纹，有什么启发

使用sha1加密请求的url地址，请求的方法和请求体，得到16进制字符串作为指纹每个指纹40位

fp = hashlib.sha1()   # sha1加密
fp.update(to_bytes(request.method))  # 请求方法
fp.update(to_bytes(canonicalize_url(request.url)))  # 请求地址
fp.update(request.body or b'')  # 请求体

cache[include_headers] = fp.hexdigest()  #生成指纹  加密之后的16进制字符串

6.scrapy_redis什么情况下request会入队

def enqueue_request(self, request):
    if not request.dont_filter and self.df.request_seen(request):
        self.df.log(request, self.spider)
        return False
    self.queue.push(request)
    return True

全新的request对象，之前没有见过的request
dont_filter = True 不过滤，请求过的url地址让他继续请求
start_urls中的url地址能够反复入队请求，因为默认是不过滤的

7.要查看数据是否存在于redis的集合中，如果不存在就插入

added = self.server.sadd(self.key, fp)
#added= 0 表示存在
#added！=0 表示不存在，并且已经插入
return added == 0

8.关于对象的序列化和反序列化

request = Request("http://www.baidu.com", meta={"item": {"hello": "wrold"}}, parse="parse_book")

对象的序列化
data = pickle.dumps(request)
print(data)
反序列化
req = pickle.loads(data)
print(req.meta)
print(id(request), id(req))

如何去重

1.请求生成指纹

fp = hashlib.sha1()
fp.update(to_bytes(request.method))
fp.update(to_bytes(canonicalize_url(request.url)))
fp.update(request.body or b'')
return fp.hexdigest()

利用hashlib的sha1，对request的请求体、请求url、请求方法进行加密，返回一个40位长度的16进制的字符串，称为指纹

进队

def enqueue_request(self, request):
if not request.dont_filter and self.df.request_seen(request):
self.df.log(request, self.spider)
return False
self.queue.push(request)
return True
如果请求需要过滤，并且当前请求的指纹已经在指纹集合中存在了，就不能进入队列了
如果不需要过滤，直接进入队列
如果请求需要过滤，并且请求的指纹是一个新的指纹，进入队列

10.数据去重

中间件去重
process_response(request,response,spider):
#set可以是内存set集合，也可以是redis的set
ret = set.add(md5(response.body))
if ret == 0:
return request
else
return response
建立复合索引
# 复合索引，加速和去重
stu.ensure_index([(“hometown”, 1), (“age”, 1)], unique=True)
# 根据数据的特征，在mongodb中对指定字段建立复合索引，所有字段值相同时就无法二次插入了
布隆过滤器

11.哈希函数的特性：

输入域无限，输出域有限
相同的输入必然得到相同的输出（不是随机性）
不同的输入也可能得到相同的输出（哈希碰撞）
离散性,对于输出域中的每个结果，在整个输出域是均分分布的。
dict 字典 -> 哈希表

十二、

1.Redisspider的爬虫和scrapy.spider的区别

实现Redisspider 分布式爬虫，请求的持久化，去重的持久化

区别
- 父类不一样，RedisSpider继承的父类是RedisSpider
- RedisSpider没有start_url, 多了redis_key ，往redis_key存入start_url地址
  - redis_key表示redis中存放start_url地址的键
- settings 中多了几行配置
创建爬虫
- scrapy genspider 爬虫名爬取范围
- 修改父类名
- 修改redis_key
启动爬虫
- 让爬虫就绪：scrapy crawl 爬虫名
- redis中存入url地址：lpush redis_key url

2.RedisCrawlSpider的爬虫和crwalspdier的区别

实现RedisCrawlSpider 分布式爬虫，请求的持久化，去重的持久化

区别
- RedisCrawlSpider继承的父类是RedisCrawlSpider
- RedisCrawlSpider没有start_url，多了redis_key ，往redis_key存入start_url地址
  - redis_key表示redis中存放start_url地址的键
- settings 中多了几行配置
创建爬虫
- scrapy genspider -t crawl 爬虫名允许爬取的范围
- 修改父类名
- 添加redis_key
启动爬虫
- 让爬虫就绪 scrapy crawl 爬虫
- lpush redis_key url 爬虫会启动

3.crontab使用的方法

分钟小时日月星期命令
30 9 8 * * ls #每个月的8号的9：30执行ls命令

在爬虫中使用crontab

1. 爬虫启动命令写入脚本文件
  
  cd dirname $0
  scrapy crawl 爬虫名 >> run.log 2>&1
1. 给脚本添加可执行权限
- chmod +x run.sh
1. 把脚本文件添加到crontab的配置中
- 30 6 * * * /home/python/myspider/run.sh

十三、

1.什么是框架，为什么需要开发框架

框架：为了解决一类问题而开发的程序，能够提高开发效率
第三方的框架不能够满足需求，在特定场景下使用，能够满足特定需求

2.scrapy_plus中有哪些内置对象和核心模块

core
- engine
- scheduler
- downloader
- pipeline
- spider
http
- request
- response
middlewares
- downloader_middlewares
- spider_middlewares
item

3.说出scrapy_plus实现引擎的基础逻辑

1.调用爬虫的start_request方法，获取start_request请求对象
调用爬虫中间件的process_request方法，传入start-request，返回start_request
2.调用调度器的add_request，传入start_request
3.调用调度器的get_request方法，获取请求
调用下载器中间件的process_request，传入请求，返回请求
4.调用下载器的get_response方法，传入请求，返回response
调用下载器中间件的process_response方法，传入response，返回response
调用爬虫中间件的process_response方法，传入response，返回response
5.调用spider的parse方法，传入resposne，得到结果
调用爬虫中间件的process_request方法，传入request，返回request
6.判断结果的类型，如果是请求对象，调用调度器的add_request，传入请求对象
7.否则调用管道的process_item方法，传入结果

4.如何在项目文件中添加配置文件能够覆盖父类的默认配置

1.在框架中conf文件夹下，建立default_settings，设置默认配置
2.在框架的conf文件夹下，建立settings文件，导入default_settings中的配置
3.在项目的文件夹下，创建settings文件，设置用户配置
4.在框架的conf文件夹下的settings中，导入settings中的配置，会覆盖框架中的默认配置

十四、

1.getattr如何使用？

getattr 通过传入字符串，获取python对象或者是方法
现在有test(),知道test中间有个方法名叫做func
- getattr(test(),“func”) #返回test.func()

2.importlib如何使用？

能够动态的导入模块
import importlib
module = importlib.import_module(“模块的位置”)
cls = getattr(module,“Test”) #获取模块下的类
func = getattr(cls(),“func”) #获取cls中的func方法

爬虫项目

公司名字：

项目

运行环境
- linux+pycharm+redis+scrapy+mysql+mongodb+scrapy_redsi+selenium
项目描述
- 抓取了(多个)网站，获取了数据，解决了***需求，使用的技能
- request+selenium
- selenium + scrapy
- scrapy_redsi
- 自己实现的框架完成了一个项目
个人职责
- 使用的是技能
  - request ：发送请求
  - selenium：
    - 获取动态html页面，数据提取更方便
    - 专门进行登录，获取cookie，组成cookie池，其他程序从cookie池中获取cookie，请求登陆之后的页
  - scrapy：
    - 为了加快抓取速度，使用了scrapy
  - scrapy_redis
    - 为了试下增量式爬虫，使用了scrapy_redis
    - 为了实现分布式，使用了scrapy_redis
    - 为了实现持久化的去重，
  - 自己实现的框架完成了一个项目
    - 框架的实现逻辑
    - 实现去重的方式
    - 分布式的实现方式
    - 持久化的实现
- 反扒
  - js生成的数据
    - 使用selenium配合无头浏览器
    - 分析了js，看到了js的实现过程，python实现了一遍
    - js2py的工具执行了js
  - 验证码
    - 使用了打码平台
  - 代理ip
    - 对方服务器有通过ip进行限速，购买了代理ip组成了ip池，通过一个程序，判断ip的可用性
- 去重
  - 基于url地址去重
    - sha1加密了以写请求的字典
  - 基于数据的去重
    - sha1加密了数据中的某些字典，得到指纹，存在redis中的集合中进行对数据的去重
    - 在数据库中建立联合索引进行去重

你可能感兴趣的:(爬虫)

Python 爬虫实战：全球公司财报数据抓取与财务健康分析西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，数据已成为企业决策、投资分析和市场研究的关键要素。公司财报数据作为企业经营状况的重要反映，对于投资者、分析师以及企业管理者来说具有极高的价值。通过获取和分析全球公司的财报数据，我们可以深入了解企业的财务健康状况，为投资决策提供有力支持。本文将详细介绍如何使用Python爬虫技术抓取全球公司财报数据，并进行财务健康分析。二、爬虫环境搭建在开始爬取数据之前，我们需要先搭建好P
Python 正则表达式超详细解析：从基础到精通 2201_75491841 python 正则表达式开发语言
Python正则表达式超详细解析：从基础到精通一、引言在Python编程的广阔领域中，文本处理占据着极为重要的地位。而正则表达式，作为Python处理文本的强大工具，能够帮助开发者高效地完成诸如查找、替换、提取特定模式字符串等复杂任务。无论是在数据清洗、网页爬虫，还是日志分析、自然语言处理等应用场景中，正则表达式都展现出了无可比拟的优势。本文将深入且全面地剖析Python正则表达式，从最基础的概念
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
逆向爬虫-筑基篇-第二层-壹-计算机网络和因特网-008 蓝花楹下逆向爬虫计算机网络网络
第二层网络初探计算机网络和因特网计算机网络与因特网之史分组交换之兴：1961-1972昔时，电话网为天下通信之主宰，其以电路交换之术，使语音恒速传于发收之间。然至20世纪60年代，计算机之重要日增，分时计算机亦现于世。彼时，智者思虑如何将计算机相连，使地理分布之用户共享其能。用户之流量，多具突发之性，如发一令于远机，继而静待其应，或思其答。当此之时，天下有三组智者，各自发明分组交换之术，以代电路交
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
Python 爬虫实战：舞台剧与演出信息获取西攻城狮北 python 爬虫开发语言
作为一名对文化艺术活动和数据获取感兴趣的内容创作者，我决定利用Python爬虫技术抓取舞台剧与演出信息。这对于文艺爱好者、文化活动组织者以及相关研究人员来说，是一个极具价值的探索。一、项目背景舞台剧和各类演出活动丰富了人们的精神文化生活。许多城市都有专业的演出场馆，如国家大剧院、上海大剧院等，它们会定期发布演出信息。通过爬虫技术，我们可以自动化地获取这些演出信息，方便用户查询和分析。二、技术选型在
AsyncHttpClient使用说明书有梦想的攻城狮 netty学习专栏 Java asynchttpclient 异步处理 netty
[[toc]]AsyncHttpClient（AHC）是一个高性能、异步的HTTP客户端库，广泛用于Java和Scala应用中，特别适合处理高并发、非阻塞的HTTP请求。它基于Netty或Java原生的异步HTTP客户端实现，支持HTTP/1.1和HTTP/2协议，适用于微服务、API调用、爬虫等场景。1.核心特性特性说明异步非阻塞基于事件驱动模型，避免线程阻塞，支持高并发（如每秒数千请求）。HT
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
探秘知乎数据抓取神器 —— zhihu-spider 丁慧湘Gwynne
探秘知乎数据抓取神器——zhihu-spider项目地址:https://gitcode.com/gh_mirrors/zh/zhihu-spider在知识的海洋中畅游，每一份数据都可能成为智慧的火花。今天，我们来一起探索一个专为知乎设计的数据爬虫工具——zhihu-spider，它是由计算机科学研究生MorganZhang精心打造的开源宝藏。项目介绍zhihu-spider，正如其名，是一个针对
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
JavaScript反爬技术解析与应对不做超级小白 web逆向知识碎片 web前端 javascript 开发语言 ecmascript
JavaScript反爬技术解析与应对前言在当今Web爬虫与数据抓取的生态环境中，网站运营方日益关注数据安全与隐私保护，因此逐步采用多种反爬技术来限制非授权访问。本文从JavaScript角度出发，深入剖析主流反爬策略的技术原理，并探讨相应的绕过方案，以期为研究者和开发者提供系统性的理解与实践指导。1.JavaScript反爬技术概述1.1右键禁用与开发者工具防护部分网站采用JavaScript拦
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
网络安全爬虫全解析 Hacker_LaoYi 爬虫 web安全网络
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
用Python爬虫获取AliExpress商品信息：item_search API接口实战指南 JelenaAPI小小爬虫 Python API python 爬虫开发语言
引言在全球化电商的浪潮中，数据的力量不容小觑。对于电商分析师、市场研究者以及在线商家而言，能够快速获取商品信息是至关重要的。AliExpress作为全球知名的跨境电商平台，提供了丰富的商品数据。本文将介绍如何使用Python爬虫结合item_searchAPI接口，按关键字搜索并获取AliExpress上的商品信息。一、为什么选择Python爬虫Python因其简洁的语法和强大的库支持，成为编写爬
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
使用 Selenium 控制现有 Edge 窗口以规避爬虫检测秋叶原の黑猫数据库
在网络爬虫开发中，网站的防爬机制常常会检测自动化工具（如Selenium）启动的浏览器实例。为了绕过这种检测，一种有效的方法是利用Selenium连接到手动打开的现有浏览器窗口，而不是每次都启动一个新的实例。本文将详细介绍如何使用Selenium控制现有的MicrosoftEdge浏览器窗口，并结合代码示例展示实现过程。1.背景介绍：为什么需要控制现有窗口？传统的Selenium脚本会通过WebD
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
使用Java爬虫按关键字搜索1688商品小爬虫程序猿 java 爬虫开发语言
在电商领域，获取1688商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。1688作为国内领先的B2B电商平台，提供了丰富的商品数据。虽然1688开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索1688商品，并提供详细的代码示例。一、准备工作1.Java开发环境确保你的Java开发环境已经安装了以下必
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
wooyun知识库爬虫（自动整理保存为pdf）大囚长编程人生黑客帝国 spider python
#!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
数据分析实战：Shopee虾皮网销售数据分析 harvensage 数据分析数据分析数据挖掘
一、背景目标Shopee（虾皮网）是东南亚电商平台，覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场，触达超10亿消费者！2023年Shopee总订单量达82亿，23年Q4总订单数同比增长46%！分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。任务要求任务要求：从数据中获取在2023年5月上市的产品。使用问题1
批量获取虾皮shopee商品详情信息爬虫 a6229203 爬虫数据库前端
每天100万详情联系736131417v:IpAnt_Proxy在当今的电子商务环境中，数据是至关重要的。对于电商平台的商家和开发者来说，获取商品详情信息是他们日常工作的关键部分。虾皮Shopee作为东南亚最大的电商平台，其商品信息对于商家和开发者来说具有极高的价值。本文将分享如何通过API批量获取虾皮Shopee的商品详情信息，并提供测试代码，让您轻松上手。一、了解虾皮ShopeeAPI虾皮Sh
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1