好奇养活小猫

爬虫入门到精通_基础篇2(Requests库_get请求,POST请求,文件上传,获取cookie,会话维持,证书验证, 代理设置,超时设置,认证设置,异常处理)

1 什么是Requests

Requests是用Python语言编写，基于urllib，采用Apache2 Licensed开源协议的HTTP库。
它比urllib更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。
一句话——python实现的简单易用的HTTP库。

2 requests

1.安装

pip3 install requests

2.实例引入

import requests

response = requests.get('https://www.baidu.com')
print(type(response))
print(response.status_code)
print(type(response.text))
print(response.text)
print(response.cookies)

3.各种请求方式

import requests

requests.post('http://httpbin.org/post')
requests.put('http://httpbin.org/put')
requests.delete('http://httpbin.org/delete')
requests.head('http://httpbin.org/get')
requests.options('http://httpbin.org/get')

我们执行以上命令后，可以在这个网址进行验证：
http://httpbin.org 这可以作为一个测试网址，它可以反馈一些我们请求时的信息。例如：

可以查看我们请求时的ip地址。

get请求

基本写法

import requests

response=requests.get('http://httpbin.org/get')#用get方式发送请求并获得响应
print(response.text)#用text查看响应内容

当前的origin就是本机的IP，如果频繁用本机的IP来爬取数据，就会被服务器封掉。

带参数get

import requests

response=requests.get('http://httpbin.org/get?name=zhuzhu&age=23')
#将参数拼接到url后面，用问号分隔，参数间用&来分隔
print(response.text)

可以看到返回的args信息中包含了我们的get参数。但是这种方法使用得不是很方便，使用字典

带参数get（字典）

import requests

data = {
    'name': 'zhuzhu',
    'age': 23
}
response = requests.get('http://httpbin.org/get', params=data)
# 用字典的形式传递给params参数，不需要自己写url编码
print(response.text)

结果一样

解析json

import requests
import json

response = requests.get("http://httpbin.org/get")
print(type(response.text))
print(json.loads(response.text))
print(response.json())  # 把返回结果编码成一个json对象
print(type(response.json()))

json.loads()和response.json()结果一样。
这个方法在返回一些AJEX请求时是比较常用的。

获取二进制数据

在下载一些内容（图片、视频）的时候常用的一个方法：response.content

import requests

response = requests.get("https://github.com/favicon.ico")
print(type(response.text), type(response.content))
print(response.text)
print(response.content)  # 可以使用content属性来获取二进制内容

text的类型是string，content的内容是bytes(二进制形式)。
本地获取它的二进制内容，现只需要写入文件：

import requests

response = requests.get("https://github.com/favicon.ico")
with open('favicon.ico', 'wb') as f:
    f.write(response.content)
    f.close()

添加headers

请求不加headers，会被禁掉或出现服务器错误,比如爬取知乎上的数据，但是不加headers,，会报错或出现乱码(中文不显示)。
因为知乎是要识别你的浏览器信息的，加入headers（做一个浏览器的伪装），需要向get方法传入headers参数：

import requests

headers = {
    'User-Agent': 'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)AppleWebKit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36'
}
response = requests.get("https://www.zhihu.com/explore", headers=headers)
print(response.text)

基本POST请求

带参数post（字典）

import requests

data={'name':'zhuzhu','age':'23'}
response=requests.post("http://httpbin.org/post",data=data)
print(response.text)

添加headers

import requests

data = {'name': 'zhuzhu', 'age': '23'}
headers = {
    'User-Agent': 'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)AppleWebKit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36'
}
response = requests.post("http://httpbin.org/post", data=data, headers=headers)
print(response.json())

4.响应

response属性

import requests

response = requests.get("http://www.baidu.com")
print(type(response.status_code), response.status_code)  # 状态码
print(type(response.headers), response.headers)
print(type(response.cookies), response.cookies)
print(type(response.url), response.url)
print(type(response.history), response.history)

状态码

100: (‘continue’, ),
101: (‘switching_protocols’,),
102: (‘processing’,),
103: (‘checkpoint’,),
122: (‘uri_too_long’, ‘request_uri_too_long’),

200: (‘ok’, ‘okay’, ‘all_ok’, ‘all_okay’, ‘all_good’, ‘\o/ ’, ‘✓’),
201: (‘created’,),
202: (‘accepted’,),
203: (‘non_authoritative_info’, ‘non_authoritative_information’),
204: (‘no_content’,),
205: (‘reset_content’, ‘reset’),
206: (‘partial_content’, ‘partial’),
207: (‘multi_status’, ‘multiple_status’, ‘multi_stati’, ‘multiple_stati’),
208: (‘already_reported’,),
226: (‘im_used’,),

Redirection.
300: (‘multiple_choices’,),
301: (‘moved_permanently’, ‘moved’, ‘\o-’),
302: (‘found’,),
303: (‘see_other’, ‘other’),
304: (‘not_modified’,),
305: (‘use_proxy’,),
306: (‘switch_proxy’,),
307: (‘temporary_redirect’, ‘temporary_moved’, ‘temporary’),
308: (‘permanent_redirect’,‘resume_incomplete’, ‘resume’, ),  # These 2 to be removed in 3.0

Client Error.
400: (‘bad_request’, ‘bad’),
401: (‘unauthorized’,),
402: (‘payment_required’, ‘payment’),
403: (‘forbidden’,),
404: (‘not_found’, ‘-o-’),
405: (‘method_not_allowed’, ‘not_allowed’),
406: (‘not_acceptable’,),
407: (‘proxy_authentication_required’, ‘proxy_auth’, ‘proxy_authentication’),
408: (‘request_timeout’, ‘timeout’),
409: (‘conflict’,),
410: (‘gone’,),
411: (‘length_required’,),
412: (‘precondition_failed’, ‘precondition’),
413: (‘request_entity_too_large’,),
414: (‘request_uri_too_large’,),
415: (‘unsupported_media_type’, ‘unsupported_media’, ‘media_type’),
416: (‘requested_range_not_satisfiable’, ‘requested_range’, ‘range_not_satisfiable’),
417: (‘expectation_failed’,),
418: (‘im_a_teapot’, ‘teapot’, ‘i_am_a_teapot’),
421: (‘misdirected_request’,),
422: (‘unprocessable_entity’, ‘unprocessable’),
423: (‘locked’,),
424: (‘failed_dependency’, ‘dependency’),
425: (‘unordered_collection’, ‘unordered’),
426: (‘upgrade_required’, ‘upgrade’),
428: (‘precondition_required’, ‘precondition’),
429: (‘too_many_requests’, ‘too_many’),
431: (‘header_fields_too_large’, ‘fields_too_large’),
444: (‘no_response’, ‘none’),
449: (‘retry_with’, ‘retry’),
450: (‘blocked_by_windows_parental_controls’, ‘parental_controls’),
451: (‘unavailable_for_legal_reasons’, ‘legal_reasons’),
499: (‘client_closed_request’,),

Server Error.
500: (‘internal_server_error’, ‘server_error’, ‘ /o\’, ‘✗’),
501: (‘not_implemented’,),
502: (‘bad_gateway’,),
503: (‘service_unavailable’, ‘unavailable’),
504: (‘gateway_timeout’,),
505: (‘http_version_not_supported’, ‘http_version’),
506: (‘variant_also_negotiates’,),
507: (‘insufficient_storage’,),
509: (‘bandwidth_limit_exceeded’, ‘bandwidth’),
510: (‘not_extended’,),
511: (‘network_authentication_required’, ‘network_auth’, ‘network_authentication’),

状态码判断

有以下两种判断方式，效果一样

import requests

response=requests.get("http://www.baidu.com")
# 第一种方式，直接用数字
exit() if not response.status_code==200 else print("Requests Successfully")

# 另一种写法就是把数字200换位相应的字符串内容
exit() if not response.status_code==requests.codes.ok else print("Requests Successfully")

5.高级操作

文件上传

通过files参数传入post方法中，实现文件的上传

import requests

files = {'file': open('favicon.ico', 'rb')}
# 通过files参数传入post方法中，实现文件的上传
response = requests.post("http://httpbin.org/post", files=files)
print(response.text)

获取cookie

使用response.cookies可以打印出cookie。
实际上cookies是一个列表的形式，可以用for循环把每一个cookie取出来并且打印其key-value：

import requests

response = requests.get("http://www.baidu.com")
print(response.cookies)
for key, value in response.cookies.items():
    print(key + '=' + value)

会话维持

实现“模拟登录”的功能。

import requests

requests.get('http://httpbin.org/cookies/set/number/123456789')
# 通过cookies/set方法来设置cookie
response = requests.get('http://httpbin.org/cookies')
print(response.text)

cookies为空，因为上面那段代码中发起了两次get请求，相当于两个浏览器，相互独立，所以第二次get并不能得到第一次的cookie。
可以通过声明Session对象来发起两次get请求，视为一个浏览器中进行的操作：

import requests

s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
# 通过cookies/set方法来设置cookie
response = s.get('http://httpbin.org/cookies')
print(response.text)

用来模拟一个登录会话并维持之，可以获取登录后的页面。

证书验证

如果我们要爬取的是一个https协议的网站，那么网站首先会检查证书是否是合法的，若非法，会直接抛出SSLError错误。如果要避免这种错误的话，可以把这个参数：verify设置为False就可以了（默认是True。
未设置的,抛出了SSLError错误：

import requests
response=requests.get('https://www.12306.cn')
print(response.status_code)

设置过的,返回了200的状态码，说明这个请求是正常的，没有进行证书认证:

import requests

response=requests.get('https://www.12306.cn',verify=False)#把verify参数置否
print(response.status_code)

仍然会有警告信息，提示你最好加上证书验证。那么怎么消除这个警告信息呢？
可以从原生包中导入urllib3并使用其中的禁用警告这个方法:

import requests
from requests.packages import urllib3

urllib3.disable_warnings()  # 禁用警告信息
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

手动添加证书,通过cert来指定本地证书:

import requests

response=requests.get('https://www.12306.cn',cert=('/path/server.crt','/path/key'))
print(response.status_code)

server.crt和key为本地证书

代理设置

可以通过字典形式构造一个参数，字典里是你已经开通的代理ip。再把参数传入get方法即可。

import requests

proxies = {
    "http": "http://127.0.0.1:9743",
    "https": "https://127.0.0.1:9743"
}
response = requests.get("https://www.taobao.com", proxies=proxies)
print(response.status_code)

代理需要用户名和密码：
代理的url前面直接传一个user：password，后面加个@符号

proxies={
	"http":"http://uesr:[email protected]:9743/",	
}

代理方式不是https，而是一个socks类型：
安装：

pip3 install request[socks]

使用socks代理：

import requests

proxies={
	"http":"sock5://127.0.0.1:9743",
	"https":"socks5://127.0.0.1:9743"
}
response=requests.get("https://www.taobao.com",proxies=proxies)
print(response.status_code)

超时设置

import requests

response=requests.get("https://www.taobao.com",timeout=1)
#设置一个时间限制，必须在1秒内得到应答
print(response.status_code)

时间超出了限制，就会抛出异常，需要获取异常：

import requests
from requests.exceptions import ReadTimeout

try:
    response = requests.get("https://httpbin.org/get", timeout=0.5)
    print(response.status_code)
except ReadTimeout:
    print('Timeout')

认证设置

有的网站在访问时需要输入用户名和密码，输入之后才能看到网站的内容，否则，返回401参数（请求被禁止。
如果遇到这种网站，我们可以通过auth参数，把用户名和密码传入。

import requests
from requests.auth import HTTPBasicAuth

r = requests.get('http://120.27.34.24:9001', auth=HTTPBasicAuth('user', '123'))
# 也可以直接auth
r1 = requests.get('http://120.27.34.24:9001', auth=('user', '123'))
# 通过auth参数传入。
print(r.status_code)

异常处理

异常处理的部分还是比较重要的，它可以保证你的爬虫不间断地运行。
原则还是先捕获子类异常，再捕捉父类异常（RequestException）,可以查看reuqests文档的exception查看。

import requests
from requests.exceptions import ReadTimeout,HTTPError,RequestException
try:
	response=requests.get('http://httpbin.org/get',timeout=0.5)
	print(response.status_code)
except ReadTimeout:#捕获超时异常
	print('Timeout')
except HTTPError:#捕获HTTP异常
	print('Http error')
except ConnectionError:#捕获连接异常
	print('Connection error')
except RequestException:#捕获父类异常
	print('Error')

Python 爬虫实战：在马蜂窝抓取旅游攻略，打造个性化出行指南西攻城狮北 python 爬虫旅游开发语言实战案例
一、引言二、准备工作（一）安装必要的库（二）分析网页结构三、抓取攻略列表信息（一）发送请求获取网页内容（二）解析网页提取攻略信息（三）整合代码获取攻略列表四、抓取单个攻略详情信息（一）发送请求获取攻略详情页面内容（二）解析网页提取攻略详情信息（三）整合代码获取攻略详情五、数据存储（一）存储到CSV文件（二）存储到数据库（以SQLite为例）六、注意事项（一）遵守法律法规和平台规定（二）应对反爬虫机
爬虫守则--写爬虫，不犯法 Erfec
玩爬虫，技术当然是中立的，浏览了因为爬虫被捕入狱的案例，自己总结了如下爬虫守则，不吃牢饭！1、爬虫速度不要太快，不要给对方服务器造成太大压力2、爬虫不要伪造VIP，绕过对方身份验证，你可以真的买一个VIP做自动化，这没问题3、公民个人信息不要去碰4、爬取的数据不能用于盈利5、爬虫是模拟人，不要做人不能做到的事情
Python程序员爬取大量视频资源，最终面临刑期2年的惩罚！夜色恬静一人 python 爬虫开发语言 Python
Python程序员爬取大量视频资源，最终面临刑期2年的惩罚！近日，一名Python程序员因为涉嫌大规模爬取视频资源而被判处2年有期徒刑。这个案例引起了广泛的关注，也引发了对于网络爬虫合法性和道德问题的讨论。据了解，这名程序员利用Python编程语言开发了一套自动化爬虫工具，通过抓取网站上的视频链接，批量下载了超过13万部视频资源。这些资源包括电影、电视剧以及其他各种类型的视频内容。然而，尽管他成功
Python 爬虫实战案例 - 获取拉勾网招聘职位信息西攻城狮北 python 爬虫拉勾网招聘信息
引言拉勾网，作为互联网招聘领域的佼佼者，汇聚了海量且多样的职位招聘信息。这些信息涵盖了从新兴科技领域到传统行业转型所需的各类岗位，无论是初出茅庐的应届生，还是经验丰富的职场老手，都能在其中探寻到机遇。对于求职者而言，能够快速、全面地掌握招聘职位的详细情况，如薪资待遇的高低、工作地点的便利性、职位描述所要求的技能与职责等，无疑能在求职路上抢占先机。而企业方，通过分析同行业职位信息的发布趋势、薪资水平
Python从0到100（八十六）：神经网络-ShuffleNet通道混合轻量级网络的深入介绍是Dream呀 Python python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python爬虫与窗口实现翻译小工具（仅限学习交流）纵码奔腾 python
Python爬虫与窗口实现翻译小工具（仅限学习交流）在工作中，遇到一个不懂的单词时，就会去网页找对应的翻译，我们可以用Python爬虫与窗口配合，制作一个简易的翻译小工具，不需要打开网页，自动把翻译结果显示出来。整个过程比较简单。#ThisisasamplePythonscript.#PressShift+F10toexecuteitorreplaceitwithyourcode.#PressDo
Python爬虫基础知识：从零开始的抓取艺术 egzosn python 爬虫开发语言
在大数据时代，网络数据成为宝贵的资源，而Python爬虫则是获取这些数据的重要工具。本文旨在为初学者提供一份Python爬虫的入门指南，涵盖基础知识、常用库介绍、实战案例以及注意事项，帮助你快速上手，成为一名合格的“网络矿工”。一、Python爬虫概述1.1什么是爬虫？爬虫，也称为网络爬虫或蜘蛛，是一种自动抓取互联网信息的程序。它通过模拟人类浏览网页的行为，自动地遍历和抓取网络上的数据，常用于数据
Python的旅游网站数据爬虫分析与可视化大屏展示论文 IT实战课堂—x小凡同学 Python毕业设计项目 python 旅游爬虫
摘要随着互联网技术的迅猛发展，旅游行业也逐渐实现了数字化转型。旅游网站作为游客获取旅游信息的主要渠道，蕴含着丰富的旅游数据资源。本文旨在通过Python技术，实现旅游网站数据的爬虫分析，并利用可视化大屏展示分析结果，为旅游行业的数据驱动决策提供支持。关键词：Python；旅游网站；数据爬虫；可视化大屏一、引言旅游行业作为服务业的重要组成部分，其发展水平直接关系到国家经济的繁荣和人民生活的质量。随着
python爬虫项目（八十二）：爬取旅游攻略网站的用户评论，构建旅游景点推荐系统人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫旅游开发语言金融信息可视化
构建一个旅游景点推荐系统，可以帮助用户根据他们的偏好和其他用户的评论来选择旅行目的地。在这个项目中，我们将通过爬取旅游攻略网站的用户评论数据，分析这些数据，并使用协同过滤等推荐算法来构建一个基本的推荐系统。本文将详细描述整个过程，包括爬虫部分和推荐系统的构建。目录文章大纲一、项目背景与目标项目的目标：二、目标网站分析与数据需求数据需求：目标网站：三、爬虫技术选型安装所需库四、使用Scrapy爬取用
网络爬虫爬取动态网页数据 db_sqy_2012 爬虫
目录一、导学与指南豆瓣单页分析豆瓣多页输出二、理论学习1.抓取动态网页的技术2.Selenium和WebDriver的安装与配置3.Selenium的基本使用三、小结一、导学与指南豆瓣单页分析importjsonimportrequests#基础URL不顶事了url_base="https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%
python 爬虫如何爬取动态生成的网页内容骗鬼 python 爬虫开发语言
---好的方法很多，我们先掌握一种---【背景】对于静态页面，我们通常可以通过python的request.get()库获取到页面的信息，但是对于动态生成的网页信息来说，我们通过request.get()获取不到。【方法】我们可以通过python第三方库selenium来配合实现信息获取采取方案：python+request+selenium+BeautifulSoup我们拿纵横中文网的小说采集举
Python从0到100（四十九）：数据库设计及Django ORM使用是Dream呀 python 数据库 django
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
爬虫实践--爬取学科排名数据青柠小卖部爬虫
简介在当今这个信息爆炸的时代，数据的获取和分析变得越来越重要。作为一名数据分析师，我经常需要从各种网站抓取数据来进行研究。最近，我接手了一个项目，需要抓取上海软科排名的数据。上海软科排名是一个权威的大学排名，包含了全球大学的学术排名信息。本文将详细介绍我如何使用Python编写爬虫程序来自动化抓取这些数据。环境准备在开始编码之前，我们需要准备以下环境和库：Python3.xrequests：用于发
基于requests库的爬虫实战京东商品信息爬取 Jerry104393 Python python 爬虫正则表达式
一，功能描述：目标：从京东商城爬取商品信息，输出商品名称和价格二、技术路线：requests-re-bs4三，程序设计结构：1.爬取网页内容：getHTMLText()2.提取信息到合适的数据结构中:parsePage()3.利用数据结构展示并输出:printGoodsList()四、体会：本次实验遇到的最大技术难题就是怎么剔除HTML标签（查看源代码发现可以用i和em两个标签精确定位），后来查看
【爬虫】针对FingerprintJS反爬，selenium破解策略 steamedobun 项目管理爬虫爬虫 selenium 测试工具
目录FingerprintJS原理概述Selenium基础与应对思路代码实现实战（结合Selenium和UndetectedChromedriver绕过FingerprintJS）Canvas指纹随机化FingerprintJS原理概述FingerprintJS主要通过收集浏览器的各种特征信息来生成独一无二的指纹，这些信息包括但不限于：浏览器版本信息：不同浏览器版本在处理网页元素、执行JavaSc
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
Python 爬虫实战：从喜马拉雅爬取有声书播放量，挖掘热门音频内容西攻城狮北 python 爬虫音视频实战案例
目录引言一、项目背景与需求分析1.1喜马拉雅平台的特点1.2数据爬取目标二、技术选型与工具准备2.1技术选型2.2工具准备三、爬取有声书播放量数据3.1获取音频列表3.2获取音频详情四、数据存储五、数据处理与分析5.1数据清洗5.2数据分析六、可视化展示七、总结与展望引言喜马拉雅作为国内知名的音频分享平台，拥有海量的有声书、广播剧、音乐等内容。通过爬取喜马拉雅上的有声书播放量数据，我们可以分析哪些
通过爬虫方式实现视频号助手发布视频 sh_moranliunian 蜘蛛侠 python 网络协议爬虫网络爬虫后端
1、将真实的cookie贴到解压后目录中cookie.txt文件里，修改python代码里的user_agent和video_path,cover_path等变量的值，最后运行python脚本即可；2、运行之前根据import提示安装一些常见依赖，比如requests等；3、2025年1月份最新版；代码如下：importjsonimporttimeimportrequestsimportosimp
Python 库的记录 weixin_40895135 python
GitHub-jobbole/awesome-python-cn:Python资源大全中文版，内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单的Python版本管理工具。Vex–可以在虚拟环境中执行命令。vir
Python抖音爬虫 yzx991013 python基础学习 python 爬虫开发语言
代码：#导入自动化模块的安装：需要安装pipinstallDrissionPagefromDrissionPageimportChromiumPage#导入时间转换模块fromdatetimeimportdatetime#导入csv模块，用于操作CSV文件importcsv#导入格式化输出模块frompprintimportpprint#使用with语句管理文件资源，自动关闭文件withopen(
03、爬虫数据解析-bs4解析/xpath解析奔向sj 爬虫学习爬虫
一、bs4解析使用bs4解析，需要了解一些html的知识，了解其中一些标签。安装：pipinstallbs4导入：frombs4importBeautifulSoup1、使用方式1、把页面源代码交给BeautifulSoup进行处理，生成bs对象2、从bs对象中查找数据（1）find(标签，属性=值)：找第一个（2）findall(标签，属性=值)：找全部的2、实战：拿到上海菜价网蔬菜价格1、思路
python websocket爬虫_python爬虫----爬取阿里数据银行websocket接口 weixin_39722917 python websocket爬虫
业务需求：爬取阿里品牌数据银行的自定义模块==>>>人群透视==>>>查看报告==>>数据最终获取页面：页面获取情况如下：绿色的就是我们需要模拟的请求，红色朝下的就是请求对应的数据，通过rid参数来找寻对应请求和数据，这个rid和时间戳很类似，没错这就是一个13位的时间戳，和随机数组合而成的：randomID=str(int(time.time()*1000))+str(self.count).z
python3简单爬虫 (爬取各个网站上的图片)_Python简单爬取图片实例神楽坂有木 python3简单爬虫 (爬取各个网站上的图片)
都知道Python的语法很简单易上手，也很适合拿来做爬虫等等，这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。效果就像这样自动爬取下载图片到本地：代码：其实很简单，我们直接看下整体的代码：#coding=utf-8importurllibimportredefgetHtml(url):page=urllib.urlopen(url)html=page.read()returnhtmldefg
使用Python爬虫获取1688店铺所有商品信息的完整指南不会玩技术的技术girl Python API python 爬虫开发语言
在当今的电商时代，获取电商平台的商品信息对于市场分析、竞争对手研究以及数据挖掘等任务至关重要。1688作为中国领先的B2B电商平台，拥有海量的商品和商家数据。通过Python爬虫技术结合1688的API接口，我们可以高效地获取店铺的所有商品信息。本文将详细介绍如何实现这一目标。一、1688API接口简介1688开放平台提供了丰富的API接口，允许开发者通过合法的方式获取商品信息、店铺信息等数据。其
Python爬虫系列：爬取小说并写入txt文件_python爬虫爬取小说保存txt 2301_82244158 程序员 python 爬虫开发语言
哈喽，哈喽~都说手机自带的浏览器是看小说最好的一个APP，不须要下载任何软件，直接百度就ok了。但是小编还是想说，如果没有网，度娘还是度娘吗？能把小说下载成一个**.txt文件看**不是更香吗？这能难倒小编吗？坚决不能滴。于是乎，自己动手丰衣足食，Python就是万能的好吧。概要：程序语言：python第三方库：requests，parsel最后Python崛起并且风靡，因为优点多、应用领域广、被
Python爬虫获取custom-1688自定义API操作接口不会玩技术的技术girl Python API 1688API python 爬虫开发语言
一、引言在电子商务领域，1688作为国内领先的B2B平台，提供了丰富的API接口，允许开发者获取商品信息、店铺信息等。其中，custom接口允许开发者进行自定义操作，获取特定的数据。本文将详细介绍如何使用Python调用1688的custom接口，并对获取到的数据进行分析和应用。二、准备工作注册1688开放平台账号访问1688开放平台官网，注册一个账号并完成相关认证。这是获取API接口权限的前提。
python 自动填表单不用webdriver_用python-webdriver实现自动填表 weixin_39747293 python 自动填表单不用webdriver
在日常工作中常常需要重复填写某些表单，如果人工完成，费时费力，而且网络延迟令人十分崩溃。如果能够用程序实现自动填表，效率可以提高一倍以上，并且能够移植到多台计算机，进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具，它能完全模拟浏览器的操作，无需处理复杂的request、post，对爬虫初学者十分友好。一、环境配置python3.6+selenium库+
网络协议&爬虫简介 SSSCAESAR
文章目录端口通讯协议http网络模型http的请求和响应爬虫介绍爬虫的用处企业获取数据的方式端口指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口。面向连接服务TCP协议和无连接服务UDP协议使用16bits端口号来表示和区别网络中的不同应用程序，网络层协议IP使用特定的协议号（TCP6，UDP17）来表示和区别传输层协议。分为3大类
进阶之路：从传统编程到AI大模型与Prompt驱动的爬虫技术大模型老炮人工智能 prompt 爬虫语言模型大模型学习 AI大模型
前言爬虫相信很多人都对此有所了解，它主要依靠编写代码实现对网页结构的解析，通过模拟浏览器行为获取目标数据！随着人工智能技术的发展，LLM大模型的出现为爬虫技术带来了新的思路。与传统的编程模式不同，使用AI大模型+prompt可以显著提高程序员的编程效率。通过结合人工智能和自然语言处理技术，开发者可以更加高效地编写爬虫代码，并实现对网页内容的智能解析和提取。前置内容下面我将通过爬取豆瓣电影top25
正在更新丨豆瓣电影详细数据的采集与可视化分析（scrapy+mysql+matplotlib+flask） Want595 Python数据分析 scrapy mysql matplotlib
文章目录豆瓣电影详细数据的采集与可视化分析（scrapy+mysql+matplotlib+flask）写在前面数据采集0.注意事项1.创建Scrapy项目`douban2025`2.用`PyCharm`打开项目3.创建爬虫脚本`douban.py`4.修改`items.py`的代码5.修改`pipelines.py`代码6.修改`settings.py`代码7.启动`douban2025`项目8
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

爬虫入门到精通_基础篇2(Requests库_get请求,POST请求,文件上传,获取cookie,会话维持,证书验证, 代理设置,超时设置,认证设置,异常处理)

1 什么是Requests

2 requests

1.安装

2.实例引入

3.各种请求方式

get请求

基本写法

带参数get

带参数get（字典）

解析json

获取二进制数据

添加headers

基本POST请求

带参数post（字典）

添加headers

4.响应

response属性

状态码

状态码判断

5.高级操作

文件上传

获取cookie

会话维持

证书验证

代理设置

超时设置

认证设置

异常处理

你可能感兴趣的:(爬虫)