python爬虫 requests-html的使用

一介绍

　　Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。

# 官网解释
'''
This library intends to make parsing HTML (e.g. scraping the web) as simple and intuitive as possible.
If you're interested in financially supporting Kenneth Reitz open source, consider visiting this link. Your support helps tremendously with sustainability of motivation, as Open Source is no longer part of my day job.
When using this library you automatically get:

Full JavaScript support!
CSS Selectors (a.k.a jQuery-style, thanks to PyQuery).
XPath Selectors, for the faint at heart.
Mocked user-agent (like a real web browser).
Automatic following of redirects.
Connection–pooling and cookie persistence.
The Requests experience you know and love, with magical parsing abilities.
Async Support
'''

官网告诉我们，它比原来的requests模块更加强大，并且为我们提供了一些新的功能!

支持JavaScript
支持CSS选择器（又名jQuery风格, 感谢PyQuery）
支持Xpath选择器
可自定义模拟User-Agent（模拟得更像真正的web浏览器）
自动追踪重定向
连接池与cookie持久化
支持异步请求

二安装

　　安装requests-html非常简单，一行命令即可做到。需要注意一点就是，requests-html只支持Python 3.6或以上的版本，所以使用老版本的Python的同学需要更新一下Python版本了。

# pip3 install requests-html

三如何使用requests-html？

　　在我们学爬虫程序的时候用得最多的请求库就是requests与urllib，但问题是这些包只给我们提供了如何去目标站点发送请求，然后获取响应数据，接着再利用bs4或xpath解析库才能提取我们需要的数据。

以往爬虫的请求与解析

import requests
from bs4 import BeautifulSoup
url = 'http://www.zuihaodaxue.cn/'
HEADERS = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36'
}
response = requests.get(url, headers=HEADERS)
response.encoding = 'gbk'
# print(response.status_code)
 print(response.text)

soup = BeautifulSoup(response.text, 'lxml')
# 获取最新的五则新闻
post_rankings = soup.find_all(name='article', attrs={"class": "post_ranking"})
# 循环打印新闻简介内容
for post_ranking in post_rankings:
new = post_ranking.find(name='div', attrs={"class": 'post_summary'})
print(new.text)

　　而在requests-html里面只需要一步就可以完成而且可以直接进行js渲染！requests的作者Kenneth Reitz 开发的requests-html 爬虫包是基于现有的框架 PyQuery、Requests、lxml、beautifulsoup4等库进行了二次封装，作者将Requests的简单,便捷,强大又做了一次升级。

　　requests-html和其他解析HTML库最大的不同点在于HTML解析库一般都是专用的，所以我们需要用另一个HTTP库先把网页下载下来，然后传给那些HTML解析库。而requests-html自带了这个功能，所以在爬取网页等方面非常方便。　　

1、基本使用

from requests_html import HTMLSession
# 获取请求对象
session = HTMLSession()
# 往新浪新闻主页发送get请求
sina = session.get('https://news.sina.com.cn/')
# print(sina.status_code)
sina.encoding = 'utf-8'
# 获取响应文本信息，与requests无区别
 print(sina.text)

2、获取链接（links与abolute_links）

links返回的结果

absolute_links返回的结果

from requests_html import HTMLSession
# 获取请求对象
session = HTMLSession()
# 往京东主页发送get请求
jd = session.get('https://jd.com/')
# 得到京东主页所有的链接，返回的是一个set集合
print(jd.html.links)
print('*' * 1000)
# 若获取的链接中有相对路径，我们还可以通过absolute_links获取所有绝对链接
print(jd.html.absolute_links)

3、CSS选择器与XPATH

　　request-html支持CSS选择器和XPATH两种语法来选取HTML元素。首先先来看看CSS选择器语法，它需要使用HTML的find函数来查找元素。

'''
　　CSS选择器 and XPATH
 　　1.通过css选择器选取一个Element对象
 　　2.获取一个Element对象内的文本内容
 　　3.获取一个Element对象的所有attributes
 　　 4.渲染出一个Element对象的HTML内容
 　　5.获取Element对象内的特定子Element对象，返回列表
 　　6.在获取的页面中通过search查找文本
 　　 7.支持XPath
 　　 8.获取到只包含某些文本的Element对象
'''

from requests_html import HTMLSession
session = HTMLSession()
url = "https://www.qiushibaike.com/text/"
# 获取响应数据对象
obj = session.get(url)
# 1.通过css选择器选取一个Element对象
 获取id为content-left的div标签，并且返回一个对象
content = obj.html.find('div#content-left', first=True)
# 2.获取一个Element对象内的文本内容
 获取content内所有文本
print(content.text)
# 3.获取一个Element对象的所有attributes
 获取content内所有属性
print(content.attrs)
# 4.渲染出一个Element对象的完整的HTML内容
html = content.html
print(html)
# 5.获取Element对象内的指定的所有子Element对象，返回列表
a_s = content.find('a')
print(a_s)
print(len(a_s)) # 79
# 循环所有的a标签
for a in a_s:
# 获取a标签内所有属性的href属性 并拼接
href = a.attrs['href']
if href.startswith('/'):
url = 'https://www.qiushibaike.com' + href
print(url)
# 6.在获取的页面中通过search查找文本
 {}大括号相当于正则的从头到后开始匹配，获取当中想要获取的数据
text = obj.html.search('把{}夹')[0] # 获取从 "把" 到 "夹" 字的所有内容
text = obj.html.search('把糗事{}夹')[0] # 获取从把子到夹字的所有内容
print(text)
print('*' * 1000)
# 7.支持XPath
a_s = obj.html.xpath('//a') # 获取html内所有的a标签
for a in a_s:
href = a.attrs['href']
#若是//开头的url都扔掉
if href.startswith('continue#若是/开头的都是相对路径)
 elif href.startswith('/')
 print('https://www.qiushibaike.com'+href)

# 8.获取到只包含某些文本的Element对象（containing）
 获取所有文本内容为幽默笑话大全_爆笑笑话_笑破你的肚子的搞笑段子 - 糗事百科 title标签
 注意: 文本内有空格也必须把空格带上
title = obj.html.find('title', containing='幽默笑话大全_爆笑笑话_笑破你的肚子的搞笑段子 - 糗事百科')
print(title)

四支持JavaScript

　　支持JavaScript是我觉得作者更新后最为牛逼的一个地方，但是需要在第一次执行render的时候下载chromeium，然后通过它来执行js代码。

1、render的使用

from requests_html import HTMLSession
session = HTMLSession()
url = 'http://www.win4000.com/'
obj = session.get(url)
obj.encoding = 'utf-8'
obj.html.render()

　　注意：第一次运行render()方法时，它会将Chromium下载到您的主目录中(例如~/.pyppeteer/)。这种情况只发生一次。

2、下载Chromeium问题

　　因为是从国外的站点下载几分钟才3%，实在是太慢了。所以我们需要通过国内的镜像去下载！需要做以下几步:

手动下载Chrome

先去国内源下载自己需要的版本，地址：https://npm.taobao.org/mirrors/chromium-browser-snapshots/

修改chromeium_downloader.py文件

下载后之后解压后，进入python安装目录下的\Lib\site-packages\pyppeteer目录, 并打开chromium_downloader.py文件。

# 找到自己的操作系统相应的配置位置
'''
chromiumExecutable = {
'linux': DOWNLOADS_FOLDER / REVISION / 'chrome-linux' / 'chrome',
'mac': (DOWNLOADS_FOLDER / REVISION / 'chrome-mac' / 'Chromium.app' /
'Contents' / 'MacOS' / 'Chromium'),
'win32': DOWNLOADS_FOLDER / REVISION / 'chrome-win32' / 'chrome.exe',
'win64': DOWNLOADS_FOLDER / REVISION / 'chrome-win32' / 'chrome.exe',
}
'''
from pyppeteer import __chromium_revision__, __pyppeteer_home__
DOWNLOADS_FOLDER = Path(pyppeteer_home) / 'local-chromium'
REVISION = os.environ.get('PYPPETEER_CHROMIUM_REVISION', chromium_revision)
# 打印这两个变量可以知道执行的驱动具体位置
print(DOWNLOADS_FOLDER)
print(REVISION)
'''
由上面可以知道：chromium路径是：C:\Users\Ray\AppData\Local\pyppeteer\pyppeteer\local-chromium\575458\chrome-win32\chrome.exe
所以自己建文件夹，然后一直到chrome-win32文件夹，把上面下载的chromium文件，拷贝到此目录下
'''

五自定义User-Agent

　　有些网站会使用User-Agent来识别客户端类型，有时候需要伪造UA来实现某些操作。如果查看文档的话会发现HTMLSession上的很多请求方法都有一个额外的参数**kwargs，这个参数用来向底层的请求传递额外参数。我们先向网站发送一个请求，看看返回的网站信息。

from requests_html import HTMLSession
# pprint可以把数据打印得更整齐
from pprint import pprint
import json
get_url = 'http://httpbin.org/get'
session = HTMLSession()
# 返回的是当前系统的headers信息
res = session.get(get_url)
pprint(json.loads(res.html.html))
# 可以在发送请求的时候更换user-agent
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'
post_url = 'http://httpbin.org/get'
res = session.get(post_url, headers={'user-agent': ua})
pprint(json.loads(res.html.html))# 如果你有需要可以在header中修改其他参数。

六模拟表单提交（POST）

　　HTMLSession封装了一整套的HTTP方法，包括get、post、delete等, 对应HTTP中各个方法。

# 表单登录
r = session.post('http://httpbin.org/post', data={'username': 'tank_jam', 'password': 'tank9527'})
pprint(json.loads(r.html.html))
''' # 打印结果
{'args': {},
 'data': '',
 'files': {},
 'form': {'password': 'tank9527', 'username': 'tank_jam'},
 'headers': {'Accept': '*/*',
    'Accept-Encoding': 'gzip, deflate',
    'Content-Length': '35',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Host': 'httpbin.org',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) '
       'AppleWebKit/603.3.8 (KHTML, like Gecko) '
       'Version/10.1.2 Safari/603.3.8'},
 'json': None,
 'origin': '112.65.61.109, 112.65.61.109',
 'url': 'https://httpbin.org/post'}
'''

七支持异步请求

　　requests-html内部就封装好了aynsc异步请求的功能，可以提高我们的爬虫效率。

from requests_html import AsyncHTMLSession
from requests_html import HTMLSession
import time
# 使用异步发送请求
async_session = AsyncHTMLSession()
async def get_baidu():
url = 'https://www.baidu.com/'
res = await async_session.get(url)
print(res.html.absolute_links)
async def get_sougou():
url = 'https://www.sogou.com/'
res = await async_session.get(url)
print(res.html.links)
start_time = time.time()
async_session.run(get_baidu, get_sougou)
print('耗时：', time.time() - start_time)
# 同步发送请求
session = HTMLSession()
start_time = time.time()
res = session.get('https://www.baidu.com/')
print(res.html.links)
res = session.get('https://www.sogou.com/')
print(res.html.absolute_links)
print('耗时：', time.time() - start_time)

1. 开始

Python 中可以进行网页解析的库有很多，常见的有 BeautifulSoup 和 lxml 等。在网上玩爬虫的文章通常都是介绍 BeautifulSoup 这个库，我平常也是常用这个库，最近用 Xpath 用得比较多，使用 BeautifulSoup 就不大习惯，很久之前就知道 Reitz 大神出了一个叫 Requests-HTML 的库，一直没有兴趣看，这回可算歹着机会用一下了。

使用 pip install requests-html安装，上手和 Reitz 的其他库一样，轻松简单：

 from requests_html import HTMLSession
 session = HTMLSession()
 
 r = session.get('https://www.python.org/jobs/')

这个库是在 requests 库上实现的，r 得到的结果是 Response 对象下面的一个子类，多个一个 html 的属性。所以 requests 库的响应对象可以进行什么操作，这个 r 也都可以。如果需要解析网页，直接获取响应对象的 html 属性：

r.html

2. 原理

不得不膜拜 Reitz 大神太会组装技术了。实际上 HTMLSession 是继承自 requests.Session 这个核心类，然后将 requests.Session 类里的 requests 方法改写，返回自己的一个 HTMLResponse 对象，这个类又是继承自 requests.Response,只是多加了一个 _from_response 的方法来构造实例：

class HTMLSession(requests.Session):
  # 重写 request 方法，返回 HTMLResponse 构造
  def request(self, *args, **kwargs) -> HTMLResponse:
   r = super(HTMLSession, self).request(*args, **kwargs)
   return HTMLResponse._from_response(r, self)

 class HTMLResponse(requests.Response):
 # 构造器
  @classmethod
  def _from_response(cls, response, session: Union['HTMLSession', 'AsyncHTMLSession']):
   html_r = cls(session=session)
   html_r.__dict__.update(response.__dict__)
   return html_r

之后在 HTMLResponse 里定义属性方法 html，就可以通过 html 属性访问了,实现也就是组装 PyQuery 来干。核心的解析类也大多是使用 PyQuery 和 lxml 来做解析，简化了名称，挺讨巧的。

3. 元素定位

元素定位可以选择两种方式：

css 选择器

css选择器
xpath

 # css 获取有多少个职位
 jobs = r.html.find("h1.call-to-action")
 # xpath 获取
 jobs = r.html.xpath("//h1[@class='call-to-action']")

方法名非常简单，符合 Python 优雅的风格，这里不妨对这两种方式简单的说明：

4. CSS 简单规则

标签名 h1
id 使用 #id 表示
class 使用 .class_name 表示
谓语表示：h1[prop=value]

5. Xpath简单规则

路径 // 或者 /
标签名
谓语 [@prop=value]
轴定位 名称::元素名[谓语]

定位到元素以后势必要获取元素里面的内容和属性相关数据，获取文本：

 jobs.text
 jobs.full_text

获取元素的属性：

 attrs = jobs.attrs
 value = attrs.get("key")

还可以通过模式来匹配对应的内容：

 ## 找某些内容匹配
 r.html.search("Python {}")
 r.html.search_all()

这个功能看起来比较鸡肋，可以深入研究优化一下，说不定能在 github 上混个提交。

6. 人性化操作

除了一些基础操作，这个库还提供了一些人性化的操作。比如一键获取网页的所有超链接，这对于整站爬虫应该是个福音，URL 管理比较方便：

 r.html.absolute_links
 r.html.links

内容页面通常都是分页的，一次抓取不了太多，这个库可以获取分页信息：

 print(r.html)
 # 比较一下
 for url in r.html:
  print(url)

结果如下：

# print(r.html)
 
 # for

通过迭代器实现了智能发现分页，这个迭代器里面会用一个叫 _next 的方法，贴一段源码感受下：

 def get_next():
 candidates = self.find('a', containing=next_symbol)
 
 for candidate in candidates:
 if candidate.attrs.get('href'):
 # Support 'next' rel (e.g. reddit).
 if 'next' in candidate.attrs.get('rel', []):
 return candidate.attrs['href']

通过查找 a 标签里面是否含有指定的文本来判断是不是有下一页，通常我们的下一页都会通过 下一页 或者 加载更多 来引导，他就是利用这个标志来进行判断。默认的以列表形式存在全局：['next', 'more', 'older']。我个人认为这种方式非常不灵活，几乎没有扩展性。感兴趣的可以往 github 上提交代码优化。

7. 加载 js

也许是考虑到了现在 js 的一些异步加载，这个库支持 js 运行时，官方说明如下：

Reloads the response in Chromium, and replaces HTML contentwith an updated version, with JavaScript executed.

使用非常简单，直接调用以下方法：

r.html.render()

第一次使用的时候会下载 Chromium，不过国内你懂的，自己想办法去下吧，就不要等它自己下载了。render 函数可以使用 js 脚本来操作页面，滚动操作单独做了参数。这对于上拉加载等新式页面是非常友好的。

8. 总结

Reitz 大神设计出来的东西还是一如既往的简单好用，自己不多做，大多用别人的东西组装，简化 api。真是够人性。不过有的地方还是优化空间，希望有兴趣和精力的童鞋去 github 上关注一下这个项目。

到此这篇关于python爬虫 requests-html的使用的文章就介绍到这了,更多相关python requests-html内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
前端实现埋点&监控 Cipher_Y 前端
前端实现埋点&监控实现埋点功能的意义主要体现在以下几个方面：数据采集：埋点是数据采集领域（尤其是用户行为数据采集领域）的术语，它针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。通过埋点，可以收集到用户在应用中的所有行为数据，例如页面浏览、按钮点击、表单提交等。数据分析：采集的数据可以帮助业务人员分析网站或者App的使用情况、用户行为习惯等，是后续建立用户画像、用户行为路径等数据产
chatgpt赋能python：Python怎么倒序列表 aijinglingchat ChatGpt python chatgpt 人工智能计算机
Python怎么倒序列表列表是Python中最常用的数据结构之一，但在实际使用时，有时需要将列表进行倒序排列。Python提供了多种方法来实现这个需求，本文将简要介绍这些方法以及它们的使用场景。方法1：使用reverse()函数使用列表的reverse()方法是Python中最简单直接的方法来倒序列表。该方法会将原列表倒置。lst=[1,2,3,4,5]lst.reverse()print(lst
qt读书笔记 mmmcu2004 QT qt 读书 translation 工作 action
QWidget::setToolTip()用于为Widget设置相应的tip文本。同样，QAction::setToolTip()为Action设置相应的tip文本；若没有显式的为Action设置tip文本,Action会自动的使用actiontext。setStatusTip()，该函数为Widget和Action添加statustip。QWidget::setWhatsThis()QWhats
C# 技术使用笔记：Asp.Net Core MVC 中控制器 Controllers 中返回数据使用详解 caifox菜狐狸 C#技术使用笔记 c#笔记 asp.net core ViewResult JsonResult Redirect 控制器
本文将深入探讨ASP.NETCoreMVC控制器中返回数据的多种方式，从基础的ViewResult到灵活的IActionResult，再到强大的ActionResult，我们将逐一剖析它们的使用场景、优缺点以及最佳实践。通过丰富的代码示例和详细的解释，帮助读者全面掌握控制器返回数据的技巧，从而提升开发效率，构建更加健壮和高效的Web应用程序。无论你是初学者还是有一定经验的开发者，本文都将为你提供有
java:实现设置窗体背景颜色为淡蓝色（附带源码） Katie。 Java 实战项目 java 信息可视化开发语言
一、项目简介在桌面应用开发中，窗体背景颜色作为界面设计的重要组成部分，不仅影响整体美观，还能传递特定的情感和品牌信息。本项目旨在使用JavaSwing简单实现将窗体背景颜色设置为淡蓝色效果。该示例展示了如何创建一个基本的JFrame，并通过调用其内容面板的setBackground()方法，设置背景颜色为淡蓝色（RGB值173,216,230）。通过本项目，初学者可以了解Swing基本组件的使用方
Java进阶——常用类及常用方法详解 1加1等于 Java java
本文将深入探讨Java常用类的核心知识点以及在日常工作中的使用场景。本文目录一、String类1.不可变性2.字符串常量池3.比较字符串二、日期时间常用类1.Java8引入2.时间计算三、Math数值处理四、Optional空值处理五、异常处理类六、枚举类一、String类1.不可变性String类是不可变的，这意味着一旦创建就不能被修改。在进行字符串拼接时，需要注意性能问题。//不推荐：会创建多
SpringBoot + Facade Pattern : 通过统一接口简化多模块业务 Java布道者 spring boot 外观模式后端
概述外观设计模式（FacadePattern）是一种常见的结构型设计模式，它的主要目的是简化复杂系统的使用。可以把它想象成一个“控制面板”或者“遥控器”，通过这个控制面板，用户可以轻松操作一个复杂的系统，而不需要关心系统内部是如何运作的。举个生活中的例子，想象一下，你家有一台多功能的家电，比如一台智能电视，它不仅能看电视，还能上网、播放视频、控制智能家居等等。对于电视的操作，你有遥控器，可以通过一
【设计模式】C++ 单例模式总结与最佳实践白码思 c++单例模式开发语言
1.单例模式简介单例模式（SingletonPattern）是软件开发中常见的设计模式之一，主要用于确保某个类只有一个实例，并提供一个全局访问点。常见的使用场景包括：日志管理：全局唯一的日志记录器。数据库连接池：防止创建多个数据库连接，提高性能。资源管理器：如线程池、驱动管理器等。2.单例模式的实现方式C++中实现单例模式的方式有多种，常见方式如下：2.1普通的单例模式（非线程安全）特点：使用静态
Python 爬虫实战：舞台剧与演出信息获取西攻城狮北 python 爬虫开发语言
作为一名对文化艺术活动和数据获取感兴趣的内容创作者，我决定利用Python爬虫技术抓取舞台剧与演出信息。这对于文艺爱好者、文化活动组织者以及相关研究人员来说，是一个极具价值的探索。一、项目背景舞台剧和各类演出活动丰富了人们的精神文化生活。许多城市都有专业的演出场馆，如国家大剧院、上海大剧院等，它们会定期发布演出信息。通过爬虫技术，我们可以自动化地获取这些演出信息，方便用户查询和分析。二、技术选型在
【嵌入式学习2】指针 - 数组 XYN5114 嵌入式学习学习笔记嵌入式硬件 c语言
目录##概述##指针###指针特点##指针变量###指针变量特点##区别##指针变量的使用定义指针变量时：使用指针变量时：##通过指针间接修改变量的值##指针大小指针大小与数据类型无关：无论指针指向什么类型的数据（int、char、double等），指针本身的大小只取决于系统的位数（32位或64位）。##指针步长###指针步长的计算方式##空指针和野指针##多级指针##指针与常量##函数参数传递内
Font Awesome 的使用 FFF-X
第一种直接使用命令npminstallfont-awesome--save进行安装，安装成功后里面包含样式和字体，然后直接引入样式就可以了入口js中引入import'font-awesome/css/font-awesome.min.css'然后就可以使用了，例如下面这样第二种cdn要使用FontAwesome图标，请在HTML页面的部分中添加以下行：1、国内推荐CDN：2、海外推荐CDN推荐第二
Python自动登陆、登出南京理工大学NJUST校园网程序 JimesMz python 开发语言
本文程序针对南京理工大学NJUST和NJUST-FREE校园网开发，其他学校无法使用。文章目录开发目的使用说明参考资料开发目的今天突然想要用代码实现一下自动登陆校园网，上网搜寻了一下。知乎有一些教程，CSDN也有一些完整的代码，但是我跟随教程或者直接运行现有代码都没有能够成功登陆，且NJUST校园网付费，我想要一个“登出”功能，借助Kimi自己写了一下。本人技术不精，以实现功能为主。使用说明请确保
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
Python调用fofa API接口并写入csv文件中 YOHO !GIRL 网络测绘 python 网络安全
前言一.功能目的二.功能调研三.编写代码1.引入库2.读取数据3.写入csv文件中总结前言上一篇我们讲述了目前较为主流的几款网络探测系统，简单介绍了页面的使用方法。链接如下，点击跳转：网络空间测绘引擎集合：Zoomeye、fofa、360、shodan、censys、鹰图然而当我们需要针对单个引擎进行二次开发时，页面就不能满足我们的需求了，这就需要参考API文档进行简单的数据处理，接下来，给大家介
rocketmq-client 4.3.0 在springboot中的使用 Myueye JAVA java
rocketmq-client4.3.0在springboot中的使用1、导入依赖2、配置文件属性3、编写配置类4、使用测试5、结果5.1RocketMQ后台显示5.2前端页面5.3后端后台1、导入依赖org.apache.rocketmqrocketmq-client4.3.02、配置文件属性mq.nameserverAdd=ip地址:9876mq.topic=top1(topic名称)mq.p
Python画词云图，Python画圆形词云图，API详解请一直在路上 python 开发语言
在Python中，词云图的常用库是wordcloud。以下是核心API参数的详细讲解，以及一个完整的使用示例。一、参数类型默认值说明参数类型默认值说明widthint400词云图的宽度（像素）heightint200词云图的高度（像素）background_colorstr“black”背景颜色，可以是颜色名称（如“white”）或十六进制值（如“#FFFFFF”）colormapstr/matp
JavaScript 性能优化实战：优化循环结构提升效率 deying0865423 javascript 开发语言
目录一、理解循环的性能损耗二、减少循环迭代次数（一）缓存数组长度（二）提前终止循环三、优化循环内部操作（一）避免在循环内执行复杂计算（二）减少DOM操作四、选择合适的循环类型（一）for循环与while循环的选择（二）for...in与for...of的使用场景在JavaScript编程中，循环结构是实现重复执行任务的基础工具。然而，不当的循环使用常常会导致性能瓶颈，特别是在处理大量数据时，循环的
盘泰UV种植体：抗老化新科技，焕发种植牙新活力互联网之声 uv 科技
随着口腔健康意识的提升，越来越多的人选择种植牙来修复缺失牙齿。然而，种植牙并非一劳永逸，随着时间的推移，种植体也会像天然牙一样出现老化现象，影响种植牙的使用寿命和美观度。盘泰UV种植体，创新采用紫外线照射技术，为种植牙注入抗老化新能量，快速提升骨结合速度，让您的种植牙历久弥新!UV照射，激活种植体表面活性盘泰UV种植体采用特殊波长的UV光对种植体表面进行照射处理，这种处理方式能够有效去除种植体表面
MATLAB的function函数的使用晚风微凉～ matlab 开发语言
在工程应用中，我们经常会遇到算法的计算较为复杂，很多算法的过程重复次数过多的问题，针对这个问题我们可以考虑使用function函数简化代码编写的工作量。1、单个传参在使用function的函数时，我们首先需要定义function函数的结构；function[输出参数]=函数名（输入参数）%注释：function函数的使用一般是比较多的，因此需要注意注释的编写，避免后期工作的误导；主要代码：****
.net 4.0 webServices 的使用，从前端到后端，代码超全。静静香甜 .net 前端后端 c#
1、创建webServices：创建之后会生成两个文件，分别是：SecurityWebService.asmx，SecurityWebService.asmx.csSecurityWebService.asmx代码：SecurityWebService.asmx.cs代码：usingNewtonsoft.Json;usingNewtonsoft.Json.Linq;usingSystem;usin
前端请求全面解析：AJAX、Axios 与 Fetch 的使用详解与代码示例 jiajia651304 前端 ajax javascript
前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例1.AJAX——传统的异步请求1.1基本用法示例1.2AJAX特点2.FetchAPI——现代化请求方案2.1基本用法示例2.2Fetch特点3.Axios——第三方HTTP请求库3.1安装Axios3.2基本用法示例3.3Axios特点4.总结前端请求全面解
Conda常用命令汇总（持续更新中） X-future426 conda linux 运维
原文章：安装和使用Miniconda来管理Python环境-CSDN博客一、Miniconda的使用Miniconda没有GUI界面，只能通过conda命令对Python环境和软件包进行管理，所以这里主要介绍一下conda的常用命令。1.Conda相关(1)查询conda版本conda--version(2)更新conda版本condaupdateconda2.环境管理(1)查询已创建的虚拟环境c
Spring容器初始化扩展点：ApplicationContextInitializer web14786210723 面试学习路线阿里巴巴 spring java 后端
目录一、什么是ApplicationContextInitializer？1、核心作用2、适用场景二、ApplicationContextInitializer的使用方式1、实现ApplicationContextInitializer接口2、注册初始化器三、ApplicationContextInitializer的执行时机四、实际应用案例1、动态设置环境变量2、注册自定义的Bean定义五、注意
Windows程式开发设计指南（二十三）领略Internet 干了这一碗BUG WINDOWS编程
23.领略InternetInternet－全世界电脑透过不同协定交换资讯的大型连结体－近几年重新定义了个人计算的几个领域。虽然拨接资讯服务和电子邮件系统在Internet流行开来之前就已经存在，但它们通常局限於文字模式，并且根本没有连结而是各自分隔的。例如，每一种资讯服务都需要拨不同的电话号码，用不同的使用者ID和密码登录。每一种电子邮件系统仅允许在特定系统的缴款使用者之间发送和接收邮件。现在，
Linux线程控制封装及线程互斥 z一一m Linux linux
1.clone函数的使用#define_GNU_SOURCE#include#includeintclone(int(*fn)(void*),void*child_stack,intflags,void*arg,...);fn：子进程或线程的入口函数child_stack：子进程的栈地址，通常需要手动分配，栈的大小需要足够容纳子进程变量的局部变量和函数调用。flags：控制子进程或线程共享哪些资源
精选2024年5款流程图软件，第一款强推 Firra流程图流程图
流程图绘制是现代化办公中必不可少的一部分，无论是用于团队协作、项目管理还是业务流程优化等，流程图都起到了最强辅助的作用。目前在线流程图工具是时下较为流行的绘制流程图方式。下面就为大家总结5款流程图软件的使用心得，也是在众多流程图软件中挑选出来的top5，可从中挑选一款最适合自己的进行使用哦。1.Firra在线流程图Firra是一款在线流程图工具，主打理念是轻便快捷，随时随地创作。Firra流程图的
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
站在巨人的肩膀！字节跳动的这份高并发架构设计的太牛了，不愧是一线大厂（附完整版PDF）跟着我学Java Java 程序员面试 pdf 数据库 java 架构职场和发展
前言我们知道，高并发代表着大流量，高并发系统设计的魅力就在于我们能够凭借自己的聪明才智设计巧妙的方案，从而抵抗巨大流量的冲击，带给用户更好的使用体验。这些方案好似能操纵流量，让流量更加平稳得被系统中的服务和组件处理。来做个简单的比喻吧。从古至今，长江和黄河流域水患不断，远古时期，大禹曾拓宽河道，清除淤沙让流水更加顺畅；都江堰作为史上最成功的的治水案例之一，用引流将岷江之水分流到多个支流中，以分担水
记账本app的需求分析 Shen Planck
记账本应用程序的需求分析包括对应用程序的功能和性能进行评估，以确定应用程序的设计和开发应该包含哪些内容。首先，应对记账本应用程序的用户进行用户调研，以了解用户的使用需求。这可以包括访问用户的使用情况，以及他们希望记账本应用程序具有哪些功能。其次，应确定记账本应用程序的目标市场，以确定应用程序的设计应该如何进行。这可能会考虑该应用程序的使用者人群，以及应用程序的使用场景。随后，应分析记账本应用程序的
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

python爬虫 requests-html的使用

一 介绍

二 安装

三 如何使用requests-html？

四支持JavaScript

五 自定义User-Agent

六 模拟表单提交（POST）

七 支持异步请求

你可能感兴趣的:(python爬虫 requests-html的使用)

一介绍

二安装

三如何使用requests-html？

五自定义User-Agent

六模拟表单提交（POST）

七支持异步请求