R语言中文社区

最简单爬虫rvest_告别复制粘贴

作者：李誉辉

四川大学在读研究生

简介：
rvest是Hadley大神开发的包，使用非常简单，不需要懂得太多的HTML和CSS知识，
当然对于反爬虫的web，基本上就力不从心了，这种情况还是使用Python吧，毕竟术业有专攻。
首先安装 SelectorGadget

（https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb）,这个插件很方便，可以获得网页中某些部分的相关tags。
如果不懂HTML和CSS，最好安装，如果懂，还是用Python吧。

常用函数：

read_html(), 读取html文档或链接，可以是url链接，也可以是本地的html文件，
甚至是包含html的字符串。
html_nodes(), 选择提取文档中指定元素的部分。
支持css路径选择, 或xpath路径选择。
如果tags层数较多，必须使用selectorGadget复制准确的路径。
使用方式：开启SelectorGadget,然后鼠标选中位置，右击选择检查元素，光标移动到tags上。
然后选择copy,选择selector或xpath 选项。
html_text(),提取tags内文本，
html_table(), 提前tags内表格。
html_form(), set_values(), 和submit_form()分别表示提取、修改和提交表单。

1.文本提取

我们以 boss直聘

https://www.zhipin.com/?ka=header-home-logo，网站为例进行演示。首先在搜索框内输入“数据分析”进行搜索,范围选择全国，可以打开如下页面：

然后我们单击Selector Gadget插件按钮以开启该功能，再次点击可关闭。
单击后，鼠标指针悬浮于web上任意的tags元素，都会出现黄色的高亮框。如下图所示：

选中需要的元素后，右击，然后“检查”就能打开源代码并定位到该元素，如下图：

通过浏览器，发现左侧的岗位tags为.info-primary .name,公司名称为.info-company .name。
其中的句点.表示类对象，多级类对象用空格隔开。

然后用read_html()打开该web。

 1library(rvest)
 2library(magrittr)
 3
 4# 打开网页
 5site_1 <- "https://www.zhipin.com/job_detail/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&scity=100010000&industry=&position="
 6web_1 <- read_html(x = site_1)  
 7
 8tag_job <- ".info-primary .name .job-title" # 岗位名字
 9tag_rev <- ".info-primary .name .red"  # 薪水
10tag_com <- ".info-company .company-text .name" # 公司名字
11
12# 开始抓取
13job_1 <- html_nodes(x = web_1, css = tag_job)
14rev_1 <- html_nodes(x = web_1, css = tag_rev)
15com_1 <- html_nodes(x = web_1, css = tag_com)
16
17# 从tags中提取文本内容
18job_1 %<>% html_text()
19rev_1 %<>% html_text()
20com_1 %<>% html_text()
21
22# 合并向量为数据框
23job_com <- data.frame(job = job_1,
24                      revenue = rev_1,
25                      company = com_1,
26                      stringsAsFactors = FALSE)
27head(job_com)
28rm(site_1, web_1, job_1, com_1)

提取web中的文本，就采用这种方法，很多时候，文本内容复制，
无法直接用html_text()将文本提取出来，
这时候就需要用正则表达式和stringr包。

2.多重页面

很多时候，一个web项目中，有多重页面，即下一页。

这就需要找到每一页的url规律，找到规律后，增加循环就能搞定了。
这里我们发现第2页开始，url就出现变化了，从第2页到最后一页(最后1页还没找到)，每一页都只改变url末尾的page=n。事实上，大多数网页都有这个page=n。

通过不断点击下一页，发现最后一页是第10页，

接下来我们爬取第2页到第10页

 1library(rvest)
 2library(magrittr)
 3
 4url_begin <- "https://www.zhipin.com/c100010000/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&page="
 5
 6
 7for (n in 2:10) {
 8  myurl <- paste0(url_begin, n)
 9  page_n <- read_html(x = myurl) 
10
11  # 开始抓取
12  job_n <- html_nodes(x = page_n, css = tag_job) %>% html_text()
13  rev_n <- html_nodes(x = page_n, css = tag_rev) %>% html_text()
14  com_n <- html_nodes(x = page_n, css = tag_com) %>% html_text()
15
16  # 合并向量为数据框
17  job_com_n <- data.frame(job = job_n,
18                         revenue = rev_n,
19                         company = com_n,
20                         stringsAsFactors = FALSE)
21
22
23  job_com <- rbind(job_com, job_com_n) # 添加到job_com内
24}
25
26rm(job_n, rev_n, com_n, job_com_n)
27str(job_com)
28DT::datatable(job_com) # 交互式表格输出

1## 'data.frame':    300 obs. of  3 variables:
2##  $ job    : chr  "数据分析" "数据分析专家" "数据分析" "数据分析（洛阳）" ...
3##  $ revenue: chr  "6k-9k" "12k-18k" "3k-5k" "6k-7k" ...
4##  $ company: chr  "腾讯" "中国石油规划总院" "万声" "哈啰出行" ...

3.表格提取

这里我们以 pm2.5 in（http://www.pm25.in/）网站上的空气污染为例，进行表格提取。

首先打开该网站，然后我们选择一个城市，如选择“成都”,寻找url变化规律。
发现新增url后缀：chengdu。使用SelectorGadget审查元素，发现表格的类为“table”。

下面我们同时提取10个大城市的表格。

 1library(rvest)
 2library(magrittr)
 3
 4city_name <- c("beijing", "shanghai", "guangzhou", "shenzhen", "hangzhou", 
 5               "tianjin", "chengdu", "nanjing", "xian", "wuhan")
 6url_cites <- paste0("http://www.pm25.in/", city_name)
 7
 8for (n in 1:length(city_name)) {
 9
10  # 提取表格
11  pm_city <- read_html(x = url_cites[n]) %>% 
12    html_nodes(css = ".aqis_live_data .container .table") %>% 
13    .[[2]] %>% # 注意这里的点
14    html_table()
15
16  # 批量生成变量
17  assign(x = paste0("pm_", city_name[n]), value = pm_city) 
18
19}
20rm(url_cites, pm_city)
21
22DT::datatable(pm_chengdu)
23DT::datatable(pm_beijing)

（截屏预览不全）

4.图片提取

这里我们打开觅元素

（http://www.51yuansu.com/），在搜索框中输入“花”,在分类中选择“动植物元素”。
可以发现url跳转到

http://www.51yuansu.com/search/hua-40-0-0-0-1/。
同样使用SelectorGadget审查元素,发现图片都有类：.img-wrap .lazy。
我们点击一张图片，发现跳转到另一个url，将这个url复制，在审查元素中搜索，
可以发现该url类为img-wrap或i-title-wrap。

 1rm(list = ls()); gc() # 清空内存
 2library(rvest)
 3library(stringr)
 4
 5# 提取nodes
 6url_first <- "http://www.51yuansu.com/search/hua-40-0-0-0-1/"
 7flower_nodes <- read_html(x = url_first)  %>%
 8  html_nodes(css = ".img-wrap")
 9
10# 查看字符串，以使用正则表达式
11flower_nodes[[1]]

1##           used (Mb) gc trigger (Mb) max used (Mb)
2## Ncells  717036 38.3    1197920   64  1197920   64
3## Vcells 1356245 10.4    8388608   64  2616152   20
4## {xml_node}
5## 
6## [1]

正则表达式匹配，^(http) (.html)$这种形式只能在一行内匹配，不能匹配多行字符串。

 1library(rvest)
 2library(stringr)
 3library(magrittr)
 4library(rlist)
 5
 6flower_nodes %<>% 
 7  str_extract_all(pattern = "http.*\\.html") %>% # .*表示任何字符串，以http开头，.html结束
 8  unlist()
 9
10flower_nodes[1]

1## [1] "http://www.51yuansu.com/sc/cvctvrhmhh.html"

提取图片的url链接

 1library(rvest)
 2library(stringr)
 3
 4image_url <- vector() # 生成空向量
 5
 6for (n in 1:length(flower_nodes)) {
 7  image_url[n] <- read_html(x = flower_nodes[n]) %>%
 8    html_nodes(css = ".img-wrap .show-image") %>%
 9    str_extract_all(pattern = "http.*\\.jpg") %>%
10    unlist()
11
12}
13
14image_url[1]

1## [1] "http://pic.51yuansu.com/pic3/cover/02/00/29/5984a5c877c73_610.jpg"

读取url图片并保存

 1library(magick)
 2
 3file_path <- "E:/R_input_output/images_output/scrapt_collection/"
 4
 5for (n in 1:length(image_url)) {
 6  image_read(path = image_url[n]) %>%  # 读取url图片
 7    image_write(path = paste0(file_path, n, ".jpg")) # 保存图片
 8}
 9
10# 动画展示保存到文件夹中的图片
11image_animate(image = 
12                image_read(path = paste0(file_path, as.character(1:length(image_url)),                                                ".jpg")))

（原为动图）

5.模拟对话

函数：

html_session(),jump_to(),follow_link(),back(),forward(),submit_form()，
可以用来模拟网上浏览行为，这里我们使用豆瓣网来模拟。
使用html_session()来创建会话。

1rm(list = ls()); gc() # 清空内存
2library(rvest)
3library(magrittr)
4
5u <- "https://movie.douban.com/"
6session <- html_session(u) # 创建会话

什么是表单? HTML 中的表单被用来搜集用户的不同类型的输入。
例如，登录表单、搜索框表单等。
HTML 表单包含表单元素，表单元素是指不同类型的 input元素、复选框（box）、
单选（radio）、提交按钮（submit）等。

穿越表单分为以下3步：

提取出你所需要的表单：
html_form()
填写你的表单：
set_values(form, name1=value1, name2=value2)
提交表单，发送给服务器：
submit_form(session, form)

1library(rvest)
2
3forms <- session %>% html_form()
4forms

1library(rvest)
2form <- forms[[1]] # forms 中的第一个列表是我们的目标列表
3form

在上面的结果中，只有 ‘search_text’ :的冒号后为空，
这表明 ‘search_text’ 还没有填充任何值，而我们的填充任务就是把它填上。
比如说我要搜索“流浪地球”，
那么我就在set_values() 中指定一个 search_text参数，令它的值为“流浪地球”。
那么，现在我们的表单已经填充好了，只需要把它提交给服务器了。

1library(rvest)
2
3filled_form <- set_values(form, search_text = "流浪地球") # 填写表单
4session2 <- submit_form(session, form = filled_form) # 提交表单
5
6session2$url # 查看提交表单后，返回的新会话 session2 的 url
7iconv(URLdecode(session2$url), "UTF8") # 重新编码

6.项目

这里我们准备爬流浪地球豆瓣评论，然后分词并绘制词云图。

6.1

爬流浪地球豆瓣评论

首先打开流浪地球评论web，

https://movie.douban.com/subject/26266893/comments?sort=new_score&status=P
因为豆瓣网页元素层数比较多，所以必须使用SelecorGadget, 审查元素后，右击进行复制，
通常可以选择selector或xpath，如图所示：

 1rm(list = ls()); gc() # 清空内存
 2library(rvest)
 3
 4url_movie <- "https://movie.douban.com/subject/26266893/comments?sort=new_score&status=P"
 5
 6path_comments <- paste0("#comments > div:nth-child(", 
 7                        as.character(1:20), 
 8                        ") > div.comment > p > span")
 9
10text_comments <- vector() # 创建空向量
11# 爬取第一页的评论
12for (n in 1:20) {   # 1页20个评论
13  comments_n <- read_html(x = url_movie) %>%
14  html_nodes(css = path_comments[n]) %>% 
15    html_text() %>% 
16    unlist()
17
18  text_comments[n] <- comments_n
19}
20
21print(text_comments[1])

爬取所有页，
通过手动点击下一页，发现页面url的规律，那就是start=n， n步长为20，初始值为20。
通过二分法找到最后一个页面，发现未登陆时仅可访问前220条评论。
下面是爬取第20条到第220条评论。

 1library(rvest)
 2url_pages <- paste0("https://movie.douban.com/subject/26266893/comments?start=",
 3                       as.character(seq(from = 20, to = 200, by = 20)),
 4                       "&limit=20&sort=new_score&status=P&percent_type=")
 5for (m in 1:length(url_pages)) {
 6
 7    for (n in 1:20) {   # 1页20个评论
 8      comments_mn <- read_html(x = url_pages[m]) %>%
 9      html_nodes(css = path_comments[n]) %>% 
10        html_text() %>% 
11        unlist()
12
13      text_comments[m*20 + n] <- comments_mn 
14    }
15    Sys.sleep(20) # 延迟时间20秒,避免豆瓣IP异常
16  }
17
18
19# 保存为txt文件
20write.table(x = text_comments, 
21            file = "E:/R_input_output/data_output/流浪地球-豆瓣评论.txt",
22            quote = FALSE, sep = "\n", row.names = TRUE,  
23            qmethod = "double", fileEncoding = "UTF-8")

爬其它电影评论也是一样的，只需要改id号，和保存文件名。

6.2

分词并计算词频

中文分词采用专门的包jiebaR，更详细的资料可以看文末的参考来源。

 1rm(list = ls()); gc() # 清空内存
 2library(jiebaR)
 3library(dplyr)
 4library(readr)
 5library(magrittr)
 6
 7# 读取要分词的文本
 8text_comments <- readLines(con = "E:/R_input_output/data_output/流浪地球-豆瓣评论.txt", 
 9                    encoding = "UTF-8")
10
11# 分词
12## 导入停止词
13setwd("E:/R_input_output/data_input/jiebaR_documents")
14wk <- worker(stop_word = "sea.txt")
15split_1 <- segment(text_comments, wk)
16split_combined <- sapply(split_1, function(x) {paste(x, collapse = " ")}) # 空格分割
17
18# 计算词频
19comments_freq <- freq(split_combined) 
20## 去除数字
21comments_freq <- comments_freq[!grepl(pattern = "^\\d$", comments_freq$char),] # 逻辑索引
22## 排序并取前300个
23comments_freq  %<>% arrange(desc(freq)) %>% .[1:300, ]

6.3

词云图

安装方式：

devtools::install_github("lchiffon/wordcloud2")。

目前wordcloud2()绘制的图自动保存比较困难，还是截图吧。

1library(wordcloud2)
2
3letterCloud(comments_freq, word = "6", wordSize = 4, color="red")

1wordcloud2(comments_freq, 
2           color = "random-light", size = 1, shape='star')

下面是用同样的方式，爬海王豆瓣评论的词云图：

参

考来源

rvest易上手爬虫
https://cran.r-project.org/web/packages/httr/vignettes/api-packages.html
datacamp rvest爬虫教程
https://www.datacamp.com/community/tutorials/r-web-scraping-rvest
R爬虫小白实例教程 - 基于rvest包
https://www.jianshu.com/p/543ce849eef6
R语言：rvest包学习爬虫–笔记
https://www.jianshu.com/p/c092d57d275f
github地址
https://github.com/tidyverse/rvest
rvest穿越表单
https://github.com/tidyverse/rvest
rvest爬虫教程
http://www.ituring.com.cn/article/465317
正则表达式
http://yphuang.github.io/blog/2016/03/15/regular-expression-and-strings-processing-in-R/
rvest抓取图片
https://stat4701.github.io/edav/2015/04/02/rvest_tutorial/
jump_to()与follow_link()
https://rdrr.io/cran/rvest/man/jump_to.html
follow_link的使用
https://stackoverflow.com/questions/28863775/scraping-linked-html-webpages-by-looping-the-rvestfollow-link-function
批量生成变量
https://stats.stackexchange.com/questions/10838/produce-a-list-of-variable-name-in-a-for-loop-then-assign-values-to-them
xpath语法
https://cuiqingcai.com/2621.html
Sys.sleep
https://blog.csdn.net/xxzhangx/article/details/53650605
推迟时间
https://stackoverflow.com/questions/1174799/how-to-make-execution-pause-sleep-wait-for-x-seconds-in-r
R语言自然语言处理：中文分词
如何用R语言做词云图，以某部网络小说为例
Wordcloud2 introduction
https://cran.r-project.org/web/packages/wordcloud2/vignettes/wordcloud.html
R语言中文分词包jiebaR
http://blog.fens.me/r-word-jiebar/
R学习整理笔记（五）——用jiebaR包进行中文分词
https://zhuanlan.zhihu.com/p/35846130
分词 | jiebaR 常用函数
https://zhuanlan.zhihu.com/p/35581757
jiebaR 中文分词文档
http://qinwenfeng.com/jiebaR/
jiebaR github
https://github.com/qinwf/cidian

——————————————

往期精彩：

清华、北大、浙大的计算机课程资源集都在这里了
身处大公司的非核心部门，如何破局？
IT男，程序猿在婚恋市场有多受欢迎？
R语言中文社区2018年终文章整理（作者篇）
R语言中文社区2018年终文章整理（类型篇）

你可能感兴趣的:(最简单爬虫rvest_告别复制粘贴)

python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Crawlee高阶用法：无代码配置实现动态网站爬虫程序员威哥爬虫 python scrapy tcp/ip 网络协议
爬虫开发一直以来都需要编写大量的代码，尤其是在抓取动态网站时，往往需要处理JavaScript渲染和分页等复杂的问题。然而，Crawlee（之前叫ApifySDK）作为一个现代化的爬虫框架，提供了更加高效和简便的方式，甚至可以通过无代码配置来快速抓取动态网站数据。在本篇文章中，我们将深入探讨如何使用Crawlee实现动态网站的爬虫，并展示如何通过简单的配置来完成爬虫任务，节省开发时间和精力。1.C
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
最简单的赚钱方法是什么？盘点5个简单快速赚钱方法优惠券高省
在家可以做什么赚钱？很多宝妈、上班族、大学生可能经常会有这种困惑。他们大多有空闲时间，但不想出去全职或兼职，想在家赚钱。今天分享五种在家赚钱的方法。第一：互联网淘宝客选择全网佣金最高的「高省」APP，高省邀请码：110000。分享商品及推广APP做团队赚钱，适合新手小白（有导师一对一带）日入500+。自用省钱，分享赚钱，高省含有自动云发单功能，可以解放双手，自动发群发圈赚钱。使用【高省app】网购
告别瘦弱肌，3招有效，让你秒变型男！硬刻时代
有些肌友们在增肌的过程中，会发现怎么吃怎么练也不见效果，就认为与自身的吸收以及训练强度不够造成的。其实造成肌肉增长不明显，有很多的原因，比如说饮食、训练方法与频率、营养补剂、个人体质，身体的代谢等都有很大的关联！有一些人天生就是瘦弱的体质，怎么练肌肉增长的就是不明显，其实无论是天生的瘦弱的体质还是后期的训练增肌慢，都会给需要增肌的肌友们带来很大的困扰。想要解决这个问题首先就需要从不同类型的增肌人群
python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告 weixin_39578457
本文主要向大家介绍了Python语言爬虫——Python岗位分析报告，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。前两篇我们分别爬取了糗事百科和妹子图网站，学习了Requests,BeautifulSoup的基本使用。不过前两篇都是从静态HTML页面中来筛选出我们需要的信息。这一篇我们来学习下如何来获取Ajax请求返回的结果。本篇以拉勾网为例来说明一下如何获取Ajax请求内容
Python 爬虫——Pyppeteer
Python爬虫——PyppeteerPythonSpider——Pyppeteer一、爬虫的两种方式二、Pyppeteer三、爬虫实现PythonSpider——Pyppeteer爬虫具有时效性，该文产生于2023年末一、爬虫的两种方式爬虫大致可以分为两类方式：直接请求直接请求的方式一般是使用python的HTTP请求库发起HTTP请求，然后接收返回的数据再进行解析，这种方式存在很大的局限性。当
Python爬虫教程：抓取地方政府网站的公开文件与政策信息 Python爬虫项目 python 爬虫开发语言数据分析 mysql
1.引言在信息化时代，政府网站已成为信息公开的重要渠道。各级地方政府网站上发布的政策、公告和公开文件，通常包含了政府决策、法律法规等关键信息。爬取这些公开数据，可以为研究人员、政策分析师、企业决策者等提供有价值的数据支持。本文将通过Python爬虫技术，展示如何抓取地方政府网站上的公开文件、政策等信息。我们将使用最新的爬虫技术，如requests、BeautifulSoup、Selenium等工具
关于 SECS4NET 专栏的几点说明(内附资源) 好学近乎知o secs/gem secs4net
关于SECS4NET专栏的几点说明根据很多小伙伴在评论区的留言，我总结了几个反馈点：✅常见问题反馈部分章节讲解存在个别错误关于资源来源、项目版本的问题更新速度偏慢，期待能加快节奏简单说明一下：我是一个没有感情的复制粘贴机器，发布这些作品最初只是为了自己闲来学习、顺便看着玩。起初我以为这种纯纯的复制粘贴内容，甚至连开头和结尾都带着ChatGPT的沟通痕迹，肯定不会有人感兴趣。但没想到，发布之后阅读量
JAVA API (三)：从基础爬虫构建到带条件数据提取 —— 详解 URL、正则与爬取策略钮祜禄.爱因斯晨 JAVA学习笔记 java 爬虫开发语言
个人主页-爱因斯晨文章专栏-Java学习相关文章：API(一)相关文章：API（二）持续努力中，感谢支持一、爬虫基础（一）爬虫的基本概念定义：爬虫是按照一定规则自动抓取网络信息的程序，在Java环境下，可借助URL、HttpURLConnection等API来实现。应用场景：广泛应用于数据采集，如电商平台的价格监控、各类新闻的聚合；还可用于信息分析，如舆情监测等。（二）Java实现简单爬虫的步骤建
酷暑难当，足不出户也能看病？互联网医院的优势来啦！争实科技互联网医院医疗信息化
根据最新的气象预报显示，当前我国正经历大范围持续性的高温天气，部分地区最高气温达40℃以上，突破历史极值。在这样持续高温的天气里，互联网医院真正成为医疗服务的“避暑利器”，让你无需奔波即可享受专业的医疗服务。下面我们结合当前政策与技术发展，一起来了解一下互联网医院的核心优势和使用要点吧。一、核心优势：足不出户解决看病难题1.高效便捷，告别高温奔波线上复诊配药：慢性病患者（如高血压、糖尿病）可直接通
微信投票如何快速涨票数,网上投票怎样才能弄到更多的票巨体5个细节！桃朵APP
微信投票如何快速涨票数,网上投票怎样才能弄到更多的票巨体5个细节！专业团队投票微信205956123(长按微信号可复制粘贴)纯人工快速涨票利用社交媒体传播：在微信朋友圈、QQ空间、微博等社交平台上发布投票信息和呼吁亲友支持，并通过加入相关微信群组或论坛积极参与讨论，以扩大投票的影响力和覆盖范围。1个人号码库：收集亲友的手机号码并添加至通讯录，直接通过微信发送投票链接，这样可以迅速扩大票数。有奖互动
Python爬虫技术：高效采集开放数据的5种方法大数据洞察 python 爬虫 wpf ai
Python爬虫技术：高效采集开放数据的5种方法关键词：Python爬虫、开放数据采集、请求库、异步爬虫、分布式爬虫、动态网页解析、API直连摘要：本文围绕“如何用Python高效采集开放数据”展开，系统讲解5种主流爬虫方法（基础请求库、异步请求、动态网页渲染、分布式爬虫、API直连）的原理、适用场景与实战技巧。通过生活类比、代码示例和真实案例，帮助读者快速掌握不同场景下的爬虫策略，同时强调数据合
网络爬虫进阶 rooney2024 爬虫
目录一、进阶爬虫的核心挑战二、关键技术与最佳实践三、实战案例：爬取动态电商价格（伪代码示例）四、持续学习路径结语一、进阶爬虫的核心挑战动态渲染页面(JavaScript/AJAX)问题：数据由JavaScript动态加载生成，初始HTML中不存在。解决方案：浏览器自动化工具：Selenium,Playwright,Puppeteer。模拟真实浏览器行为，等待JS执行并渲染出完整DOM后再解析。无头
网络爬虫再深入——对抗指纹检测、分布式架构与智能解析实战 rooney2024 爬虫
目录一、深入反爬：浏览器指纹检测与对抗（配图1）1.高级指纹检测原理2.对抗方案与实战二、分布式爬虫架构深度设计（配图2）1.容错与弹性设计2.智能限流算法三、智能解析：LLM与计算机视觉的融合（配图3）1.LLM解析非结构化文本2.视觉辅助定位元素四、法律与伦理：爬虫工程师的自我修养1.关键法律边界2.道德实践框架五、未来战场：Web3.0时代的爬虫技术演进1.去中心化网络挑战2.AI驱动的自适
盘点一个Python网络爬虫过程中中文乱码的问题皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫中文乱码的问题，提问截图如下：原始代码如下：importrequestsimportparselurl='https://news.p2peye.com/article-514723-1.html'headers={'Accept-Language':'zh-CN,zh;q=0.9','Accept':'a
STM32与树莓派通信 bing_feilong 硬件嵌入式硬件
STM32与树莓派（RaspberryPi）的通信常见方案及实现步骤：1.UART串口通信（最简单）适用场景：短距离、低速数据交换（如传感器数据、调试信息）。硬件连接：STM32引脚树莓派引脚备注TXRX(GPIO15)交叉连接RXTX(GPIO14)交叉连接GNDGND共地软件配置：STM32端（使用HAL库）：UART_HandleTypeDefhuart1;huart1.Instance=U
鸿蒙分布式数据同步全解析：用一套代码搞定多设备实时共享前端世界 harmonyos harmonyos 分布式华为
摘要在万物互联的趋势下，多设备间的数据协同成了刚需。从手机到平板、手表、电视，再到智能车载系统，用户希望数据无缝同步、实时一致。鸿蒙系统通过分布式数据库与分布式消息总线，为开发者提供了一套跨设备的数据同步机制，简化了开发流程。本文将从实际开发角度出发，带你用最简单的方式了解如何实现跨设备的数据同步。引言过去，我们经常需要自己去写Socket通信、同步逻辑、数据一致性校验，整个过程又难又容易出错。而
告别过去南方的雨中人
所谓成长就是与过去决裂，再重新长出一个全新的自己。就如同蛇蜕皮一样，退掉了老的皮才能够长大。即使这期间有很大的危险和痛苦。但是世界就是如此演变的。我们也只有遵从。迷茫，是一个很经典的话题。如果你感到迷茫，那么恭喜你，你起码是一个会思考的人了。但是这并不表示你成长了。因为，成长=思考+行动一次偶然的相遇:去年寒假回家的时候，我在车上偶然听到了罗胖的罗辑思维。从那天起我的心里好像就被开了一条细缝。有些
JAVA 使用Apache POI合并Word文档并保留批注的实现
一、需求背景在实际工作中，我们经常需要将多个Word文档合并成一个文件。但当文档中包含批注（Comments）时，传统的复制粘贴会导致批注丢失或引用错乱。本文将介绍如何通过Java和ApachePOI库实现保留批注及引用关系的文档合并功能。二、技术选型核心依赖：org.apache.poipoi-ooxml5.3.0org.apache.poipoi-ooxml-full5.3.0三、实现原理详解
拜悦邀请码是多少?(2024附高省app邀请码填写及获取指南)不用担心朋友凌风导师
因为所有的佣金都是由淘宝的官方网站淘宝联盟发放的拜悦邀请码拜悦邀请码260661拜悦邀请码260661长按复制粘贴即可)拜悦邀请码拜悦邀请码邀请码或【260661】【260661】【260661】【260661】、【260661】和【260661】，【260661】【260661】【260661】【260661】和【260661】请注意，只有在下载拜悦邀请码后CY5K不Q76D的10天内填写邀请码
【数据结构】详解堆排序当中的topk问题（leetcode例题） ylfxw 数据结构 leetcode 算法
文章目录前言如何理解topk问题代码逻辑代码实现前言Leetcode相关题目：215.数组中的第K个最大元素如何理解topk问题**TopK问题是一个经典的问题，在计算机科学中，它的目标是在一组数据中找到前K个最大或最小的元素。**这个问题在许多场景下都很重要，比如搜索引擎的搜索结果排名、数据分析中的热门元素筛选等。.在最简单的形式中，给定一个数组（或列表）和一个整数K，TopK问题要求返回数组中
每个人心中都应该有个夏摩山谷雁旋
图片发自App安妮宝贝是很多人喜欢的作家，但是我并没有读过她的作品，除了《夏摩山谷》。我于是在网上查了下她的简介。1998年署下笔名安妮宝贝，开始在网络上写作，发表《告别薇安》、《七年》、《七月和安生》，并成名。2014年6月，安妮宝贝在她个人的微博上宣布，“安妮宝贝”改笔名为“庆山”。她的作品主要以流浪、宿命、漂泊为题材，描写现代都市人的生活及精神状况。初看这本书的封面，清淡温煦，一侧书边伸出两
在 WPF 启动界面中心加载 GIF 动图上元星如雨 C#&Godot wpf
在WPF启动界面中心加载GIF动图在WPF启动界面中心加载GIF动图可以通过多种方式实现。下面我将提供一个完整的解决方案，包括使用第三方库和纯WPF实现两种方法。方法一：使用WpfAnimatedGif库（推荐）这是最简单可靠的方法，使用专门处理GIF动画的库。实现步骤：安装NuGet包Install-PackageWpfAnimatedGif创建启动窗口(SplashScreen.xaml)在代
Three.js入门第一步：两种方式搭建你的3D项目[特殊字符]️
上一篇我们聊了学习Three.js前的“地基”知识，现在地基牢固，该正式动工了！在创造炫酷的3D世界之前，我们得先把开发环境给搭好。官方手册提供了两种主流的安装方式，分别适用于不同场景。选对方法，事半功倍！方式一：CDN+Importmap(极速上手)这是官方最为推荐的、也是最简单的入门方式，尤其适合学习、做小练习、或者快速验证一个想法。优点：无需安装任何东西！只需要一个能联网的浏览器。操作方法：
爬虫_加速乐秒杀 kisloy 爬虫逆向爬虫 python
加速乐补环境补环境window={navigator:{userAgent:"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/104.0.0.0Safari/537.36"},outerWidth:1920,outerHeight:1050,};location={reload:functi
【爬虫】某某查cookie逆向 kisloy 逆向爬虫爬虫 python
代码仅供技术人员进行学习和研究使用，请勿将其用于非法用途或以任何方式窃取第三方数据。使用该代码产生的所有风险均由用户自行承担，作者不对用户因使用该代码而造成的任何损失或损害承担任何责任。加密参数加密参数主要是cookie，其中只有三个cookie最重要，BAIDUIDBAIDUID_BFESS和一个ab开头的cookiecookie获取BAIDUID和BAIDUID_BFESS在访问百度系的产品时
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
如何用 Python 绕过 cloudflare（5秒盾）抓取数据：也不是很难嘛！炒青椒不放辣 Web爬虫进阶实战 python cloudflare 爬虫 5秒盾逆向
大家好！我是爱摸鱼的小鸿，关注我，收看每期的编程干货。逆向是爬虫工程师进阶必备技能，当我们遇到一个问题时可能会有多种解决途径，而如何做出最高效的抉择又需要经验的积累。本期文章将以实战的方式，带你全面了解cloudflare（5秒盾）以及如何绕过使用cloudflare服务的网站从而抓取数据特别声明：本篇文章仅供学习与研究使用，不用做任何非法用途，相关URL和API等均已做脱敏处理，若有侵权请联系作
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name