u011402596

R语言爬虫之——RCurl

RCurl作者

Duncan Temple Lang
现任加州大学 U.C. Davis分校副教授
致力于借助统计整合进行信息技术的探索

RCurl的概述

The RCurl package is an R-interface to the libcurl library that provides HTTP
facilities. This allows us to download files from Web servers, post forms, use
HTTPS (the secure HTTP), use persistent connections, upload files, use binary
content, handle redirects, password authentication, etc.

RCurl这个程序包提供了由R到libcurl库的接口,从而实现HTTP的一些功能。例如,从
服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。

什么是curl&libcurl
– curl:利用URL语法在命令行方式下工作的开源文件传输工具
– curl背后的库就是libcurl

功能
– 获得页面
– 有关认证
– 上传下载
– 信息搜索
– ……

HTTP协议

协议是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则,超文本传输协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器

目前我们使用的是HTTP/1.1 版本

1. URL详解
基本格式:schema://host[:port#]/path/…/[?query-string][#anchor]
scheme 指定低层使用的协议(例如:http, https, ftp)
host HTTP服务器的IP地址或者域名
port# HTTP服务器的默认端口是80,这种情况下端口号可以省略。
path 访问资源的路径
query-string 发送给http服务器的数据
anchor- 锚
2. 请求request
请求行、请求报头、消息正文

Method 表示请求方法,比如“GET”,“POST”,““HEAD”,”PUT“等
Path-to-resource 表示请求的资源
Http/version-number 表示HTTP协议的版本号

请求报头
 Host 服务器地址
 Accept 浏览器端可以接受的媒体类型，text/html
 Accept-encoding 浏览器接收的编码方法，通常所指的是压缩方法
 Accept-language 浏览器声明自己接收的语言
 User-agent 告诉服务器客户端的操作系统、浏览器版本
 Cookie 最重要的请求报头的成分，为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）
 Referer 跳转页
 Connection 客户端与服务器的连接状态
3. 响应response
状态行、消息报头、响应正文

HTTP/version-number表示HTTP协议的版本号
status-code 和message表示状态码以及状态信息
status-code(状态码)
 状态码用来告诉HTTP客户端,HTTP服务器是否产生了预期的Response.
 HTTP/1.1中定义了5类状态码, 状态码由三位数字组成,第一个数字定义了响应的类
别
– 1XX 提示信息 - 表示请求已被成功接收,继续处理
– 2XX 成功 - 表示请求已被成功接收,理解,接受
– 3XX 重定向 - 要完成请求必须进行更进一步的处理
– 4XX 客户端错误 - 请求有语法错误或请求无法实现
– 5XX 服务器端错误 - 服务器未能实现合法的请求

消息报头
 Server 服务器的软件信息，如nginx
 Date 响应日期
 Last-Modified 上次修改时间
 Content-type 服务器告诉浏览器自己响应的对象类型，text/html
 Connection 服务器和客户端是否保持链接
 X-Powered-By 表示网站是什么技术开发的，如PHP
 Content-Length 请求返回的字节长度
 Set-Cookie 响应最重要的一个header，用于把cookie发给相应的浏览器，每一个写入cookie都会生成一个set-cookie

RCurl三大函数

getURL()
getForm()
postForm()

getURL()

# 判断url是否存在
url.exists(url="www.baidu.com") # 判断url是否存在
# [1] TRUE
d <- debugGatherer() #收集调试信息
# verbose = TRUE 这时候，d$value()值是会叠加的
tmp <- getURL(url="www.baidu.com", debugfunction = d$update, verbose = TRUE)  

names(d$value())
# [1] "text"       "headerIn"   "headerOut"  "dataIn"     "dataOut"    "sslDataIn"  "sslDataOut"

cat(d$value()[1]) #服务器地址及端口号
cat(d$value()[2]) #服务器返回的头信息
cat(d$value()[3]) #提交给服务器的头信息
d$reset() # 清除d$value()
d$value() # 清除之后全部为空
# text   headerIn  headerOut  dataIn    dataOut  sslDataIn sslDataOut 
# ""         ""         ""         ""         ""         ""         ""

# 查看服务器返回的头信息
## 列表形式
h <- basicHeaderGatherer()
txt <- getURL(url="http://www.baidu.com", headerfunction = h$update)
names(h$value())
# [1] "Date"           "Content-Type"   "Content-Length" "Last-Modified"  "Connection"    
# [6] "Vary"           "Set-Cookie"     "Set-Cookie"     "Set-Cookie"     "P3P"           
# [11] "Server"         "Pragma"         "Cache-control"  "BDPAGETYPE"     "BDQID"         
# [16] "BDUSERID"       "Accept-Ranges"  "status"         "statusMessage"
h$value()

# 查看服务器返回的头信息
## 字符串形式
h <- basicTextGatherer()
txt <- getURL("http://www.baidu.com", headerfunction = h$update) names(h$value())
# NULL # 说明是字符串形式，没有列
h$value() # 所有的内容只是一个字符串 # [1] "HTTP/1.1 200 OK\r\nDate: Mon, 23 Feb 2015 15:18:28 GMT\r\nContent-Type: text/html\r\nContent-Length: 14613\r\nLast-Modified: Wed, 03 Sep 2014 02:48:32 GMT\r\nConnection: Keep-Alive\r\nVary: Accept-Encoding\r\nSet-Cookie: BAIDUID=FFF680C9F9631969198A77AAFF56096E:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com\r\nSet-Cookie: BAIDUPSID=FFF680C9F9631969198A77AAFF56096E; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com\r\nSet-Cookie: BDSVRTM=0; path=/\r\nP3P: CP=\" OTI DSP COR IVA OUR IND COM \"\r\nServer: BWS/1.1\r\nPragma: no-cache\r\nCache-control: no-cache\r\nBDPAGETYPE: 1\r\nBDQID: 0xc1ae773200820725\r\nBDUSERID: 0\r\nAccept-Ranges: bytes\r\n\r\n" cat(h$value()) # 用cat显示的，会比较好看
HTTP/1.1 200 OK
Date: Mon, 23 Feb 2015 15:18:28 GMT
Content-Type: text/html
Content-Length: 14613
Last-Modified: Wed, 03 Sep 2014 02:48:32 GMT
Connection: Keep-Alive
Vary: Accept-Encoding
Set-Cookie: BAIDUID=FFF680C9F9631969198A77AAFF56096E:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BAIDUPSID=FFF680C9F9631969198A77AAFF56096E; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BDSVRTM=0; path=/
  P3P: CP=" OTI DSP COR IVA OUR IND COM "
Server: BWS/1.1
Pragma: no-cache
Cache-control: no-cache
BDPAGETYPE: 1
BDQID: 0xc1ae773200820725
BDUSERID: 0
Accept-Ranges: bytes

# 查看url请求的访问信息
curl <- getCurlHandle()

txt <- getURL(url="http://www.baidu.com", curl = curl)
names(getCurlInfo(curl))
[1] "effective.url"           "response.code"           "total.time"             
[4] "namelookup.time"         "connect.time"            "pretransfer.time"       
[7] "size.upload"             "size.download"           "speed.download"         
[10] "speed.upload"            "header.size"             "request.size"           
[13] "ssl.verifyresult"        "filetime"                "content.length.download"
[16] "content.length.upload"   "starttransfer.time"      "content.type"           
[19] "redirect.time"           "redirect.count"          "private"                
[22] "http.connectcode"        "httpauth.avail"          "proxyauth.avail"        
[25] "os.errno"                "num.connects"            "ssl.engines"            
[28] "cookielist"              "lastsocket"              "ftp.entry.path"         
[31] "redirect.url"            "primary.ip"              "appconnect.time"        
[34] "certinfo"                "condition.unmet" 
getCurlInfo(curl)$response.code
# [1] 200
getCurlInfo(curl=curl)
$effective.url
[1] "http://www.baidu.com"

$response.code
[1] 200

$total.time
[1] 0.041523

$namelookup.time
[1] 0.011336
……

设置自己的header

# 设置自己的header，把系统设置成ihpone的系统Mac OS
myheader <- c(
  "User-Agent"="Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0_1 like Mac OS X; ja-jp) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8A306 Safari/6531.22.7",
  "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
  "Accept-Language"="en-us",
  "Connection"="keep-alive",
  "Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"
)

d <- debugGatherer()
tmp <- getURL(url = "http://www.baidu.com", httpheader = myheader, debugfunction = d$update, verbose = T)

cat(d$value()[3]) # 提交给服务器的头信息，发现设置成功
GET / HTTP/1.1
Host: www.baidu.com
User-Agent: Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0_1 like Mac OS X; ja-jp) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8A306 Safari/6531.22.7
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us
Connection: keep-alive
Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7

设置其他参数
verbose 输出访问的交互信息
httpheader 设置访问信息报头
.encoding=”UTF-8” “GBK”
debugfunction, headerfunction, curl
.params 提交的参数组
dirlistonly 仅读目录，这个在ftp的网页，非常好用
followlocation 支持重定向
maxredirs 最大重定向次数

# 设置其他参数，共174个参数
listCurlOptions()
  [1] "address.scope"              "append"                    
  [3] "autoreferer"                "buffersize"                
  [5] "cainfo"                     "capath"                    
  [7] "certinfo"                   "closepolicy"  
  ……
  ……
  [165] "url"                        "useragent"                 
[167] "username"                   "userpwd"                   
[169] "use.ssl"                    "verbose"                   
[171] "writedata"                  "writefunction"             
[173] "writeheader"                "writeinfo"

getForm()

# getForm()函数 # 在百度里面搜索“rcurl”的url为（浏览器为google chrome）： url <- c("http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&ch=&tn=SE_hldp02870_0v135xhf&bar=&wd=rcurl&rsv_spt=1&rsv_pq=a3ed162a0088df8f&rsv_t=43d18gWNyd6HWpqDiKov7Dm548s4HY4cgcJlXc8ujpzRW9Okec2aOb5screzftZo5DJ60Cp7aILvRK2Q&rsv_enter=1&inputT=2119") # wd=rcurl 这里就是关键字为rcurl getFormParams(query=url) # 查看url的结构和值 names(getFormParams(query=url)) [1] "ie" "f" "rsv_bp" "rsv_idx" "ch" "tn" "bar" "wd" "rsv_spt" [10] "rsv_pq" "rsv_t" "rsv_enter" "inputT" tmp <- getForm(uri="http://www.baidu.com/s", ie="utf-8", f="8", rsv_bp="1", rsv_idx="2", ch="", tn="SE_hldp02870_0v135xhf", bar="", wd="rcurl", rsv_spt="1", rsv_pq="a3ed162a0088df8f", rsv_t="43d18gWNyd6HWpqDiKov7Dm548s4HY4cgcJlXc8ujpzRW9Okec2aOb5screzftZo5DJ60Cp7aILvRK2Q", rsv_enter="1", inputT="2119") # 这里的getForm函数不稳定(原因还不知道)，有时候运行2到3次，才能真正找到页面 # 出来的错误的结果，爬取的页面为： [1] "<html><body><script type=\"text/javascript\">function d(a,n){var c=a.length,b=a[c-1];if(n&&n!='JSSESSID'){for(var i=c-2;i>=0;i--){b=a[i]+'.'+b;document.cookie=n+'=; domain='+b+'; expires=Mon,01-Jan-1973 00:00:01 GMT';}}}(function (){var a=document.cookie.split('; ');for(var i=0;i<a.length;i++){d(location.hostname.split('.'),a[i].split('=')[0])}})();(function(u){if(window.navigate&&typeof navigate=='function')navigate(u);var ua=navigator.userAgent;if(ua.match(/applewebkit/i)){var h = document.createElement('a');h.rel='noreferrer';h.href=u;document.body.appendChild(h);var evt=document.createEvent('MouseEvents');evt.initEvent('click', true,true);h.dispatchEvent(evt);}else{document.write('<meta http-equiv=\"Refresh\" Content=\"0; Url='+u+'\" >');}})('http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&ch=&tn=SE_hldp01272_4chwhad3&bar=&wd=rcurl&rsv_spt=1&rsv_pq=a3ed162a0088df8f&rsv_t=43d18gWNyd6HWpqDiKov7Dm548s4HY4cgcJlXc8ujpzRW9Okec2aOb5screzftZo5DJ60Cp7aILvRK2Q&rsv_enter=1&inputT=2119');</script></body></html>" attr(,"Content-Type") "text/html"

postForm()

以保密的形式上传我们所要页面提交的信息，然后获取服务器端返回该页面信息。例如登陆一个页面，需要账户和密码，那么我们需要提交账户和密码，提交的信息要加密，然后抓取登陆后的页面信息。

getBinaryURL()

# getBinaryURL() 下载一个文件
url <- "http://rfunction.com/code/1201/120103.R"
tmp <- getBinaryURL(url)
note <- file("120103.R", open = "wb")
writeBin(tmp, note)
close(note)

# getBinaryURL() 批量下载文件
url <- "http://rfunction.com/code/1202/"
tmp <- RCurl::getURL(url, httpheader = myheader) # 获取网页

tmp_files <- strsplit(x=tmp, split="<li><a href=\"")[[1]]
tmp_files1 <- strsplit(tmp_files, split="\"")
tmp_files2 <- lapply(X=tmp_files1, function(file) {file[1]})
files <- unlist(tmp_files2)
files <- files[c(-1, -2)]

baseURL <- "http://rfunction.com/code/1202/"
for(i in 1:length(files)){
  fullURL <- paste(baseURL, files[i], sep = "")
  tmp <- getBinaryURL(fullURL)
  note <- file(paste("1202-", files[i], sep = ""), open = "wb")
  writeBin(tmp, note)
  close(note)

  Sys.sleep(2) # 休眠2秒
}

XML

# XML简介
# 缺点：在windows下对中文支持不理想（我在ubuntu下也不理想）
library(XML)
url <- "http://data.earthquake.cn/datashare/datashare_more_quickdata_new.jsp" # 中文界面，抓出来是乱码
url <- "http://219.143.71.11/wdc4seis@bj/earthquakes/csn_quakes_p001.jsp" # 英文界面，抓出来是对的
wp <- getURL(url)
doc <-htmlParse(wp, asText = TRUE) # 这里切记encoding 
tables <- readHTMLTable(doc, header=F, which = 2)
# 选取第二个表
head(tables)
                    V1      V2       V3        V4    V5                               V6
1      Origin time(CST) Lat(°) Long(°) Depth(km)   Mag                           Region
2 2012/01/08 14:20:08.0   42.10    87.50       7.0 M 5.0         NORTHERN XINJIANG, CHINA
3 2012/01/01 13:27:55.5   31.40   138.30     360.0 M 7.0       SOUTHEAST OF HONSHU, JAPAN
4 2011/12/27 23:21:58.5   51.80    95.90      10.0 M 7.0     SOUTHWESTERN SIBERIA, RUSSIA
5 2011/12/14 13:04:56.2   -7.50   146.80     120.0 M 7.2  EASTERN NEW GUINEA REG., P.N.G.
6 2011/12/12 09:42:34.0   39.60   118.20       5.0 M 3.2               NORTHEASTERN CHINA

解析xml文件的XPath设置
 斜杠(/)作为路径内部的分割符
 /:表示选择根节点
 //:表示选择任意位置的某个节点
 @: 表示选择某个属性
 *表示匹配任何元素节点
 @*表示匹配任何属性值
 node()表示匹配任何类型的节点

Python request库大文件传输出现MemoryError问题可能不需要昵称 Python python 开发语言后端
使用requests.post(url=url,headers=headers,files=files)这种形式传输大文件出现MemoryError错误。解决办法：使用扩展库requests_toolbelt准备用HTTP在局域网内上传一些文件，文件一般都在1G左右1234r=requests.post('****',data={'path':'2016/07/08/5ASD5SDFASDFASD
2021.01.13【R语言】丨去除行列名双引号穆易青生物信息心得 R语言
在使用R语言在使用R进行数据处理时，我们经常可能会需要对每一行的首行（可能是姓名，geneID等）进行比对。在比对过程中有时会遇到一个小问题，就是明明处理前和处理后的geneID没有变化，但是生成的文件中，列名和行名都打上了双引号，导致比对出现问题，这是为什么？这里就要提到在R中write.table()的默认参数了。我们来举个例子这是R已经读取的基因表达水平的表格文件，这里geneID还没有双引
2025.04.17【Stacked area】| 生信数据可视化：堆叠区域图深度解析穆易青信息可视化
文章目录生信数据可视化：堆叠区域图深度解析堆叠面积图简介为什么使用堆叠面积图如何使用R语言创建堆叠面积图安装和加载ggplot2包创建堆叠面积图的基本步骤示例代码解读堆叠面积图堆叠面积图的局限性实际应用案例示例：基因表达量随时间变化结论生信数据可视化：堆叠区域图深度解析在生物信息学领域，数据可视化是理解复杂数据集的关键。其中，堆叠面积图（StackedAreaChart）是一种展示多个群体随时间变
代谢组数据分析（二十）：通过WGCNA识别核心代谢物生信学习者1 代谢组数据分析数据分析数据挖掘 r语言数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍识别核心基因加载R包导入数据数据预处理检查数据完整性计算软阈值soft根据软阈值构建接矩阵和拓扑重叠矩阵聚类并构建网络拓扑重叠热图查看具体模块的代谢物表达热图识别表型相关模块与分组相关的模块获取核心代谢物(hubmetabolites)导出网络数据用于Cytoscape总结系统信息介绍WGCNA（加权基因共表达
linux常用命令总结小Y在线编码项目开发日常 Java全栈笔记整理 linux 面试经验分享 java centos
1、linux常用命令命令解释备注rm-rf删除服务器所有的文件-r代表递归删除；-f代表强制删除；rm-rf/*mkdir文件夹名称创建文件夹mkdir-pa/b/c；可以创建多级目录pwd显示当前绝对路径tail-fxxx.log监控并输出最后几行内容一般用于查看日志echo输出内容到控制台，或者文本echo"xxx">a.txt覆盖原有文本；echo"xxx">>a.txt追加到原有文本最后
git忽略已经跟踪的文件、文件夹 mxxyang git
忽略文件gitrm--cachedpackage-lock.jsongitcommit-m'update.gitignore'gitpushoriginmaster忽略文件夹gitrm-r--cachednode_modules gitcommit-m'update.gitignore'
Docker - 搭建禅道管理软件 zentao 简简单单OnlineZuozuo 虚拟化/容器化 docker 杂项 docker 禅道搭建 zentao
文章目录Docker-搭建禅道管理软件zentao1、拉取镜像2、运行镜像3、删除容器4、进入面板5、同步时区6、查看运行状态7、禅道的dockerfile8、如何登陆禅道Docker-搭建禅道管理软件zentao这里使用的开源版的禅道1、拉取镜像dockerpullidoop/zentao2、运行镜像dockerhub官方镜像地址https://hub.docker.com/r/idoop/ze
HCIP ospf实验2 阿巴阿巴巴bbb HCIP
1.先配ip2.R1-R5写缺省路由[R1]intloop0[R1-LoopBack0]ipadd1.1.1.124[R1]intg0/0/0[R1-GigabitEthernet0/0/0]ipadd16.0.0.124[R2]intloop0[R2-LoopBack0]ipadd2.2.2.224[R2-LoopBack0]q[R2]intg0/0/0[R2-GigabitEthernet0/
购买电脑时，主要需要关注以下核心配置，它们直接影响性能、使用体验和价格。根据需求（办公、游戏、设计、编程等），侧重点会有所不同。看看Deepseek的建议倔犟♀ 关于电脑电脑游戏
1.处理器（CPU）作用：电脑的“大脑”，影响整体运算速度和多任务处理能力。关键参数：品牌与型号：Intel（酷睿i3/i5/i7/i9）或AMD（锐龙R3/R5/R7/R9）。核心/线程数：多核多线程适合多任务、渲染等（如8核16线程）。主频与加速频率：高频（如3.5GHz~5GHz+）适合游戏、单核性能需求。推荐：办公/上网：i5/R5或更低。游戏/设计：i5/R5以上，预算足选i7/R7。2
linux中如何创建压缩文件,如何在linux下创建与解压zip.docx 何政达 linux中如何创建压缩文件
PAGE/NUMPAGES如何在Linux下创建与解压zip,tar,tar.gz和tar.bz2文件ZIPzip可能是目前使用得最多的文档压缩格式。它最大的优点就是在不同的操作系统平台，比如Linux，Windows以及MacOS，上使用。缺点就是支持的压缩率不是很高，而tar.gz和tar.gz2在压缩率方面做得非常好。闲话少说，我们步入正题吧：我们可以使用下列的命令压缩一个目录：#zip-r
mac上面使用zip命令压缩一劳永逸亚林瓜子 zip shell
问题需要将当前目录的文件和目录（包含隐藏目录）都要压缩近一个zip包，但同时部分目录我不想压缩进去例如：.idea这个种idea的配置目录就不想压缩进zip包。命令zip-rflask-dev.zip.-x"*.idea*"-r:递归目录.:当前目录；-x:排除掉目录总结一行命令简单直接。
如何判断电脑操作系统是win10还是win11 全宇宙最最帅气的哆啦A梦小怪兽 windows
1、打开电脑，按下win+r组合键打开运行窗口，输入dxdiag，点击确定。2、接下来电脑会弹出一个诊断工具的窗口，就显示出操作系统的版本号啦。
m1芯片docker安装mysql全攻略 chenfuyuan0713 docker环境安装 mysql 数据库 docker macos
m1芯片mac使用docker安装mysql最新版本(8.4.0),并使用SequelPro进行连接环境说明机器：MacBookPro2021款AppleM1Pro芯片系统:macOSsonoma14.3mac安装1.拉取镜像dockerpullmysql:latest2.运行容器dockerrun\--namemysql8\--privileged=true\-d\-p3306:3306\--r
【Docker 无法拉去镜像解决】 PeterLST docker elasticsearch docker 网络运维 elasticsearch
Docker无法拉去镜像解决我用的Linux虚拟机版本是CentOS7。今天在使用Docker的时候，无法拉取镜像，报错如下：Errorresponsefromdaemon:Get“https://registry-1.docker.io/v2/”:dialtcp:lookupregistry-1.docker.ioon[::1]:53:readudp[::1]:58656->[::1]:53:r
LLMs基础学习（七）DeepSeek专题（4）汤姆和佩琦 NLP DeepSeek 规则化奖励自我认知蒸馏 RL训练过拟合
LLMs基础学习（七）DeepSeek专题（4）文章目录LLMs基础学习（七）DeepSeek专题（4）DeepSeek-R1训练过程的四个阶段具体流程小结“规则化奖励”具体原因小结“自我认知”（self-cognition）数据基本概念小结RL训练中过度拟合避免方式小结DeepSeek中的蒸馏蒸馏基本流程性能表现小结为何在蒸馏过程中仅使用SFT而非RL？蒸馏过程中是否存在知识损失？如何量化？知识
R语言笔记④——数值摘要、缺失值、数据标准化、线性回归、多元线性回归和主成分分析 ww0peo R语言学习笔记
数据摘要反映集中程度的函数下面是R中反映中程度的函数mean()：均值median()：中位数quantile()：分位数>amean(a)[1]5.4>median(a)[1]6>quantile(a)0%25%50%75%100%1.005.006.006.759.00反映数据分散程度的函数下面是R中反映数据分散程度的函数range()：极值var()：反差sd()：标准差>arange(a)
[bug]langchain agent报错Invalid Format: Missing ‘Action Input:‘ after ‘Action:‘ upp bug langchain javascript python
在学习langchain的agent时候，采用ollama调用本地的deepseek-r1:32b来做一个agent，代码如下：defcreate_custom_agent():llm=ChatOllama(model="deepseek-r1:32b",temperature=0.5)memory=ConversationBufferWindowMemory(memory_key="chat_h
大模型半月报第3期｜Open AI发布o1推理模型；Cohere升级Command R和Command R+模型科智咨询大模型全球观察大模型半月报人工智能
#01产品动态#1.1大语言模型【Cohere】升级CommandR和CommandR+模型版本，重点升级了检索增强生成能力Cohere公司发布了最新版本的CommandR和CommandR+模型，这款模型为企业级模型，应用于商业应用场景。新版模型在编码、数学、推理和延迟方面进行了显著提升，重点提升了处理检索增强生成(RAG)和多语言支持能力。CommandR模型新版本的吞吐量提高了约50%，延迟
java忽略浅拷贝导致bug 仰晨556 java bug java bug
bug源代码/***查询用户列表**@paramuser用户*@parampage页*@paramsize大小*@since2025/04/1411:53:25*/@PostMapping("/getUser")publicIWMSResponsegetUser(@RequestBodySjUseruser,@RequestParam(defaultValue="1")Integerpage,@R
Nginx | Apache 配置 WebSocket 多层代理基本知识（附疑难杂症）码农研究僧配置 nginx apache websocket
目录前言1.问题所示2.基本知识3.原理分析3.1返回2003.2返回4003.3返回5004.彩蛋前言找工作，来万码优才：#小程序://万码优才/r6rqmzDaXpYkJZF爬虫神器，无代码爬取，就来：bright.cn1.问题所示本地测试可以，上了域名的测试就不行了！WebSocketconnectionto'wss://xxxxx/infra/ws?token=2de814778fe84b
深度解析：从DOCX中智能提取正文、表格和图片 Python测试之道测试提效 python 人工智能
引言在现代软件开发过程中，测试工程师经常需要处理大量的文档资料。无论是产品说明书、技术规范还是用户手册，这些文档通常以Word（.docx）格式存储。如何快速准确地从中提取所需信息成为了一个挑战。本文将详细介绍一种基于Python的智能方法，通过解析Word文档来提取指定的正文内容、表格以及嵌入的图片，并结合阿里云百炼deepseek-r1接口进行高级应用开发。基于之前的DeepseekAPI+P
4090租用，各云GPU平台价格对比清单及建议智星云算力人工智能智星云 GPU租用
根据各平台的价格和型号配置，以下是通过DeepSeek-R1进行分析后，给出的建议。一、按显存需求推荐1.24G显存需求（适合常规AI训练/推理、中小模型）性价比首选：智星云（1.35元/小时），价格最低，比第二名BuluAI（1.93元）便宜约30%，适合预算敏感型用户。备选方案：BuluAI（1.93元）或丹摩DAMODEL（2.18元），价格适中，可尝试作为智星云的替代选项。避坑提醒：aut
从 “技术蓝图” 到 “落地实战”——DeepSeek 本地化部署的实施密码码农老司机_阿旭 AI AI服务 ai 人工智能
你能否想象到，只需三条命令即可在Windows系统部署DeepSeek-R1？某高校科研团队通过Ollama工具链，在普通笔记本上实现70B模型的流畅运行。技术平民化的背后，是一套精密的实施方法论。核心内容：硬件选型的“黄金三角”模型版本适配：1.5B适合轻量级对话，671B满足复杂推理（硬件需求差异达20倍）。算力配置公式：显存容量≥模型参数量×2（如70B模型需140GB显存）。案例拆解：医院
从零开始嵌入式-Day3 Fuchsia c语言 linux
vi的便捷用法:进入vi之前，ctrl+shift+T打开并列终端，在第一个终端写main.c，只保存不退出，在第二个终端编译，alt+1/alt+2进行终端切换。转义字符:1.\n：换行，光标从本行移至下一行。2.\t：水平制表符，将前后字符之间凑够8个。3.\b：退格(键盘中的向左箭头)，执行后光标退至当前位置的前一位。4.\r：回车，将光标从当前位置移动至本行最左边。5.\f：换页，将当前位
AI提示词框架如何应用于实际的项目管理赛博AI Lewis 人工智能人工智能
只讲框架方法，不讲实际项目落地，就是在空谈。以下是AI提示词框架在项目管理中的典型应用场景及实践方法，结合敏捷开发、风险控制、团队协作等核心环节进行解析：一、项目规划与目标拆解适用框架：B.R.O.K.E、R.O.S.E.S、SCOPE应用场景：需求澄清B.R.O.K.E框架：通过「背景-角色-目标-关键结果」四要素，明确项目背景（如市场竞争环境）、AI角色（项目分析师）、可量化目标（如用户增长3
数据分析：线性混合模型分析及其可视化生信学习者1 数据分析数据分析数据挖掘 r语言数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理步骤数据下载加载R包导入数据数据预处理数据描述线性混合模型构建模型查看模型结果诊断和评估线性混合模型统计分析模型模型预测区间可视化结果其他系统信息介绍线性混合模型（LinearMixed-EffectsModels），也称为混合效应模型，是一种用于分析聚类或重复测量数据的统计模型。它包含固定效应（fixed
科研绘图系列：R语言单细胞数据常见的可视化图形生信学习者1 SCI科研绘图系列数据可视化 r语言数据分析数据挖掘
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理图1图2图3图4图5图6系统信息参考介绍单细胞数据常见的可视化图形因为本教程是单细胞数据，因此运行本画图脚本需要电脑的内存最少32Gb加载R包library(tidyverse)library(Seurat)library(reshape2)library(ggrepel)li
生信初学者教程（九）：数据预处理生信学习者1 生信论文手把手保姆教程 r语言数据可视化数据分析机器学习
文章目录LIRI-JPLIRI-JP临床表型加载R包导入数据清洗临床数据清洗实验处理数据清洗样品信息数据输出结果LIRI-JP转录组加载R包导入数据数据清洗过滤基因输出结果TCGA-LIHCTCGA-LIHC临床表型加载R包导入数据数据清洗输出结果TCGA-LIHC转录组加载R包导入数据数据清洗过滤基因表达值转换成countabundance输出结GSE14520GSE14520临床表型加载R包导
算法差分详解 + 总结英雄不问出处～算法
文章目录差分一维差分题解代码二维差分差分区间修改时使用差分1.先预处理一个差分数组，cre[i]=a[i]-a[i-1]，对差分数组求前缀和可以还原为原数组2.如果要让区间内的数+d，比如[l,r]内+d，那么r+1区间-d可以达到这样的效果，原数组[l,r]区间就+d了，只需要让差分数组第一个数加d，前缀和后后面的数都加上了d，所以让r+1以及后面的数-d，恢复原来的情况举个例子原数组:1221
Ubuntu22.04下安装RealtekRTL8125网卡驱动(亲测有效) 水木年華服务器网络运维
最近工作电脑老是出现网络问题，可能是之前安装了防火墙，把网卡驱动搞崩了，我一直不解为嘛时好时不好，后面查资料发现有人跟我一样，于是就开始了换显卡驱动之路：参考链接1：https://blog.csdn.net/weixin_43932656/article/details/118007962参考链接2：[ubuntu22.04]ubuntu22.04编译r8152驱动出现thecompilerdi
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running]root@192.168.9.136:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发