MinggeQingchun

Python - 爬虫；爬虫-网页抓取数据-工具curl

一、爬虫

关于爬虫的合法性

通用爬虫限制：Robots协议【约定协议robots.txt】

robots协议：协议指明通用爬虫可以爬取网页的权限
robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守

几乎每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

注意事项！！！

进行爬虫时，需要遵守目标网站的robots.txt文件的规定，避免过度爬取或违反网站的使用条款。
爬虫行为可能会给目标网站带来额外的负担，因此在进行大规模爬虫操作时，需要谨慎处理。
如果涉及金融、医疗、法律等存在风险的领域，请在操作前咨询专业人士，并注意遵守相关法律法规。

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

爬虫是一个自动化程序，它能够自动地从互联网上抓取数据。使用Python编写爬虫程序时，通常会用到以下库：

requests：用于发送HTTP请求，获取网页内容。

BeautifulSoup 或 lxml：用于解析HTML或XML文档，提取所需数据。

Scrapy：一个强大的爬虫框架，适合构建大型爬虫项目。

HTTP & HTTPS

HTTP：超文本传输协议：Hyper Text Transfer Protocal
HTTPS： Secure Hypertext Transfer Protocol 安全的超文本传输协议

1、headers的属性介绍

User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
Content-Type : 在使用 REST 接口时，服务器会检查该值，用来确定 HTTP Body 中的内容该怎样解析。
application/xml ：在 XML RPC，如 RESTful/SOAP 调用时使用
application/json ：在 JSON RPC 调用时使用
application/x-www-form-urlencoded ：浏览器提交 Web 表单时使用
在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会导致服务器拒绝服务

注意：使用正则匹配替换^(.*):(.*)$ --> "\1":"\2",

随机添加/修改User-Agent

可以通过调用Request.add_header() 添加/修改一个特定的header 也可以通过调用Request.get_header()来查看已有的header。

ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
# 添加自定义的头信息
req = urllib.request.Request('http://httpbin.org/user-agent')
req.add_header('User-Agent', ua)
# 接受一个urllib.request.Request对象
r = urllib.request.urlopen(req)
resp = json.loads(r.read())
# 打印httpbin网站返回信息里的user-agent
print('网站返回的user-agent：', resp["user-agent"]) # 网站返回的user-agent： Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3

2、Referer (页面跳转处)

Referer：表明产生请求的网页来自于哪个URL，用户是从该 Referer页面访问到当前请求的页面。这个属性可以用来跟踪Web请求来自哪个页面，是从什么网站来的等。

有时候遇到下载某网站图片，需要对应的referer，否则无法下载图片，那是因为人家做了防盗链，原理就是根据referer去判断是否是本网站的地址，如果不是，则拒绝，如果是，就可以下载；

3、Accept-Encoding（文件编解码格式）

Accept-Encoding：指出浏览器可以接受的编码方式。编码方式不同于文件格式，它是为了压缩文件并加速文件传递速度。浏览器在接收到Web响应之后先解码，然后再检查文件格式，许多情形下这可以减少大量的下载时间。

举例：Accept-Encoding:gzip;q=1.0, identity; q=0.5, ;q=0

如果有多个Encoding同时匹配, 按照q值顺序排列，本例中按顺序支持 gzip, identity压缩编码，支持gzip的浏览器会返回经过gzip编码的HTML页面。如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。

4、Accept-Language（语言种类）

Accept-Langeuage：指出浏览器可以接受的语言种类，如en或en-us指英语，zh或者zh-cn指中文，当服务器能够提供一种以上的语言版本时要用到。

5.、Accept-Charset（字符编码）

Accept-Charset：指出浏览器可以接受的字符编码。

举例：Accept-Charset:iso-8859-1,gb2312,utf-8

ISO8859-1：通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符，英文浏览器的默认值是ISO-8859-1.
gb2312：标准简体中文字符集;
utf-8：UNICODE 的一种变长字符编码，可以解决多种语言文本显示问题，从而实现应用国际化和本地化。
如果在请求消息中没有设置这个域，缺省是任何字符集都可以接受。

6.、Cookie （Cookie）

Cookie：浏览器用这个属性向服务器发送Cookie。Cookie是在浏览器中寄存的小型数据体，它可以记载和服务器相关的用户信息，也可以用来实现会话功能，以后会详细讲。

7.、Content-Type (POST数据类型)

Content-Type：POST请求里用来表示的内容类型。

举例：Content-Type = Text/XML; charset=gb2312：

指明该请求的消息体中包含的是纯文本的XML类型的数据，字符编码采用“gb2312”。

8、服务端HTTP响应

HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行、响应正文

常用的响应报头(了解)

理论上所有的响应头信息都应该是回应请求头的。但是服务端为了效率，安全，还有其他方面的考虑，会添加相对应的响应头信息，从上图可以看到：

1、Cache-Control：must-revalidate, no-cache, private

这个值告诉客户端，服务端不希望客户端缓存资源，在下次请求资源时，必须要从新请求服务器，不能从缓存副本中获取资源。

Cache-Control是响应头中很重要的信息，当客户端请求头中包含Cache-Control:max-age=0请求，明确表示不会缓存服务器资源时,Cache-Control作为作为回应信息，通常会返回no-cache，意思就是说，"那就不缓存呗"。
当客户端在请求头中没有包含Cache-Control时，服务端往往会定,不同的资源不同的缓存策略，比如说oschina在缓存图片资源的策略就是Cache-Control：max-age=86400,这个意思是，从当前时间开始，在86400秒的时间内，客户端可以直接从缓存副本中读取资源，而不需要向服务器请求。

2、Connection：keep-alive

这个字段作为回应客户端的Connection：keep-alive，告诉客户端服务器的tcp连接也是一个长连接，客户端可以继续使用这个tcp连接发送http请求。

3、Content-Encoding:gzip

告诉客户端，服务端发送的资源是采用gzip编码的，客户端看到这个信息后，应该采用gzip对资源进行解码。

4、Content-Type：text/html;charset=UTF-8

告诉客户端，资源文件的类型，还有字符编码，客户端通过utf-8对资源进行解码，然后对资源进行html解析。通常我们会看到有些网站是乱码的，往往就是服务器端没有返回正确的编码。

5、Date：Sun, 1 Jan 2000 01:00:00 GMT

这个是服务端发送资源时的服务器时间，GMT是格林尼治所在地的标准时间。http协议中发送的时间都是GMT的，这主要是解决在互联网上，不同时区在相互请求资源的时候，时间混乱问题。

6、Expires:Sun, 1 Jan 2000 01:00:00 GMT

这个响应头也是跟缓存有关的，告诉客户端在这个时间前，可以直接访问缓存副本，很显然这个值会存在问题，因为客户端和服务器的时间不一定会都是相同的，如果时间不同就会导致问题。所以这个响应头是没有Cache-Control：max-age=*这个响应头准确的，因为max-age=date中的date是个相对时间，不仅更好理解，也更准确。

7、Pragma:no-cache

这个含义与Cache-Control等同。

8、Server：Tengine/1.4.6

这个是服务器和相对应的版本，只是告诉客户端服务器的信息。

9、Transfer-Encoding：chunked

这个响应头告诉客户端，服务器发送的资源的方式是分块发送的。一般分块发送的资源都是服务器动态生成的，在发送时还不知道发送资源的大小，所以采用分块发送，每一块都是独立的，独立的块都能标示自己的长度，最后一块是0长度的，当客户端读到这个0长度的块时，就可以确定资源已经传输完了。

10、Vary: Accept-Encoding

告诉缓存服务器，缓存压缩文件和非压缩文件两个版本，现在这个字段用处并不大，因为现在的浏览器都是支持压缩的。

响应状态码

响应状态代码有三位数字组成，第一个数字定义了响应的类别，且有五种可能取值。

常见状态码：

100~199：表示服务器成功接收部分请求，要求客户端继续提交其余请求才能完成整个处理过程。
200~299：表示服务器成功接收请求并已完成整个处理过程。常用200（OK 请求成功）。
300~399：为完成请求，客户需进一步细化请求。例如：请求的资源已经移动一个新地址、常用302（所请求的页面已经临时转移至新的url）、307和304（使用缓存资源）。
400~499：客户端的请求有错误，常用404（服务器无法找到被请求的页面）、403（服务器拒绝访问，权限不够）。
500~599：服务器端出现错误，常用500（请求未完成。服务器遇到不可预知的情况）。

Cookie 和 Session：

服务器和客户端的交互仅限于请求/响应过程，结束之后便断开，在下一次请求时，服务器会认为新的客户端。

为了维护他们之间的链接，让服务器知道这是前一个用户发送的请求，必须在一个地方保存客户端的信息。

Cookie：通过在客户端记录的信息确定用户的身份。

Session：通过在服务器端记录的信息确定用户的身份。

二、curl

curl是一个在命令行下工作的文件传输工具，常用于网络爬虫‌。以下是关于curl爬虫的一些详细信息和使用方法：

curl简介

curl全称Command Line URL viewer，是一个在命令行下工作的文件传输工具。它支持文件的上传和下载，可以发送各种http请求给网站，然后抓取网站上内容。
curl支持多种协议，包括HTTP、HTTPS、FTP、TELNET等。
curl支持代理、用户认证、FTP上传、HTTP POST请求、SSL连接、cookies、文件传输、Metalink等功能。

curl在爬虫中的应用

curl可以用于获取网页的源代码。例如，通过命令行窗口使用curl访问新浪财经（curl http://finance.sina.com.cn/），可以获取新浪财经首页的网页源代码。
curl支持多种参数来定制请求。例如，使用-o参数可以将网页源代码下载并保存到文件中。
curl还支持自动跳转（-L参数）、显示http response的头信息（-i参数）、只显示http response的头信息（-I参数）等功能。

curl的高级用法

curl可以用于发送POST请求。例如，使用-X POST --data "data=xxx" www.cnblogs.com/form.cgi可以发送包含数据的POST请求。
curl还可以用于处理cookies、设置请求头、处理HTTP认证等高级功能。

curl在PHP中的应用

在PHP中，curl库是自带的，无需额外安装。但为了避免使用时出现错误，建议检查cURL版本是否已经安装和集成。
使用PHP的curl库，可以方便地进行Web数据的抓取、FTP上传文件、HTTP POST和PUT数据等操作。
在PHP中，通过curl_setopt()函数可以设置各种请求选项，如URL、是否返回响应内容、请求头等。
使用curl_exec()方法可以执行HTTP请求，获取响应内容。最后，使用curl_close()函数关闭cURL会话。

（一）Windows安装curl

在Windows系统中，通常有两种方式可以安装和使用curl命令：

方法1：使用Chocolatey

Chocolatey 是一个Windows下的包管理器，类似于Linux中的apt或yum。通过Chocolatey安装curl非常简单。

安装Chocolatey（如果你还没有安装的话）：

打开命令提示符（cmd）并执行以下命令：

@"%SystemRoot%\System32\WindowsPowerShell\v1.0\powershell.exe" -NoProfile -InputFormat None -ExecutionPolicy Bypass -Command "iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))" && SET "PATH=%PATH%;%ALLUSERSPROFILE%\chocolatey\bin"

安装curl：在命令提示符（cmd）中，执行以下命令：
```
choco install curl
```

方法2：手动下载并安装

如果你不想使用Chocolatey，你也可以手动下载curl的可执行文件。

下载curl：访问curl官方网站或GitHub的curl项目页面，下载适合你的Windows版本的curl。
解压和放置到系统路径：

下载后，通常你会得到一个压缩文件（如.zip）。解压这个文件，并将解压后的文件夹路径添加到系统的环境变量PATH中。
- 右键点击“此电脑”或“我的电脑”，选择“属性”。
- 点击“高级系统设置”。
- 在“系统属性”窗口中，点击“环境变量”。
- 在“系统变量”区域找到Path变量，选择它然后点击“编辑”。
- 点击“新建”，然后添加你的curl解压目录的路径（例如C:\Program Files\curl）。
- 点击“确定”保存更改。
验证安装：

打开一个新的命令提示符窗口，输入curl --version来检查是否正确安装了curl。如果显示版本信息，那么安装成功。
```
curl --version
```

如果在Windows中遇到如下错误

curl --version curl : 未能解析此远程名称: '--version' 所在位置 行:1 字符: 1
curl --version
  + CategoryInfo          : InvalidOperation: (System.Net.HttpWebRequest:HttpWebRequest) [Invok
 e-WebRequest]，WebException
  + FullyQualifiedErrorId : WebCmdletWebResponseException,Microsoft.PowerShell.Commands.InvokeW
 ebRequestCommand

是因为你在 PowerShell 中使用了 curl 命令，并且 PowerShell 将 curl 解释为 Invoke-WebRequest 而不是调用实际的 curl 工具。

以下是解决方案：

如果你想使用 Windows 自带的类似 curl 的功能，你可以使用 Invoke-WebRequest -Uri 或者简写为 iwr -Uri 。

如果你确实想使用 GNU 或 Linux 版本的 curl 工具，请确保它已正确安装并且在系统的 PATH 环境变量中。然后尝试再次运行 curl --version。

如果你需要检查是否安装了 curl 及其版本信息，在 PowerShell 中可以尝试以下命令来避免混淆：

# 使用 cmd.exe 来运行 curl 命令
cmd /c "curl --version"

方法3：使用Git Bash（如果你安装了Git）

如果你已经安装了Git for Windows，Git Bash自带了curl。你可以通过Git Bash来使用curl，而不需要单独安装。

打开Git Bash。
输入curl --version来检查是否已经包含在Git Bash中。

（二）网站字段详解

一、查看网页源码

直接在curl命令后加上网址，就可以看到网页源码。我们以网址www.sina.com为例（选择该网址，主要因为它的网页代码较短）：

$ curl https://www.baidu.com

StatusCode        : 200
StatusDescription : OK
Content           : 
                    
                        
                    
                    
                          更多产品

    关于百度 About Baidu 
 ©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号

`-I`参数则是只显示http response的头信息。

四、显示通信过程：`-v`参数

`-v`参数可以显示一次http通信的整个过程，包括端口连接和http request头信息。

curl -v www.baidu.com

详细信息: GET with 0-byte payload
详细信息: received 511136-byte response of content type text/html; charset=utf-8


StatusCode        : 200
StatusDescription : OK
Content           : ; outerText=; tagName=I
                    MG; class=s-top-tab-image; src=data:image/png;base64,iVBORw0KGgoA
                    AAANSUhEUgAAAE4AAAAqCAMAAAAqEZ1jAAAAAXNSR0IArs4c6QAAAAlwSFlzAAAhO
                    AAAITgBRZYxYAAAAKJQTFRFAAAAenb/RpP/k2j/XXf7cXX6P5z7i2n8W3j7ZHP7jm
                    n9VID7Qpf8jWn8Xnr6iWr8YHb7i2n8RJb9dWz8WXr8mWj9RpP8W3n8bW/8l2j+QJz
                    9Q5f9ToT8fWv9ZW/8lWj9VID8YnX7Pp79QZr9pWb+RJT8m2f9k2j9SYz8jWn9hmr8
                    UIT8fmv8VX78Xnn7d2z8ZHT7WHr7bm77Xnb7Z3D7YHH7RJOQRAAAACJ0Uk5TABAgI
                    CAwQEBAWF5gZXBwgICbn5+fo7+/vsLP39/f3urv73XwOA8AAAKfSURBVHja7dbJcu
                    IwFIXhIzCxMTMNcdwMDoMZY4NxeP9X66srEckYQlPVvcvPBhZ8dVSIAvz03xNV/Lu
                    q4Xq9Hgo8nfDqjXq97hS1yXZNhXg2Z3o+f1KnLqx62y17Pp5smp+158EUaW6I52rk
                    xLF3eoNpt1Ne+bR+Fd8U5Oc8Px6P5M0Evgq11ytpy0jgbk6e5cSxd2pb7yKOikpTo
                    uWyhbsNMsnpefZpOzsCI7c8brkM74/LqFSC7HkwVTu9lsB14ZJy745LlDdV5+3iQT
                    XC7s9z3pNEggOh9s3woOFqJT2BmzUSLnMQEEeeh2+rkraiOrjZeL+XXEBwyp71Ybg
                    +hWL+iltGt8ftKQI9QMzSlDxz9VofssIMdxitdJEvbo3jxqAGKXtt6N4OkpvgkmiF
                    a50Ch1UU8zab/Ya4Br/IUnnewHCHg+FEh7/ExUIXdq+KG4N7z3hfzXDkaa5FmGpdM
                    ENrYWWjaoDrJtJLu4ajFFfbUduryN1ue4brb2KpjSvgvETe53R24U6Ggz+RYJnsCT
                    MujmMJ9qELErkv9y7cyXAGtNCoI2Dqx9ymAl1bcYMLJ2NO5fZ2dmHLxiBGrJlxEAl
                    7M1HkTFUzseeiWHOxYK+CrwLltRX3qTk7/4PbTXDdaBHLxytMdcllaaA56U1RSEyU
                    56M0jotfYBLvynM091ni0GGtPO73nLkR7AaK6yqOKnG1g+wXrnqZz9nrw87bszdjj
                    n/dDGffbgdX9YmT4HykaoLTp/UABGfyypx7a1yFNb0wpl7BddW8geSO5JU5TE63xh
                    mOPb2uok8reN1Nrn4qjQNBlmfdvkB5beaoMgdP4LpFgbNuX3svtSwABoZ7WPOKa0I
                    nxgl7DurMdfFXVV7savjK8WQ1/cz5+Q9e7A/jUZeiPQO0fwAAAABJRU5ErkJggg==
                    }, @{innerHTML=; innerText=; outerHTML=; ou
                    terText=; tagName=IMG; src=https://pss.bdstatic.com/static/superm
                    an/img/topnav/newfanyi-da0cea8f7e.png}, @{innerHTML=; innerText=;
                     outerHTML=; outerText=; tagName=IMG;
                    src=https://pss.bdstatic.com/static/superman/img/topnav/newxueshu
                    icon-a5314d5c83.png}, @{innerHTML=; innerText=; outerHTML=; outerText=; tagName=IMG; src=https://pss.bdstati
                    c.com/static/superman/img/topnav/newbaike-889054f349.png}...}
InputFields       : {@{innerHTML=; innerText=; outerHTML=; outerText=; tagName=INPUT; name=ie; type=hidde
                    n; value=utf-8}, @{innerHTML=; innerText=; outerHTML=; outerText=; tagName=INPUT; name=f;
                    type=hidden; value=8}, @{innerHTML=; innerText=; outerHTML=; outerText=; tagName=INPU
                    T; name=rsv_bp; type=hidden; value=1}, @{innerHTML=; innerText=;
                    outerHTML=; outerTe
                    xt=; tagName=INPUT; name=rsv_idx; type=hidden; value=1}...}
Links             : {@{innerHTML=百度首页; innerText=百度首页; outerHTML=百度首页; outerText=百度首页; tagName=A; clas
                    s=toindex; href=/}, @{innerHTML=设置; innerText=设置; outerHTML=设置; outerText=设置; tagName=A; name=tj_settingic
                    on; class=pf; href=javascript:;}, @{innerHTML=登录; innerText=登
                    录; outerHTML=登录; outerText=登录;
                    tagName=A; name=tj_login; class=lb; onclick=return false;; href=h
                    ttps://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2
                    Fwww.baidu.com%2F&sms=5}, @{innerHTML=

                                            新闻

                                    ; innerText= 新闻 ; outerHTML=

                                            新闻

                                    ; outerText= 新闻 ; tagName=A; class=mnav c-f
                    ont-normal c-color-t; href=http://news.baidu.com; target=_blank}.
                    ..}
ParsedHtml        : mshtml.HTMLDocumentClass
RawContentLength  : 511136

如果你觉得上面的信息还不够，那么下面的命令可以查看更详细的通信过程。

$ curl --trace output.txt www.baidu.com

或者

$ curl --trace-ascii output.txt www.baidu.com

运行后，请打开output.txt文件查看。

五、发送表单信息

发送表单信息有GET和POST两种方法。GET方法相对简单，只要把数据附在网址后面就行。

$ curl example.com?data=xxx

POST方法必须把数据和网址分开，curl就要用到--data参数。

$ curl -X POST --data "data=xxx" example.com

如果你的数据没有经过表单编码，还可以让curl为你编码，参数是`--data-urlencode`。

$ curl -X POST--data-urlencode "date=April 1" example.com/form.cgi

六、HTTP动词

curl默认的HTTP动词是GET，使用`-X`参数可以支持其他动词。

$ curl -X POST www.example.com

$ curl -X DELETE www.example.com

七、文件上传

假定文件上传的表单是下面这样：

　　
　　

你可以用curl这样上传文件：

$ curl --form upload=@localfilename --form press=OK [URL]

八、Referer字段

有时你需要在http request头信息中，提供一个referer字段，表示你是从哪里跳转过来的。

$ curl --referer http://www.example.com http://www.example.com

九、User Agent字段

这个字段是用来表示客户端的设备信息。服务器有时会根据这个字段，针对不同设备，返回不同格式的网页，比如手机版和桌面版。

curl可以这样模拟：

$ curl --user-agent "[User Agent]" [URL]

十、cookie

使用`--cookie`参数，可以让curl发送cookie。

$ curl --cookie "name=xxx" www.example.com

至于具体的cookie的值，可以从http response头信息的`Set-Cookie`字段中得到。

`-c cookie-file`可以保存服务器返回的cookie到文件，`-b cookie-file`可以使用这个文件作为cookie信息，进行后续的请求。

$ curl -c cookies http://example.com
$ curl -b cookies http://example.com

十一、增加头信息

有时需要在http request之中，自行增加一个头信息。`--header`参数就可以起到这个作用。

$ curl --header "Content-Type:application/json" http://example.com

十二、HTTP认证

有些网域需要HTTP认证，这时curl需要用到`--user`参数。

$ curl --user name:password example.com

（三）curl命令行参数

参考链接

Curl Cookbook

不带有任何参数时，curl 就是发出 GET 请求。

curl http://www.baidu.com

上面命令向www.baidu.com发出 GET 请求，服务器返回的内容会在命令行输出。

-A

-A参数指定客户端的用户代理标头，即User-Agent。curl 的默认用户代理字符串是curl/[version]。

$ curl -A 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36' https://www.baidu.com

上面命令将User-Agent改成 Chrome 浏览器。

$ curl -A '' https://www.baidu.com

上面命令会移除User-Agent标头。

也可以通过-H参数直接指定标头，更改User-Agent。

$ curl -H 'User-Agent: php/1.0' https://www.baidu.com

-b

-b参数用来向服务器发送 Cookie。

$ curl -b 'data=admin' https://www.baidu.com

上面命令会生成一个标头Cookie: data=admin，向服务器发送一个名为data、值为admin的 Cookie。

$ curl -b 'data1=admin;data2=admin2' https://www.baidu.com

上面命令发送两个 Cookie。

$ curl -b cookies.txt https://www.baidu.com

上面命令读取本地文件cookies.txt，里面是服务器设置的 Cookie（参见-c参数），将其发送到服务器。

-c

-c参数将服务器设置的 Cookie 写入一个文件。

$ curl -c cookies.txt https://www.baidu.com

上面命令将服务器的 HTTP 回应所设置 Cookie 写入文本文件cookies.txt。

-d

-d参数用于发送 POST 请求的数据体。

$ curl -d 'login=admin＆password=admin123' -X POST https://www.baidu.com/login
# 或者
$ curl -d 'login=admin' -d 'password=admin123' -X POST https://www.baidu.com/login

使用-d参数以后，HTTP 请求会自动加上标头Content-Type : application/x-www-form-urlencoded。并且会自动将请求转为 POST 方法，因此可以省略-X POST。

-d参数可以读取本地文本文件的数据，向服务器发送。

$ curl -d '@data.txt' https://www.baidu.com/login

上面命令读取data.txt文件的内容，作为数据体向服务器发送。

# $ cmd /c "curl -d test=123 http://httpbin.org/post"
$ curl -d test=123 http://httpbin.org/post
{
  "args": {},
  "data": "",
  "files": {},
  "form": {
    "test": "123"
  },
  "headers": {
    "Accept": "*/*",
    "Content-Length": "8",
    "Content-Type": "application/x-www-form-urlencoded",
    "Host": "httpbin.org",
    "User-Agent": "curl/8.9.1",
    "X-Amzn-Trace-Id": "Root=1-67a56bb0-6dd0b5a5665ff1d168572cf2"
  },
  "json": null,
  "origin": "58.241.18.10",
  "url": "http://httpbin.org/post"
}

--data-urlencode

--data-urlencode参数等同于-d，发送 POST 请求的数据体，区别在于会自动将发送的数据进行 URL 编码。

$ curl --data-urlencode 'comment=hello world' https://www.baidu.com/login

上面代码中，发送的数据hello world之间有一个空格，需要进行 URL 编码。

-e

-e参数用来设置 HTTP 的标头Referer，表示请求的来源。

curl -e 'https://www.baidu.com?q=example' https://www.example.com

上面命令将Referer标头设为https://www.baidu.com?q=example。

-H参数可以通过直接添加标头Referer，达到同样效果

curl -H 'Referer: https://www.baidu.com?q=example' https://www.example.com

-F

-F参数用来向服务器上传二进制文件。

$ curl -F '[email protected]' https://www.baidu.com/profile

上面命令会给 HTTP 请求加上标头Content-Type: multipart/form-data，然后将文件photo.png作为file字段上传。

-F参数可以指定 MIME 类型。

$ curl -F '[email protected];type=image/png' https://www.baidu.com/profile

上面命令指定 MIME 类型为image/png，否则 curl 会把 MIME 类型设为application/octet-stream。

-F参数也可以指定文件名

$ curl -F '[email protected];filename=me.png' https://www.baidu.com/profile

上面命令中，原始文件名为photo.png，但是服务器接收到的文件名为me.png。

-G

-G参数用来构造 URL 的查询字符串。

$ curl -G -d 'q=kitties' -d 'count=20' https://www.baidu.com/search

上面命令会发出一个 GET 请求，实际请求的 URL 为百度一下，你就知道/search?q=kitties&count=20。如果省略--G，会发出一个 POST 请求。

如果数据需要 URL 编码，可以结合--data--urlencode参数。

$ curl -G --data-urlencode 'comment=hello world' https://www.example.com

-H

-H参数添加 HTTP 请求的标头。

$ curl -H 'Accept-Language: en-US' https://www.baidu.com

上面命令添加 HTTP 标头Accept-Language: en-US。

$ curl -H 'Accept-Language: en-US' -H 'Secret-Message: xyzzy' https://www.baidu.com

上面命令添加两个 HTTP 标头。

$ curl -d '{"login": "emma", "pass": "123"}' -H 'Content-Type: application/json' https://www.baidu.com/login

上面命令添加 HTTP 请求的标头是Content-Type: application/json，然后用-d参数发送 JSON 数据。

-i

-i参数打印出服务器回应的 HTTP 标头。

$ curl -i https://www.baidu.com

上面命令收到服务器回应后，先输出服务器回应的标头，然后空一行，再输出网页的源码。

-I

-I参数向服务器发出 HEAD 请求，然会将服务器返回的 HTTP 标头打印出来。

$ curl -I https://www.baidu.com

上面命令输出服务器对 HEAD 请求的回应。

--head参数等同于-I。

$ curl --head https://www.baidu.com

-k

-k参数指定跳过 SSL 检测。

$ curl -k https://www.baidu.com

上面命令不会检查服务器的 SSL 证书是否正确。

-L

-L参数会让 HTTP 请求跟随服务器的重定向。curl 默认不跟随重定向。

$ curl -L -d 'tweet=hi' https://api.twitter.com/tweet

--limit-rate

--limit-rate用来限制 HTTP 请求和回应的带宽，模拟慢网速的环境。

$ curl --limit-rate 200k https://www.baidu.com

上面命令将带宽限制在每秒 200K 字节。

-o

-o参数将服务器的回应保存成文件，等同于wget命令。

$ curl -o example.html https://www.example.com

上面命令将www.example.com保存成example.html。

-O

-O参数将服务器回应保存成文件，并将 URL 的最后部分当作文件名。

$ curl -O https://www.example.com/foo/bar.html

上面命令将服务器回应保存成文件，文件名为bar.html。

-s

-s参数将不输出错误和进度信息。

$ curl -s https://www.example.com

上面命令一旦发生错误，不会显示错误信息。不发生错误的话，会正常显示运行结果。

如果想让 curl 不产生任何输出，可以使用下面的命令。

$ curl -s -o /dev/null https://google.com

-S

-S参数指定只输出错误信息，通常与-s一起使用。

$ curl -s -o /dev/null https://www.baidu.com

上面命令没有任何输出，除非发生错误。

-u

-u参数用来设置服务器认证的用户名和密码。

$ curl -u 'admin:admin12345' https://google.com/login

上面命令设置用户名为admin，密码为admin12345，然后将其转为 HTTP 标头Authorization: Basic Ym9iOjEyMzQ1。

curl 能够识别 URL 里面的用户名和密码。

$ curl https://admin:[email protected]/login

上面命令能够识别 URL 里面的用户名和密码，将其转为上个例子里面的 HTTP 标头。

$ curl -u 'admin' https://google.com/login

上面命令只设置了用户名，执行后，curl 会提示用户输入密码。

-v

-v参数输出通信的整个过程，用于调试。

$ curl -v https://www.example.com

--trace参数也可以用于调试，还会输出原始的二进制数据

$ curl --trace - https://www.example.com

-x

-x参数指定 HTTP 请求的代理。

$ curl -x socks5://james:[email protected]:8080 https://www.example.com

上面命令指定 HTTP 请求通过myproxy.com:8080的 socks5 代理发出。

如果没有指定代理协议，默认为 HTTP。

$ curl -x james:[email protected]:8080 https://www.example.com

上面命令中，请求的代理使用 HTTP 协议。

-X

-X参数指定 HTTP 请求的方法。

$ curl -X POST https://www.example.com

上面命令对https://www.example.com发出 POST 请求

你可能感兴趣的:(Python,爬虫,curl,python)

树莓派实验——人脸识别 Rounie opencv python 计算机视觉
importnumpyasnp#导入numpy科学计算库importcv2#导入OpenCV函数库#装载人脸识别特征文件face_cascade=cv2.CascadeClassifier('/usr/local/lib/python3.5/dist-packages/cv2/data/haarcascade_frontalface_alt.xml')cap=cv2.VideoCapture(0)
2024年Python最全人脸检测实战高级：使用 OpenCV、Python 和 dlib 完成眨眼检测 2401_84691757 程序员 python opencv 开发语言
然而，一旦人眨眼（右上），眼睛的纵横比就会急剧下降，接近于零。下图绘制了视频剪辑的眼睛纵横比随时间变化的图表。正如我们所看到的，眼睛纵横比是恒定的，然后迅速下降到接近零，然后再次增加，表明发生了一次眨眼。在下一节中，我们将学习如何使用面部标志、OpenCV、Python和dlib实现眨眼检测的眼睛纵横比。使用面部标志和OpenCV检测眨眼==============================
Python的内存管理星辰灬 Python python pycharm
Python的内存管理在Python中，内存管理涉及到一个包含所有Python对象和数据结构的私有堆（heap）。这个私有堆的管理由内部的Python内存管理器（Pythonmemorymanager）保证。Python内存管理器有不同的组件来处理各种动态存储管理方面的问题，如共享、分割、预分配或缓存。内存管理机制动态内存分配：Python使用动态内存分配，这意味着它在运行时动态分配和管理内存，而
【Tkinter从入门到精通】Python原生GUI开发全指南满怀1015 python 开发语言 Tkinter GUI开发桌面应用界面设计
目录前言️技术背景与价值当前技术痛点️解决方案概述目标读者说明一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明⚖️技术选型对比️二、实战演示⚙️环境配置要求核心代码实现案例1：基础窗口创建案例2：网格布局计算器案例3：文件选择对话框✅运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四、最佳实践✅推荐方案❌常见错误调试技巧五、应用场景扩展适用领域创新应用方向生态工具链✨结语⚠️技术局
【模型部署】如何在Linux中通过脚本文件部署模型满怀1015 人工智能 linux 网络人工只能模型部署
在Linux中，你可以将部署命令保存为可执行脚本文件，并通过终端直接调用。以下是几种常见且实用的方法：方法1：Shell脚本（推荐）步骤创建一个.sh文件（例如start_vllm.sh）：#!/bin/bashCUDA_VISIBLE_DEVICES=7\python-mvllm.entrypoints.openai.api_server\--served-model-nameQwen2-7B-
如果用于AI评课系统的话——五款智能体比较东方-教育技术博主人工智能应用人工智能
你目前的项目特点是：已经具备了课堂文本分析、大模型对话系统、课堂视频分析的技术模块；计划通过智能体调用你现有的Python分析脚本，实现数据分析、自动可视化，并与教师互动；更强调多智能体协作、流程灵活编排，以及循证研究的交互分析。因此，我们重点考量生态成熟度、流程编排能力、多智能体协作能力、易用性四个维度。下面逐个分析你提到的框架：智能体框架综合对比分析：框架生态成熟度多智能体能力流程编排能力易用
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
【Python GUI框架全解析】六大主流工具对比与实战指南满怀1015 python 开发语言 GUI开发 PyQt wxPython Kivy
目录前言️技术背景与价值当前技术痛点️解决方案概述目标读者说明一、技术原理剖析核心框架对比图框架定位分析关键技术指标️二、实战演示⚙️环境配置核心代码实现案例1：PyQt5现代化窗口案例2：wxPython文件管理器案例3：Kivy移动风格界面案例4：DearPyGui实时仪表盘✅运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四、最佳实践✅框架选型建议❌常见误区️调试技巧五、应用场景扩展
WSL快速在Ubuntu或者Debian安装golang、python、deno、nodejs、java前后端全栈一体化开发环境配置怪我冷i 云原生 ubuntu debian golang AI写作 AI编程
安装golang#移除旧版本（如有）sudoaptremove--autoremove-ygolang#下载最新版（替换为官网最新版本号）wgethttps://go.dev/dl/go1.24.4.linux-amd64.tar.gz#解压到/usr/localsudorm-rf/usr/local/gosudotar-C/usr/local-xzfgo1.24.4.linux-amd64.ta
python基础知识（二）
目录1.list和tuple1.1.list1.2.tuple2.dict和set2.1.dict2.2.set3.条件3.1.if3.2.if...else3.3.语法糖4.循环4.1.for...in4.2.while1.list和tuple1.1.listPython内置的一种数据类型是列表：list。list是一种有序的集合，可以添加和删除其中的元素。例如：>>>names=['liyan
Python基础知识（IO编程） yuxxto56 python python
目录1.文件读写1.1.读文件1.2.字符编码1.3.二进制文件1.4.写文件2.操作文件和目录2.1.环境变量2.2.操作文件、目录1.文件读写读写文件是Python语言最常见的IO操作。通过数据盘读写文件的功能都是由操作系统提供的，读写文件就是请求操作系统打开一个文件对象（通常称为文件描述符），然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）
python键盘输入转换为列表_Python键盘输入转换为列表的实例云云众生w python键盘输入转换为列表
Python键盘输入转换为列表的实例发布时间：2020-08-1912:58:38来源：脚本之家阅读：92作者：清泉影月Python输入字符串转列表是为了方便后续处理，这种操作在考试的时候比较多见。1.在Python3.0以后，键盘输入使用input函数eg1.>>>x=input>>>123123在命令行没有任何显示，输入123后直接赋值给x，并打印。eg2.>>>x=input("请输入...
Python中的语法糖介绍硅星纯牛码 python python
Python中的语法糖介绍1.魔法方法(magicmethods)基础魔法方法属性相关的魔法方法2.装饰器(decorators)内置装饰器@property：让方法变为虚拟属性@classmenthod：定义类方法@staticmethod：定义静态方法functools中的装饰器functoolswraps:保留元数据functoolslru_cache:缓存计算结果3.推导式(compreh
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
2.setuptools使用行循自然-kimi 深度学习 python
setuptools使用安装pippipinstallsetuptoolsapt源安装apt-getinstallpython-setuptools使用模块安装easy_installpackage-name模块卸载easy_install-mpackage-name使用setuptools来配置工程在工程目录下面新建setup.py.增加内容fromsetuptoolsimportsetup,f
Python每日一库：setuptools - 现代Python包分发工具 Aerkui Python库学习 python 开发语言
1.库简介setuptools是Python生态系统中最重要的包分发工具之一，它是distutils的增强版，提供了更多功能和更好的用户体验。setuptools不仅支持基本的包分发功能，还提供了依赖管理、入口点、开发模式等高级特性，是现代Python包开发的标准工具。2.安装方法pipinstallsetuptools3.核心功能详解3.1创建setup.py文件fromsetuptoolsim
探索Gemini Balance：Google Gemini API的代理与负载均衡解决方案几道之旅人工智能智能体及数字员工负载均衡运维人工智能
引言在人工智能领域，API的高效使用和管理至关重要。尤其是当涉及到Google的GeminiAPI时，为了实现更稳定、更高效的服务，我们需要一个强大的代理和负载均衡工具。今天，我们就来深入了解一下GeminiBalance这个开源项目，它为GeminiAPI的使用提供了全面而灵活的解决方案。项目概述GeminiBalance是一个基于PythonFastAPI构建的应用程序，主要用于提供Googl
提名 Apache ShardingSphere Committer，说说方法
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统文章首发在公众号（龙台的技术笔记），之后同步到博客园和个人网站：xiaomage.info就在前几天，收到了ApacheS
python内置函数——enumerate() Believer_abby python内置函数 python
说明：emumerate()函数用于将一个可遍历的序列（如列表，元组或字符串）组合为一个索引序列，同时列出数据和数据下标，一般用在for循环中。语法：enumerate(sequence,[start=0])参数：sequence：表示一个序列、迭代器或其他支持迭代的对象；start：下标起始位置，默认为0。使用：seasons=['spring','summer','fall','winter'
【Python基础】07 实战：批量视频压缩的实现智算菩萨 python 服务器开发语言
前言在数字化时代，视频内容已成为信息传播的主要载体。无论是个人用户还是企业，都面临着大量视频文件存储和传输的挑战。视频文件通常体积庞大，占用大量存储空间，同时在网络传输时也会消耗大量带宽。因此，一个高效、易用的视频压缩工具变得尤为重要。本文将详细介绍一个基于Python开发的批量视频压缩工具，该工具结合了现代图形界面设计和强大的FFmpeg视频处理能力，为用户提供了一站式的视频压缩解决方案。通过本
男模Python 函数命名以及鸡兔同笼函数 pythonyuanke python 开发语言
那么问你一个问题，现在是不是所有的函数都是def开头的？如果def就是函数的名字，那么python怎么区分该调用哪一个函数？名字都一样啊那也就是def后面的是函数名字?def后面，括号前面参数列表，这里的参数指的是形式参数，就是括号里面的部分这里只有一个形式参数，所以没有逗号，如果有多个形式参数，那么用逗号分隔参考我们在world.py里面写的几个函数，比如defadd(a,b)你说一下它的名字和
Python 开发规范：pdb & cProfile：调试 & 性能分析写文章的大米 Python 核心技术 python
↑↑↑欢迎点赞、关注、收藏！！！，10年IT行业老鸟，持续分享更多IT干货文章目录pdb&cProfile：调试&性能分析核心内容1、调试和性能分析的必要性2、pdb调试工具3、cProfile性能分析工具pdb&cProfile：调试&性能分析核心内容1、调试和性能分析的必要性在实际生产环境中，代码调试（找问题根因、修复bug）和性能分析（优化效率、减少latency）是开发关键环节。尤其，面对
Python私有属性：隐藏数据的秘密武器有奇妙能力吗知识分享 Python python 开发语言
Python私有属性详解：为什么我们需要“隐藏”对象的数据？一、引言在面向对象编程中，封装（Encapsulation）是三大基本特性之一（另外两个是继承和多态）。而“私有属性”就是实现封装的重要手段之一。在Python中虽然不像Java或C++那样严格区分访问权限，但依然提供了一种机制来限制对类内部属性的直接访问。本文将带你深入了解：什么是私有属性？如何定义私有属性？私有属性的原理与注意事项使用
Python中filter()函数详解有奇妙能力吗 Python 知识分享 python 开发语言
什么是filter()？filter()是Python内置的一个函数，它的作用是：从一个可迭代对象（如列表、元组等）中筛选出符合条件的元素，生成一个新的迭代器。你可以把它理解成一个“过滤器”：你给它一堆数据和一个筛选条件，它会帮你把符合这个条件的数据挑出来。基本语法filter(函数,可迭代对象)第一个参数是一个函数，它用来判断每个元素是否符合条件。第二个参数是一个可迭代对象，比如列表、元组、字符
Python命名空间：名字管理的秘密
什么是命名空间？你可以把命名空间想象成一个“名字的电话簿”：它记录了你程序中使用的各种名字（变量名、函数名、类名等）和它们对应的内容。比如你写了一个变量x=10，Python就会在某个命名空间里记下：“哦，用户用了x这个名字，它代表的是10。”命名空间的类型（就像不同的电话本）Python中有几种不同作用范围的命名空间，我们可以理解为是不同层级的“电话本”：1.内置命名空间（Built-inNam
python中的运算符走过.. python 开发语言
目录文章目录前言一、算数运算符1.算数运算符包括+，-，*，/，**，//，%1.1、加减乘除（+，-，*，/）运算符的使用1.2、**是求次方m的n次方1.3、%是求余，m%2可以用来验证奇数偶数0为偶，1为奇数。m%n有n中情况，m%n==0证明m是n的倍数。二、赋值运算符1.赋值运算符有=,+=,-=,*=,/=,//=,**=,%=1.1赋予（=）1.2（+，-，*，/，**，//，%）=
【Python 中的几类运算符】
文章目录文章目录一、算术运算符二、比较运算符三、赋值运算符四、逻辑运算符附加知识：五、其他运算符1.位运算符2.成员运算符3.身份运算符总结一、算术运算符加法（+）：用于两个数值相加。例如，a=5，b=3，a+b的结果为8。也可以用于字符串拼接，如"Hello,"+"World"的结果为"Hello,World"。示例：a=5b=3result=a+bprint("求和",result)a="He
Windows PowerShell中无法将"python"项识别为cmdlet、函数、脚本文件或可运行程序的名称 xqhrs232 ROS系统/Python
原文地址::https://blog.csdn.net/Blateyang/article/details/86421594相关文章1、如何在Powershell中运行python程序?----https://cloud.tencent.com/developer/ask/1426072、Windows下如何方便的运行py脚本----https://blog.csdn.net/Naisu_kun/
Vscode中Python无法将pip/pytest”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
在Python需要pip下载插件时报错，是因为没有把Python安装路径下的Scripts添加到系统的path路径中。如果到了对应路径没发现pip文件，查看是否有pip相关文件，一般会存在pip3命令行使用pip3install后会进行提示更新，按照提示进行更新即可bug2：通过piplist发现其实已经安装pytest但使用pytest--version提示相同错误可通过pipuninstall
小红书笔记详情API接口概述及JSON数据返回参考 Json_18179014480 API json 大数据数据库大数据 json
前言一、接口概述小红书笔记详情API接口是小红书开放平台提供的一项服务，允许开发者通过编程方式获取小红书上特定笔记的详细信息。该接口的核心功能包括：获取笔记内容：标题、正文、图片、视频等多媒体信息。用户互动数据：点赞数、评论数、收藏数、分享数等。作者信息：作者昵称、头像、粉丝数等。发布信息：发布时间、标签列表等。通过该接口，开发者可以构建内容分析工具、笔记推荐系统、数据爬虫等应用，帮助企业或个人进
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方