最近准备入手 PHP 爬虫,发现 PHP 的 cURL 这一知识点不可越过。本文探讨基础实战,需要提前了解命令行的使用并会进行 PHP 的环境搭建。
cURL 的概念
cURL,Client URL Library Functions,是利用 URL 语法在命令行方式下工作的开源文件传输工具,被广泛应用在 Unix、 Linux 发行版本中,并且有 Win32、Win64 下的移植版本。常用的 cURL 库 libcurl 支持 http、https、ftp、gopher、telnet、dict、file 和 ldap 协议。libcurl 同时也支持 HTTPS 认证、HTTP POST、HTTP PUT、 FTP 上传(这个也能通过PHP的FTP扩展完成)、HTTP 基于表单的上传、代理、cookies 和用户名+密码的认证。
[图片上传失败...(image-cc9fed-1513766114783)]](http://upload-images.jianshu.io/upload_images/2558748-f4dcbe5d6e4e7097.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
简而言之,cURL 便是客户端发起的,支持绝大多数互联网协议族的,能对网络文件进行下载或上传的管理程式。
命令行下的 cURL 能做什么
爬取网页源代码
打开命令行,输入如下命令,可以向百度服务器发送获取首页源代码的请求,>
命令将源代码输出保存到当前目录的 baidu.html 下。
curl https://www.baidu.com > baidu.html
获取表单 · GET 或 POST 方法
网页中的