PHP封装http(GET、POST)请求方法(原生、框架都可用)

目录

http请求代码:

使用代码:(以返回爬取百度首页代码为例)

需注意:请求头的重要性

浅说常见请求头参数含义:


http请求代码:

/**
 * 发送HTTP请求方法
 * @param  string $url    请求URL
 * @param  array  $params 请求参数
 * @param  string $method 请求方法GET/POST
 * @param  array $header 请求头
 * @param  bool $multi 是否传输文件
 * @return array  $data   响应数据
 */
function http($url, $params, $method = 'GET', $header = array(), $multi = false){
    $opts = array(
        CURLOPT_TIMEOUT        => 30,
        CURLOPT_RETURNTRANSFER => 1,
        CURLOPT_SSL_VERIFYPEER => false,
        CURLOPT_SSL_VERIFYHOST => false,
        CURLOPT_HTTPHEADER     => $header
    );
    /* 根据请求类型设置特定参数 */
    switch(strtoupper($method)){
        case 'GET':
            $opts[CURLOPT_URL] = $url . '?' . http_build_query($params);
            break;
        case 'POST':
            //判断是否传输文件
            $params = $multi ? $params : http_build_query($params);
            $opts[CURLOPT_URL] = $url;
            $opts[CURLOPT_POST] = 1;
            $opts[CURLOPT_POSTFIELDS] = $params;
            break;
        default:
            throw new Exception('不支持的请求方式!');
    }
    /* 初始化并执行curl请求 */
    $ch = curl_init();
    curl_setopt_array($ch, $opts);
    $data  = curl_exec($ch);
    $error = curl_error($ch);
    curl_close($ch);
    if($error) throw new Exception('请求发生错误:' . $error);
    return  $data;
}

使用代码:(以返回爬取百度首页代码为例)

function request()
    {
        $url = 'http://www.baidu.com';
        $param = [
        ];
        $header = [
            'Accept: application/json',
            'User-Agent: */*',
            'Content-Type: application/json; charset=utf-8',
        ];
        $res = http($url,$param,'GET',$header);
        $res = htmlspecialchars($res);   //把一些预定义的字符转换为 HTML 实体,防页面标签注入的时候会用到,此处为了展示出返回页面的代码
        //return $res;
        echo $res;
    }

这里只是将百度首页响应的代码返回,如果需要编写正规的php爬虫代码,还需要涉及使用正则表达式去过滤内容或者使用Xpath解析数据(也就是爬虫中的数据处理),这里我就不做扩展了。


需注意:请求头的重要性

        在调用接口或者请求网页数据的时候各种请求函数层出不穷,有些方法是单纯的发起get请求没有给我们的请求头留参数的位置,这样就很容易让我们的接口提供方或者网页站点将此类请求认定为无效,从而返回拒绝访问:

(之前这个低级错误让我困惑了一下午,其实和python爬虫请求的原理是一样的)

浅说常见请求头参数含义:

①User-Agent:一部分网站如果检测到我们的请求非浏览器访问,第一时间会拒绝响应。所以有了我们的User-Agent,它代表的是:发送请求的客户端的类型(学爬虫的时候叫做用户代理);

Accept:它代表的是:客户端接收的数据格式;

③Content-type:它代表的是:请求的报文格式;

④X-Requested-With:它代表的是:异步请求;


另外,使用此方法去调用接口返回实例,可参考使用url请求调用ThinkApi天气实例(PHP)保姆级教程

你可能感兴趣的:(PHP写后端接口,html,php,http,开发语言,网络爬虫)