python爬虫入门-开发环境与小例子

python爬虫入门


开发环境

  • ubuntu 16.04
  • sublime
  • pycharm
  • requests库
    • requests库安装:
      sudo pip install requests

第一个例子

import requests
r=requests.get("http://www.baidu.com")
r.encoding="utf-8"
print r.text

运行结果如下,成功抓取了百度的源代码

python爬虫入门-开发环境与小例子_第1张图片

现在来详细讲解
import requests
就是导入了requests库,这是一个爬虫库

r=requests.get("http://www.baidu.com")
r是一个Response 对象。我们可以从这个对象中获取所有我们想要的信息。requests.get函数参数是url,返回值是一个Response 对象。

r.encoding="utf-8"
设置了网页编码,如果不加,汉字会乱码
python爬虫入门-开发环境与小例子_第2张图片

print r.text
打印网页内容

获取请求状态码

import requests
r=requests.get("http://www.baidu.com")
print r.status_code

运行结果

200

200表示访问成功

你可能感兴趣的:(爬虫,python,python,爬虫)