Python爬虫

Python爬取网页信息

项目划分

  1. 安装python
  2. 安装爬虫所需要的包
  3. 爬取网页

安装pyhton

基于树莓派上进行的Python处理的,不适用windows系统

一、安装Python3.6

1.在安装Python以前,先更新一下软件库

sudo  apt-get  update
sudo  apt-get  upgrade -y

2.下载并解压Python3.6

wget https://www.python.org/ftp/python/3.6.1/Python-3.6.13.tgz
tar -zxvf Python-3.6.13.tgz
cd Python-3.6.13

3.编译安装Python3,6

sudo ./configure && sudo make && sudo make install

二、建立Python的软连接

1.查看安装位置

which python3.6

2.建立软连接

sudo ln -s 安装软件位置 /usr/bin/python3.6

三、查看是否安装成功

python3.6 -V

如果显示版本号的话,则就安装成功

安装爬虫所需要的包

pip install requests  # 网页请求库
pip install lxml  # 网页处理库
pip install re  # 字符串匹配
pip install json  # json数据处理

依次安装这四个库,保证能够成功使用。

爬取网页信息

一、引入所有需要的库文件

import requests
from lxml import etree
import re
import json

二、初始化数据,用于存储数据信息

list_weibo = {} # 定义一个列表存储数据

三、伪装请求地址,并请求数据

url = 'https://weibo.com/ajax/side/hotSearch'  # 注意有些不能通过网址所展示地址获取信息
# 伪装请求头
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36'}
strHtml = requests.get(url,headers = header)
# 设置网页编码信息,以防止获取的数据乱码
strHtml.encoding = 'utf-8'

四、根据返回的数据解析数据

 text = strHtml.text
 json_file = json.loads(text)

Python爬虫_第1张图片

返回的数据是JSON格式

五、根据JSON的格式获取相对应的数据

list_weibo[json_file['data']['hotgov']['note']] =  json_file['data']['hotgov']['url']

# 根据条件进行数据处理
for i in strHtml.json().get('data').get('realtime'):
	if(i.get('ad_type') != None):
		continue
	list_weibo[i.get('note')] =  i.get('raw_hot')
        if i.get('rank') > 9:
            break

):
continue
list_weibo[i.get(‘note’)] = i.get(‘raw_hot’)
if i.get(‘rank’) > 9:
break


你可能感兴趣的:(python,python,爬虫,开发语言)