python爬虫练习:
爬取今日头条街拍的图片。页面:http://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D
通过对页面的分析可以发现今日头条页面是通过ajax进行加载内容的。
Q:如何发现是使用的ajax呢?
A:当我们下拉页面的时候页面并没有进行刷新,但有新的数据加载
Q:如何获取ajax数据呢?
A:以今日头条为例,使用Chrome浏览器,审查页面-Preserve log-Network-XHR下拉加载时会发现一个数据包,这个数据包就是我们需要的数据
Q:这个数据拿到了但是怎么使用呢?
A:首先我们需要知道ajax是一个异步请求方式,我们使用requests模拟请求就好了
目标:抓取数据后保存到MongoDB。
使用到的知识:数据抓取 使用到requests、bs4、正则表达式,MongoDB使用python中的第三方库pymongo,小白使用的ide是pycharm,可以下载第三方插件可视化mongodb数据库
代码如下:并未进行优化。
优化思路:抓取url进行清洗(如广告、视频)。抓取到的内容去重……
import json
import re
import os
from multiprocessing import Pool
import pymongo
from bs4 import BeautifulSoup
import requests
from requests import RequestException
from urllib.parse import urlencode
client = pymongo.MongoClient(‘localhost’,27017)
toutiaodb = client[‘toutiaodb’]
def get_page_index(offset, keyword):
”’
模拟ajax请求获取索引页的url
:param offset: 页数
:param keyword: 搜索内容
:return:索引页的url
”’
data={
‘offset’: offset,
‘format’: ‘json’,
‘keyword’: keyword,
‘autoload’: ‘true’,
‘count’: 20,
‘cur_tab’: 1,
}
url = ‘http://www.toutiao.com/search_content/?’+ urlencode(data)
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except RequestException:
print(‘索引页有错误’)
return None
def parse_page_index(html):
”’
读取索引页数据获取详情页的url
:param html:
:return: 详情页的url
”’
data = json.loads(html)
if data and ‘data’ in data.keys():
for item in data.get(‘data’):
yield item.get(‘article_url’)
def get_page_detail(url):
”’
根据详情页url返回详情页数据
:param url:
:return: 解析后的详情页数据
”’
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except RequestException:
print(‘详情页有错误’,url)
return None
import time
def parse_page_tetail(html,url):
”’
读取详情页数据
:param html:
:return: 标题 url 和图片列表组成的字典
”’
time.sleep(1)
soup = BeautifulSoup(html,’html.parser’)
title = str(soup.select(‘title’)[0])
imgs_compile = re.compile(r’