java爬取js分页数据_爬取分页数据

爬取对象:

有融网理财项目

编程思路:

1. 寻找分页地址的变动规律 2. 解析网页,获取内容,放入自定义函数中 3. 调用函数,输出分页内容

详细解说:

1. 首先插入用到的库:BeautifulSoup、requests

frombs4 import BeautifulSoup

import requests

2. 观察地址的变化规律,可以看到,每切换一页时,后面“createTimeDesc-1.html”中的数字1会随着页面的变动而变动,此时我们将地址存放进列表中,后面用format()和for循环来实现多个地址的存储。

urls = ['https://www.yrw.com/products/list-direct-all-performance-1-createTimeDesc-{}.html'.format(str(i)) for i in range(1,11)]

print(urls)

此时可以先print下,看地址是否正确,这里range(1,11)是前10个页面的地址。

3. 接下来定义解析函数,参数data的初始值为空。函数内用到的内容和上一篇文章中讲到的相同。先请求urls,然后用BeautifulSoup解析,筛选我们想要的项目标题titles的位置,实现输出。

def get_titles(urls,data =None):

web_data= requests.get(urls)

soup= BeautifulSoup(web_data.text, 'lxml')

tit

你可能感兴趣的:(java爬取js分页数据)