边学边用powerbi——豆瓣电影top250抓取

除规范的表格数据,网上的数据绝大部分是非结构化的,那么我们在抓去后,总要采用一些方法将这些数据清洗成我们能用的结构化表格数据。

分析网页结构

第二页https://movie.douban.com/top250?start=25&filter=
第三页https://movie.douban.com/top250?start=50&filter=
第四页https://movie.douban.com/top250?start=75&filter=

image.png

由此我们可以推断网页呈现一定的等差数列的规律:25 50 75

创建爬虫

我们通过pbi web示例功能自定义抓取数据。


GIF 2022-9-15 星期四 17-00-47.gif

image.png

将单页的内容补充完整。

创建页码表

我们想要抓取10页内容,上面的操作已经抓取了1页,那么我们构造页码表,来抓取多页内容。
在POWER QUERY中用List.Numbers()函数构造。


image.png
转换成表格

自定义函数语法 :
函数名=(参数名 as 数据类型,……)=> 处理代码
常见数据类型:
text(文本),number(数字),date(日期),time(时间),list(列表),record(记录),table(表格)

image.png

image.png
image.png

展开后,我们添加一个索引列作为排名。


image.png

关闭并应用进入POWER PIVOT界面

添加两个用于分组的列
排名区间 = SWITCH(true(),[排名]<=50,"1-50",
[排名]<=100,"1-50",
[排名]<=150,"50-100",
[排名]<=200,"150-200",
"200-250")
评分区间 = SWITCH(TRUE(),'页码表'[网页表.评分]>=9.5,"9.5-10",
'页码表'[网页表.评分]>=9,"9-9.5",
'页码表'[网页表.评分]>=8.5,"8.5-9",
'页码表'[网页表.评分]>=8,"8-8.5",
"<8"
)


image.png

字段排序

在可视化界面发现字段排序有问题


image.png

创建一个排名区间顺序表


image.png

在关系视图建立关系
image.png

新增列将排名顺序加入到页面表


image.png

采用按列排序将排名区间的顺序调整过来
image.png

放入可视化部分
image.png

你可能感兴趣的:(边学边用powerbi——豆瓣电影top250抓取)