2021 年“认证杯”网络挑战赛 B 题(第二阶段)

文章目录

  • 思路
    • 第一阶段
    • 第二阶段
  • 结果
    • 参数网格
    • 结果输出
      • 毕宿星流位置和速度分布
      • 毕星团位置和速度分布
  • 代码

本人专挑数据挖掘、机器学习和 NLP 类型的题目做,有兴趣也可以逛逛我的数据挖掘竞赛专栏

本人不会回访,不互关,不互吹,以及谢绝诸如此类事

赛题官网:http://www.tzmcm.cn/

思路

第一阶段

第一阶段的解题过程详见:https://blog.csdn.net/weixin_42141390/article/details/116722963

第二阶段

第二阶段的问题,看似一句“分布分散”,将聚类的思路给断了,其实不然,该问题还是聚类问题。请往下看:

在第一阶段,我们绘制出毕星团的 H-R 图(x 为 B-V,y 为 Vmag,colorbar 与 B-V 对应,注意该图不是星星的位置…):
2021 年“认证杯”网络挑战赛 B 题(第二阶段)_第1张图片

毕星图的概念如下
原始的图在水平轴上显示恒星的光谱类型,在垂直的轴上显示绝对视星等。光谱类型不是数值的量,但其序列反映出恒星表面温度的单调序列。现代观测版本的图表将光谱类型替换成色指数(在20世纪的图表中,最常见的是恒星的B-V色指数)。这种类型的图表通常称为观测赫罗图,或特殊的色光图(CMD,color–magnitude diagram),并且通常是观测者在使用。在已知恒星处于相同距离(如恒星簇内)的情况下,CMD通常用于描述星团中的恒星,其垂直轴视恒星的视星等 1
由于毕宿星流在空间中相对分散,根据天球的概念
天球上的赤经,功用与地理座标中的经度相同。赤经和经度都是沿着赤道向东或西方向量度,赤纬是天文学中赤道座标系统中的两个坐标数据之一,赤纬与地球上的纬度相似

赤经和赤纬如下图所示(图来自https://zh.wikipedia.org/wiki/%E8%B5%A4%E7%BA%AC)

2021 年“认证杯”网络挑战赛 B 题(第二阶段)_第2张图片

根据题目,由于毕宿流星在位置分布上比较分散,而在运行轨迹上却和毕星团相近,也即 pmRA 和 pmDE 接近与毕星团。所以,我们可以考虑使用阶段一的聚类方法,先将数据进行预处理,并给 pmRA 和 pmDE 赋予一个大权重;且结合题目可知,由于毕宿流星的 RA 和 DE 比较分散,所以为了 RA 和 DE 影响聚类算法识别毕宿流星,可以给其赋予较小的权重,或让其不参与聚类。最后,剔除毕星团后进行聚类。

不过,同阶段一一样,如何筛选聚类的参数?需要我们解答


这里:同样是如同阶段一一样,我们还是用网格寻优+DBSCAN 的办法。

设置聚类的前提为

  1. 个体数量最多的那个簇,它们旗下的个体,的 pmRA 和 pmDE 必须能够通过 ANOVA。即保证 pmRA 和 pmDE 对每一个个体来说,具有均匀性。或者说,个体们的 pmRA 和 pmDE 差别可以忽略不计。
  2. 个体数量最多的那个簇,它们旗下的个体,的 pmRA 和 pmDE,与毕星团的 pmRA 和 pmDE,必须满足 T检验。以及 最大簇的 pmRA 和 毕星团的 pmRA 得通过 T 检验;最大簇的 pmDE 和 毕星团的 pmDE 得通过 T 检验。这保证了类似性。即最大簇下的星体的 pmRA 和 pmDE,与毕星团的相差不会太大。

经过上述前提的筛选后,能够通过的聚类参数,对应的 DBSCAN 算法,会默认将最大簇的 pmRA 和 pmDE 设置为和毕星团接近,并且星体之间的 pmRA 和 pmDE 差异不大。 而这个最大簇,就是我们预定的毕宿星流。

上述前提体现了:

  1. 毕宿星流是最大簇
  2. 毕宿星流的 mpRA 和 pmDE 满足均匀性,和与毕星团类似性。


但这还不够,我们还要评判聚类效果,为此按优先级的从高到低,定义以下原则

  1. 最大聚类簇,的个体数必须是所有参数对应算法中最大的
  2. 聚类簇数必须是所有参数对应的算法中最大的

结果

采用 DBSCAN 算法,根据上述前提和原则,筛选参数,并得出结果。

参数网格

名称 参数
epsilon_list 0.01, 0.05, 0.1, 0.3, 0.5, 0.7, 1, 1.5, 2, 2.5, 3, 3.5
min_samples_list 2, 3, 4
coef_list 1.5, 2, 2.5, 3.0, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10

按照上述前提和原则,设进行 T 检验和 ANOVA 检验时,为了减小对原假设的保护,提高检验的可信度,我们将显著水平设为 0.3 0.3 0.31。这样设,虽然减少了拒绝原假设时的可信度,但却提高了“接受”原假设的可信度。

但是,这样做会非常的严,从而筛选出来的毕宿流星只有少数甚至没有,因此,我们在定制原则的时候,要适当放宽。

最后,筛选出来的最佳参数,以及结果如下:
2021 年“认证杯”网络挑战赛 B 题(第二阶段)_第3张图片

这里的最大簇就是我们的毕宿星流啦。

结果输出

画出星流的 H-R 图如下:2021 年“认证杯”网络挑战赛 B 题(第二阶段)_第4张图片

毕宿星流位置和速度分布

根据 RA 和 DE 画出毕宿星流的位置分布图:
2021 年“认证杯”网络挑战赛 B 题(第二阶段)_第5张图片

根据 pmRA 和 pmDE 画出毕宿星流的速度分布图:
2021 年“认证杯”网络挑战赛 B 题(第二阶段)_第6张图片

毕星团位置和速度分布

根据 RA 和 DE 画出毕星团的位置分布图:

2021 年“认证杯”网络挑战赛 B 题(第二阶段)_第7张图片

根据 pmRA 和 pmDE 画出毕星团的速度分布图:
2021 年“认证杯”网络挑战赛 B 题(第二阶段)_第8张图片
我们用肉眼比较上述结果,可以看到毕宿流星的速度还是落在毕星团的范围内的,并且呈现一定的分布规律(至少其均值和毕星团的速度差不多)。而对于位置参数,我们可以看到毕星团很集中,而毕宿星流很分散,几乎没有一定的分布规律,所以大致可以满足我们题目的要求。

代码

点赞、关注、私信、说明题目和年份

如果有其他编程问题和原理问题,请再评论区留言,私信一概不回。也在此鼓励大家独立思考。

本人不会回访,不互关,不互吹,以及谢绝诸如此类事

如果本篇博文对您有所帮助,请不要吝啬您的点赞


  1. a l p h a alpha alpha 即显著水平一般设置为 0.05, 0.01, 和 0.1,以提高对原假设的保护。 ↩︎ ↩︎

你可能感兴趣的:(数据挖掘竞赛,2021,认证杯,B,题,第二阶段,网络挑战赛)