先挂上比赛链接https://www.turingtopia.com/competitionnew/detail/e771814b400a4db383183ae48f2c048a/sketch
背景
宇宙线以及它们的起源是人类探索宇宙及其演化的重要途径。在1912年宇宙线被发现之后的一百年间,人类始终没有发现宇宙线的起源。自然科学的范畴跨越了物质最小单元夸克到整个宇宙,而宇宙线起源问题与暗物质、暗能量等问题一样,都是自然科学在21世纪所面临的若干基本问题之一。
高海拔宇宙线观测站(LHAASO)正是瞄准这一重大科学难题而提出的,其核心科学目标是探索高能宇宙线起源并开展相关的高能辐射、天体演化甚至于暗物质分布等基础科学的研究。
LHAASO 实验在投入运行后,其科学寿命在20年以上,每年产生近40 PB的原始数据,其中大部分是背景噪声,经过在线快速遍举法过滤后还有近 6 PB的数据,具有数据量大,运行周期长的特性。海量的数据,不仅对计算环境提出了巨大的挑战,更对科学数据分析程序提出了挑战。
模型探索
此题虽然可以理解为异常检测领域问题,但是由于题目特殊性(所给的标签分布比较均匀),所以异常检测算法未能产生比boost或nn更好的效果。最终选择xgboost+catboost+wavenet的模型。catboost是弥补xgboost在离散特征上有弱势。wavenet弥补boost在序列窗口选择上的有限性。
模型架构
架构比较简单,使用两个boost和一个nn进行线性加权。
特征工程
在特征探索中,我们注重在两个方向进行探索。1.空间维度,对x、y、Xcmc、Ycmc进行探索,可以发现经过各种距离公式计算后,就可以较好的区别噪声。
2.时间维度,理论上可挖掘的时间只有t一个特征。但是通过每一个event根据t排序后的q、x等也成了相关的序列特征。
序列化:讨论了时间维度和空间维度后,我们对这两个特征进行序列化的发散。即我们可以产生按t排序后的取x\y\q各种序列,也可以产生按q排序后的x\y\t各种序列,甚至是按terror排序等等...
序列可以联想的操作很多。我们可以在每个event内部进行排序,也可以整体排序。值得注意的是按x\y等排序时考虑到这些特征的唯一值较少,每个值会出现大量数据,所以要进行二次排序。
特征工程:除了普通的编码、特征组合、距离公式产生的特征外,我们对序列特征采用窗口统计、和diff的形式。
宁外有一个骚操作则是计算计算speed。我们可以使用diff(distance)/diff(t)来完成。这个特征也有不少惊喜。
特征选择
由于event特征极易过拟合。故boost模型中我们并未使用event特征,而是使用event与train、test特征交叉后的交叉特征。
NN for sequence
由于在传统的boost模型的特征工程中出现了大量的序列特征(滑窗,差分等),而这些序列特征对窗口大小的选取以及对窗口的操作十分敏感,所以我们考虑到能不能使用一个神经网络来进行全自动的提取这些较为敏感的序列特征,进而有了要做深度模型的想法.在尝试了LSTM,1D CNN,1D CNN+Lstm等模型之后最终选用了wavenet作为序列特征的特征提取网络,wavenet的核心结构如图所示,wavenet的核心就是通过多尺度的带孔卷积来进行多尺度的序列特征提取,其效果也是所尝试的模型中效果最佳的.
序列特征的构造对于每个数据而言,分别取排序后的前后n个点做特征(由于机器有限只取了32个点),故我们的每条数据为64长度。因为按不同特征排序后都会产生多个序列,但是由于机器限制,我们也只选择其中的少量序列加入。最终输入的shape=(n,16,64)
将构造的序列输入WaveNet进行全自动序列特征提取然后与其他特征合并之后送入DNN进行训练,这里的其他特征主要包括非序列特征,以及简单的空间特征.
最终成绩
感谢
主办方:中科院高能物理研究所 ;承办方:图灵联邦竞赛社区
同时感谢队友 哈噻、Nanhua
代码、ppt开源
GitHub地址
https://github.com/HaSai666/LHAASO-Denoise-Competition-Rank1