第二届阿里云安全算法挑战赛网页风险识别rank4小结

赛题介绍详见: https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.f1926eaDVLgKT&raceId=231612

数据分析: 因为是人工判断,所以重点是人能看到(或者操作)的内容。在分析数据及问题的过程中发现很多网页有很多内容并不展示,所以在数据处理的时候重点对于这类数据进行了处理。 分析的过程中将不同部分(内容,Title,外链)的数据分别进行抽取及分析,避免互相干扰。因为这些内容的显示位置及评判标准都不相同,所以分别训练,结果融合有利于提高准确率。 针对通过分隔符/乱码将违法信息分隔开的做法,例如:“办&假&证”对内容进行过滤处理。

数据处理: 去掉后面的内容。 通过UDF分别提取内容,Title及外链部分内容。(使用Jsoup包) 提取内容的时候去掉,Meta和display:none等不显示的内容。 提取外链的时候,为了方便分析,只截取Host部分。(使用URL包) 去掉中文,英文,数字及逗号,句号(保留中英文的逗号和句号是为了保留原分词及过滤掉分割违规信息的符号)之外的内容。(这一步主要是针对内容和Title的处理)。

特征提取: 前三组(内容,链接,标题):通过UDF提取对应的内容;Split Word;提取三元组;词句分析,主要是分析每个词的指向性特征,即在有问题及Normal的网页中出现的频次,数量及比率;选取特征词字典,主要是选取出现频度较高、问题比率较高或较低的词(去掉中间词),并据此抽取特定的三元组;建立key_value的稀疏矩阵;建立Feature,跑PS-SMART和SVM。 第四组向量特征:Word2Doc如果对全数据作,资源消耗会特别大。所以主要针对Phase1WithAnswer及Phase2阶段的数据进行了处理。具体为:内容、Title、超链各100维,融合成一个300维的特征集,跑PS-SMART。 辅助特征:对比TrainSet和TestSet的Title,如果同一个Title在训练集出现次数较多,Title本身较长,而且在TrainSet中所有的数据的Risk都一样的话,该Risk作为该网页的指导。在结果融合中使用。

数据分析: 通过PS_SMART及SVM进行多分类和二分类进行分析。SVM二分类主要是分析网页属于问题网页还是Normal网页,在融合结果的时候进行验证。 对Phase1WithAnswer和Phase2的数据通过Word2Doc处理生成300维的向量特征,并通过PS_SMART进行分析。 融合的时候以内容特征及向量特征的结果为主,其他结果主要为辅助及验证。

你可能感兴趣的:(比赛经验)