风控文章资源合集

20211027 -

0. 引言

对于风控部分,最近阅读了一些相关的内容,在这篇文章中,用来记录阅读的过程,作为一个资源的合集。不过,看了一些实际的相关内容之后,感觉这个部分也挺小众的(个人感觉)。

看过的内容,包括风控体系架构的设计,或者是相关的算法,以及一些安全事件,不过在看完之后,感觉虚虚的。平时在学习一些算法的时候,对算法的背景,或者针对数据的特点都能有所了解,但是看这部分内容的时候,总是在说,面临着各种概念性的威胁,却没有具体的实体数据。所以感觉有点虚,学习起来也就不怎么扎实。

当然,在文章看多了之后,也对所面临或者说所对抗的安全风险有了些许的了解,前面的话,也是我在不了解情况下的感觉。目前,在看了一些实体的例子之后,比如对抗的例子(黄S引流等),也有一种逐渐入门的感觉。

所以,怎么说呢,对于学习一个新内容来说,从一开始的概念性理解,到后面的具体化,这是一个逐步的过程。所以才有了这篇文章,逐步记录下来自己的学习过程。

风控对抗场景(摘抄自《风控要略-互联网业务反欺诈之路》P4)

常见的风控场景举例:

  • 注册和登录场景的风控:黑产注册账号、养号,暴力破解密码、“撞库”
  • 营销活动风控保护:营销发放的红包等其他奖励,防止“薅羊毛”
  • APP渠道推广保护
  • 交易和支付场景风控:盗号,非法聚合支付
  • 接口安全保护:短信发送接口
  • 内容安全:用户发表内容检测、爬虫防护

1. 内容安全

1.1 文本聚类方法

  • 知物由学 | 易盾自研文本实时聚类技术,一网打尽社交网络中的同类有害内容

这篇文章讲解了文本聚类的内容,同时分析了分布式情况如何部署。这是我第一次看到的实体的方法论,也不是概念形式,能够落实到具体任务。本文的主要目的是为了过滤文本中有害内容,比较关键的一个描述:

易盾的文本内容安全方案里面综合使用了黑名单、关键词、规则、分类模型、特征库匹配、用户画像、高频监控、实时聚类等技术,这些技术各有其优势和局限性,只有灵活运用协同作战,才能发挥最佳的实际效果。

对于平时论文研究来说,都是针对一个技术,虽然也有多种混合方法,但是大多数都是针对某个方向进行深入研究。之前对网安一些内容进行研究的时候也认识到这个事情,很多都是多种技术协同来进行工作。对于这个研究内容,可能第一印象,我知道使用关键词过滤以及正则表达式的方式来进行匹配,虽然知道机器学习的一些方法也能有所作用,但是没有深入理解过。

这里一个技术非常关键,也是我之前的时候比较关注的一个点,那就是人工审查和反馈机制。一般来说,任何方法都有可能会误报,或者漏报,那么就需要人工的介入,同时反馈到线上的检测机制更新特征库或者方法。

一般来说,对于在线检测未识别的内容,主要通过可疑审核、走查、聚类审核三种主要方法来召回漏过的有害内容,并同时维护对应的特征库,从而持续完善在线检测系统的识别能力。其中,可疑审核主要是通过一些高召回的手段,标记出未识别内容中哪些是比较可疑的,然后进行人工审核确认。

这里的一个说法平时没有进行过细致理解,就是采用一些高召回的手段,平时做论文或者看一些算法的时候,关注的都是算法的整体性能,比如F1或者ROC这种。这里单独指出了高召回方法,平时没有具体思考过。不过我也算是遇到过这类场景,就是当某种检测阈值设置的比较低的时候,误报率比较高,但是召回比较高,能够覆盖比较多的特例样本(之前的项目就是这么个情况)。

使用高召回的方法,结合他说法的上下文,也能有所理解,那就是要进行人工的介入,能够检测到一些未知的,或者未遇到的内容。

你可能感兴趣的:(风控研究,风控)