今日头条败给了色情?AI算法不行,还是另有隐情?

今日头条败给了色情?AI算法不行,还是另有隐情?_第1张图片

今日头条出事了,相关负责人表示,将严格落实网信部门管理要求,对相关问题进行自查自纠,分别对违规问题严重的部分频道暂停内容更新。今日头条手机客户端“推荐”“热点”“社会”“图片”“问答”“财经”等6个频道自2017年12月29日18时至12月30日18时暂停更新24小时。


这两天,有一篇文章似乎在为今日头条打抱不平《AI 算法起家的今日头条为何败给了色情?》文章称曾经靠 AI 雄霸天下的今日头条,如今也因 AI 的不足,败给了色情。文章指出一些图片会被AI误认为是色情图片。

今日头条败给了色情?AI算法不行,还是另有隐情?_第2张图片


其实,小编对这种说法持怀疑态度。

1. 在追逐流量下对低俗内容的放纵,不只今日头条,众多的互联网自媒体平台、直播平台都不同程度存在,甚至已经成为潜规则。

2. 如果因为误杀的原因,调大阈值即可,宁可错杀,也不可能会这么多色情消息。

3. 今日头条都没有做任何澄清,如果使用鉴黄策略,究竟是哪一家的?


图片鉴黄哪家强?

山东蓝翔!

认真点,小编不懂鉴黄的算法,更没有足够的数据集去训练模型。如果哪位同学觉得自己有足够的数据集的话,我们可以私下探讨下算法~

今日头条败给了色情?AI算法不行,还是另有隐情?_第3张图片


好了,我们选取4家知名企业,同时开放公共API的。雅虎,clarifai,阿里和腾讯的鉴黄服务进行了一次测试。


要测试不同公司鉴黄技术的好坏,首先要选择一个客观的测试集,就像考试需要有考卷一样。 由于敏感性,网上很少有公开的色情图片数据集。通过检索笔者找到了一个名为NPDI的色情图片测试集,NPDI色情图片集是巴西一所大学的一个小组发布的,他们收集了80个小时的视频,包括400段正常的视频,200段比较容易混淆的正常视频和200段色情视频,并且通过截帧获取到1万6千张图片,其中色情图片6000多张,非色情10000多张。其中一部分图片如下图所示。

今日头条败给了色情?AI算法不行,还是另有隐情?_第4张图片

评价指标也要明确一下,这里笔者采用了固定误判率(FAR)下的识别率(TAR)来测试结果进行评价,其中误判率为非色情图片中被误判为色情图片的比例, 识别率为色情图片中被正确识别的比例。例如对于一个包含100张非色情图片和100张色情图片的测试集,有10张非色情图片被模型误判为了色情图片,同时有90张色情图片被正确识别,那么这个模型的误判率就是10%, 识别率为90%。


最终测试结果如下:

  Clarifai  64.80%

  Yahoo  65.42%

  阿里    69.86%

  腾讯    75.90%


看测试结果,腾讯万象优图效果最好(名字也取得好)。但是结果都及格了,更加让小编怀疑,今日头条要么就是自己的算法太懒。。要么就是故意的。我更倾向后者~


往期干货回顾:

【机器学习】朴素贝叶斯算法分析

【机器学习】主成分(PCA)算法分析

【机器学习】非线性回归算法分析

【机器学习】线性回归算法分析

  读AlphaZero论文随想

 进击的TensorFlow

 【通俗理解】协方差

【通俗理解】贝叶斯统计

 从一个双控开关思考神经网络(下)

 从一个双控开关思考神经网络(上)



今日头条败给了色情?AI算法不行,还是另有隐情?_第5张图片

你可能感兴趣的:(今日头条败给了色情?AI算法不行,还是另有隐情?)