(从左到右依次为:彭垚、许焰、杨帆、施兴)在 9 月 20 日下午举办的云栖大会分论坛七牛云专场中,七牛云人工智能实验室创始人彭垚、大华研发中心副总裁许焰、科大讯飞政法事业群网络安全业务部副总经理杨帆、数美科技反欺诈专家施兴为我们带来了精彩的圆桌论坛。以下是圆桌论坛的实录。
彭垚:大家下午好,欢迎参加我们的圆桌论坛。我们参加圆桌的四位,其实干了一件差不多的事情,那就是做基于 AI 的安全业务。我也想请杨总和施兴先生来为我们分享,各自公司在 AI 加安全领域取得了什么样的成果。

(七牛云人工智能实验室创始人彭垚)杨帆:非常高兴可以参加今天的圆桌分享。大家可能会觉得,讯飞是一家在语音方面的领军公司,但其实我们迅飞的业务非常广,有教育、翻译机、玩具,以及政法相关的业务。而在政法相关行业又覆盖了包括像网信办这样的互联网内容监管单位的业务。
 (科大讯飞政法事业群网络安全业务部副总经理杨帆)其实从 2013 年开始,讯飞就开始相关的工作了。那时候我们发现,音频、视频富媒体的载体越来越多,监管厂商内容审核有明显的短板。我们当时就和网信办交流,提到用语音技术可以为这方面做些什么?一个视频过来,如果我们发现其语种是维语、阿拉伯语、藏语的时候就可以对视频进行重点识别,同时还可以识别特定群体的声纹信息,把这些人说话的视频找出来。这是一个非常好的技术手段。
刚刚所讲的是用语音技术做一些审核的相关工作。但是从去年开始,很有幸认识了彭垚等很多七牛云的朋友,发现七牛云选择了一个非常好的方向,基于图片和视频来进行内容审核,这和迅飞的语音识别,有着非常好的合作点。
所以从今年开始,讯飞和七牛云一起,各取所长进行合作。这样的合作双方非常看好,因为我们是想真正做一些有社会意义的事情,而不仅为了这个市场。虽然市场的规模很大,但我们想要的是为网络空间的干净做一些贡献。在这个基础之上,再作为企业实现盈利的目的。
施兴:大家都是做互联网内容安全工作的,主要的内容其实大同小异。我这里补充一下,数美所做的两个领域:一是今天的主题——内容,其二我们称为「账号的安全」。

(数美科技反欺诈专家施兴)在我们身边,有哪些人干坏事,不仅是通过发违规的广告、图片这些内容,其实像大家平常使用的各种 APP 里,会有很多优惠券、积分,这方面也涉及到安全问题。这些可能不属于刚才杨帆先生所分享的领域。
数美主要支持的是互联网,所以有一些其他方面的内容。比如现在比较流行的直播,里面有主播会通过非文字的一些表述,通过文字识别就无法判断出它是不是违规的内容,我们最近上线的娇喘识别,就是针对这个问题的。
另外,我们数美会在审核中加入用户全链路的生命周期,从而识别你发内容的设备是不是有问题。比如说一个直播,我们发现它不是通过手机来看的,而是通过虚拟机来看,并且发文本的频率非常高,那么我们可以判断正常普通的用户,是不会这样做的,所以它违规的可能度就会很高。
在别的维度上,比如账号、手机号,就像七牛云上的很多客户,有一些数据是可以相通的。当发现一个人在某平台上发布违规内容的时候,同时也会对他在其他平台上的内容进行审查。
彭垚:感谢两位嘉宾的分享,七牛、讯飞、数美其实都是在做 AI 加安全,同时都是偏互联网数据这个方向的。而大华一直在做的是线下空间的领域。我其实也有一个问题,也是这个系统的总趋势,就是不管是我们线下的视频、还是摄像头硬件产生各种各样的视频、还有我们传到我们存储上的内容,在制作、拍摄或者监控时,无意识过程当中产生安全隐患的问题。面对这个问题,长远来看,应该有哪些规划?大华可以提供一些信息吗?
许焰:大华现在主要是做线下,像人脸识别或事件类的识别,还是简单、一次性的事件触发模式。未来的发展是复杂事件的识别。举个例子,假设一个人进入场馆五分钟,他进去的时候拿着包,出来却没有拿包,我们是否可以识别这种带场景语意的情况?我们未来要把人工智能维度再上升,来做这样的事情。另一方面,现在线上线下打通趋势越来越明显。我们从智慧城市角度去看,我们把感知综合起来,通过这些去做画像会更加完整。
 (大华研发中心副总裁许焰)彭垚:感谢许总的分享。杨帆是否可以为我们分享一下迅飞的相关规划吗?
杨帆:我是做政府安全行业的,但是我觉得从市场角度来说,除了政府监管单位要做内容审核,其实每一个互联网企业也有责任去做内容审核。正如我们和彭总这几天一直再聊的,把这个放在七牛云平台上作为运营商解决方案,来提供增值附加服务。
彭垚:谢谢。下面请施兴先生为带来他的分享。
施兴:我从技术角度来看趋势。大家现在动不动就说人工智能,但很多创业公司不会留出力量来做特别前沿的探索,大部分都是「拿来主义」。那么在这方面,我们怎么去做创新?我觉得可以分为几个点。
首先是审核的细化。在未来,我们很难界定内容的合规与否,像是政府对于内容是否违规的判断标准并不明确。同时每家公司对是否违规都有自己的解读,如果是第三方服务,想解决这样的需求,只能在标准上,可以有更细致的一个划分。也就是谁我可以讲审核分为很多等级或者层级,针对客户不同的场景,做场景化、定制化的标签,来实现审核的细化。
第二个是数据。未来的数据,如何更好地去解决用户的痛点,这也是我们现在正在努力的。举个例子,同样的场景下一百个主播,其中的几个主播有几分钟的违规内容,我怎么去找那几分钟?这也是我们研究的一个方向。
最后一个部分,是从内容以外的层面来这个内容审核进行补充。
彭垚:我非常赞同施兴的观点。我看过广电很多审核的标准,其实对审核的要求非常高,审核员对历史、文化都特别理解才可以去做审核。因为一般人看不懂有些暗示政治事件的视频,但这个视频就是违规的。这个难度非常大,我们现在用深度学习计算机视觉的算法,加上语义、知识库去解决,都很难解决好,目前的理论基础还有很多无法高效解决这种高级智能需求。
可以说我们的理论研究,是被行业产品推着去发展的。比如说空气动力学,是在飞机产生后 30 年才产生的。我们现在如同瞎子摸象一样,在业务上、理论上去改进,急需建一套新的理论来解决我们当下遇到的问题,同时实际产品再做抽象,从而对理论进行反哺,就是我们做的事情。所以始终来说我们是做技术的,做的是技术领域的工程产品。搞研究、搞理论,在学院里面的特别厉害,但离不开我们技术人员不断尝试,发明新产品真正落地,是靠我们技术人员+理论学者共同在推动新的技术和理论体系的发展,我相信一直是这样的。
Q&A
Q:各位好,我想请教一个问题。随着行业对内容审核的重视程度日益加强,对内容审核的要求也越来越高。以金融行业为例,保监会要求保险不能和理财产品进行收益对比,否则就会被认为是违规的诱导行为。但业务员或保险员的推销语言,可能会被理解成多种意思,那么如何判断他们的话术是否违规呢?按照目前的技术来说,对语意的解读可以达到什么样的水平呢?
A:杨帆:迅飞有很大一部分是做智能客服的,为金融、保险,包括移动运营商等提供服务。这部分的服务其实就是给他们的客服电话做机检,但是要求非常高。电话接通多长时间?业务有什么样的解答?有没有说不该说的话?机检都非常严格。如果是把语音转成文字,再按照标准把其中的违规内容检索出来,就比较简单。但若是让机器去理解语言,来判断有没有故意诱导,我估计就比较难了。
Q:这是一个行业痛点,因为目前通用的人检方式,工作量太大了,如果机检成功率可以在 95% 以上,剩下 5% 不确定的内容再用人审就好得多。不知道现在的成功率可以达到多少?我也期待七牛云和科大讯飞进一步合作,实现比较高的成功率。 A:彭垚:其实不光是内容审核,包括反欺诈、智能客服、公安安防等方面都有一个共性,就是人工智能再智能,也不是百分之百可以解决问题的。因此最核心的问题是,在你的应用场景下,你对错误的容忍度是多少?零容忍当然是没有办法做到的,我们可以做的是慢慢迭代产品来提高准确度。但是您刚刚说的场景由于数据量太大,人无能力全检查,而机器能至少查到部分违规情况,并且随着机器准确率的提升可以检查到更多风险点,那就是一个好的应用落地点。
为什么会有这一波 AI 浪潮?因为有了深度学习技术之后,目前准确率刚好可以面向越来越多行业应用的可容忍的情况,因此我们也可以做一些应用和模型来解决越来越多问题。通过这样的方式先把研究 AI 的公司养活,在此基础上,再把准确率和应用能力叠加、迭代、提升。我们可预见 AI 越来越好的发展未来。