陈锐锋:学霸君的高识别率与大数据处理技术揭秘

个人简介 陈锐锋,新加坡国立大学运筹学博士,研究方向为大规模生产资源调度、供应链库存协调、运输系统的建模、生产系统的动态控制。 2010年回国加入东南融通,任研发中心高级研发工程师、博士后,从事金融IT及风险模型研发,负责业务流程和金融票据业务解决方案。 2012年加入厦门恒隆兴公司、重庆恒隆兴公司,任技术专家、部门经理。 2013年投身学霸君,担任研究负责人职务,组建智能计算团队,主攻文字识别、图像算法和数据挖掘方向。带领团队在国内率先开创同时适应自然场景、复杂版式图像拍照识别引擎,为搜题及1V1实时答疑业务奠定了技术基础。同时,将基于深度学习的文本挖掘技术引入产品,实现高效而智能化的知识导航。

全球架构师峰会(International Architect Summit,下简称ArchSummit)是由InfoQ中文站主办的一次全球性架构师峰会。ArchSummit专门针对架构师人群,讲述与架构和架构师相关的各方面趋势、技术和案例。这也是继QCon之后,InfoQ中文站主办的又一次高端技术盛会。

   

1. 各位InfoQ的网友大家好,现在我们是在ArchSummit北京大会的现场,做客我们专访间的是学霸君的研发副总裁陈锐锋先生。首先第一个问题是这样,我们了解到您之前工作的领域是在金融IT领域,现在您在学霸君,什么原因使您从另外一个领域换到崭新的领域?

陈锐锋:技术很多都是共通的,我以前在金融领域做过一段时间,金融领域有一个很大的特色,我们会有大量的金融项目是基于数据进行各种各样的分析,比如个人风险评估,对于学生来说他的数据是长期缺失的,中国在2013年之前还没有出现任何一个产品对学生的数据进行捕捉。如果把学生数据全部捕捉过来,我们可以做非常多的事情。当然从金融的角度来说我们可以为后期的放贷做最早期的数据积累,当然这不是我们主要的目的。如果行为数据收集得足够好的情况下,我们可以为学生做一个能力缺陷地图的勾勒,这个可以让我们做各种各样的教育产品,我前面想过这样一个事情,个人的力量比较单薄,后来遇上了我们的CEO张凯磊,他正好想做这样一个东西,我们就一起出来做了一个学霸君的APP。很多人认为学霸君app是做拍照搜题或者1v1答疑的,实际上学霸君的app是做学习行为数据的抓取的,所有前面的两块APP都是前期的准备工作,这一块我们觉得非常有想象空间,也跟我原来所做的东西有一部分的共通,所以我被这个吸引来了。

   

2. 之前也有一些针对高校学生的产品,比如校内,更偏社交网络一些,而你们的切入点是这个。

陈锐锋:对,我们做的非常垂直,没有覆盖学生的太多方面,比如有些产品是做慕课或者做学生的社交,我们觉得那个对学生的学习行为的数据抓取力度还不是特别全,我们设计了这样拍照搜题的APP,后来又做了其他的,总体来说就是为了对学生进行一个能力的勾勒。

   

3. 您带着团队完成了一些适应自然场景以及复杂版式的图像拍照识别引擎,能不能讲讲你们碰到过的难题,以及解决方案呢?

陈锐锋:我们在2012年开始筹备团队,2013年10月推出第一版,那时候我们遇到的最大问题是这个领域以前没有人做过,它的数据是不是足够饱满,能够支持可搜索,或者说它现有的识别技术是不是足够的智能化,能够处理所有的图片数据,一开始这都是未知数。为了解决这个问题,我们一方面定制化了相应的搜索引擎,另外一个很重要的工作,我们做了文字识别系统的开发。到现在为止迭代了三个版本,每个版本都有质量的提高。应该说这条路非常曲折,我们踩了很多坑,但是踩很多坑的同时也积累了很多经验,看了很多侧面同时也积累了各个细节的技术,说起来有文字识别,包括印刷体、手写体,还有版面识别,公式识别,再高层一点有自然语言的处理等等,一块一块的都慢慢积累起来,形成现在的体系。

   

4. 其实这个挑战是在于前期的识别的技术?

陈锐锋:对。

   

5. 基本上没有什么先行者,你们就自己开发?

陈锐锋:先行者应该是有。

   

6. 名片的识别那种?

陈锐锋:名片的识别已经不能满足我们现在场景的要求了,它相对比较简单,是相对固定的版式。但是我们的场景里有大量的公式和手写,一张卷子上会有很多手写的文字,我们还没有100%攻克手写,但是在逐步的往前走。

   

7. 后台使用的技术主要有哪些?

陈锐锋:刚才提到了几个,一个是文字类别是重头,我们花了很多时间人力做这个,拆开来有印刷体、手写体、公式的识别,还有各种各样稀奇古怪的符号,化学符号、图像等等的识别,这整一块就属于图像和文字识别;另外还有第二块的技术,图形技术,我们现在可以识别一些图形并把它重构起来,比如说2D的图,我们可以把它重构成一部分3D的图形,这也是非常有意思的技术。第三个我们可以做数学的一些推理引擎,我们现在遇到一个数学题,应用题我们现在还没有达到那个高度,但是如果是简单一点的,又有文字又有式子的题我们有可能会把它解出来,这是属于数学引擎这块。第四个是知识图谱,我们现在对语文、数学、化学、物理这些主要学科都在搭建知识图谱,能够有效的组织k12域——幼儿园到高中领域——的各种知识的结构化,这个可以为我们后面做答疑做有效的支撑。

   

8. 那K12是不是你们重点的业务对象?

陈锐锋:对,K12是我们重点的业务对象。

   

9. 您提到后台技术里面有公式和化学符号识别,关于公式识别和化学符号识别你们是不是有采用一些排版软件?还是说全是自己做的?

陈锐锋:您对技术了解非常透彻,实际上是这样的,LaTex是渲染和展示这块的,我们实际上是一个逆向的过程,从一张图变成LaTex化的文本,一个是识别到文本的转态,LaTex是文本到图像的转态,两个是逆向的过程。

   

10. 就像OCR。

陈锐锋:对。

   

11. 日常生活里面我们最多使用的是Word,word里很少有人写公式,所以展现的机会比较少,你们做教育产品的时候会遇到很多符号公式展示的问题,这块你们有没有一个单独的引擎?

陈锐锋:有的,我们专门做了一个公式渲染的引擎。

   

12. 学霸君的识别率从一开始的70%上升到93%,这个上升幅度,不管是从业界还是从外行人看来,都是特别大的一个提升和飞跃,您能不能谈一谈你们在这个过程中,改进识别率主要做了哪些工作。

陈锐锋:首先非常开心你对我们的识别率有一个数据的理解,稍微修正一下,我们第一版OCR出来只有45%左右的识别率,非常粗糙,是一个原型,2013年就出来了,到75%已经是完全自动化的版本出来了,在接下来的几个月不断的攀升。其中做的对性能提升的工作,包括精度包括速度提升都有很大的帮助。主要的策略有几块,一个是我们不断的收集各种各样的数据样本,其实就是做数据库,到目前我们接近20亿。在75%之前大概也有接近一亿左右的样本。这些样本,我们拿它切出来一小片一小片的训练碎片,放在我们的图片库里面。第二方面我们不断的改造识别引擎,去进行调优,用不同的网络表达不同细节的图像类属性,两个双管齐下,我们就不断的达到精度的提升。一方面增加样本,另一方面提升模型。

   

13. 在这个过程里面你们有没有像一些搜索引擎的做法,他们会把一些比较容易出现歧义或者机器识别不出来的符号,做成验证码放到一个平台上让大家手动的把它识别出来。

陈锐锋:非常有意思的建议,最近火车站买火车票就是这样的。很可惜的是这样的处理频次不能满足我们的要求,我们每天有几百万图片的吞吐量,这样处理远远赶不上我们机器学习的速度。但是我们有另外一个方法,就是我们有一个团队,不断的做各种各样的标注,首先90%的力量是依靠电脑做出一些图像的碎片,另外一小部分的是人工的做标注,这些人非常伟大,帮我们做了很多机器学习需要的活,这两个结合起来,我们样本增加速度非常快。

   

14. 有点像社区。

陈锐锋:这是我们的员工,不是社区。

   

15. 现在有很多产品,拍照答题、老师答疑,作文助手等等,他们之间的定位和相互关系是怎么样?

陈锐锋:我认为是非常有益的竞争关系,如果你喜欢长跑的话,你在长跑时可能会有这样的感觉,一个人跑可能跑一万米就会觉得非常累,如果旁边有素质跟你相当的人一起跑的话,你可能会跑到两万米。现在这个领域还没有哪一家能完全把这个领域全部吃透,技术的门槛实际上是挺高的,我们做了一些非常粗浅的东西,但是后面比如关于题目文本的深度理解,比如关于自动能力的评估,还有很长的路要走。我们认为单靠学霸君去自我修炼,闭门造车,我们是做不出特别长远的好东西的,所以必须欢迎其他竞争对手来一起,每个人有每个人的思路,凑到一块大家可以把这个事情做得更好。所以有些人问我这是不是恶性竞争的关系,当然互联网有这样的调性,但是总体来说我们还是需要他们。

   

16. 老师答疑跟拍照答题会不会冲突?我们知道拍照答题是希望用机器来规模化的解答问题,更偏自动化一些,如果学生一开始直接用老师答疑的话,达不到这种规模化的目的,这两个项目有没有什么内在联系?或者说这是两个独立的解决方案?

样的效果,所以我们依赖于拍照搜题这样一个产品,因为拍照搜题我们大概有3000万左右的用户,这里面只要有10%的转化率对1v1就是非常大的流量入口,目前来说1V1依赖于前者。回过头来说,1V1通过语音和老师的点击也会产生标注的信息,反过来可以对题目进行画像勾勒,帮助拍照搜题提升质量,所以两者是紧密联系互相支撑的。

   

17. 学生作题的时候,尤其是中学的学生,碰到不会的题有时候会去搜答案,有时候他会也会去搜一下答案,这让家长担心,会不会孩子就失去独立思考的能力了等等,学霸君有没有策略保证学生在搜答案的时候,不是为了找一个答案而找答案,有没有一些策略?

陈锐锋:我们有相应的策略,这个问题我们也是在产品开始,2013年就开始想过的,为了区分学生到底是来抄作业还是来问问题学习的,我们做了大量的学生画像的工作,通过他拍照搜题的频次,或者两次拍照搜题的时间间隔,我们可以抽取大量的信息。比如说学生看解析这样一个行为会产生一个现象,就是两次拍题的间隔比较长,还有分析页面停留的时间,会看到解析版块停留的时间会比较长。通过大量统计我们发现这样的学生不在少数,这也是让我们比较欣慰的。家长有时会有过于妖魔化学生偷懒的倾向,某种情况下,如果学生在很少的时间代价里面能把一个题学懂看懂,很多学生是愿意做的。

另外一个方面,的确我们有相应的策略,如果发现有高频次的学生在问问题,有抄作业的嫌疑,我们会有策略,我们会把答案给他屏蔽掉,推送的是教研团队梳理出来的解题套路,只有看懂这个套路才能做懂这个题,这就是一个学习的过程,如果学生愿意看的话他可以在几分钟之内学习到这类题的相应的方法。我们认为这是有效的。

   

18. 在线教育这个领域,其实是比较细分的,考试培训是一个比较大的领域,慕课是一个比较大的领域,K12是一个比较大的领域,具体到K12里面它会不会继续再做细分或者你们学霸君业务的重点会在哪?

陈锐锋:会,k12也是一个比较大的领域,比如O2O、英文培训、作文培训等等,这都是细分领域,K12是一个笼统的方向,学霸君是后起的一个APP,它的专注方向就是学习行为数据的采集,分析还有后面的应用,我们现在走了第一步,第二步走了一小部分,第三步才是我们后面真正想要的东西。

InfoQ:好,我们今天就到这里。谢谢!

你可能感兴趣的:(陈锐锋:学霸君的高识别率与大数据处理技术揭秘)