对30w+算法工程师的问与答(上)

问:那些30w+的算法工程师到底在干些什么

答:想踢足球的分前场、中场、后场和守门员,wuli算法工程师也是分很多种的啊。我是自然语言处理工程师,目前主做智能对话系统。


超市的自动结账机

问:什么是智能对话系统啊

答:如果说C罗、梅西是前锋的代表,那么Siri和Google Now就算是智能对话系统的代表吧!

问:为什么公司会花钱雇你(们)呢?

答:因为我跟同行比,长得又帅、头发又多!哈哈,玩笑玩笑。我们主要的业务场景一般是有客服/营销/助理等对话的场景,做算法工作主要是帮助公司提高效率或者用户转化率。比如做对话系统,目标是搞出来个智能对话模型来取代或者部分取代业务人员。就像Siri就部分模拟了个人助理这个职位。

问:懂了,那你们又是如何达成这个目标的呢?

答:这个分很多步骤的,得让我慢慢说。

我一般是先去找业务要数据,然后发现聊天记录有的是聊天记录,有的是电话录音,没法用啊,开始一方面规范调整数据公式,一方面找人做语音识别,把电话记录转换成文本。

鼓捣半天,数据弄好了,开始琢磨弄主检索还是主生成的,想了想,检索的答案可控,但tmd太死板了,用户问题那么多,弄生成的,这才叫智能!!!

根据业务方提供的优秀业务人员和一般人员的名单,或者用业务总结的优秀案例和反面案例,分别取做训练集的正负样本。(那些被投诉的客服小姐姐们,你们的服务很可能被公司当成反面案例,然后又被我采集负样本了)

整理词库,分词、向量化、矩阵化,然后开始喂给模型哐哐训练,期间多次因为数据集太大、维度太大,拖垮机器,不得不多次降维、优选数据;

最后,终于训练出来几版模型,试着一对话,发现真是好蠢,生成的句子一点不像人说的,没法用。


加班什么的都是浮云

回头整理业界相关的做法,发现大同小异,说是最好加点检索,保证效果,问题也不知道论文里那些人都加了多少。求求你们下回把微信号留论文下面:(

同意改成生成加检索,就开始做检索匹配模型,再测试缺少好了一些,起码常见对话能搞定了,应对训练集里80%情况问题不大。

拿去给业务人员试用,试出来几个bad case后说着模型太差了,根本不能用的, which means 你不行啊!!!

是男人,怎么能说不行?搞了这么久不让上线用可咋办,做算法的又不像做开发有kpi,不行,只好委屈一下自己,同意业务的要求,开始用大量检索匹配的办法解决bad case QAQ

添加了一堆配置后,终于通过试用了,回过头一统计,发现大部分问题都是检索出的结果,心想,一开始幻想做智能生成式实在是够蠢的。

当然这只是初期的工具,可以辅助新员工来学习优秀员工的话术,做好这些还是任重道远的,毕竟业界在这块都是处于探索阶段,在尝试突破性的方式

问:我们公众号的一位朋友是算法实习生,问天天写sql正常吗?

答:初期这样很正常。就像想踢好足球,你得先练好跑步。这些年数据行业的发展,对数据价值认知的提升,让大小公司部门都在做算法分析业务情况。不过因为是新的方式,对数据的准备整理方面都不够规范,在做算法模型分析前,需要花费比较多的精力进行数据处理。

同时,让实习生多做一些数据查询的工作,也是在让实习生熟悉业务相关的数据,我之前陆续带的实习生,基本最初的一两周都是在让他们协助查一些数据,来尽快了解数据的情况。

这个阶段的长短依你们数据复杂程度决定,越乱需要越久。不过在这个过程中起码要看到部门是否有做后续和数据使用的打算,如果只是用sql查点数据汇总个报表,只能说在数据统计,而非数据分析或者算法工作。

后续实习生应该会能够协助完成数据预处理、数据量化、模型选择等工作,有的项目中,实习生完成的代码甚至比正式员工还要多,是很常见的现象。实习生们不要着急,先做好基础工作。

问:……

答:还问什么,问得太多了,下次再谈吧

你可能感兴趣的:(对30w+算法工程师的问与答(上))