在众多互联网创业样本中,基于语言的互联网创新总是游离于主流视野之外,对于绝大多数身处单一语言环境的用户来说,能够熟练使用互联网检索信息,获取信息已经足够,但依旧避免不了接触外文网站、外文资料、翻译、字幕的场景和需求。
尽管现在大多数80、90后人都接受过比较完整的英语教育,但事实上不管是商务交流,还是文献的翻译,依然少不了跨语言翻译的需求。比如《权力的游戏》最新一集流出,只有少数人能够无障碍观看“生肉”,大部分人还是得坐等字幕组出的“熟肉”。
尽管机器翻译已经越来越智能,但一个有趣的现象是,翻译的需求并没有随着技术的不断进步而被磨平,而是随着跨语言信息和文化的交融与碰撞,产生出更多新的需求。
事实上,在中国,语言服务是一个需求巨大的市场,并且已经诞生了实力超越谷歌的公司——中译语通,而基于跨语言大数据分析能力,很可能会诞生下一个百度或谷歌。
对于语言服务行业而言,经济快速发展推动下,从传统模式到今天语言科技的融合,语言服务衍生出更多新的需求,比如字幕翻译,文献论文翻译等,甚至基于细分行业,对语言服务也要求更加专业、精准、高效。更多市场需求显示,越来越多的企业需要能够提供针对不同行业的跨语言大数据搜索和挖掘、以及与之相关的一整套解决方案。
根据《2016中国语言服务行业发展报告》显示,中国约有72500家含有语言服务及相关服务的企业, 2015年,中国语言服务行业创造的产值约为2822亿元,年均增长19.7%。随着互联网的不断渗透,这门古老的生意,也焕发出新的生机。
在《旧约》里,上帝用不同的语言阻止了人们建造巴别塔,但现在,语言已成为有着巨大潜力的行业。
语言服务这个行当,如何互联网化?
中译语通是跨语言大数据智能服务领导者,从官网上可以看到,其产品服务解决方案涵盖大数据分析、机器翻译、智能语音识别和机器学习等人工智能核心领域。
中译语通的母公司是成立于1973年的中国对外翻译有限公司,有四十多年翻译积累,因此中译语通刚出生就在跨语言大数据的积累上有得天独厚的优势,在自然语言处理技术尤其是机器翻译技术(统计机器翻译和神经网络机器翻译)。技术上,中译语通现在已经实现32个语种的机器翻译,约992个语言方向。
经最新第三方机构对谷歌、微软、百度和中译语通四家目前市场上规模化商用的机器翻译的中文-英文双方向(应用规模最大的语言方向)进行机器评测与人工评测,最终评测结果显示:中译语通在两个语言方向上的综合得分名列第一,超过谷歌、微软和百度,并在垂直领域的机器翻译引擎拥有优势。而早在2016年,中译语通就已名列中国大数据准独角兽企业榜单。
作为唯一一家覆盖全领域的语言服务技术公司,从中译语通的业务布局也能看出翻译市场是如何互联网化的。
在刚结束的“幻化·中译语通2017战略发布会”上,中译语通向外界传递出更加完整的生态体系信息:着力打造译云语言科技生态和译见大数据技术生态,融合语言科技、大数据分析和人工智能为核心技术,构建全行业领先的智能商业生态格局。
在对译见大数据技术生态下的平台和应用工具梳理后可以看出,译见的商业逻辑非常清晰:全球互联网用户已超过30亿, 90%以上的网民不具备母语以外的语言技能,但其中59.4%以上的用户具有跨语言、交友、获取新闻信息等需求。在这样的情况下,同样一个事件和信息,除了中文,还有英文,法文,德文等等。
因此,基于跨语言的大数据整理和挖掘能力,对于很多需要大数据搜集整理服务的公司越来越重要,译见大数据技术生态整合了机器翻译、语义分析、智能采集、数据挖掘等十余种自然语言处理、大数据和人工智能技术,对不同行业的用户都有着极高的研判价值。
在采访中,中译语通的CEO于洋就举了一个例子:现在很多美国的证券公司和投行,为了了解一些中国的企业的信息,会购买基于这些公司的大数据以及趋势服务。一些数据服务公司,一年的服务费就是几千万,其实是一块非常大的市场。
老实说,大数据搜集并不难,全球每天更新3000万篇(网站网页新闻),但真正困难的是如何结构化,也就是数据的质量乘以数据的规模,这才是考验一家公司技术实力的地方。
所以,创新技术已经成为现代语言服务领域的核心驱动力。
YEEKIT是什么以及要做什么
就在7月29日,中译语通发布了全新的YEEKIT。YEEKIT的定位是专业、高效、好用的轻量型工具平台,包含CAT辅助翻译、TMX语料引擎、机器翻译、网页翻译以及字幕通五大工具,用户可以以译员身份进行日常翻译,也可以以项目经理的身份去管理项目。
YEEKIT官网的介绍是,“以40亿句对高质量语料资源为支撑,面向全球开放,满足用户在工作、生活等各个场景下的语言需求”。
简单来说,这是一个面向译员、翻译团队、行业公司以及教育机构的产品。因此YEEKIT的目标用户包括翻译公司、高校、自由译员等。
为什么要发布这样一个协作式的工具平台?
因为目前来说,市面上没有一个很好的集中翻译和管理,并且具备一定的机器翻译能力的平台。YEEKIT的出现,填补了这一空白,同时也能抢先一步抓住潜在的用户和市场,奠定自己在智能语言科技工具平台这块的领先地位。
可能有的人不太理解,现在有很多机器翻译平台,比如谷歌翻译,百度翻译,为什么还要专门用YEEKIT。
原因在于,对于专业的翻译工作,通常是一个比较持续的过程,涉及到任务分配、进度管理以及团队协作等,这是面向C端用户的机器翻译软件不具备的功能,而YEEKIT CAT基于翻译记忆和机器翻译技术,引入了项目管理、任务管理、团队管理、语言资产管理以及客户管理的理念,能够很好地满足专业翻译项目的要求。
更深层的原因在于,语言服务行业正在发生改变。
正如中译语通副总裁柴瑛说的那样:首先,对于译员来说,以前的翻译任务可能基本上来自线下;现在随着互联网的发展,译员的任务会逐渐更多地来自线上,也就是平台效益正在加强。另一方面,随着机器翻译的水平正在提高和工具的完善,越来越多的译员习惯于使用在线辅助工具来翻译,来和其他译员协作完成任务。
“洪水猛兽”:机器翻译要取代人工翻译?
新技术总会带来新的革新,正如纺织工最终被机器取代一样,面对越来越智能的人工智能技术,传统的翻译行业是否也终将会消失?
在现场,我问了柴瑛这样一个问题:“现在新版的谷歌翻译已经能翻译简单的古诗文,那么以后学翻译是不是没有用了?”柴瑛这样回答:
“机器翻译和人工翻译有不同的应用场景。比如浏览电商网站或阅览外国报道只需要了解大意时,机器翻译基本上可以很好地实现。如果是待发表论文的翻译、更加专业的资料文献翻译,用户肯定会选择人工翻译。”
事实上,机器翻译正在挑战语言“金字塔”,从目前的趋势来看,机器翻译能快速取代低端翻译,并且随着技术的不断提升,会逐步向着顶端迈进。
换句话说,机器不能100%取代人工,在不同的需求场景之下,依然会有不同的选择和需求。所以机器翻译和人工翻译并不是你死我活式的互搏,而是愈加密切地合作,各自能找到平衡点。
总结
回过头来看,中译语通打造的两大生态体系是基于大数据技术引擎的生态闭环,在这个生态里,有基于人工智能的大数据服务,也有依托大数据和人工智能的语言应用工具平台。所以从这个角度来看,语言服务行业发展和互联网未来趋势是一致的,必然是基于神经网络机器翻译,多语言自然语音理解等技术的进步以及语言大数据的积累。