有了这东西,作文还怎么判啊?
印象
之前给学生上课的时候,我介绍过利用循环神经网络,仿照作家风格进行创作的机器学习模型。
不过,那模型写出来的东西嘛……
He went over to the gate of the café. It was like a country bed.“Do you know it’s been me.”“Damned us,” Bill said.“I was dangerous,” I said. “You were she did it and think I would a fine cape you,” I said.“I can’t look strange in the cab.”“You know I was this is though,” Brett said.“It’s a fights no matter?”“It makes to do it.”“You make it?”“Sit down,” I said. “I wish I wasn’t do a little with the man.”“You found it.”“I don’t know.”“You see, I’m sorry of chatches,” Bill said. “You think it’s a friend off back and make you really drunk.”
我的评价是:
望之,不似人语。
因为这种限制,人们并没有把“机器写作”当成一回事儿。
总觉得机器要写成那种以假乱真的高度,可能还需要等上很久远的一段时间。
然而,这世界变化快。
工具
早上,我尝试了一个新工具。
一个在线编辑器界面里,输入或长或短的一段话,然后按一下 Tab 键。
后面的内容,机器就帮你自动逐步填充。
填充的过程里,系统每次给你3个备选方案,这样你可以控制写作思路的走向。
当然,你也可以根本不管其他选项,一直走默认路径。机器照样文思泉涌。
最后生成的文章,是这个样子的。
其中,第一段落是我自己随便瞎写的。后面高亮段落,都是电脑模型自己编出来的。
不但标点符号、语法修辞用得有鼻子有眼儿,就连我那段里根本没有提到过的创始人,都跳了出来长篇大论。
尝试
你可以在我的公众号“玉树芝兰”(nkwangshuyi)后台回复“aiwrite”,查看这个智能写作编辑器的链接。
不知道你尝试过后的感觉是什么。
反正我觉得,以后学校里的英文写作课,怕是没有办法判作业了。
原本需要学生花半个小时完成的任务,现在他可以轻点几下按键,就能搞定交差。
更要命的是,从原理来讲,查重系统面对这种作品,是无效的。
因为这并非抄袭。
机器每一次的“创作”,几乎都能保证是全新的。
原理
你一定想知道这背后的原理吧?
其实,在我们之前的教程里,我多次给你介绍过它。就是目前最火的自然语言模型架构——Transformer。
(上图来自于经典之作“Attention is All You Need”)
我们详细介绍过使用方法的 BERT ,当初用的就是这种技术,才产生了野蛮霸榜的效果。
不过咱们用的这个编辑器,底层并不是 BERT ,而是我们之前提及的 GPT 2。
大多数人提到它的时候,介绍往往不是那么正面。
并不是因为 GPT 2 这种技术不够好。而是因为它“太好了”。
好到足够让人眼馋。
好到开发者决定,不开放训练数据集、代码、甚至模型参数……
要知道,在当今这样一个开源开放的趋势下,这么做会招致多少非议。
当时 OpenAI 做出这种决定和解释,有人便认为是出于饥饿营销的目的,赚眼球。
但是,你刚刚自己尝试过语言生成模型的威力之后,还会保持这么单纯的想法吗?
威胁
仅举一例。
互联网上,假新闻是一个非常严重的问题。
原先,用机器造假新闻出来,成本固然低,但专业人士还是很容易通过语言特征和统计规律来识别的。
而一旦,假新闻不但生产成本低廉,分分钟可搞定,还完全具备了真新闻的语言特征,要分辨出来,就不容易了。
假新闻有可能多点大规模爆发,因从众和沉默螺旋等社会心理机制,对大众轻易造成误导。
面对这种潜在威胁,我们真的已有完善的应对之策吗?
正因为这种威胁实际存在,数据伦理才愈发成为重要的研究课题。
如果你做数据科学研究,这个方向大有可为。
魔盒
风险是显著的。
而技术的进步与发展,真的能够因为一家机构决定“不开放模型”的举措,就能停滞吗?
当然不会。
OpenAI 因为压力,不断释放出更为强大的开源模型。目前开放的预训练模型版本,达到了 774M 个参数。距离完全版本模型的释放,也就是临门一脚的事儿了。
曾经,普通人即便拿到了这种开源工具,也需要一定的门槛,才能使用。
然而“有好事者”,在整合包装了若干种主流的 Transformer 模型之后,降低了 GPT2 机器写作的门槛。
于是,就有你看到的这个编辑器了。
波澜
我把 GPT2 自动写作的结果,发到了朋友圈。
惊艳之余,小伙伴想到的,主要是以下两个问题:
- 什么时候出中文的?
- 能否和写字机器人配合使用?
我看后很无语。
好在这一位的留言,让我看到了光明的一面:
以后英语老师出阅读题,可方便多了。
延伸阅读
你可能也会对以下话题感兴趣。点击链接就可以查看。
- 如何高效学 Python ?
- 如何用 Python 和深度迁移学习做文本分类?
- 如何用 Python 和 BERT 做中文文本二元分类?
- 如何用 Python 和 BERT 做多标签(multi-label)文本分类?
- 如何在 fast.ai 用 BERT 做中文文本分类?
喜欢别忘了点赞。
还可以微信关注我的公众号“玉树芝兰”(nkwangshuyi)。别忘了加星标,以免错过新推送提示。
题图: Photo by Pereanu Sebastian on Unsplash