智能写作时代:如何写作政治演讲

政治演讲经常是由政客的亲信和心腹写作而成。AI算法可以做的一样好吗?

“不要想着国家为你做些什么,而要想着你能为国家做些什么。”

——肯尼迪,1961年

当涉及到政治演讲时,伟大的演讲少之又少。但是普通的政治演讲,例如那些由美国国会议员在讨论中给出的,却数不胜数。

而且它们也非常相似。这些演讲倾向于遵从一个标准格式,重复相似的论点,甚至使用相似的短语来表示特定政治联系或观点。它们的内容几乎就像是由某种算法决定的。

这提出了一个有趣的问题——机器有可能自动写出这类政治演讲吗?

今天,我们得到了答案,这要归功于马萨诸塞大学安默斯特分校(UMass Amherst)Valentin Kassarnig的工作,他创造出了一个人工智能机器。该机器已经学会如何写作与真实演讲极其相似的政治演讲稿。

这个方法在原理上很直白。Kassarnig用了53次美国国会议员讨论会中将近4000个政治演讲片段数据集来训练机器学习算法生成演讲。

这些演讲由50000句子组成,每个句子平均有23个单词。Kassarnig也根据政治党派分类(民主党或共和党),还根据它对某个话题持反对还是支持态度分类。

当然,如何分析这些数据库才是重点。尝试了很多技术之后,Kassarnig选定了一个方法,该方法基于n元短语模型(n-grams),n个词汇或短语的序列。他开始使用一种词性(parts-of-speech)方法来分析文本,该方法标记了每个词汇或短语的语法角色(是名词、动词还是形容词等等)。

接着,他查看了6元短语(6-grams),还计算了给定5个词语后出现某个词语或短语的概率。“这让我们很快判断出在出现某5个词之后应该出现哪个词和出现该词的可能性。”他说。

自动生成演讲的过程自动遵从这种规律。Kassarnig以告诉算法它应该写哪种演讲作为开始——是为民主党还是为共和党而写。接着这个算法会挖掘该类别演讲的6元短语数据库来找到这类演讲中所有被用作开头的5元词语。

然后,这个算法从这些5元词语中随机选择一种来开始它的写作。接着,它根据这个5元词语来选择下一个词汇。“随后系统开始一个一个地预测下一个词语是什么,直到它预测到文章应该结束了。”他说。

当然在这个过程中也用了一些技巧。例如,算法知道某个特定主题出现在演讲中的概率。然后它就能通过这篇演讲稿里已经有了什么话题、这些话题被陈述得是否完善来选择要再添加什么话题。

结果意外得好。这是一个为民主党自动生成的一篇演讲:

“议长先生,多年以来,本分却不幸的消费者们一直能力申请破产保护、清偿他们合理有效的债务。这个系统应该是这样运行的,破产法庭通过评估包括收入、资产、以及债务在内的众多因素来决定哪些债务可以被偿还、消费者能够如何重新恢复元气。请维护他们的成长并给予他们机会。请通过这项法律吧!”

考虑到除了开始演讲的分类、政治演讲数据集的6元短语分析和一些小技巧外没有其他的训练,这令人印象深刻。Kassarnig根据一些标准(如语法正确性、句子过渡、演讲结构和内容)评估了这些演讲,最终发现它们总体上来看表现良好。“特别是,大部分演讲的语法正确性和句子过渡表现都非常好。”他说。

尽管如此,Kassarnig并不认为他的算法会以飓风一样的速度占领政治演讲的舞台。“虽然有这样的好结果,这些方法不太可能会被政客用于生成演讲。”他说,也许可能是因为想要利用该算法的不择手段的政治家太稀少了吧(咳)。

然而,这种算法可被用于生成其他类型的文本。Kassarnig表示说,有了对于同一个事件的一些不同报道以后,它可以用来对于这个事件生成一篇新的报道文章。另一个可能是生成关于arXiv论文的博文,在拥有大量类似博文作为数据库的情况

你可能感兴趣的:(智能写作时代:如何写作政治演讲)