人工智能,众包和超级计算机来开发更好,更合理的信息提取和分类方法
搜索引擎如何生成相关链接列表?
结果是信息检索演进中的两个强大力量的结果:人工智能 - 特别是自然语言处理 - 和众包。
计算机算法根据系统训练的数十亿个文本中语言连接的频率,解释我们键入的词与大量可能的网页之间的关系。
但这不是唯一的信息来源。手工调整结果的专业注释器和生成它们的算法的重要性的语义关系得到加强,网络搜索者(我们)在我们的点击中告诉算法哪些连接是最好的。
尽管这个模式取得了令人难以置信的世界变化的成功,但它有其缺陷。搜索引擎结果通常不像我们想要的那样“聪明”,缺乏对语言和人类逻辑的真正理解。除此之外,他们有时会复制和加深嵌入在我们的搜索中的偏见,而不是带给我们新的信息或洞察力。
得克萨斯大学奥斯汀分校信息学院的副教授马修·莱纳斯(Matthew Lease)认为,利用计算机和人类智慧的双重力量可能会有更好的方法来创建更智能的信息检索(IR)系统。
他将AI与注解者的洞察力以及特定于领域资源的信息结合起来,他和他的合作者正在开发新的IR方法,这将有利于一般的搜索引擎,以及像医学知识或非英语文本那样的利基。
本周,在加拿大温哥华计算语言学学会年会上,UT Austin和东北大学的租赁和合作者提供了两篇论文,介绍他们的新型IR系统。他们的研究利用了德克萨斯高级计算中心的超级计算资源,这是世界领先的超级计算研究中心之一。
注释共识和归因为搜索结果提供依据
在一篇论文中,由博士生导师 学生An Nguyen,他们提出了一种组合来自多个注释器的输入的方法,以确定给定文本的最佳整体注释。他们将这种方法应用于两个问题:分析描述医学研究的自由文本研究文章,以提取每项研究的细节(例如条件,患者人口统计学,治疗和结果),并识别命名实体 - 分析突发新闻故事确定涉及的事件,人员和地点。
“自然语言处理中的一个重要挑战是准确地发现自由文本中包含的重要信息,从而使我们能够将其提取到数据库中,并将其与其他数据相结合,以便做出更明智的决策和新的发现。”Lease说。“我们一直在使用众包来规模化医疗和新闻文章,以便我们的智能系统能够更准确地找到每篇文章中包含的关键信息。”
这种注释传统上由内部领域专家执行。然而,近来的众包已经成为以较低成本获取大型标签数据集的流行手段。可以预见,来自外行人员的注释质量低于领域专家的质量,因此有必要估计人群注释者的可靠性,并对个人注解进行总结,以得出一套“参考标准”共识标签。
Lease的团队发现,他们的方法能够训练一个神经网络 - 一种以人类大脑为模型的AI模型,因此可以非常准确地预测命名实体,并在未注释的文本中提取相关信息。新方法改进了现有的标签和培训方法。
该方法还提供了每个工作者的标签质量的估计,这可以在任务之间传递,并且可用于错误分析和智能路由任务 - 识别最好的人来注释每个特定的文本。
利用现有知识创造更好的神经模型
该小组的第二篇论文由博士生导师。学生叶,解释说,自然语言处理(NLP)的神经模型经常忽略像WordNet这样的现有资源,这是一个词汇数据库,用于将单词组合成同义词集,或者是特定于本体的本体,如统一医学语言系统,其编码关于给定领域的知识。
他们提出了一种通过权重共享来利用这些现有语言资源来改进自动文本分类的NLP模型的方法。例如,他们的模型学习分类描述临床试验的公布的医学文章是否与一个明确的临床问题相关。
在权重共享中,相似的词分享了一些重量的一部分,或分配了数值。权重共享限制了系统必须学习的自由参数的数量,从而提高了神经模型的效率和准确性,并且作为融合先前知识的灵活方式。在这样做的过程中,他们将最好的人类知识与机器学习相结合。
“神经网络模型有大量的参数,需要大量的数据来适应它们,”Lease说。“我们有这样的想法,如果你可以在某种意义上说一些话与先前与其他单词相关的原因,那么不必单独地为每个单词赋一个参数,所以你可以将参数绑定在多个单词之间,方式需要较少的数据来学习模型,它将在没有大量数据约束的情况下实现深度学习的好处。
他们采用一种重量分享的形式,对电影评论的情绪分析和与贫血有关的生物医学搜索。与没有利用重量分享的策略相比,他们的方法一直在分类任务上提高了性能。
“这为数据驱动神经网络模型中编码和利用领域知识提供了一个总体框架,”东北大学租赁公司的合作者拜伦·华莱士(Byron Wallace)说。(华莱士以前也是UT Austin的教职员工,也成为TACC的常客)
租赁,华莱士及其合作者在TACC的Maverick超级计算机上使用GPU(图形处理单元)来实现对机器学习系统的分析和训练。
“针对大数据的训练神经计算模型需要大量的计算时间,”Lease说。“这就是TACC适合作为一个很好的资源的地方,不仅是因为可用的存储空间,还有大量节点和高可用于训练神经模型的处理速度。”
除了GPU,TACC还部署了由英特尔开发的尖端处理架构,机器学习库正在追赶,根据租赁。
他说:“虽然许多深入学习的图书馆已经高度优化了GPU的处理能力,但有理由认为,这些其他架构一旦被优化,将会长期更快,”他说。
TACC数据强化计算总监Niall Gaffney说:“随着Stampede2及其许多核心基础架构的引入,我们很高兴看到更多的基于CPU的机器学习框架的优化。“像Matt这样的项目在测量和模拟数据分析中展示了机器学习的力量。”
Gaffney说,在TACC与Caffe的初步工作中,加利福尼亚大学伯克利分校开发的深入学习框架已经由英特尔为Xeon Phi处理器优化,他们发现,这些CPU在大量AI工作中的性能大致相当在GPU。
“这可能是变革的,因为它允许我们提供更多的节点,可以满足这些研究人员,并允许HPC用户在分析阶段利用AI,而无需移动到不同的支持GPU的系统。”
通过改进自动信息提取和文本分类的核心自然语言处理技术,基于这些技术的网络搜索引擎可以不断改进。
租赁已获得国家科学基金会(NSF),博物馆和图书馆服务研究所(IMLS)和国防高级研究计划署(DARPA)的资助,以提高各种任务,规模和环境下众包的质量。他说,虽然商业网页搜索公司投入大量资源开发实用,有效的解决方案,但行业的需求则导致他们专注于商业应用和短期解决方案的问题。
租赁公司表示:“行业在短期内看好,但是与学术研究人员没有一样的自由,就是追求高风险的研究思路,但长期来看可能更具变革性。” “这是我们从公共投资中受益于为发现发现的地方。像TACC这样的资源对研究人员来说是非常有吸引力的,使我们能够追求高风险,潜在的变革性研究。