支持中文的deepdive:斯坦福大学的开源知识抽取工具(三元组抽取)

一、DeepDive简介
deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码。deepdive是一种新的数据管理系统,能够解决提取、整合型,并在一个单一的系统预测问题,它允许用户快速构建复杂的端到端的数据管道。

二、DeepDive优势
deepdive让开发者只需要关心实体特征,不需要在乎算法。相比之下,其他机器学习系统需要开发者认为,聚类算法,分类算法,等用。在DeepDive的联合推理为基础的方法,用户只需指定必要的信号或特征
deepdive系统可以实现高质量:PaleoDeepDive比志愿者更高质量在提取复杂的知识科学领域和获奖的性能进入实体关系抽取的比赛
deepdive知道数据往往是嘈杂和不准确的:名字拼错的,自然语言是模糊的,人会犯错误。以这样的不精确性的考虑,deepdive计算校准对于每一个断言它使概率。例如,如果deepdive产生事实的概率是0.9,事实上90%可能是真的。
deepdive能够使用大量的数据从一个品种来源构建的应用程序使用。deepdive从数以百万计的文件,提取数据的网页,PDF文件,表格和数字。
deepdive允许开发者用某一领域的知识为了提高结果的质量写简单的规则告知推理(学习)process.deepdive也考虑到用户的反馈,对预测的准确性提高的预测。
deepdive能够使用数据学习“远亲”相反,大多数机器学习系统需要为每个预测冗长的训练。事实上,许多deepdive应用,尤其是在早期阶段,不需要传统的在所有的训练数据!
deepdive的秘密是一个可扩展的、高性能的推理和学习机过去几年,我们一直在努力使底层算法尽可能快的跑,技术率先在该项目是商业和开源工具,包括部分Madlib,黑斑羚,从产品Oracle,和低级别的技术,如“HOGWILD!他们也被列入微软的亚当和其他网络公司大

你可能感兴趣的:(AI,Web数据挖掘)