snorkel 快速培训数据创建与弱监督 2018年3月30日 BY FRANCE·0 COMMENTS

 

 

标记培训数据越来越成为部署机器学习系统的最大瓶颈。我们展示了Snorkel,这是首个同类系统,使用户无需手工标记任何培训数据即可培训最先进的模型。相反,用户编写表示任意启发式的标签函数,其可能具有未知的准确性和相关性。通过整合我们最近提出的最新机器学习范例 – 数据编程的第一个端到端实现,浮潜可以减少他们的输出而无需访问基本事实。我们根据过去一年与公司,机构和研究实验室合作的经验,提出了一个灵活的界面层来撰写标签功能。在用户研究中,主题专家建立的模型速度提高2.8倍,平均预测性能提高45倍。5%与7个小时的手工标签。我们在这个新设置中研究了建模折衷方案,并提出了一个优化器,用于实现折衷决策的自动化,从而可以实现每管线执行速度高达1.8倍的加速。在与美国退伍军人事务部和美国食品和药物管理局的两项合作中,以及代表其他部署的四个开源文本和图像数据集合,Snorkel提供的平均预测性能比先前的启发式方法提高了132%在大型手工培训集的预测性能平均3.60%之内。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 我们在这个新环境中研究建模折衷方案,并提出一个优化器来实现折衷决策的自动化,每个管道执行速度最高可达1.8倍。在与美国退伍军人事务部和美国食品和药物管理局的两项合作中,以及代表其他部署的四个开源文本和图像数据集合,Snorkel提供的平均预测性能比先前的启发式方法提高了132%在大型手工培训集的预测性能平均3.60%之内。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 我们在这个新环境中研究建模折衷方案,并提出一个优化器来实现折衷决策的自动化,每个管道执行速度最高可达1.8倍。在与美国退伍军人事务部和美国食品和药物管理局的两项合作中,以及代表其他部署的四个开源文本和图像数据集合,Snorkel提供的平均预测性能比先前的启发式方法提高了132%在大型手工培训集的预测性能平均3.60%之内。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 退伍军人事务部和美国食品和药物管理局,以及代表其他部署的四个开源文本和图像数据集,Snorkel提供的平均预测性能比先前的启发式方法提高了132%,平均降低了3.60%大型手工培训集的预测性能。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 退伍军人事务部和美国食品和药物管理局,以及代表其他部署的四个开源文本和图像数据集,Snorkel提供的平均预测性能比先前的启发式方法提高了132%,平均降低了3.60%大型手工培训集的预测性能。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 大型手工培训集预测性能的60%。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797 大型手工培训集预测性能的60%。PVLDB参考格式:A. Ratner,SH Bach,H. Ehrenberg,J. Fries,S. Wu,C. R’e。浮潜:快速培训数据创建与弱监督。PVLDB,11(3):xxxx-yyyy,2017. DOI:10.14778 / 3157794.3157797

你可能感兴趣的:(木易小舟)