从非结构化文本中提取知识丨数据工匠简报(11.14)

从非结构化文本中提取知识

从非结构化文本中提取知识丨数据工匠简报(11.14)_第1张图片

前言

从人们在互联网上的公开话语中, 可以提取到异常多的信息。 在Heuritech,我们使用这些信息来更好地了解人们想要什么,他们喜欢什么产品以及原因。 这篇文章从科学的角度解释了什么是知识提取和细节,它们在几个最新的方法中是如何做到的。

什么是知识提取?

高度结构化的数据库使其容易来推理,并且可以用来进行推测。 例如,在WikiData(h̀ps://www.wikidata.org/wiki/Wikidata:Main_Page) 或 YAGO(h̀p://www2007.org/papers/paper391.pdf),实体是隔离的, 之间是通过关系连接到一起的。 然而,大多数人类知识表达采取非结构化文本的形式,从中很难推理和获得智慧。

从非结构化文本中提取知识丨数据工匠简报(11.14)_第2张图片


知人知面需知心:AI在推荐系统中的应用

从非结构化文本中提取知识丨数据工匠简报(11.14)_第3张图片

在电子商务、个性化阅读、社交网络(媒体)以及共享经济高速发展的今天,发现用户的需求、了解用户的行为并为用户筛选出最相关的信息和产品已经是互联网服务的一个核心环节。互联网上的信息是海量的:YouTube用户每分钟上传超过400小时的视频;微信上超过1000万个公众账号每天产生丰富的自媒体内容;Instagram用户每天贴出超过800万照片;Snapchat用户每天生成5亿多“故事”(Story),全部看完需要158年……类似的例子数不胜数。因此,在帮助用户寻找信息,帮助服务商寻找客户的环节,推荐系统扮演了举足轻重的地位。

一方面,推荐系统从互联网应用的配角成为了诸如雅虎、LinkedIn和Netflix等大型网站的主角,为用户和系统交互提供各类个性化服务。时至今日,已经很难想象一个新的互联网应用没有利用推荐系统来优化用户体验。另一方面,从早期的协同过滤(Collaborative Filtering)算法到由Netflix大赛所推动的隐语义模型(Latent Factor Models),再到更加复杂的深度学习模型,推荐系统的技术已经在过去十多年里有了长足的进步。

推荐系统的最终目标也从准确预测用户的喜好,逐渐演变成在用户、模块以及系统中达到动态平衡,使得整个系统健康运行。本文尝试从历史的角度,剖析人工智能技术在推荐系统中的应用,探索前沿课题以及未来的发展方向,让读者能够了解到技术发展的宏观过程。

从非结构化文本中提取知识丨数据工匠简报(11.14)_第4张图片


Python的七种武器

从非结构化文本中提取知识丨数据工匠简报(11.14)_第5张图片

对于不同的位面,有着不同的宝物定义。对古时文人来讲,笔墨纸砚,是当时具有生产力输出的四大工具。对程序员来讲,当代的“文房四宝”不外乎是:笔记本,大屏幕,机械键盘,人体工学椅,Google,Github这几种。特别是机械键盘和人体工学椅,它们是极为重要的“人机接口”。前者可以用来延展英雄的输出能力,后者可以用来治愈英雄的腰椎。

在数据领域也有类似的情况。一个数据项目,最重要的是定义问题,其次是拿到好的数据,再次是找到合适的方法,最不重要的可能就是选择一个工具了。但是看起来最形而下的工具,却是最具体而真实的“人数接口”。用一种顺手的工具来玩数据,我们会觉得比较舒服,输出效率更高。

市面上的分析工具大致分为两大类,菜单式的工具和命令行式的工具。前者适合于初学入门,类似于跟团旅游,提供了固定的路线。分析套路比较固定化,点几下鼠标就可以搞定也很省事。后者适合于老手玩家,类似于自由行,需要自己规划数据工作流,适用于自定义的灵活分析。大多数用户害怕命令行,然而使用命令行才能掌握真正的力量。命令行是Jedi的原力。

从非结构化文本中提取知识丨数据工匠简报(11.14)_第6张图片


以上简讯由数据工匠提供,感兴趣的小伙伴可以通过扫描简报后的二维码链接原文,更多数据科学资讯尽在数据工匠,扫码关注Datartisan数据工匠公众号!如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章,可以随手转发给我们,让更多热爱数据科学的小伙伴一起成长!


从非结构化文本中提取知识丨数据工匠简报(11.14)_第7张图片

你可能感兴趣的:(从非结构化文本中提取知识丨数据工匠简报(11.14))