Syntagmatic 关系发现:熵

Neil Zhu,ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

Syntagmatic 关系发现:熵

Syntagmatic 关系发现:熵_第1张图片
Paste_Image.png

Syntagmatic 关系 = 相关共现

当“eats”出现时,其他什么样的词同样可能会出现。

Syntagmatic 关系发现:熵_第2张图片
Paste_Image.png

推测“eats”的左边和右边会出现什么词?

词的预测:直觉

预测问题:词 W 出现(不出现)在这个分段中?

Syntagmatic 关系发现:熵_第3张图片
Paste_Image.png

词的预测:形式化定义

Syntagmatic 关系发现:熵_第4张图片
Paste_Image.png

X_w 越是随机,预测的难度就越高
那么如何来量化地度量诸如 X_w 的随机性呢?

熵 H(X) 度量了 X 的随机性

Syntagmatic 关系发现:熵_第5张图片
Paste_Image.png

熵 H(x) :抛硬币

Syntagmatic 关系发现:熵_第6张图片
Paste_Image.png

公平的硬币其熵非常的高,偏差的硬币则相反。

用于词预测的熵

Syntagmatic 关系发现:熵_第7张图片
Paste_Image.png

熵高的词更难被预测对。而熵低的词如 the 则由于其出现的概率接近 1 所以非常容易预测,然而这并没有什么用。

你可能感兴趣的:(Syntagmatic 关系发现:熵)