物联网信息处理技术IPT(数据挖掘)第三章

目录

3.1信息检索概念

3.2 Modeling建模

记录点:信息检索的布尔模型

记录点:术语加权

记录点:文本向量范数的计算

记录点:由向量模型计算等级

记录点:理解倒排索引


第三章:信息检索(目录不完整,懒得写了,这章考点不多)

3.1信息检索概念

物联网信息处理技术IPT(数据挖掘)第三章_第1张图片

物联网信息处理技术IPT(数据挖掘)第三章_第2张图片

物联网信息处理技术IPT(数据挖掘)第三章_第3张图片

物联网信息处理技术IPT(数据挖掘)第三章_第4张图片

物联网信息处理技术IPT(数据挖掘)第三章_第5张图片

物联网信息处理技术IPT(数据挖掘)第三章_第6张图片

物联网信息处理技术IPT(数据挖掘)第三章_第7张图片

查询和浏览是交换的过程,有的人自己也不知道自己要查的是什么,就会浏览个大概

物联网信息处理技术IPT(数据挖掘)第三章_第8张图片

爬虫,建立数据库,索引

物联网信息处理技术IPT(数据挖掘)第三章_第9张图片

3.2 Modeling建模

物联网信息处理技术IPT(数据挖掘)第三章_第10张图片

物联网信息处理技术IPT(数据挖掘)第三章_第11张图片

物联网信息处理技术IPT(数据挖掘)第三章_第12张图片

物联网信息处理技术IPT(数据挖掘)第三章_第13张图片

物联网信息处理技术IPT(数据挖掘)第三章_第14张图片

物联网信息处理技术IPT(数据挖掘)第三章_第15张图片

物联网信息处理技术IPT(数据挖掘)第三章_第16张图片

物联网信息处理技术IPT(数据挖掘)第三章_第17张图片

物联网信息处理技术IPT(数据挖掘)第三章_第18张图片

物联网信息处理技术IPT(数据挖掘)第三章_第19张图片

记录点:信息检索的布尔模型

物联网信息处理技术IPT(数据挖掘)第三章_第20张图片

考试的时候考得比较复杂,需要懂逻辑运算知识

物联网信息处理技术IPT(数据挖掘)第三章_第21张图片

物联网信息处理技术IPT(数据挖掘)第三章_第22张图片

物联网信息处理技术IPT(数据挖掘)第三章_第23张图片

物联网信息处理技术IPT(数据挖掘)第三章_第24张图片

物联网信息处理技术IPT(数据挖掘)第三章_第25张图片

物联网信息处理技术IPT(数据挖掘)第三章_第26张图片

物联网信息处理技术IPT(数据挖掘)第三章_第27张图片

记录点:术语加权

物联网信息处理技术IPT(数据挖掘)第三章_第28张图片

物联网信息处理技术IPT(数据挖掘)第三章_第29张图片

物联网信息处理技术IPT(数据挖掘)第三章_第30张图片

向量范数

物联网信息处理技术IPT(数据挖掘)第三章_第31张图片

物联网信息处理技术IPT(数据挖掘)第三章_第32张图片

文档长度由向量的范数给出

记录点:文本向量范数的计算

例如物联网信息处理技术IPT(数据挖掘)第三章_第33张图片物联网信息处理技术IPT(数据挖掘)第三章_第34张图片

d1这句话有10个词,字节大小为34(代码运行如下图),计算每个单词的词向量,并将它们相加以获得整个文本的向量表示,然后使用Euclidean范数的计算方法来计算这个文本向量的范数约5.068

物联网信息处理技术IPT(数据挖掘)第三章_第35张图片

物联网信息处理技术IPT(数据挖掘)第三章_第36张图片

物联网信息处理技术IPT(数据挖掘)第三章_第37张图片

物联网信息处理技术IPT(数据挖掘)第三章_第38张图片

物联网信息处理技术IPT(数据挖掘)第三章_第39张图片

物联网信息处理技术IPT(数据挖掘)第三章_第40张图片

物联网信息处理技术IPT(数据挖掘)第三章_第41张图片

记录点:由向量模型计算等级

物联网信息处理技术IPT(数据挖掘)第三章_第42张图片

文档排序--相似度模型--VSM

使用TF-IDF(Term Frequency-Inverse Document Frequency)权重来计算查询“待办事项”与文档之间的等级

(1*3+0.415*0.830)/5.068

        等级 = (TF("待办事项") * IDF("待办事项")) / 文本的向量范数

        TF("待办事项"):表示查询中词项“待办事项”的词频(Term Frequency),在这里是1,因为查询中只包含一次该词项。

        IDF("待办事项"):表示查询中词项“待办事项”的逆文档频率(Inverse Document Frequency),它用于衡量词项的重要性。IDF通常通过以下公式计算:IDF("待办事项") = log(总文档数 / 包含词项“待办事项”的文档数)

 这道题的解法是

物联网信息处理技术IPT(数据挖掘)第三章_第43张图片

物联网信息处理技术IPT(数据挖掘)第三章_第44张图片

物联网信息处理技术IPT(数据挖掘)第三章_第45张图片

物联网信息处理技术IPT(数据挖掘)第三章_第46张图片

物联网信息处理技术IPT(数据挖掘)第三章_第47张图片

物联网信息处理技术IPT(数据挖掘)第三章_第48张图片

物联网信息处理技术IPT(数据挖掘)第三章_第49张图片

物联网信息处理技术IPT(数据挖掘)第三章_第50张图片

物联网信息处理技术IPT(数据挖掘)第三章_第51张图片

物联网信息处理技术IPT(数据挖掘)第三章_第52张图片

物联网信息处理技术IPT(数据挖掘)第三章_第53张图片

物联网信息处理技术IPT(数据挖掘)第三章_第54张图片

物联网信息处理技术IPT(数据挖掘)第三章_第55张图片

物联网信息处理技术IPT(数据挖掘)第三章_第56张图片

物联网信息处理技术IPT(数据挖掘)第三章_第57张图片

物联网信息处理技术IPT(数据挖掘)第三章_第58张图片

物联网信息处理技术IPT(数据挖掘)第三章_第59张图片

物联网信息处理技术IPT(数据挖掘)第三章_第60张图片

物联网信息处理技术IPT(数据挖掘)第三章_第61张图片

物联网信息处理技术IPT(数据挖掘)第三章_第62张图片

物联网信息处理技术IPT(数据挖掘)第三章_第63张图片

物联网信息处理技术IPT(数据挖掘)第三章_第64张图片

物联网信息处理技术IPT(数据挖掘)第三章_第65张图片

物联网信息处理技术IPT(数据挖掘)第三章_第66张图片

物联网信息处理技术IPT(数据挖掘)第三章_第67张图片

物联网信息处理技术IPT(数据挖掘)第三章_第68张图片

物联网信息处理技术IPT(数据挖掘)第三章_第69张图片

物联网信息处理技术IPT(数据挖掘)第三章_第70张图片

物联网信息处理技术IPT(数据挖掘)第三章_第71张图片

记录点:理解倒排索引

物联网信息处理技术IPT(数据挖掘)第三章_第72张图片

物联网信息处理技术IPT(数据挖掘)第三章_第73张图片

物联网信息处理技术IPT(数据挖掘)第三章_第74张图片

物联网信息处理技术IPT(数据挖掘)第三章_第75张图片

物联网信息处理技术IPT(数据挖掘)第三章_第76张图片

物联网信息处理技术IPT(数据挖掘)第三章_第77张图片

物联网信息处理技术IPT(数据挖掘)第三章_第78张图片

物联网信息处理技术IPT(数据挖掘)第三章_第79张图片

物联网信息处理技术IPT(数据挖掘)第三章_第80张图片

物联网信息处理技术IPT(数据挖掘)第三章_第81张图片

物联网信息处理技术IPT(数据挖掘)第三章_第82张图片

物联网信息处理技术IPT(数据挖掘)第三章_第83张图片

物联网信息处理技术IPT(数据挖掘)第三章_第84张图片

物联网信息处理技术IPT(数据挖掘)第三章_第85张图片

你可能感兴趣的:(大三下,数据挖掘,经验分享)