2019-11-28

统计数据分析的原理

大规模网页排名算法:pagerank

网页排名是网络搜索引擎的核心

PageRanks是用于测评一个网页的“重要性”或“影响力”的方法

决定因素:

* 该网页的导入链接数

* 这些导入链接的重要性

* 有向图

* 邻接矩阵

* 超链接矩阵(hyperlink matrix)

* 矩阵的特征向量和特征值

* 如何求解矩阵的最大特征向量

数据科学的数学基础

矩阵和线性代数(矩阵是描述线性代数的参数)

矩阵的运算:

矩阵围绕向量的加法和乘法展开的

向量是有序的数字列表

关系代数(抽象的查询语言)

概率论

统计(概率论与数理统计)

概览

统计:设计

统计分析方法

统计学、概率论和数理统计之间的区别和联系

微积分

机器学习基础(machine learning foundation)

统计建模:线性回归模型

c.f.机器学习模型

场景确定

[1] 建模目的预测值和真实值之间的差距越小越好

定义损失函数

特征提取

决定模型形式和参数

模型评估

[1] 我好柔弱啊,表格还是不会设置啊

实践:用python来进行线性回归模型的实现

使用Numpy,生成x和y

使用pandas,由x和y 生成dataframe

使用matplotlib,将数据可视化

保存数据为csv格式

使用pandas读取训练数据

使用scikit-learn,训练模型

计算MSR和R2,评估模型

使用matplotlib,将模型结果可视化

将互联网作为有向图,并用邻接矩阵表示

转为超链接矩阵

求该超链接矩阵的最大特征向量

求得的特征向量值就是对应网页的PageRank值

算法模式总结

幂迭代法:乘到某一个值是会有收敛(稳定不变),此时我们叫这个稳定不变的值,叫矩阵的最大的特征向量。

如何求矩阵的最大特征向量?

[2] 矩阵的重要应用

[1] 数学的奇妙:将PR问题转换成了求解矩阵的特征向量问题

定理:超链接矩阵H的最大特征向量即为该矩阵的PageRank 值

所有元素非负

每个元素的总和为1

又名随机矩阵,马尔可夫矩阵

Def:邻接矩阵中的元素除以对应节点的出度

超链接矩阵

尝试计算 网页的PageRank的值

#Supplement:

你可能感兴趣的:(2019-11-28)