《数据科学概论》Python上机练习

备注:仅用于检验python语言的学习效果,面向数据分析和处理,做编程练习。

整个数据科学概论的教学大纲(包括其他上机练习),请参考https://blog.csdn.net/xiongpai1971/article/details/89364071

 

Python与机器学习初步

1(决策树-易)通过信息增益,进行决策树第一个特征选择,请参考5.2.1。

        备注:使用课本上的数据集。

2,kmeans-难)基于欧式距离,进行数据集的聚类,请参考5.2.2。

    备注:自行构造 <1,1>、<1.1, 1.1>、<1.2, 1.2>、<5,5>、<5.1, 5.1>、<5.2, 5.2>、<15,15>、<15.1, 15.1>、<15.2, 15.2>向量集合,使用K=3进行k-means聚类,初始类簇中心随机选择。

3(频繁1项集-易)计算观影数据集的频繁1-项集,请参考5.2.4。

        备注:使用课本上的数据集。

4Alcohol-易)对Alcohol Consumption进行数据汇总,请参考https://github.com/guipsamora/pandas_exercises/blob/master/03_Grouping/Alcohol_Consumption/Exercise_with_solutions.ipynb

        备注:使用网址上的数据集。

 

5pandas汇总-中)从学生表csv、课程表csv、选课表csv载入数据,利用pandas进行数据汇总,如果能够可视化更好,请参考http://mail.sina.com.cn/netdisk/download.php?id=ff0a80e58fed370c629d1ac4367ce50960

备注:自行准备CSV文件。

6,(反向传播-难)实现一个简单的反向传播算法,请参考http://blog.sina.com.cn/s/blog_55d99cc20102xi5k.html

备注:通过简单和特定的网络实例,实现和理解反向传播算法。

7,EM-难)用EM算法进行男生、女生身高软聚类,请参考5.2.5。

http://blog.sina.com.cn/s/blog_55d99cc20102xb5y.html

http://mail.sina.com.cn/netdisk/download.php?id=74bc6158b8b79e3688410bf001481409e7

备注:请使用网址上的excel文件里面的数据。

8,(朴素贝叶斯-易)实现朴素贝叶斯分类,请参考5.2.8。

        备注:自行构造数据集,可以为每个属性构造10条数据。

 

 

Python与文本

9(倒排表-易)给几个小文档,请建立每个单词的倒排表,请参考7.2.2。

        备注:可以使用3个文档,分别是3句话

I am a boy.

you are a girl.

we are different, different, different.

10,TF-IDF-中)给几个小文档,请计算每个单词的TF-IDF,请参考7.2.2。

        备注:同上

 

Python与图

11度中心性-易)给一个边列表表示的图,计算每个节点的度中心性(Degree Centrality),请参考8.3.3。

      备注:可以使用课本8.3.3的社交网络(图)实例,或者自行构造图的实例。

12,HITS-中)给一个边列表表示的图,通过HITS算法,计算每个节点的Hub得分和Authority得分,请参考8.3.3。

      备注:可以使用课本8.3.3的社交网络(图)实例,或者自行构造图的实例。

 

备注:上述章节目录指的是教材“覃雄派,陈跃国,杜小勇. 数据科学概论. 中国人民大学出版社,2018”的章节目录。

你可能感兴趣的:(教材)