备注:仅用于检验python语言的学习效果,面向数据分析和处理,做编程练习。
整个数据科学概论的教学大纲(包括其他上机练习),请参考https://blog.csdn.net/xiongpai1971/article/details/89364071
Python与机器学习初步
1,(决策树-易)通过信息增益,进行决策树第一个特征选择,请参考5.2.1。
备注:使用课本上的数据集。
2,(kmeans-难)基于欧式距离,进行数据集的聚类,请参考5.2.2。
备注:自行构造 <1,1>、<1.1, 1.1>、<1.2, 1.2>、<5,5>、<5.1, 5.1>、<5.2, 5.2>、<15,15>、<15.1, 15.1>、<15.2, 15.2>向量集合,使用K=3进行k-means聚类,初始类簇中心随机选择。
3,(频繁1项集-易)计算观影数据集的频繁1-项集,请参考5.2.4。
备注:使用课本上的数据集。
4,(Alcohol-易)对Alcohol Consumption进行数据汇总,请参考https://github.com/guipsamora/pandas_exercises/blob/master/03_Grouping/Alcohol_Consumption/Exercise_with_solutions.ipynb。
备注:使用网址上的数据集。
5,(pandas汇总-中)从学生表csv、课程表csv、选课表csv载入数据,利用pandas进行数据汇总,如果能够可视化更好,请参考http://mail.sina.com.cn/netdisk/download.php?id=ff0a80e58fed370c629d1ac4367ce50960。
备注:自行准备CSV文件。
6,(反向传播-难)实现一个简单的反向传播算法,请参考http://blog.sina.com.cn/s/blog_55d99cc20102xi5k.html
备注:通过简单和特定的网络实例,实现和理解反向传播算法。
7,(EM-难)用EM算法进行男生、女生身高软聚类,请参考5.2.5。
http://blog.sina.com.cn/s/blog_55d99cc20102xb5y.html
http://mail.sina.com.cn/netdisk/download.php?id=74bc6158b8b79e3688410bf001481409e7
备注:请使用网址上的excel文件里面的数据。
8,(朴素贝叶斯-易)实现朴素贝叶斯分类,请参考5.2.8。
备注:自行构造数据集,可以为每个属性构造10条数据。
Python与文本
9,(倒排表-易)给几个小文档,请建立每个单词的倒排表,请参考7.2.2。
备注:可以使用3个文档,分别是3句话
I am a boy.
you are a girl.
we are different, different, different.
10,(TF-IDF-中)给几个小文档,请计算每个单词的TF-IDF,请参考7.2.2。
备注:同上。
Python与图
11,(度中心性-易)给一个边列表表示的图,计算每个节点的度中心性(Degree Centrality),请参考8.3.3。
备注:可以使用课本8.3.3的社交网络(图)实例,或者自行构造图的实例。
12,(HITS-中)给一个边列表表示的图,通过HITS算法,计算每个节点的Hub得分和Authority得分,请参考8.3.3。
备注:可以使用课本8.3.3的社交网络(图)实例,或者自行构造图的实例。
备注:上述章节目录指的是教材“覃雄派,陈跃国,杜小勇. 数据科学概论. 中国人民大学出版社,2018”的章节目录。