指导书文档
Python程序设计
实践指导书
2020版
目 录
实验一 用python处理文本数据(必做)
实验二 用python处理数值型数据(必做)
实验目的:熟悉python的基本数据结构,以及文件的输入与输出。
实验环境:anaconda3
实验数据:
利用2015年中国机器学习会议的评测数据和评测任务,数据包括训练集(7813条)和测试集(2610条),评测任务为通过给定的训练数据,预测测试集中的关系是正例还是负例,在每个样本最后给出1或者0。数据描述如下。
训练集如下图所示,第一列为关系类型,第二列和第三列为人名,第四列是标题,第五列是关系为正例还是负例,1为正例,0为负例;第六列表示训练集还是训练集。
测试集如下图所示,格式基本与训练集类似,唯一不同的是第五列没有关系是正例还是负例的标记。
实验内容:
1对训练集数据进行处理,只留下前面五列,输出文本命名为exp1_1.txt。
2 在第一步得到的数据的基础上对19类关系进行分类,
生成的文本存放在exp1_train文件夹下,
按照关系类别出现的顺序,
第一个关系类别的数据存放在1.txt中,第二个关系类别存放在2.txt中,直到19.txt。
3 测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类,
即相同关系类型的数据放到一个文本文件中,
同样生成19个类别的测试文件,
格式仍旧和测试文件保持一致。
存放在exp1_test文件夹下,
每个类别的文件仍旧命名为1_test.txt,2_test.txt…
同时对每个样本在原测试集中出现的位置进行记录,
和19个测试文件一一对应起来。
比如第一类“传闻不和”的每个样本在原文中处于第几行,
在索引文件中进行记录,
保存在文件index1.txt,index2.txt….
实验报告:
1实验报告内容为处理上述文件时的思路,用文字进行简单描述,也可以画流程图。
实验结果及考核:
1将上述处理之后的文件及实验报告压缩后,用学号+姓名的方式命名,并上交。
2 完成的实验除了上交之后,需要进行口头答辩。
实验目的:熟悉python的基本数据结构,以及文件的输入与输出。
实验环境:anaconda3
实验数据:
2016年阿里天池大赛,也是中国高校第一届大数据挑战赛的数据。数据包括两个表,分别是用户行为表mars_tianchi_user_actions.csv和歌曲艺人表mars_tianchi_songs.csv。大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150831)的用户行为历史记录。选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。
实验内容:
1 对歌曲艺人数据mars_tianchi_songs进行处理,
统计出艺人的个数以及每个艺人的歌曲数量。
输出文件格式为exp2_1.csv,
第一列为艺人的ID,
第二列为该艺人的歌曲数目。
最后一行输出艺人的个数。
2 将用户行为表和歌曲艺人表以歌曲song_id作为关联,
合并为一个大表。
各列名称为第一到第五列与用户行为表的列名一致,
第六到第十列为歌曲艺人表中的第二列到第六列的列名。
输出文件名为exp2_2.csv。
3 按照艺人统计每个艺人每天所有歌曲的播放量,
输出文件为exp2_3.csv,
各个列名为
艺人id,
日期Ds,
歌曲播放总量。
注意:这里只统计歌曲的播放量,不包括下载和收藏的数量。
实验报告:
1实验报告内容为处理上述文件时的思路,用文字进行简单描述,也可以画流程图。
实验结果及考核:
1将上述处理之后的文件及实验报告压缩后,用学号+姓名的方式命名,并上交。
2 完成的实验除了上交之后,需要进行口头答辩。
实验一
数据
代码及生成文件和实验报告
实验二
数据
代码及生成文件和实验报告