spark(61) -- SparkMllib -- 基于SparkMllib的数据清洗项目实践

1. 获取数据

 MoviesLens100K数据集包含了10万条评级数据,也包含了电影元数据用户属性信息。项目实战以该公开数据集处理方式来讲解。
URL:movielens/ml-100k

  • 下载后解压数据:
    spark(61) -- SparkMllib -- 基于SparkMllib的数据清洗项目实践_第1张图片
  • 创建文件夹后,查看各数据的基本情况:
    spark(61) -- SparkMllib -- 基于SparkMllib的数据清洗项目实践_第2张图片
  • 文件u.item文件则包含电影id、title、版本以及若干与IMDB-link电影分类有关数据。

你可能感兴趣的:(大数据学习,spark,机器学习)