机器学习之获取数据集

可用数据集

  • scikit-learn数据集
    • 数据量小
    • 方便学习
  • uci数据集
    • 收录了360个数据集
  • Kaggle
    • 大数据竞赛平台

sklearn数据集

# 加载本地小数据集
datasets.load_*()

#下载网络数据集
#data_home 默认是 ~/scikit_learn_data/
datasets.fetch_*(data_home=None)
  • load和fetch返回的数据类型是datasets.base.Bunch(继承自字典)

    • data: 类型是numpy.ndarray
    • target:标签数组
    • DESCR:数据描述
    • feature_names:特征名
    • target_names:标签名
    #dict获取键值
    dict["key"]=value
    #bunch获取键值
    bunch.key=value
    
  • 数据集划分 train_test_split

    • 将数据集划分为训练集和测试集
    from sklearn.datasets import load_iris 
    from sklearn.model_selection import train_test_split
    
    def datasets_demo():
        """
        sklearn数据集使用
        """
        #加载数据集
        iris = load_iris()
        
        x_train,x_test, y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2)
        print(x_train.shape,x_test.shape, y_train.shape,y_test.shape)
    
    if __name__ == "__main__":
        datasets_demo()
    

你可能感兴趣的:(AI,ML,python,sklearn)