#在sklearn中,一些常用的数据集,以及调用他的方法 load_boston: 包含503个波士顿房价的观察值,用于研究回归算法的优质数据集 load_iris: 包含150个鸢尾花尺寸的观察值,用于研究分类算法的优质数据集 load_digits: 包含1797个手写数字图片的观察值,用于研究图像分类算法的优质数据集
#加载csv文件
import pandas as pd
#创建URL
url='E:\zhuomian\PhiUSIIL_Phishing_URL_Dataset.csv'
#加载数据集
dataframe=pd.read_csv(url)
print(dataframe.head(2))
#加载Excel文件
import pandas as pd
url=r'E:\zhuomian\统计图.xlsx'
#加载数据集
dataframe=pd.read_excel(url)
print(dataframe.head(2))
#加载JSON文件
import pandas as pd
# 指定 JSON 文件的路径
url = r'E:\zhuomian\name.json'
# 使用 read_json() 函数读取 JSON 文件到 DataFrame
dataframe = pd.read_json(url,orient='index')
# 打印 DataFrame
print(dataframe)
#加载手写数字数据集
from sklearn import datasets
digits=datasets.load_digits()
#创建特征矩阵
features=digits.data
target=digits.target
print(features[0])
print(target)
#加载鸢尾花的数据集
from sklearn import datasets
iris=datasets.load_iris()
features=iris.data
target=iris.target
print(iris.target)
#创建仿真数据集 (利用make_regression(回归数据集))(make_classificcation分类)
from sklearn.datasets import make_regression
# import matplotlib.pyplot as plt
features,target,coefficients=make_regression(n_samples=100, #样本数量
n_features=3, #特征数
n_informative=3, #选出最相关和最具有分区的
n_targets=1,
noise=0.0,
coef=True, #影响因子
random_state=1
)
print(coefficients)
#随机生成聚类数据集
from sklearn.datasets import make_blobs #聚类
import matplotlib.pyplot as plt
features,target=make_blobs(n_features=2,
n_samples=50,
centers=3, #(聚类个数)
cluster_std=0.5, #标准差
shuffle=True, #是否打乱
random_state=1
)
plt.scatter(features[:,0],features[:,1],c=target)
plt.show()
结果:
#numpy读取csv文件,用数组表示
import numpy as np
#创建URL
url='data.csv'
#加载数据集
array=np.loadtxt(url,delimiter=",",encoding='utf-8',skiprows=1)
print(array)
#pandas读取csv文件
import pandas as pd
#创建URL
url='E:\zhuomian\PhiUSIIL_Phishing_URL_Dataset.csv'
#加载数据集
dataframe=pd.read_csv(url) #dataframe数据帧,读取的文件用行和列表示
print(dataframe.head(2))