import pandas as pd
from sklearn.datasets import load_boston
if __name__ == '__main__':
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['MEDV'] = boston['target']
df.to_csv('./boston.csv', index=None)
CRIM:城镇人均犯罪率。
ZN:住宅用地超过 25000 sq.ft. 的比例。
INDUS:城镇非零售商用土地的比例。
CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。
NOX:一氧化氮浓度。
RM:住宅平均房间数。
AGE:1940 年之前建成的自用房屋比例。
DIS:到波士顿五个中心区域的加权距离。
RAD:辐射性公路的接近指数。
TAX:每 10000 美元的全值财产税率。
PTRATIO:城镇师生比例。
B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。
LSTAT:人口中地位低下者的比例。
MEDV:自住房的平均房价,以千美元计。
import pandas as pd
from sklearn.datasets import load_breast_cancer
if __name__ == '__main__':
breast_cancer = load_breast_cancer()
df = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
df['target'] = breast_cancer['target']
df.to_csv('./breast_cancer.csv', index=None)
radius 半径(从中心到边缘上点的距离的平均值)
texture 纹理(灰度值的标准偏差)
perimeter 周长
area 面积
smoothness 平滑度(半径长度的局部变化)
compactness 紧凑度(周长 ^ 2 /面积 - 1.0)
concavity 凹面(轮廓的凹部的严重性)
concave points 凹点(轮廓的凹部的数量)
symmetry 对称性
fractal dimension 分形维数(海岸线近似 - 1)
radius (mean): 半径(平均值)
texture (mean): 纹理(平均值)
perimeter (mean): 周长(平均值)
area (mean): 面积(平均值)
smoothness (mean): 平滑度(平均值)
compactness (mean): 紧凑度(平均值)
concavity (mean): 凹面(平均值)
concave points (mean): 凹点(平均值)
symmetry (mean): 对称性(均值)
fractal dimension (mean): 分形维数(均值)
radius (standard error): 半径(标准误差)
texture (standard error): 纹理(标准误差)
perimeter (standard error): 周长(标准误差)
area (standard error): 面积(标准误差)
smoothness (standard error): 平滑度(标准误差)
compactness (standard error): 紧凑度(标准误差)
concavity (standard error): 凹面(标准误差)
concave points (standard error): 凹点(标准误差)
symmetry (standard error): 对称性(标准误差)
fractal dimension (standard error): 分形维数(标准误差)
radius (worst): 半径(最差)
texture (worst): 纹理(最差)
perimeter (worst): 周长(最差)
area (worst): 面积(最差)
smoothness (worst): 平滑度(最差)
compactness (worst): 紧凑度(最差)
concavity (worst): 凹面(最差)
concave points (worst): 凹点(最差)
symmetry (worst): 对称性(最差)
fractal dimension (worst): 分形维数(最差)
target : 0(恶性)和1(良性)
import pandas as pd
from sklearn.datasets import load_iris
if __name__ == '__main__':
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris['target']
df.to_csv('./iris.csv', index=None)
sepal length 萼片长度(厘米)
sepal width 萼片宽度(厘米)
petal length 花瓣长度(厘米)
petal width 花瓣宽度(厘米)
target 0-山鸢尾,1-变色鸢尾,2-维吉尼亚鸢尾