《机器学习实战》——python 中关于文件读取的正确打开方式

    最近在学习《机器学习实战》这本书,在做到里面第08章的时候发生了一些小错误,具体内容如下:

    数据总共有4177行,9列,最后一列为鲍鱼的年龄,为标签值,前8列为数据特征,数据集中的数据长这个样子:

《机器学习实战》——python 中关于文件读取的正确打开方式_第1张图片

    在读取数据的时候,定义了loaddata()函数,最初时候定义的函数如下:

#示例:鲍鱼年龄预测—数据读取
def loaddata_abalone(filename):
    f = open(filename)
    num = len(f.readline().strip().split()) - 1   #数据特征的数目
    data = []
    label = []
    for i in f.readlines():
        line = i.strip().split()          #将字符串分割返还的是列表
        temp = []
        for j in range(num):
            temp.append(float(line[j]))
        data.append(temp)
        label.append([float(line[-1])])
    return data,label
data,label= loaddata_abalone(r'E:\MLiA_SourceCode\machinelearninginaction\Ch08\abalone.txt')
data = np.mat(data)
print(data.shape)
print(data)

    结果为:

《机器学习实战》——python 中关于文件读取的正确打开方式_第2张图片

    经过比较发现,data中没有读取第一行的数据,通过分析发现这是因为在计算num的时候,已经读取了第一行来计算特征值的数目:

num = len(f.readline().strip().split()) - 1

    所以在下面的循环中f.readlines()是从数据的第二行开始的,所以会少一行。

    将代码改为如下形式:

#示例:鲍鱼年龄预测—数据读取
def loaddata_abalone(filename):
    f = open(filename)
    num = len(open(filename).readline().strip().split()) - 1   #数据特征的数目---更改这个部位,将f.readline() 改为 open(filename).readline()
    data = []
    label = []
    for i in f.readlines():
        line = i.strip().split()          #将字符串分割返还的是列表
        temp = []
        for j in range(num):
            temp.append(float(line[j]))
        data.append(temp)
        label.append([float(line[-1])])
    f.close()
    return data,label
data,label= loaddata_abalone(r'E:\MLiA_SourceCode\machinelearninginaction\Ch08\abalone.txt')
data = np.mat(data)
print(data.shape)
print(data)

    只更改num部分,将其中f.readline() 改为 open(filename).readline()。

num = len(open(filename).readline().strip().split()) - 1 

    运行改正后的代码,结果如下:

《机器学习实战》——python 中关于文件读取的正确打开方式_第3张图片

    与原数据对比,可知此次数据读取正常。

你可能感兴趣的:(《机器学习实战》——python 中关于文件读取的正确打开方式)