csv、pandas、numpy写文件的区别

写入文件:

import csv
# 写入数据到 CSV 文件
with open('data_csv.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow([1, 2, 3, 4])

1,2,3,4

 

import pandas as pd
# 写入数据到 Pandas DataFrame
data_pd = pd.DataFrame({'col': [1, 2, 3, 4]})
data_pd.to_csv('data_pandas.csv', index=False)
col
1
2
3
4
  • 'col':是指定的列名,用于 DataFrame 中标识这一列数据的名称。
  • [1, 2, 3, 4]:是包含在 'col' 这一列中的数据。这个列表中的每个元素将会成为 'col' 列中的一个单元格的值。

接着,to_csv() 方法用于将这个 DataFrame 对象写入 CSV 文件。在这个例子中,index=False 是一个参数,用于告诉 Pandas 不要将 DataFrame 的索引写入到文件中。

import numpy as np
# 写入数据到 NumPy Array
data_np = np.array([1, 2, 3, 4])
np.savetxt('data_numpy.csv', data_np, fmt='%d', delimiter=',')
1
2
3
4
  • fmt='%d':指定了数据的格式。在这里,'%d' 表示将数据保存为整数类型。你可以根据需要指定不同的格式,比如 '%f' 表示保存为浮点数类型,'%s' 表示保存为字符串类型等。
  • delimiter=',':指定了数据的分隔符。在这里,',' 表示以逗号作为数据的分隔符。

读取文件: 

输入: 

# 读取 CSV 文件并检查数据类型
with open('data_csv.csv', 'r') as csvfile:
    reader = csv.reader(csvfile)
    data_csv = next(reader)
print(f"Data from CSV file: {data_csv}, Data type: {type(data_csv[0])}")

# 读取 Pandas DataFrame 文件并检查数据类型
data_pandas = pd.read_csv('data_pandas.csv')['col']
# print(data_pandas)
print(f"Data from Pandas DataFrame: {data_pandas.tolist()}, Data type: {type(data_pandas[0])}")

# 读取 NumPy Array 文件并检查数据类型
data_numpy = np.loadtxt('data_numpy.csv', dtype=np.int, delimiter=',')
print(f"Data from NumPy Array: {data_numpy}, Data type: {type(data_numpy[0])}")

 输出:

Data from CSV file: ['1', '2', '3', '4'], Data type: 
Data from Pandas DataFrame: [1, 2, 3, 4], Data type: 
Data from NumPy Array: [1 2 3 4], Data type: 

总结

csv.writer() 方法在写入 CSV 文件时会将所有的数据类型都视作字符串来处理。它不会自动识别数据的类型并区分是否为数字、字符串等,而是将所有的数据转换为字符串后再写入文件。

这意味着,无论是整数、浮点数、字符串还是其他类型的数据,在使用 csv.writer() 写入文件时,都会被转换成字符串形式,并以字符串的形式保存到 CSV 文件中。

Pandas 在写入文件时也会尝试保持数据的类型一致性。当你使用 to_csv() 方法将 DataFrame 写入文件时,Pandas 会尝试根据数据的类型来保存数据。 

Numpy也无法做到Pandas一样自动识别,需要指定数据类型

你可能感兴趣的:(pandas,numpy)