用pandas处理office数据集(例一)(csv→txt)

 本来专栏用来记录日常处理数据时的过程,按需索取,仅供参考

用pandas处理office数据集(例一)(csv→txt)_第1张图片

一、准备工作

我们的文件是(office)

 其中train.csv如下:(test同理) itemID   userID  reviewer   asin

 

用pandas处理office数据集(例一)(csv→txt)_第2张图片

 要处理成的目标为:

 userID itemID  label(第三列全为1)

用pandas处理office数据集(例一)(csv→txt)_第3张图片

二、jupter中代码梳理数据集

以train.csv为例

import numpy as np
import pandas as pd
import random
 
train=pd.read_csv(train_file,header=0)   #对于数据进行可视化
test=pd.read_csv(test_file,header=0)

 查看数据

用pandas处理office数据集(例一)(csv→txt)_第4张图片

#提取前两列
train =train.iloc[:,0:2]

 结果如下:

用pandas处理office数据集(例一)(csv→txt)_第5张图片

 

train['label'] = 1   #添加一列1

结果如下:

用pandas处理office数据集(例一)(csv→txt)_第6张图片

with open('train.txt','a+') as f:    # 现在jupyter新建一个txt空文档
    for line in train.values:
        f.write((str(line[1])+' '+str(line[0])+' '+str(line[2])+'\n'))        #展示3列 

保存的train.txt如下:

用pandas处理office数据集(例一)(csv→txt)_第7张图片

同理保存的test.txt如下:

 

用pandas处理office数据集(例一)(csv→txt)_第8张图片

处理完毕!!!

用pandas处理office数据集(例一)(csv→txt)_第9张图片

 总结:

这是入门级的一个较为简单的处理数据,操作都是基础命令!!

后续遇到的各种划分数据集都会记录,留做自己日后回顾用

你可能感兴趣的:(简单的数据处理,pandas,python,开发语言,推荐算法)