NLP-读取csv文件

赛题:问题相似度计算
网址:金融大脑-金融智能NLP服务

目录

    • 目录
      • 1.数据格式:
      • 2.读取文件:
      • 3.更改列名
      • 4.获取某一列的信息
      • 5.对整个文件进行分割

1.数据格式:

行号\t句1\t句2\t标注,举例:1 花呗如何还款 花呗怎么还款 1
行号指当前问题对在训练集中的第几行;
句1和句2分别表示问题句对的两个句子;
标注指当前问题对的同义或不同义标注,同义为1,不同义为0。
NLP-读取csv文件_第1张图片

2.读取文件:

import pandas as pd
data=pd.read_csv('./atec_nlp_sim_train.csv',sef='None',encoding='utf-8')
#sep : 指定分隔符。如果不指定参数,则会尝试使用逗号分隔。
data.head()

结果如下:
NLP-读取csv文件_第2张图片

这并不是我想要的结果,我希望它没有\t换行符:

data=pd.read_csv('./atec_nlp_sim_train.csv',sep='\t',encoding='utf-8')
data.head()

结果如下:

NLP-读取csv文件_第3张图片

3.更改列名

文件中没有列名,默认第一行为列名:

In[12]: data.columns
Out[12]: 
Index(['1', '怎么更改花呗手机号码', '我的花呗是以前的手机号码,怎么更改成现在的支付宝的号码手机号', '1'], dtype='object')

如果不想以第一行为列名:

data=pd.read_csv('./atec_nlp_sim_train.csv',sep='\t',header=None,encoding='utf-8')
data.head()

结果为:
NLP-读取csv文件_第4张图片

自己命名列名:

data=pd.read_csv('./atec_nlp_sim_train.csv',sep='\t',header=None,names=['序号','句子1','句子2','label'],encoding='utf-8')
data.head()

结果:
NLP-读取csv文件_第5张图片

4.获取某一列的信息

使用:data[‘列名’],如下所示:
NLP-读取csv文件_第6张图片

5.对整个文件进行分割

取前30000个数据作为测试集:
NLP-读取csv文件_第7张图片

你可能感兴趣的:(Python,NLP之路,csv)