赛题:问题相似度计算
网址:金融大脑-金融智能NLP服务
行号\t句1\t句2\t标注,举例:1 花呗如何还款 花呗怎么还款 1
行号指当前问题对在训练集中的第几行;
句1和句2分别表示问题句对的两个句子;
标注指当前问题对的同义或不同义标注,同义为1,不同义为0。
import pandas as pd
data=pd.read_csv('./atec_nlp_sim_train.csv',sef='None',encoding='utf-8')
#sep : 指定分隔符。如果不指定参数,则会尝试使用逗号分隔。
data.head()
这并不是我想要的结果,我希望它没有\t换行符:
data=pd.read_csv('./atec_nlp_sim_train.csv',sep='\t',encoding='utf-8')
data.head()
结果如下:
文件中没有列名,默认第一行为列名:
In[12]: data.columns
Out[12]:
Index(['1', '怎么更改花呗手机号码', '我的花呗是以前的手机号码,怎么更改成现在的支付宝的号码手机号', '1'], dtype='object')
如果不想以第一行为列名:
data=pd.read_csv('./atec_nlp_sim_train.csv',sep='\t',header=None,encoding='utf-8')
data.head()
自己命名列名:
data=pd.read_csv('./atec_nlp_sim_train.csv',sep='\t',header=None,names=['序号','句子1','句子2','label'],encoding='utf-8')
data.head()