利用CRF++处理英文语料实验过程(二):将语料划分为训练语料和测试语料

数据划分规则

在这里插入图片描述
总数据量有1692行,这里我按照4:1的比例划分训练数据和测试数据。划分结束后,训练数据的行数为:
在这里插入图片描述
测试数据的行数为:
在这里插入图片描述
所以训练数据:测试数据近似于4:1

详细代码

这里将显示我是如何进行数据划分的

#数据预处理:每5行的第1行放到测试数据集中,其余4行作为训练数据集
f1 = open("train.data",'w+')
f2 = open("test.data",'w+')
f = open("Tagresult_full.txt")
i = 0;
while True:
   line = f.readline()
   if line :
      if i%5 == 0:
         f2.writelines(line)
      else:
         f1.writelines(line)
      i = i+1
   else:
      break
f.close()
f1.close()
f2.close()

你可能感兴趣的:(自然语言处理,CRF++)