法研杯数据处理

罚金预测

数据预处理

  • 从原始json文件中抽取出facts文本和punish_of_money标签。
  • 将facts文本分词后写入data_train.txt文件(还是使用jieba,简单去除了长度小于等于1的词,没有筛选词性,单纯觉得如果生成神经网络模型的话会破坏上下文关系)
  • punish_of_money取log2后取整作为标签
  • 将数据存成fasttext需要的格式,不需要生成词向量,因为fasttext可以自动生成词向量

模型训练

  • 选择fasttext模型,pip install下载的fasttext不支持windows,recall和precision跑出来的结果一直都是nan,需要自己下载资源后install。下载方式见https://blog.csdn.net/m0_37870649/article/details/80935307,在解压好的文件路径下打开cmd, 注意首先要uninstall之前下载的fasttext,然后输入命令为py -3 setup.py install(我是用的python 3.6 不同版本的命令稍微有区别),调用的时候也有区别。但是问题是下载的install包没有评估的模块,但好在predict函数是有的,如果想要计算recall和precision还要自己写evaluation模块。
  • 不想安装虚拟机或者双系统,所以最后采用了windows提供的wsl(windows subsystem for linux),简单的配置一下就可以了,我选择的是ubuntu,配置好了在bash里按照linux的方法使用就可以了,电脑中文件都在mnt文件夹中,在原py文件路径下运行就好了,亲测有效。

你可能感兴趣的:(金鱼记忆)