训练集的调整_doc文档的读取_2018.9.5

早上来到公司,本想改一下doc文档的读取,结果临时需要fasttext训练模型。

昨天才做好的训练集还没有添加进去,就重新跑了一遍模型。

准确率91

不过感觉没有什么用,数据都是使用简单扩充的方法,改改说法,把几十组数据扩充到1000多组,再扩也没什么意义。如果后面还要用的话,最好可以拿业务那边的现实数据来跑训练。

模型给了之后,说只有安卓的模型。又重新跑了苹果的模型,把数据集换一下就行了,也就是之前数据集标签不一样而已。

今天服务器跑模型跑得是真的慢,跑了一个上午。

下午写了doc的读取模块。

装了python-docx库。但只能读取docx文档,读取doc文档会报错。

#读取docx中的文本代码示例import docx
#获取文档对象
file=docx.Document("addr")
for para in file.paragraphs:
    print(para.text)

读取docx也有乱码,先这样吧。接下来要写把所有doc文章转换成docx的代码了,可真是麻烦。

你可能感兴趣的:(训练集的调整_doc文档的读取_2018.9.5)