NLP 文本处理的小问题

一、将某些数据转化为 XML 格式,便于mysql处理数据

         参考文章:https://blog.csdn.net/infoflow/article/details/77902419

   问题:

          搜狗预料库的数据类型(编码格式为 GB18030):


    
    
    
    


    
    
    
    

这种文本文件不是标准的xml文件,没有根节点。因此要添加根节点使该文本文件符合xml文件的规范(① 可以用XML树操作对
    象,② 可以用mysql加载XML数据),当数据量极大时不能用windoms打开记事本手动添加。
方法有多种:
    ① 直接linux命令         pass
    ② 编程语言 操作文件 并将其保存至多个文件   eg:python
    ③ 基于简单的Windows 操作命令:

操作如下:

1、在要修改的文件目录下 新建一个文本文件head.txt写入
    # 后面需要跟一个 回车
2、在要修改的文件目录下 新建一个文本文件end.txt写入
   # 前面接一个 回车
3、用copy命令合并文本     ------- 文本目录下执行
copy /b  head.txt + ./news_sohusite_xml_full.xml  + end.txt  canbeimport.xml
         需要添加的头文件     需要修改的文件名      需要添加的尾文件     修改后的文件名

注意:由于搜狗与料库的编码特性,样做运行时会出现bug,问题是因为有的url中出现了无法解析的&,所以在
      加的同时,别忘了把出现的&替换成&;这样就能正常解析了。

NLP 文本处理的小问题_第1张图片

 

 

            

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(AI_NLP)