参考文章:https://blog.csdn.net/infoflow/article/details/77902419
问题:
搜狗预料库的数据类型(编码格式为 GB18030):
这种文本文件不是标准的xml文件,没有根节点。因此要添加根节点使该文本文件符合xml文件的规范(① 可以用XML树操作对
象,② 可以用mysql加载XML数据),当数据量极大时不能用windoms打开记事本手动添加。
方法有多种:
① 直接linux命令 pass
② 编程语言 操作文件 并将其保存至多个文件 eg:python
③ 基于简单的Windows 操作命令:
操作如下:
1、在要修改的文件目录下 新建一个文本文件head.txt写入
# 后面需要跟一个 回车
2、在要修改的文件目录下 新建一个文本文件end.txt写入
# 前面接一个 回车
3、用copy命令合并文本 ------- 文本目录下执行
copy /b head.txt + ./news_sohusite_xml_full.xml + end.txt canbeimport.xml
需要添加的头文件 需要修改的文件名 需要添加的尾文件 修改后的文件名
注意:由于搜狗与料库的编码特性,样做运行时会出现bug,问题是因为有的url中出现了无法解析的&,所以在
加 的同时,别忘了把出现的&替换成&;这样就能正常解析了。