【Python&GIS】解决GIS属性表、矢量字段乱码,中文乱码

        我们平时在使用代码处理矢量数据时,可能会出现矢量字段出现乱码的情况。同样有什么打开别人发的矢量文件有可能也会出现这种情况。那么我们该如何解决这个问题,让我们属性表中的中文字符正常显示呢?今天就和大家一起分享一下。

1.原因

        ArcGIS10.2之前版本,Shapefile根据Locale进行编码,即注册表中的common—codepage—dbfDefault。而ArcGIS10.2之后版本(常用的10.6、10.7等),Shapefile一般是UTF-8编码,ArcGIS会先读取dbf头文件LDID中的编码,然后是cpg文件,最后是codepage。简单理解就是读取文件使用的编码类型和文件实际存储的编码类型不一致!

2.Shapefile文件的构成

  • 主文件(.shp)-----存储地理要素的几何图形
  • 索引文件(.shx)-----存储图形要素与属性信息索引
  • dBASE表文件(.dbf)-----存储要素信息属性的dBase表,包含各个实体的属性特征记录
  • 空间参考文件(.prj)-----存储投影信息
  • 仿射变换参数文件(.tfw)-----存储左上角的仿射地理变换参数
  • 几何体的空间索引文件(.sbn 和 .sbx)
  • 字符编码的描述文件(.cpg)-----存储字符编码类型的信息

3.解决方案

 1)修改cpg文件(不推荐)

        cpg文件中定义了字符编码的描述,即字符是使用什么类型进行编码的。在同目录下里创建同名的.cpg 文件,文本内容写oem或者936。内容具体的需要对照dbf的编码来,下面有可以查询编码类型的代码。结果需要去编码查询网站中找到对应的类型。

import struct

path_dbf = 'B:/绿地.dbf'
dat = open(path_dbf, 'rb').read(30)[29:]
code = struct.unpack('B', dat)[0]
print(code, hex(code))

 2)增加定义编码的代码(推荐)

        这个方法首先你要会使用Python,如果你是存依赖于GIS工作学习的,就不用看这个方法了。我们只需要在代码中添加编码类型即可!二选一,都试一试。这行代码放在创建矢量图层之前即可,你可以放在最前面。

gdal.SetConfigOption("SHAPE_ENCODING", "UTF-8")
# gdal.SetConfigOption("SHAPE_ENCODING", "GBK")
gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "YES") 
# 中文路径问题

        有些博主分享的什么修改注册表啥的,我没搞成功过,所以这里就不分享给大家了。同时修改.cpg这个文件成功率也很低,因为ArcGIS好像读取并使用它的优先率低,如果shp的元数据里定义了类型,你修改cpg文件它也不读。所以还是推荐大家用代码搞定,目前为止,每次都能成功!

你可能感兴趣的:(Python&GIS,python,ArcGIS,字段乱码,矢量数据,属性表)