CASIA-OLHWDB2.0-2.2数据集wptt文件解析

数据集链接:http://www.nlpr.ia.ac.cn/databases/handwriting/Online_database.html

每个页面都存储在以作者索引和页码命名的 *.wptt 文件中。

CASIA-OLHWDB2.0-2.2数据集wptt文件解析_第1张图片

记住下面这个公式,很重要!中括号对应了需要循环解析的部分,中括号外面的乘数是循环次数,中括号里面对应的是每一次循环需要解析的长度。

Sample Lenth:
4+4+4+strkNum*[2+strkPtNum*4]+2+lineNum*[2+2*lineStrkNum+2+lineCharNum*codeLength].

根据表格中的项目名和length逐个读取解析。大部分内容都有固定的长度,部分内容长度不固定但是也能通过其他数据推导出来。代码如下,由于某些原因,懂的都懂,只有代码截图。

CASIA-OLHWDB2.0-2.2数据集wptt文件解析_第2张图片

CASIA-OLHWDB2.0-2.2数据集wptt文件解析_第3张图片

CASIA-OLHWDB2.0-2.2数据集wptt文件解析_第4张图片

解析出来之后使用plt显示,为了防止不同笔画连笔,每个笔画绘制一次,plt会自动使用不同的颜色区分笔画 。结果如下:

CASIA-OLHWDB2.0-2.2数据集wptt文件解析_第5张图片

每行的信息和标签:

CASIA-OLHWDB2.0-2.2数据集wptt文件解析_第6张图片

小白初次解析这样的文件,有不足之处欢迎指出,感谢~

你可能感兴趣的:(Share,python,数据分析)