陈老老老板 ♂️本文专栏:生活(主要讲一下自己生活相关的内容)生活就像海洋,只有意志坚强的人,才能到达彼岸。
♂️本文简述:最新资讯,合合信息扫描全能王实现古彝文识别,对文化的发展起到传承作用,本篇给大家讲解一下
♂️上一篇文章: 年度总结-你觉得什么叫生活?
有任何问题,都可以私聊我,在文章最后也可以加我的wx。感谢支持!
我认为人人都可以学好编程,我愿意成为你的领路人!
随着社会的进步与文化传承的发展,新时代的年轻人展现出无比强烈的文化自信。中华文化源远流长、一脉相承,在这个强调文化自信的时代,我们不得不更加重视文化传承的历史任务,而今天,文化传承的接力棒已经交到的新一代年轻人的手中。但是古文字文化传承方面的工作目前还有待提升,其原因就在于在探索古文字释义的过程中有诸多困难,即使有大量的古文字书籍供人们阅览,但是大部分人对这部分文化少有研究,因此使得古文字文化的传承困难重重。而随着AI文字识别技术的发展,该项技术对古籍的数字化已经有了突破性的进展,这使得人们有更便捷、更先进的工具去探索古文字的秘密!本篇给大家介绍一家企业——合合信息,联合上海大学、华南理工大学团队针对现有的西南彝志、云贵一带古彝文字符开展统一编码,并于近期发布了业内首个古彝文基础编码数据库。旗下的扫描全能王“智能高清滤镜”功能,也高效解决古彝文图像电子化的问题。。本篇给大家介绍:合合信息-扫描全能王实现古彝文识别技术。
彝文简介: 彝文指的是云南、贵州、四川等地的彝族人使用的文字,是彝族千百年来使用仍通行的表意文字。彝文产生于新石器时代到铁器时代之间,经历了文字发展的必经阶段,彝文典籍的内容涉及范围非常广泛,天文、地理、政治、经济、军事、医学、算术、地形、地貌、生物、农牧等无所不泰,其中蕴含着大量的生产与生活的技能智慧,是彝族人民开发利用所在地自然资源的经验总结和科学的结晶。
区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,根据《滇川黔桂彝文字集》,这些文字多达87046字。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。
随着历史进程的不断前进,古籍的存在也变得越来越少。部分了解古彝文的长者也相继去世,这使得古彝文的研究工作变得难上加难。
古彝文原籍的获取非常不易,这与彝族人民的风俗文化息息相关,彝族祭司(布摩)通常不愿意外借祖传书籍,认为外借书籍是可耻的行为,所以研究者要想通过研究古彝文原籍来丰富和拓展古彝文资料是非常困难的。然而在一些研究者和专业人士的努力下,一些持有古彝文原籍的人会愿意转让部分典籍,同时也有一些致力于推广传统文化、已消除禁忌理念的人士愿意转让经书,这才使得研究者们能有更多的古彝文原籍用以研究.。
首先,受一些环境等不可控因素的影响,古彝文典籍在保存的过程当中十分不易,虽然在历史发展的过程中彝族人民创造出“封底裹卷装”等方式来保存古籍,但是能完好无缺保存下来的古籍却十分稀少,大部分古籍在流传的过程中或多或少都有残缺,识别起来较为艰辛。其次,部分古籍会有残缺、粘滞等问题,需要研究者进行分页、粘贴、重新拼接等,这对工作人员的研究进度造成极大阻碍。
一般的古籍翻译时间在一到两年之内,具体时长又会根据古籍的难度和文字量不同而定。但是建国之初由罗国义、王兴友两位先生进行汉译的《西南彝志》(共26卷)却花了十年的时间完成翻译工作,此后王运权、王仕举等先生又花了17年才完成修订校正工作,可见古彝文原籍翻译工作十分艰难。不仅如此,古彝文的某些字符可以对应多个解释,多个字符对应一个解释,并且它的字符具有多样性和复杂性,没有统一的规范形式,因此在翻译的过程中会出现词句不通顺等情况。
随着AI技术的成熟,古文字识别也通过AI技术变得更加方便、简单,但是对于古彝文来讲,依然有以下几种难点:
合合信息的扫描全能王是最为出色的产品之一,智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理三大核心模块组成。其中,合合信息的智能图像处理技术,能够对样本进准识别,即使是有部分遮挡、阴影、指纹或反光等问题, 该项技术也能够对文档图像进行精准的矫正处理,从而有效识别文字信息。其次,合合信息的复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。
智能识别技术的实现离不开图像处理为基础,通过智能扫描引擎AI-Scan
的支持,实现了对信息的自动识别、分类和提取的功能,从而实现图像感知与场景化决策。对于图像中光照、阴影、颜色和倾斜角度等问题,扫描全能王能够只能地决策如何优化文档的图像,使用深度学习模型来识别和理解图像的内容,再根据图像感知的结果,从而进行通识性、场景化的判断。
古文字识别技术的探索一直都是艰辛的,而合合信息另辟蹊径通过与上海大学、华南理工大学共同推进的“原生态古彝文”研究项目,以四字节编码系统为基础,标注异体字、变体字、误用字和混用字,以此精确建立彝文古籍电子数据库,为机器学习建立丰富数据样本库。针对现有的《西南彝志》之前没有统一编码的问题,合合信息对古彝文字进行了统一编码,对古彝文数字化进程以及未来文字传播起到极大推动作用,此举为国内首创。AI训练数据量较之前也有了极大提高,同时样本量7万6千字符训练,能够有效识别相关古彜文,AI识别古彝文技术逐步成熟发展。
文化传承让人们能够对过去的文化成就有更为深入的了解和认识,从而更好地塑造自己的文化身份和认同感。古彝文作为我国特有文化遗产,是国内文化的瑰宝,是中国文化必不可少的部分,学习古彝文不仅是彝族人民的专属,更是我们深入了解彝族文化的中介,这有利于丰富我国文化的多样性,增强各个民族文化间的交流,促进民族文化大繁荣。
古彝文作为彝族文化的重要载体,是我们了解彝族文化的重要的工具。通过对古彝文的研究,能够为我们学习彝族文化提供强有力的支撑,丰富传统文化的内容,并将有关于彝族的数据资料和史实建立在对古彝文字研究的基础之上。因此,古彝文的传承不仅是对彝族文化的保护,更是对彝族文化的弘扬和发展的促进。
虽然合合信息对古彝文AI识别的技术尚处于初期阶段,但是这也对古彝文数字化进程的发展起到重要的推动作用,相信通过技术的不断完善,古彝文的识别会变得更加便捷、高效、准确。愿国产AI识别技术越来越先进,为我国的文化传承事业提供坚实的保障!