古籍数字化平台中的OCR:这个平台更精准

在浩瀚的历史长河中,古籍作为中华民族的文化瑰宝,承载着无数先人的智慧与心血。然而,由于岁月侵蚀、保存不当等多种原因,许多珍贵的古籍面临损坏、失传的危机。为了守护这些无价之宝,云聪研发团队倾力打造了一款尖端的OCR(光学字符识别)系统,旨在提升古籍数字化校编的效率,让千年文化得以传承。

在研发这款OCR系统的过程中,云聪博士团队深知每一份古籍的珍贵与独特性。他们克服了技术上的种种挑战,力求在确保准确识别的同时,最大化地保留古籍的原貌和独特风格。正是这份执着与坚守,让云聪OCR系统在业界脱颖而出,成为古籍数字化校编领域的翘楚。

本模块支持私有化部署,API调用。

一、技术核心

1、识别核心

OCR精校工厂内置云聪科技最新研发的高性能文字识别引擎,其中《国标GB2312 汉字编码字符集》常用汉字6,763个,平均识别率达99.9%以上,《国标GB18030-2000中文编码字符集》繁体异体汉字27,533个,中文汉字平均识别率达95%以上。另外多语言版本英文、日文、韩文的识别率居国内主流水平。

2、逐字横排校对

云聪OCR精校工厂支持将竖版繁体文字转换为横版繁体文字,单个文字上下一对一进行逐字校对,支持全程快捷键键盘操作,符合现在的阅读习惯,大大提高校对效率。

3、复杂版面分析

云聪OCR精校工厂的内置复杂版面识别引擎,凭借其卓越的AI技术,对上下栏古籍、批注栏、竖版报纸以及简体中文报纸等各类版面,都能进行精准的版面分析。

4、阅读顺序

云聪OCR精校工厂拥有强大的内置版面阅读顺序引擎,能够精准解析古籍筒子页、半筒子页、三栏稿本、上下栏古籍、批注栏等多种复杂格式。同时,对于竖版报纸和简体中文报纸等复杂版面,也能进行有效的阅读顺序分析。

5、集字校对(内测中)

在云聪OCR精校企业版中,利用集字校对功能,多篇文档的相同字符图像得以集中展示,一目了然。这一功能大大减轻了校对人员的视觉负担,避免陷入繁琐的上下文判断,从而提高校对效率和准确性。

二、识别因素

云聪OCR的识别泛化能力能够适应大部分页面歪斜、透光、透字的情况,但是OCR识别效果好坏,关键看图像清晰度。简单来说,图像越清楚,OCR识别的准确率就越高。具体影响因素有:

1、分辨率:扫描时,图像的分辨率最好设置在DPI 300或以上,这样能保证OCR识别的效果。

2、亮度、对比度:页面亮度、对比度要适中,太亮、太暗、光斑、阴影等都可能影响OCR的准确率。

3、颜色:平台可以识别全彩图、灰度图、黑白图等。一般来说,黑白图的识别效率更高,但如果处理不当,也可能导致识别错误。

4、页面歪斜:轻微的页面歪斜、扭曲、梯形失真,平台可以忽略,但文字倾斜超过10°时,识别错误率就会高。所以,如果图像页面有问题,建议先进行预处理。

5、污损、模糊:页面上的透光、透字、彩点、黑边、污点等,都可能导致文字识别异常。

总之,清晰、标准是OCR识别的关键。

三、布局分析

古籍智能整理平台主要服务对象是繁体竖排的古籍,包括筒子页和半个筒子页的图像。这些古籍的文本输出顺序是从右至左、从上到下。但平台也能处理其他类型的文献,如经卷、文书、卷轴等,只要它们的版面布局和古籍相似。

不过,对于一些特殊的页面布局,平台可能无法完美处理。比如:

1、当页面过长或过宽时(超过3000像素),可能会出现识别异常。

2、针对上下分栏的页面,系统会认为页面存在 水平分隔线 ,文本输出顺序如下图:

3、横排页面,请在上传时选择横版页面:

4、倾斜的页面在校编校编工作时会有文字倾斜的情况,但不影响识别精度。

总的来说,要想获得更好的OCR效果,还是得保证图像的质量和版面布局的规范。

四、文字与字体

  1. 古文字

系统主要识别的是楷书、隶书,不支持甲金篆等古文字。

  1. 生僻字处理

为了提高综合识别效果,系统针对GB18030-2000中文编码字符集中常见的20000个繁体字体有较好的识别能力,但是其他7000个左右使用率极低的生僻字,系统暂时未做处理。如果需要处理这些生僻字,可以使用系统提供的全字库字符查询工具来帮助你录入。

  1. 符号与非汉字字符

虽然系统可以识别常见的句号,逗号,但对于现代新式标点、空格、书名号等等,以及其他的非汉字语言文字,暂时还无法识别。

  1. 印刷字体

系统对明清的方体字(也称硬体字、匠体字、宋体字)、宋元以来的软字体,如颜体、欧体、柳体、赵体等均有有较好的识别效果;对标准楷体写刻本和名家手写上板的精刻本等,也有良好的泛化能力。一般来说,笔画清、字形厚的字体识别效果好;而笔画细、连挤挨的字体效果较差了。

  1. 手写字体

系统对以楷宋体书写的写本、稿本、抄本有较好的适应性。但对于行书、草书风格文字,识别效果还有待优化。

五、其他元素

1、批校

天头位置整齐的批校,系统可以单独处理,不会影响正文的顺序。但行间整齐的批校可能会被当作普通文字行。而那些挖改、涂改、勾乙则会对识别结果产生较大影响。

2、注释

对于古籍中的小字注释,系统有较好的处理能力。但如果是连续的多行小字或更小的注释,因为大小差异不明显,可能会被误识别为普通的双行小注。

3、表格

现在的系统对于表格的处理能力还不够强大。如果表格的栏线不明显,或者与文字靠得太近,还有那些模糊的行列关系和合并的单元格,都可能导致表格识别效果不佳。

4、插图

有时候,页面中的插图可能会被误识别为文字。同样,插图里的文字如果和线条混在一起,就很容易被识别错误或者遗漏。

最后,从技术核心到识别能力,云聪OCR系统无不展现了科技与文化的完美结合。在未来的日子里,云聪团队将继续深耕于古籍数字化领域,用科技为文化遗产保驾护航,让千年文明焕发新的光彩。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/572895.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

portaudio 怎么调用获取输出流

PortAudio是一个跨平台的音频I/O库,它允许你访问计算机的音频硬件进行录音和播放。要使用PortAudio获取输出流(播放流),你需要遵循以下步骤: 官方下载地址:PortAudio - an Open-Source Cross-Platform Audi…

AIGC技术的探索与展望:跨界融合与科技变革

文章目录 前言一、AIGC技术的现状与特点二、AIGC技术在各个领域的应用三、AIGC技术对未来社会的影响四、AIGC技术的可能发展方向 前言 随着科技的飞速发展,人工智能与大数据的结合日益紧密,AIGC(人工智能生成内容)技术作为这一领域…

Linux——web基础实验

实验前的安装 [rootwebserver ~]# yum -y install httpd [rootwebserver ~]# systemctl enable --now httpd Created symlink /etc/systemd/system/multi-user.target.wants/httpd.service → /usr/lib/systemd/system/httpd.service. [rootwebserver ~]# echo test for apach…

Linux入门攻坚——20、systemd、(sysvinit、upstart重温)

再一次讲到Linux系统启动流程: POST --> Boot Sequence --> Bootloader(grub) --> kernel initramfs(initrd) --> rootfs --> /sbin/init 对于init,即系统内核加载完毕后(加载kernel和切换根文件系统)运行…

源代码开发企业的防泄密该怎么做

在源代码开发企业中,保护产品的知识产权和源代码安全是至关重要的。尤其是在面对Java等易被反编译的语言时,加密和保护源代码就显得尤为重要。针对这一挑战,SDC沙盒提供了一系列全面的解决方案,为企业源代码的安全保驾护航。 源代…

BSV区块链协会上线首个版本的ARC交易处理器

​​发表时间:2024年3月28日 BSV区块链协会近期上线了首个版本的ARC交易处理器。ARC是一项区块链交易处理服务,能在通过P2P网络广播交易之前验证并存储相关的交易。一旦新区块被挖出,一条与该交易相关的Merkle路径将被发回给交易发起者作为确…

JavaScript-4.正则表达式、BOM

正则表达式 正则表达式包含在"/","/"中 开始与结束 ^ 字符串的开始 $ 字符串的结束 例: "^The":表示所有以"The"开始的字符串("There"、"The cat"等&#x…

JavaSE-14笔记【反射机制(+2024新)】

文章目录 1.反射机制概述2.获取Class的四种方式3.通过反射机制实例化对象*4.反射机制结合配置文件灵活实例化对象*5.java.lang.reflect.Field5.1反编译类中的所有字段/属性5.2 通过反射机制给属性赋值* 6.java.lang.reflect.Method6.1反编译类中的所有方法6.2 通过反射机制调用…

六个月滴滴实习:轻松、舒心又高薪!

不久前,一位在滴滴后端研发部门实习了六个月的小伙伴在牛客网上分享了他的实习体验, 作者详细描述了他在滴滴的实习生活。 从他的叙述中,我们可以感受到与其他互联网公司相比,滴滴的工作环境显得相对轻松和舒适。 他提到&#x…

Spring Boot-基础操作,常用工具,配置文件

lombok工具 首先将lombok的依赖引入 Lombok是一个实用的Java类库,能通过注解的形式自动生成构造器、getter/setter、equals、hashcode、toString等方法,并可以自动化生成日志变量,简化java开发、提高效率。 日志操作 自定义日志打印 有以下两步: 在一个类中先获…

Https协议原理剖析【计算机网络】【三种加密方法 | CA证书 】

目录 一,fidler工具 前提知识 二,Https原理解析 1. 中间人攻击 2. 常见的加密方式 1). 对称加密 2). 非对称加密 对称加密 4). CA证书 1. 数据摘要 3. 数字签名 CA证书 理解数据签名 存在的安全疑问&am…

根据当年节假日和非工作时间计算请假时间-获取每个月的节假日,计算每个月的工作日时间进度,节假日每年更新

根据需求请假时间要排除法定节假日和非工作时间 1.获取当年的节假日 节假日是每年更新的,没有固定接口,需要手动录入 个人根据官方的节假日整理了当年的所有节假日,可以根据个人需求进行修改 // 获取每个月的节假日,如果当月没…

数据结构入门——排序(代码实现)(下)

int GetMidi(int* a, int left, int right) {int mid (left right) / 2;// left mid rightif (a[left] < a[mid]){if (a[mid] < a[right]){return mid;}else if (a[left] > a[right]) // mid是最大值{return left;}else{return right;}}else // a[left] > a[mid…

c++二叉树的进阶--二叉搜索树

1. 二叉搜索树的概念 二叉搜索树又称二叉排序树&#xff0c;它或者是一棵空树&#xff0c;或者是具有以下性质的二叉树: 若它的左子树不为空&#xff0c;则左子树上所有节点的值都小于根节点的值 若它的右子树不为空&#xff0c;则右子树上所有节点的值都大于根节点的值 它的左…

R-Tree与其他空间索引结构的对比

文章目录 R-Tree vs Quadtree/OctreeR-Tree vs kd-TreeR-Tree vs BSP TreeR-Tree vs Hilbert R-Tree总结Python: 使用rtree库实现R-TreeJavaScript: 使用rbush库实现kd-Tree R-Tree是一种广泛使用的空间索引结构&#xff0c;尤其适用于处理多维空间数据。然而&#xff0c;还有其…

电脑上怎么调照片尺寸?怎么压缩图片为144×144

在一些社交媒体平台通常要求用户上传头像&#xff0c;并对其进行裁剪和调整大小&#xff0c;144x144像素是常见的头像尺寸之一&#xff0c;适合在社交媒体上展示个人头像或者小图标&#xff0c;为了可以保证图片的画质&#xff0c;我们尽量会选择专业的图片处理工具来完成操作。…

OpenAI推出强化企业级安全与成本管理新功能

欢迎大家在 GitHub 上 Star 我们&#xff1a; 分布式全链路因果学习系统 OpenASCE: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE 大模型驱动的知识图谱 OpenSPG: https://github.com/OpenSPG/openspg 大规模图学习系统 OpenAGL: https://github.com/TuGraph-…

探索在Apache SeaTunnel上使用Hudi连接器,高效管理大数据的技术

Apache Hudi是一个数据湖处理框架&#xff0c;通过提供简单的方式来进行数据的插入、更新和删除操作&#xff0c;Hudi能够帮助数据工程师和科学家更高效地处理大数据&#xff0c;并支持实时查询。 支持的处理引擎 Spark Flink SeaTunnel Zeta 主要特性 批处理 流处理 精确一次性…

Linux——(grep指令及zip/tar压缩指令)

1.grep指令 语法&#xff1a; grep【选项】查找字符串 文件 功能&#xff1a; 在文件中搜索字符串&#xff0c;将找到的行打印出来 常用选项&#xff1a; -i &#xff1a;忽略大小写&#xff0c;所以大小写视为相同 -n &#xff1a; 顺便输出行号 -v &#xff1a;反向选择&…

DDD领域驱动设计总结和C#代码示例

DDD&#xff08;领域驱动设计&#xff09;是一种软件设计方法&#xff0c;它强调以业务领域为核心来驱动软件的设计和开发。 DDD 的设计初衷是为了解决复杂业务领域的设计和开发问题&#xff0c;它提供了一套丰富的概念和模式&#xff0c;帮助开发者更好地理解和建模业务领域&…