杭州档案馆:档案数据化管理的时代要求
创始人
2025-12-26 06:05:09
0

汉王ocr文字识别软件教程_汉王文字识别_汉王识别软件怎么用

近十年来,档案管理已从原来的纸质档案转变为电子档案管理。 无疑,电子档案的出现彻底改变了原有的档案管理模式。 大数据和人工智能技术的快速发展,正在推动社会向智能化、物联网、互联网方向发展。 同时,电子档案的应用也对智能化管理提出了时代要求。 在杭州市档案馆“OCR+NLP在档案数据化中的研究与实践”项目中,汉王科技利用人工智能技术对杭州市档案馆现有档案系统进行升级改造,处理现有档案,激活档案内容,一方面,更容易申请; 另一方面,也是新时代档案建设的一大重点。

档案数字化问题

正如杭州市档案馆副馆长马立强在《OCR+NLP在档案数据化中的研究与实践》项目中指出,“我国现有档案馆一直在进行持续的电子扫描工作,大量的纸质档案扫描获取图像数据,一方面为档案的长期保存提供了便利,另一方面也对档案的电子化利用提出了新的挑战。

马立强认为,档案电子化应用离不开档案数字化。 与档案电子化相比,档案数字化是对档案数据的进一步组织和挖掘。

可以理解汉王ocr文字识别软件教程,电子档案后获得的图像数据仍然是一种非结构化数据,不利于查询检索和统计分析。 档案数字化是将非结构化档案图像转换为结构化数据的过程。 在此过程中,提取出档案中的核心结构化数据,可用于档案的全文检索、精准查询、统计分析、关联挖掘等。 为下游任务提供数据支持。

据介绍,档案数字化工作可分为三个层次。 第一个是档案图像的文本识别。 在这个过程中,OCR技术主要用于对档案中的文本进行识别和提取。 二是知识抽取。 在此过程中,主要基于NLP(自然语言处理)技术来提取档案的核心要素。 三是关联挖掘。 在此过程中,主要是在前两个阶段获得的结构化数据的基础上,应用知识图谱和数据挖掘技术来挖掘数据的内在关联性,形成通用的文档级和元素级关联。

他指出,我国档案数字化工作现状存在一些问题,主要体现在上述档案数字化工作的第二、三层次,即从档案中提取知识的工作很少,而且知识抽取缺乏统一的标准。 作为知识提取的上游环节,OCR文本识别应输出的数据格式缺乏明确的规范和标准。

解决方案:OCR+NLP

在这项研究中,马立强表示,传统OCR技术的核心是识别图像中的文本,再加上通过NLP技术对文本块进行自然语言语义分析,只有更好地进行完整的知识提取。

他还提到,该项目的联合申请人之一是汉王科技,该公司在深度学习和人工智能领域拥有深厚的技术积累,在OCR和NLP技术领域有许多成功的相关实施案例,例如中文文学和历史。 出版社知识图谱项目、中国建设银行云档案项目、上海图书馆时事自动记述项目、国家图书馆地方志知识提取项目等、汕头市民档案数字化项目等。

无独有偶,在行业实践中,汉王科技也意识到了同样的问题——仅靠OCR是不够的。

资料显示,2013年,汉王科技将文档电子化触角延伸至图书馆、档案馆、银行、医院、法院等国家项目。 但在这些具体项目的实施过程中,汉王科技也开始逐渐认识到文档电子化只是知识和信息应用的一部分。

“静态文本是没有生命的。” 汉王数字首席数据科学家聂宇告诉记者,电子文档不挖掘文本,缺乏知识之间的关联性。 文档的非结构化数据必须结构化并转化为技术。 术语需要使用NLP自然语言处理技术。

应用创新及未来趋势

一方面,得益于当时的行业背景,2015年,随着深度学习算法的快速进步以及大规模社交文本数据和语料数据的不断积累,NLP技术突飞猛进。 另一方面,汉王在NLP领域处于领先地位。 2016年,汉王科技与武汉大学自然语言处理团队联合开展文档大数据研发工作,力争突破NLP技术,建立自己的大型文档数据库系统。

同时,汉王科技还积极推动NLP行业应用并进行创新研发。 例如,其新一代人工智能档案大数据处理平台基于全卷积神经网络(FCN)提取特征序列,实现全局特征和局部特征的结合,可以比较有效地解决档案的文字定位和检测布局复杂、噪声严重的图像。

据介绍,该平台采用长短期循环神经网络(LSTM)作为序列学习,嵌入时间特征,有效建模序列的内部关系,解决复杂档案图像的单字符分割和识别问题。布局和严重的噪音。 基于以上技术构建的OCR,全文识别引擎可以自动定位任何扫描文件图像的文本区域,并自动识别文本类型(手写或打印),然后准确识别文本并输出识别结果,可用于有背景噪声的图像。 通过定位特定情况下的文本区域,并基于大量样本图像的实际测量,平均识别准确率可以超过95%。 汉王科技的OCR技术也广泛应用于小语种,特别是满文、藏文识别,平均识别准确率超过98%。

汉王相关负责人指出,自2016年NLP技术积累以及各子公司的产业应用以来,汉王科技已形成从技术研发到法院、医院、图书馆、档案馆等广泛的NLP领域、银行等行业。 在应用闭环中,各子公司在技术与场景应用的协同上也形成了良好的联动效应。

最后,马力强总结道:“从国内外研究发展趋势来看,目前档案数字化工作大部分集中在档案图像的OCR识别上。目前的OCR识别是以准确识别文字为主要目标。为后续知识抽取所需的版面相关信息往往不会被识别和保存,但基于档案相关数据的特点,OCR识别将从文本识别扩展到文本块区域识别、表格识别、连接识别、字体大小识别等。识别是未来的必然趋势,只有这样才能与下游信息或知识提取处理无缝衔接,因此未来档案数字化必将从基于纯文本的信息提取技术发展到整体信息提取结合文本语义信息和布局信息的技术。 不可避免的趋势。”

注:OCR(光学字符识别)是指电子设备​​(如扫描仪或数码相机)检查打印在纸张上的字符,通过检测暗色和亮色图案来确定其形状汉王ocr文字识别软件教程,然后使用字符识别方法翻译形状的过程生成计算机文本。 NLP(自然语言处理)是研究人与计算机交互中的语言问题的学科。

------------------------------------------

(市场有风险,投资交易需谨慎。我们不对所涉及的标的物做出任何建议,您据此进行投资和交易,风险自负。)

相关内容

热门资讯

上... 照片来源:John TonUnsplash本文原载于《上海文学》2019年第12期迷宫里的直播牛莉莉...
海... 海景摄影一直是我最喜爱的题材。在澳洲、新西兰和新加坡的旅行中,我无数次在半夜出发,只为捕捉清晨海面上...
5... 你是不是经常为找不到好看的小说而烦恼?觉得很多阅读APP都需要付费才能阅读全文?今天就给大家介绍5款...
初... 图片来源:Tuchong Creative♪ 作者|江源♪ 来源|真实故事计划(ID:zhenshi...
短... 因为我运营着一个短视频社区,社区里有些刚刚起步的朋友不知道有什么工具可以用来制作视频视频制作软件教程...
安... 前不久谷歌正式发布了新一代的安卓6.0系统,大大提升了安卓系统的体验,与此同时越来越多的新手机、旗舰...
会... 在会声会影中完成视频编辑后,您可以保存项目文件。保存项目文件对于视频编辑非常重要。保存工程文件同时也...
快... 我的猫会说话。它跳上床,踩在我的头上,问:“铲屎官,你卧室里还有一只猫?”“天哪!我跟你说过多少次了...
S... 今天我为你挑选了sayatoo 卡拉OK 字幕 中文版大小:1.6G12345131236语言 中文...
相... 首先我先介绍一下站长目前的状况。内容是王,外链是皇帝,内链是妃子,关键词是宰相,代码是将军,结构是城...
老... ∆ 点击上面的【Youke Liao】一起学习吧~今天老板给我安排了新的工作,加上上周安排的工作,前...
南... 注:全文很长。先简单介绍一下紫荆花,后面是徐姐写的紫荆花教程,很详细,推荐收藏,最后一段故事是紫荆花...
小... 近日,有用户反映,在电视上蜜蜂市场下载软件时,弹出“该应用已下架”的提示,尤其是小米电视用户。这到底...
小... 小米盒子 MDZ-09-AA 和 MDZ-09-AK 刷机固件 - 刷机固件 - EMMC 克隆备份...
地... 视频编辑软件EDIUS 6.02使用体验及功能与技巧介绍我在地方教育电视台工作,前几年一直用Cano...
蜗... 本文最初由 What's Worth Buying 的用户创建:此 ID 已协调前言故事要从2016...
免... 在做短视频运营的时候,是不是经常羡慕别人几百万的视频流量和几千万的变现?但他的视频流量平平无奇,更不...
金... 财务工作离不开财务软件,财务岗位招聘时会把“熟练操作财务软件”或“精通一款财务软件”作为基本招聘要求...
自... 我们做自媒体的时候,很多人都会选择做视频,有的人是做真人快手刷粉丝软件教程,给一些知识培训,一些常识...
新... 最近为了配合新型冠状病毒的防控工作,一直宅在家里,趁着这个时间学习了一下如何使用PRcc2018制作...