TOPPAN控股股份有限公司(总部:东京都文京区,代表董事社长COO:大矢 谕,以下简称 TOPPAN控股)及其集团公司TOPPAN股份有限公司(总部:东京都文京区,代表董事社长:野口 晴彦,以下简称 TOPPAN),已开发出一款可解读一般被认为难以辨读之中世纪希腊语的AI-OCR引擎(以下简称「本AI-OCR引擎」)。 未来,将利用与TOPPAN控股营运的印刷博物馆具备合作关系的梵蒂冈教廷图书馆的希腊语手抄本影像与文本数据,通过不断累积训练数据与改善精确度,目标是让本AI-OCR引擎的辨识准确率达到95%以上。 此外,这项计划的成果将于2026年4月25日(六)起在印刷博物馆举办的企划展「名著诞生展 梵蒂冈教廷图书馆III+」中进行展示操作。 ■ 本AI-OCR引擎的开发背景 古老文献中记录了关于具历史价值的史实与地方文化的各种信息,但其中许多是以现代人难以辨读的手写文本写成。精确解读这些内容并将文化传承下去,已成为不限于日本的全球性社会课题。 TOPPAN集团近30年来,在推动文化传承的多项计划中与梵蒂冈教廷图书馆保持合作。梵蒂冈教廷图书馆为了促进研究与教育用途,将其馆藏200万件以上藏品中的一部分,以IIIF(※1)格式的高清影像公开。公开影像已超过900万张,目前仍持续扩充中。此外,针对部分希腊语手抄本影像,也进行了「翻刻(※2)」与「注解」等附加信息的数据整理,但若要将附加信息扩展至整个馆藏,则需要能解读中世纪希腊语的高度专业人才进行长期的作业。 为支持日本全国珍贵历史数据的研究与应用,TOPPAN过去一直致力于解读以现代人难以辨读之「草书(くずし字)」写成的古文书。2015年开始研发运用AI影像辨识技术解读「草书」的「草书OCR」,其后也致力于与各种研究机构合作及举办活动。此外,于2021年推出了古文书解读与应用服务「Fuminoha®(ふみのは®)」,并于2023年推出了让一般大众也能轻松解读古文书的智能型手机应用程序「古文书相机®(古文书カメラ®)」。 在此背景下,TOPPAN本次运用迄今在「草书」解读上所培养的AI-OCR相关技术与知识,开发出了能解读中世纪希腊语的AI-OCR引擎。 ■ 本AI-OCR引擎的特征 ・中世纪希腊语的解读 中世纪希腊语的特征是标记不统一,字体因时代或书写者而异,且会有单字部分被省略、或使用与现代不同拼字的情况。此外,有时句子在单字与单字之间没有留空白,这对于没有专业知识的现代人来说非常难以阅读。本AI-OCR引擎通过准备百万字级别的字体与行数据库作为训练数据,实现了中世纪希腊语文本的解读。