数发部推动台湾主权AI训练语料库,广纳高品质、具在地化的正体中文语料,去年底语料库上线后,数发部持续携手各单位扩充内容。AI模型训练者可至语料库申请使用及取得最新数据集,拓展更多AI应用可能。 数发部今天通过新闻稿表示,这次中研院上架多笔具代表性的研究及科普文本资源,包括学术研究、政策分析、历史文化及科普等,超过620万词元,内容兼具专业深度及知识价值。 数发部介绍,中研院上架语料有「政策建议书」,涵盖农业、科技及金融改革等多项政策建议,提供重要议题的深入分析与前瞻性观点;「研究成果选辑」汇集台湾研究亮点,横跨人文社会、数理及生命科学等领域,让AI模型能更精准掌握不同领域的知识背景与脉络。 此外,数发部指出,「研之有物」与「科普专栏」以生动、浅显易懂方式传递科学知识,将艰深内容转化为易于理解的知识表述,成为AI学习多元语气与知识转译的重要素材;「台湾史研究所之馆藏选粹」蕴含丰富在地历史与文化记忆,补足模型对台湾历史视角的理解;「中研诚信电子报」则补充科研伦理与制度面向,提升模型在伦理议题上的判断与回应能力。 数发部说明,专业领域知识语料能提升模型在特定情境及领域的应用及理解能力,也有助强化模型推论能力与回应精准度,如建置检索增强生成(RAG)知识库、发展专业问答系统、进行模型微调,以及应用在摘要、分类与知识萃取等任务,促进具深度与专业性的AI应用发展。 数发部表示,台湾主权AI训练语料库去年底上线以来,已累计上架逾3000笔数据集、超过12亿词元,未来也将持续携手各机关及学研单位,扩大发布具台湾特色及专业价值的文本数据,共同厚植台湾主权AI发展基础。(编辑:杨兰轩)1150410