一种基于mT5的端到端中文-盲文翻译方法:词汇扩展与结构优化

时间:2026年3月25日
来源:Displays

编辑推荐:

中文-盲文自动翻译模型研究:基于mT5-small的混合专家与边界生成机制有效提升多音字处理和分词准确性,BLEU提升15%,推理速度提高48.7%。

广告
   X   

陈大鹏|李晨凯|周庄|魏琳娜|刘佳
南京信息科技大学计算机与通信工程学院自动化系,中国计算机学会教育技术分会,南京,210044,中国

摘要

随着视障人士对获取信息和融入社会的需求不断增加,中文到盲文的自动翻译在无障碍交流和辅助教育中发挥着越来越重要的作用。然而,现有方法在处理多音字、词段划分(WS)的合理性以及长序列生成方面仍面临挑战。为此,我们提出了一个基于mT5-small模型的端到端中文到盲文翻译模型。该模型结合了盲文字符分词策略、盲文专家混合(MBE)和基于边界的生成(BBG)机制,以提高字符级生成和词段划分预测的性能。我们构建了一个中文到盲文的平行语料库,并在该语料库上训练了所提出的模型。消融实验表明,分词策略增强了字符级生成的优势,MBE提高了模型区分不同字符的能力,BBG有效减少了边界预测的错误。对比实验显示,所提出的模型将BLEU分数提高了15%以上,达到了98.3%。同时,平均生成的序列长度从207个字符减少到99个字符,平均每句的推理时间从78毫秒减少到40毫秒,效率提高了48.7%。因此,所提出的模型为中文到盲文的自动翻译提供了一个高效的解决方案。

引言

盲文作为盲人或视障人士(BVI)阅读和书写的常用工具,在他们的学习、工作和社会参与中起着重要作用[1]。盲文通常由6个点组成,可以形成多达64种组合来表示字母、单词或符号。BVI通过用手指触摸盲文来阅读它。目前,BVI主要通过两种方式学习盲文:一种是在盲文纸上打印盲文,另一种是使用可刷新的盲文显示器[2]。尽管这些方法在学习盲文方面发挥了重要作用,但如何准确地将中文翻译成盲文以实现视障人士与正常人之间的文本交流仍需要翻译模型的研究。
中文字符对应的盲文是一种语音盲文。每个中文字符的声母、韵母和声调对应不同的盲文点模式。中文盲文主要包括现行盲文、双拼盲文和国家通用盲文(NUB)(GF 0019-2018)[3]。其中,目前使用的主要是现行盲文。现行盲文是一种基于音标系统的标准中文(普通话)拼写方法。它简单易学,为普通话的简化系统盲文开辟了道路,并是中国第一个标准化和统一的盲文方案(GB/T 15720-2008)。同时,现行盲文也采用了国际化的盲文系统,并与国际盲文系统相关。现行盲文中的声调符号设置是可选的。必要时,只使用少量的声调符号来区分同音词和罕见词[3]。其方法是在声母和韵母后添加第三个元素来表示声调符号。然而,为了节省空间,只有大约5%的盲文出版物中添加了声调[4]。这导致BVI只能通过上下文线索来判断或猜测现行盲文的语义。对于不熟悉或新出现的词,BVI往往难以理解其含义[5]。双拼盲文则结构发生了显著变化,导致用户适应成本较高,对于已经学习过现行盲文的人来说很难适应[6]。因此,这一方案的推广中途被暂停。为彻底解决这一问题,出现了NUB。NUB是一种完全标记声调和缩写的现行盲文方案。它逐个字符标记声调,而不改变现行盲文的符号系统,也没有显著增加长度。它使BVI的盲文阅读从“猜测”转变为“阅读”,解决了盲文阅读中的不准确性和歧义问题。NUB是现行盲文的升级版本,目前在中国得到了大力推广。由此可见,盲文系统本身正处于从“模糊”向“精确”演变的临界时期,这对翻译技术提出了更高的要求[7]。
在这种背景下,中文到盲文的翻译目前面临两个主要挑战:多音字的歧义和盲文词段划分(WS)[8]。中文字符包含许多多音字,这给中文字符盲文翻译的准确性带来了相当大的困难。例如,“
”在“
(yuè)”和“
”中的发音和声调不同,因此对应不同的盲文符号。同时,中文和盲文在词段划分方面有不同的规则。中文字符是表意文字,而盲文是语音文字。中文可以连续书写单词,依靠表意字符来理解单词并强调整体语义。但盲文缺乏这一基础,导致盲文采用分段与连接规则,并由盲文单元书写[8]。例如,中文中的“
”在盲文中会被分割成三个独立的单词“
”,而在中文中则作为一个整体处理。此外,盲文是通过触摸阅读的,过长的盲文段落会影响阅读速度。因此,盲文句子倾向于被分割成短单词。
尽管自然语言处理中的词段划分技术已经相当成熟,但它们的目标主要是服务于视觉阅读和计算机处理[9],[10],并且它们的词段划分标准与旨在优化触觉感知的盲文词段划分规则有很大不同。盲文词段划分的标准更加细致。其核心目标之一是控制盲文单词的长度,避免过长的盲文字符串影响触觉阅读的流畅性[11]。目前,大多数研究直接采用端到端的方法,让模型自行学习盲文词段划分信息[12],或者仅用简单的基于规则的后期处理进行补充[11],但这些方法忽略了盲文词段划分的独特性。结果,生成的盲文文本在词汇层面可能是正确的,但在实际的触觉阅读中仍然不够自然和高效。此外,该领域的研究长期以来受到高质量中文到盲文平行语料库稀缺的限制[13]。数据的缺乏使得数据驱动的方法,特别是深度学习模型,难以得到充分训练和评估,限制了翻译质量的进一步提高。
为了实现高质量的中文到盲文自动翻译,我们提出了一个基于mT5-small模型的端到端翻译模型[14]。通过引入盲文字符分词策略、盲文专家混合(MBE)模块和基于边界的生成(BBG)机制,该模型有效地提高了字符翻译的准确性和词段划分边界的合理性。我们在自建的平行语料库上进行了系统实验,得到了一个接近人类翻译的中文到盲文翻译模型。本文的主要贡献如下:
  • 我们构建了一个中文到盲文的平行数据集,并扩展了词汇量以覆盖所有盲文字符,为中文到盲文翻译模型的训练和评估提供了基本资源。
  • 我们提出了一种基于特殊词段划分标记的翻译方法,将中文到盲文翻译中的词段划分问题转化为可学习的标记预测任务,实现了字符级翻译和词边界控制的统一框架,同时提高了翻译质量并显著缩短了生成的序列长度,从而有效提高了模型的推理速度和实时翻译效率。
  • 我们通过结合MBE和BBG设计了一个翻译模型。客观指标和用户研究表明,与基线模型相比,该方法在可读性、语义保真度和语言自然性方面取得了明显的改进。

章节片段

盲文翻译

早期的中文到盲文翻译研究主要依赖于规则和统计模型,典型的流程是“中文词段划分 拼音转换 盲文映射”。这些方法易于实现,但受到规则覆盖范围和手动设计成本的限制。例如,[15]使用感知器算法和Viterbi解码来优化词段划分,并结合规则校正来提高词段划分的准确性。[16]构建了一个基于马尔可夫模型的智能转换系统来处理词段划分的歧义

mT5-small模型和整体框架

为了在中文到盲文任务上实现高质量的字符级翻译和可控的词段划分边界,本研究使用mT5-small作为基础模型,并在此基础上进行面向任务的微调。mT5-small采用编码器-解码器架构,编码器和解码器各堆叠了8个Transformer层[38]。它通过引入预层归一化结构提高了深度训练的稳定性,并采用了相对位置

数据集

本研究使用的数据集来自盲人学校的教学和辅助材料,包括中文文本及其对应的盲文文本。在数据处理过程中,我们首先对这两种类型的语料库进行句子级对齐,并进行去重、符号规范化和长度过滤等清理步骤,以确保语料库的一致性和标准化。基于清理后的语料库,我们构建了一个包含训练集的平行数据集

结论

在这项研究中,我们提出了一种基于mT5-small的中文到盲文翻译方法。该方法创新性地引入了专门的词段划分标记到目标序列中,并结合了BBG和MBE模块,使系统能够同时处理盲文字符的生成和词边界的预测。所提出方法的优势体现在三个层面:表示、结构和决策。即,字符级标记解决了盲文

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了国家自然科学基金(项目编号:62473200和62476238)的支持,部分得到了江苏省青年科技人才支持项目(项目编号:JSTJ-2024-195)的支持,以及江苏省青兰计划的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有