盲文作为盲人或视障人士(BVI)阅读和书写的常用工具,在他们的学习、工作和社会参与中起着重要作用[1]。盲文通常由6个点组成,可以形成多达64种组合来表示字母、单词或符号。BVI通过用手指触摸盲文来阅读它。目前,BVI主要通过两种方式学习盲文:一种是在盲文纸上打印盲文,另一种是使用可刷新的盲文显示器[2]。尽管这些方法在学习盲文方面发挥了重要作用,但如何准确地将中文翻译成盲文以实现视障人士与正常人之间的文本交流仍需要翻译模型的研究。
中文字符对应的盲文是一种语音盲文。每个中文字符的声母、韵母和声调对应不同的盲文点模式。中文盲文主要包括现行盲文、双拼盲文和国家通用盲文(NUB)(GF 0019-2018)[3]。其中,目前使用的主要是现行盲文。现行盲文是一种基于音标系统的标准中文(普通话)拼写方法。它简单易学,为普通话的简化系统盲文开辟了道路,并是中国第一个标准化和统一的盲文方案(GB/T 15720-2008)。同时,现行盲文也采用了国际化的盲文系统,并与国际盲文系统相关。现行盲文中的声调符号设置是可选的。必要时,只使用少量的声调符号来区分同音词和罕见词[3]。其方法是在声母和韵母后添加第三个元素来表示声调符号。然而,为了节省空间,只有大约5%的盲文出版物中添加了声调[4]。这导致BVI只能通过上下文线索来判断或猜测现行盲文的语义。对于不熟悉或新出现的词,BVI往往难以理解其含义[5]。双拼盲文则结构发生了显著变化,导致用户适应成本较高,对于已经学习过现行盲文的人来说很难适应[6]。因此,这一方案的推广中途被暂停。为彻底解决这一问题,出现了NUB。NUB是一种完全标记声调和缩写的现行盲文方案。它逐个字符标记声调,而不改变现行盲文的符号系统,也没有显著增加长度。它使BVI的盲文阅读从“猜测”转变为“阅读”,解决了盲文阅读中的不准确性和歧义问题。NUB是现行盲文的升级版本,目前在中国得到了大力推广。由此可见,盲文系统本身正处于从“模糊”向“精确”演变的临界时期,这对翻译技术提出了更高的要求[7]。
在这种背景下,中文到盲文的翻译目前面临两个主要挑战:多音字的歧义和盲文词段划分(WS)[8]。中文字符包含许多多音字,这给中文字符盲文翻译的准确性带来了相当大的困难。例如,“”在“(yuè)”和“”中的发音和声调不同,因此对应不同的盲文符号。同时,中文和盲文在词段划分方面有不同的规则。中文字符是表意文字,而盲文是语音文字。中文可以连续书写单词,依靠表意字符来理解单词并强调整体语义。但盲文缺乏这一基础,导致盲文采用分段与连接规则,并由盲文单元书写[8]。例如,中文中的“”在盲文中会被分割成三个独立的单词“”,而在中文中则作为一个整体处理。此外,盲文是通过触摸阅读的,过长的盲文段落会影响阅读速度。因此,盲文句子倾向于被分割成短单词。
尽管自然语言处理中的词段划分技术已经相当成熟,但它们的目标主要是服务于视觉阅读和计算机处理[9],[10],并且它们的词段划分标准与旨在优化触觉感知的盲文词段划分规则有很大不同。盲文词段划分的标准更加细致。其核心目标之一是控制盲文单词的长度,避免过长的盲文字符串影响触觉阅读的流畅性[11]。目前,大多数研究直接采用端到端的方法,让模型自行学习盲文词段划分信息[12],或者仅用简单的基于规则的后期处理进行补充[11],但这些方法忽略了盲文词段划分的独特性。结果,生成的盲文文本在词汇层面可能是正确的,但在实际的触觉阅读中仍然不够自然和高效。此外,该领域的研究长期以来受到高质量中文到盲文平行语料库稀缺的限制[13]。数据的缺乏使得数据驱动的方法,特别是深度学习模型,难以得到充分训练和评估,限制了翻译质量的进一步提高。
为了实现高质量的中文到盲文自动翻译,我们提出了一个基于mT5-small模型的端到端翻译模型[14]。通过引入盲文字符分词策略、盲文专家混合(MBE)模块和基于边界的生成(BBG)机制,该模型有效地提高了字符翻译的准确性和词段划分边界的合理性。我们在自建的平行语料库上进行了系统实验,得到了一个接近人类翻译的中文到盲文翻译模型。本文的主要贡献如下:
- •
我们构建了一个中文到盲文的平行数据集,并扩展了词汇量以覆盖所有盲文字符,为中文到盲文翻译模型的训练和评估提供了基本资源。
- •
我们提出了一种基于特殊词段划分标记的翻译方法,将中文到盲文翻译中的词段划分问题转化为可学习的标记预测任务,实现了字符级翻译和词边界控制的统一框架,同时提高了翻译质量并显著缩短了生成的序列长度,从而有效提高了模型的推理速度和实时翻译效率。
- •
我们通过结合MBE和BBG设计了一个翻译模型。客观指标和用户研究表明,与基线模型相比,该方法在可读性、语义保真度和语言自然性方面取得了明显的改进。