基于大语言模型的多语言机器翻译:实证结果与分析
pre主要讲研究的一些理论和方法,还有和机器翻译、大模型、预训练、数据集等相关的概念和实际产品,论文中提到的一些具体的数据结果可以应用到涉及到gpt翻译的毕业设计中。
Abstract:
大语言模型 (LLM) 在处理多语言机器翻译 (MMT) 方面表现出了巨大的潜力。在本文中,我们通过回答两个问题系统地研究了 LLM 在 MMT 方面的优势和挑战:1)LLM 在翻译大量语言方面的表现如何?2)哪些因素影响 LLM 在翻译中的表现?我们仔细评估了八种流行的 LLM,包括 ChatGPT 和 GPT-4。我们的实证结果表明,LLM 的翻译能力正在不断提高。GPT-4 在 40.91% 的翻译方向上击败了强监督基线 NLLB,但与谷歌翻译等商业翻译系统仍存在很大差距,尤其是在低资源语言上。通过进一步分析,我们发现 LLM 在用于 MMT 时表现出了新的工作模式。首先,LLM 可以以资源高效的方式获得翻译能力,即使在零资源语言上也能生成适度的翻译。其次,当给出上下文样本时,指令语义令人惊讶地可以被忽略。第三,跨语言范例可以为低资源翻译提供比同一语言对中的范例更好的任务指导。
- 引言(Introduction)
这部分概述研究背景和动机,强调当前多语言翻译领域的挑战,尤其是在零样本(zero-shot)和少样本(few-shot)情况下的难点。
Previous studies have shown the surprising performance of LLMs on high-resource bilingual translation, such as English-German translation (Vilar et al., 2022; Zhang et al., 2022), even if these models are not particularly optimized on multilingual data.
未解决的问题:
MMT is a challenging task that involves translating text among different languages and requires semantic alignment between languages (Fan et al., 2021; Team, 2022; Yuan et al., 2023). It is also unclear that how LLM acquires translation ability and which factors affect LLM’s translation ability.
要解决的问题:
In this paper, we follow ICL paradigm and focus on studying LLMs in multilingual machine translation by answering two questions:
1) How LLMs perform MMT over massive languages?
Compared with the widely-used supervised MMT system NLLB (Team, 2022), GPT-4 achieves higher performance on 40.91% English-centric translation directions. But compared with the commercial translation system (Google Translate), LLMs still have a long way to go, particularly when it comes to low-resource languages.
2) Which factors affect the performance of LLMs?
First, we discover that LLM can acquire translation ability in a resource-efficient way and generate moderate translation even on zeroresource languages. Second, LLMs are able to perform translation even with unreasonable instructions if in-context learning exemplars are given. However, if given mismatched translation pairs as in-context exemplars, LLMs fail to translate, which is similar to observations from concurrent studies (Wei et al., 2023). This shows the importance of exemplars in ICL for machine translation. Third, we find that cross-lingual translation pairs can be surprisingly good exemplars for low-resource translation, even better than exemplars in the same language.
- 零样本(zero-shot)或少样本(few-shot)条件下,通过调整输入的示例数量,快速适应新任务。
- 依赖提示词设计:提示词的质量和示例的选择对模型输出质量有很大影响,尤其是在复杂任务或低资源语言环境中。
- ICL 在多语言机器翻译中的应用:
在多语言翻译任务中,ICL 能通过提供多语言示例来引导模型进行高质量的翻译。例如,用户可以为模型提供英语到法语的翻译示例,接着输入英语到另一种语言(如德语)的句子,模型可以根据上下文自动生成德语翻译。
ICL 的优势在于它可以利用少量示例提升模型在低资源语言对上的翻译效果,尤其是在少样本(few-shot)翻译场景中,这种方法已被证明有效提升翻译质量。
近年来,随着大语言模型(LLMs)的出现,多语言机器翻译技术得到了显著提升。然而,在多语言环境中,这些模型在应对高资源语言和低资源语言的平衡方面仍存在不足。零样本和少样本翻译能力的有效性是当前研究的焦点。因此,本研究旨在通过实证分析,评估大语言模型在多语言机器翻译中的表现,并探讨提升翻译性能的方法。
Background
(1) LLM:
a casual decoder-only language model can be a multi-task learner with merely unsupervised training corpus. Radford et al. (2019)
scaling the language model also brings astonishing emergent abilities, e.g., in-context learning, which is only present in large models. Wei et al. (2022b)
(2) Emergent Ability: In-context Learning
假设我们要利用上下文学习(ICL)来完成英语到法语的机器翻译任务。1. 提示词构造: * 示例对 (Xi, Yi): * X1 = "Hello, how are you?" * Y1 = "Bonjour, comment ça va?" * X2 = "Thank you for your help." * Y2 = "Merci pour votre aide." * 模板 T: 人类撰写的指令,如:"Translate the following sentence: " 2. 生成提示词 P: 将模板 T 和示例对结合,形成最终提示词 P: Translate the following sentence: Hello, how are you? -> Bonjour, comment ça va? Translate the following sentence: Thank you for your help. -> Merci pour votre aide. 3. 推理阶段: 假设测试输入为: Translate the following sentence: I am very happy. -> 模型在提示词 P 的引导下,会基于之前的示例学习翻译模式,预测输出为: Je suis très heureux/heureuse.
生成方式:
- 标签预测任务(如情感分析):模型只需一次生成输出。
- 序列生成任务(如机器翻译):可以通过贪婪搜索或束搜索生成更符合上下文的翻译。
例如,使用束搜索可能会生成多个候选翻译,并选取最佳的那一项。
这个例子展示了如何通过少量示例和模板引导模型完成特定任务,提高零样本或少样本条件下的输出质量。
3、Experiment Setup
(1) 数据集(Dataset)
实验使用了FLORES-101数据集,旨在评估模型在多语言翻译任务中的表现。FLORES-101包含多种语言,可以全面反映模型在高资源和低资源语言上的翻译能力。(LORES-101 (Facebook Low-Resource Language Open-Source Evaluation Set) 是一个由 Meta 开发的多语言翻译数据集,专门用于评估机器翻译系统在不同语言对上的性能,尤其是低资源语言。该数据集覆盖了101种语言,包含跨102种语言方向的翻译任务,旨在解决传统数据集中非英语中心化的偏差,提升多语言翻译的公平性和广泛性。 - 评估数据选择:为了控制API成本,基准测试只使用了每个翻译方向测试集中前100个句子。在分析实验中,则使用了完整测试集。
(2) 模型(LLMs)
实验中评估了八个主流的大语言模型(LLMs)的翻译性能: - XGLM-7.5B
- OPT-175B
- BLOOMZ-7.1B
- Falcon-7B
- LLaMA2-7B 和 LLaMA2-7B-chat
- ChatGPT(GPT-3.5-Turbo-0301,2023年4月评估)
- GPT-4(GPT-4-0613,2023年8月评估)
这些模型涵盖了不同规模和架构,从开源到商用模型均有涉及,确保实验的广泛适用性。
(3) ICL策略(In-Context Learning Strategy)
使用了ICL(In-Context Learning)策略来提升翻译性能。具体方法包括:
- 示例选择:从开发集中随机挑选8对翻译示例作为上下文参考。
- 模板设计:使用“
= ”格式,其中 和 分别代表源语言和目标语言的句子。 - 拼接符号:以换行符作为示例之间的连接符。
- 效果分析:实验表明,这种简单的ICL策略在实际应用中表现出色,所有实现基于OpenICL框架。
(4) 监督学习基线模型(Supervised Baselines)
- 指通过传统的有监督学习方法训练的机器翻译模型。如:Transformer,还有一些神经机器翻译的框架,这些模型通常依赖大规模平行语料库,通过明确的输入-输出对(源语言到目标语言)进行训练。相比于大语言模型(LLM)的少样本学习或上下文学习(ICL),监督学习基线模型具备
- 数据依赖性强:需要大量高质量的平行语料来训练模型,尤其是在低资源语言上的表现可能受限于语料稀缺。
- 训练目标明确:模型通过最大化源语言句子与目标语言句子之间的对齐概率来学习翻译能力。
- 基准性能稳定:在已知语言对上,监督学习模型通常表现稳定,是评估新模型性能的重要参考。
为了对比LLMs的翻译效果,论文报告了以下基线模型的性能: - M2M-100-12B:一个支持多语言之间翻译的大规模监督模型。(由 Facebook AI 开发的一款多语言翻译模型,具备 120 亿参数,旨在支持 100 种语言之间的直接翻译,而不依赖英语作为中介语言。这一模型通过大规模平行语料库训练,使得不同语言之间的翻译更加精准和自然,特别是在处理低资源语言时表现出色。M2M-100-12B 的出现标志着跨语言翻译技术的进步,为全球化交流、本地化服务、语言研究等领域提供了强大的工具。)
- NLLB-1.3B(蒸馏版):专为低资源语言优化的模型。(NLLB-1.3B 是 Meta(原 Facebook)推出的“No Language Left Behind”(NLLB)项目中的一种小型模型,旨在提升低资源语言的机器翻译能力。这个模型基于改进的 Transformer 架构,专注于支持资源匮乏的语言,针对低资源语言,如非洲、中东和南亚的少数语言,实现更加精准和广泛的多语言翻译。)
- Google Translate:商用翻译系统,广泛应用于实际场景。
(5)评估指标(Metrics)
使用了以下评估指标:
SentencePiece BLEU(spBLEU):适用于所有语言的BLEU评分方法,能更准确地反映多语言翻译质量。(SentencePiece分词:由Google 开发,主要用于自然语言处理(NLP)任务中的文本预处理。将句子拆解为较小的子词单元,如单个字母、音节或词干,而非完整的单词。这种方法特别适用于低资源语言或具有复杂词形变化的语言。
- COMET:通过语言模型计算语义匹配,表现出与人工评估高度相关。
SEScore:一种新兴指标,与人类判断有较强相关性。
BLEU | spBLEU
分词方式 |依赖人工分词或词典 | 使用 SentencePiece 自动分词
适用性 | 对高资源语言表现良好,对低资源语言较弱 | 对所有语言更具一致性和公平性
精确度 | 词级别评估,可能忽略词形变化 | 子词级别评估,捕捉更多语言细节
SEScore 是一种基于语义匹配的新兴机器翻译评估指标,主要依赖预训练语言模型来计算源句和译文之间的语义相似度。它具有以下优势:- 高人类相关性:相比 BLEU 和 spBLEU,SEScore 在多项研究中被证明与人类评价有更高的相关性。
- 灵活性:可用于更复杂的语言现象评估,例如同义词替换、句式变换等,而不仅仅局限于词级匹配。
4、 Benchmarking LLMs for Massively Multilingual Machine Translation
(1) 多语言机器翻译能力
- LLMs 的翻译能力不断进化:LLMs 在多语言机器翻译中的表现逐步提升,尤其是最新的 LLMs,例如 LLaMA2-7B 超越了早期开源模型,而 GPT-4 的性能优于 ChatGPT,在大多数语言方向上取得了最高的 BLEU 和 COMET 分数。
- 单语预训练模型的多语言能力:单语模型也展示了强大的多语言翻译能力,甚至在无监督数据情况下也能有效对齐多语言(Garcia et al., 2023)。
(2) 语言间翻译能力的不平衡
- 翻译英文效果优于非英文:表1显示,各语言模型在翻译成英语时效果最佳,非英语翻译的表现较弱。对于与英语相近的语言(如印欧-日耳曼语族),LLMs 表现突出,而对于与英语差异较大的语言(如汉藏语族),效果较差。
- 非英语中心翻译的挑战:GPT-4 在法语和中文为中心的翻译任务中,面临比英语为中心更大的挑战,表明其跨语言能力存在不平衡。
(3) 与强监督基线的差距
- 低资源语言上的不足:虽然 GPT-4 在40.91%的翻译方向上 BLEU 分数高于 NLLB,显示了新的翻译范式的潜力,但在低资源语言上仍落后于 NLLB 和 Google Translate。
(4) 数据泄露问题的影响
- 公共数据集评估的局限性:BLOOMZ 模型在 FLORES-101 数据集上的表现未被纳入,因为它使用了包含 FLORES-200 的 XP3 数据集进行微调,可能导致数据泄露。
- 新数据集验证:通过使用 2023年8月至10月的最新新闻构建无泄露评估集 NEWS2023,测试显示 BLOOMZ 在无泄露数据集上的表现明显下降,而其他模型保持稳定。这表明在评估 LLMs 时,应考虑潜在的数据泄露问题。
5、Analyzing Factors That Influence LLM’s Translation Performance
第五部分:深入分析 LLM 翻译能力的影响因素
5.1 预训练语料规模的影响
- 资源效率高:LLM 通过极少的非英语语料即可构建英语与非英语间的双语映射。以 XGLM-7.5B 为例,低资源语言如加泰罗尼亚语(Catalan)和斯瓦希里语(Swahili),在其语料占比不到英语的1%的情况下,仍能生成中等水平的翻译。
- 无监督语言翻译:即使对于未见过的语言,如奥克西坦语(Occitan)和阿斯图里亚斯语(Asturian),XGLM 也能通过上下文学习(ICL)进行翻译,展示了这种新型翻译模式在资源有限环境下的潜力(见图3)。
为什么用XGLM?
(1)XGLM 以多语言为重点,涵盖多种语言,可以看作是多语言 LLM 的代表。(2)XGLM-7.5B 是一个开源的中型 LLM,使用它进行实验比其他 LLM 或闭源 LLM 更经济实惠。(3)XGLM 的预训练语料组成清晰,可以让我们分析翻译能力与语料规模之间的关系。
5.2 上下文模板的影响 - 模板设计至关重要:模板的选择显著影响翻译性能。不同模板的平均 BLEU 分数差异高达 16 分。其中,“
= ”模板的表现最佳,而“[SRC]: \n [TGT]: ”模板表现最差,尽管后者在其他模型(如 PaLM 和 GLM)中常用(见表4)。 - 非合理模板也有效:即使使用如“
can be summarized as ”这样的非翻译任务模板,LLM 仍能生成准确的翻译。这表明,目前对上下文模板在 ICL 中的作用机制仍缺乏深入理解。(For example, the template like “ can be summarized as ” can also instruct LLM to generate translation, rather than guiding it to generate summarization. Given the fact that these unreasonable template are also effective, the community may not fully understand the role of in-context-template
5.3 上下文示例的影响
跨语言示例(cross-lingual exemplars)是指一种用于上下文学习(In-Context Learning, ICL)的策略,通过在提示中引入不同语言对的翻译示例,来引导大语言模型(LLM)完成翻译任务。其核心思想是,尽管示例语言与当前翻译任务的语言对不完全匹配,但这些示例仍然可以为模型提供有效的翻译模式或任务指令。
- 跨语言示例的潜力:对于低资源语言的翻译,跨语言示例有助于提升表现。例如,使用跨语言示例进行中英翻译,性能往往显著提高,但在德英翻译中则有所退步。这表明跨语言示例在特定翻译方向上具有潜在优势。
- 语义相关性并不显著:通过随机选取与语义相关示例相比,翻译性能几乎无差异。即使是高质量示例池,随机选择的效果也与“理想选择”相当,说明 LLM 能从示例中学习翻译任务的核心特征,而非依赖于语义相似性(见图6)。
ICL示例对翻译任务核心特征的影响
- 语义一致性至关重要:当上下文学习(ICL)示例使用不匹配的翻译时,LLM无法正确完成翻译任务,说明模型需要从示例中学习如何保持源语言和目标语言句子的语义一致性。
- 翻译粒度的影响:使用词级别或文档级别的翻译示例会降低模型性能,表明示例的翻译粒度对于任务效果有显著影响。粒度过大或过小都可能导致信息过载或不足。
- 多样性的重要性:重复的示例会导致模型表现变差,表明多样化的示例能更有效地引导模型学习翻译任务的本质。
- 示例位置对 LLM 的影响:翻转提示尾部的示例顺序对 LLM 影响更大,性能下降更明显,表明尾部示例对 LLM 行为的影响力更大(见表6)
- 多样性对性能的影响:重复示例会降低翻译性能,因此确保示例的多样性同样至关重要。(When more exemplars are added, e.g., 32 exemplars, the BLEU score usually starts to decline, shows an opposite phenomenon against the observation in natural language understanding tasks (Li et al., 2023).)
LLM 的翻译能力受语料规模、上下文模板与示例选择等多方面影响,尤其是模板与示例的合理设计对于提升翻译性能至关重要。
7、 结论
- 本文评估了包括 ChatGPT 和 GPT-4 在内的主流 LLM 在102 种语言和 606 个翻译方向上的多语言翻译能力,总结出其在多语言机器翻译(MMT)中的优势与挑战。
- 优势:GPT-4 在翻译性能上达到了新的高度,尤其在高资源语言翻译中表现优异。
- 挑战:即使是 GPT-4,在低资源语言上的表现仍存在不足。
新模式:LLM 在 MMT 中表现出新的工作模式,例如:
- 在上下文学习中可能忽略指令语义。
- 跨语言示例对于低资源语言的翻译任务指导效果更好。
- 资源效率高:LLM 能以较少的资源获得翻译能力,表明其在多语言机器翻译中的未来潜力。
8、此次研究的局限性
- 主要评估了以英语、法语和中文为中心的翻译能力。
- 未来计划扩展到其他翻译方向,如俄语和阿拉伯语为中心的翻译,以进一步探索 LLM 在不同语言环境中的翻译能力,期待更多发现。