機械翻訳の校正

現在の機械翻訳は、言語の組み合わせや翻訳分野、ファイル形式にもよりますが、概ね満足がいく性能で、時によってはプロフェッショナルな品質の翻訳をも生成することができます。たとえば、Deepl Proによる英語からスペイン語への機械翻訳で、観光客向けの宿泊施設の案内文の翻訳を行った場合、校正の必要がない、十分に満足のいく品質の翻訳を、即座に得ることができます。一方で、稀な言語の組み合わせの翻訳には、機械翻訳は推奨されません。また、文章のテーマが少し複雑な場合は、言語の組み合わせを問わず、おおむね理解はできるものの、正式な文章としては使えない品質の翻訳になります。そのため、人が読むことを前提とした文章の機械翻訳には、 人間による校正と、修正を加えることをお勧めします。

ニューラル機械翻訳とは何か

機械翻訳(MT)とは、アルゴリズムとソフトウェア機能を使って、文章または音声を、ある言語から別の言語に、自動的に翻訳するプロセスを指します。機械翻訳は当初、言語規則と辞書機能を使ってテキストを翻訳するシステムでした。これが、インターネット上の膨大なデータと対訳コーパス(テキストや発話を大規模に集めてデータベース化した言語資料)に基づいて進化したことにより、より高度な翻訳予測機能が構築されました。最新の機械翻訳はニューラル機械翻訳(NMTシステムと呼ばれるもので、これは、機会がニューラルネットワークを利用して文章を理解した上で翻訳処理を行う、より自然な翻訳文を提供するシステムです。

少し専門的な話になりますが、NMTの典型的な構成は、エンコーダー・デコーダー・モデルとアテンション・メカニズムを組み合わせたものです:

  • エンコーダー:リカレント・ニューラル・ネットワーク(RNN)、畳み込みニューラルネットワーク・アーキテクチャ(CNN)、またはトランスフォーマーが、ソーステキストを、テキストの意味を理解するベクトル表現(ベクトルの集合)にエンコードします。
  • デコーダー:別のニューラル・ネットワークがこのベクトル表現を使って、ターゲット言語のテキストを生成します。デコーダーは、すでに翻訳された単語とエンコーダーによって提供された文脈表現に基づいて、翻訳されたシーケンスの次の単語を予測します。
  • アテンションメカニズム(注意機構)により、ターゲット文の各単語を生成する際に必要な、原文のさまざまな部分に焦点を当てることが可能になります。これにより、特に長くて複雑な文章の翻訳品質が、向上します。

NMTモデルは、大規模な並列テキスト(2つの言語で整列されたテキスト)のコーパスを元に学習します。学習プロセスには、以下のステップが含まれます:

  • データの前処理: テキストデータはクリーニングされ、トークン化(単語やサブワードに分解)され、場合に応じて言語メタデータで強化されます。
  • 教師あり学習:モデルは、機械翻訳と、人間が作った翻訳との予測誤差を最小化するためのパラメータを調整することによって、より精度の高い翻訳を学習します。ニューラルネットワークの重みを最適化するために、バックプロパゲーションと勾配降下アルゴリズムが使用されます。

推論(新しいテキストの翻訳)では、モデルは学習したパラメータを使用して翻訳を生成します。このプロセスは、次の通りです:

  • エンコード:ソース・テキストが、ベクトル表現でエンコードされます。
  • デコーディング:モデルが、アテンション・ベクトルを使用して、各段階でソース・テキストの関連部分に焦点を当てながら、ターゲットとなる翻訳テキストを、単語ごとに生成します。

なお、NMTモデルの性能と効率を向上させるためには、次のような技術が取り入れられています:

  • 規制:過学習を防ぐために、ドロップアウト等の技法が用いられます。
  • モデルセット:ロバスト性と精度を向上させるために、複数のモデルを組み合わせます。
  • 事前訓練と改良:大量の教師なしデータで事前訓練されたモデルを使用した上で、タスク固有のデータで改良を行います。

ニューラル機械翻訳の限界

NMTは、特にデータが豊富な言語(メジャーな言語)において、質の高い翻訳を提供することができます。その一方、文脈のニュアンスや複雑な構文構造を捉えることができるものの、データの乏しい言語(珍しい言語)、非常に長い文章や複雑な文章、特定の用語を必要とする特殊な文章の翻訳には向きません。Atenaoが取り組むのは、こういった、ニューラル機械翻訳の限界から生じる、エラーの修正です。

人間による校正の重要性

ニューラル機械翻訳を人間が校正する際にはまず、当該言語の専門家あるいはネイティブスピーカーが、自動翻訳されたテキストを評価します。このように、人間の専門知識を活用することで、機械が見逃してしまうニュアンスや、微妙な言葉のあやを拾うことができます。校正を行う人物は、人間独自の言語能力により、翻訳の流暢さ、正確さ、ターゲット言語の国の文化に沿った表現が用いられているか等の、重要な点をチェックすることができます。これは、翻訳された文章を、読者が理解するためには必要不可欠なチェック作業です。この作業は簡易版のポストエディット翻訳とも言えるでしょう。この作業の要点は、次の通りです:

  • スペルミス、文法ミス、構文ミス、誤字脱字のチェック:機械翻訳がこの種のミスを犯すことはめったにないのですが、必ずとも言えないため、確認が必要になります。
  • 文脈の理解: 機械翻訳の、文脈を理解することが苦手であるという特徴から生じる、翻訳ミスを見つけます。
  • 文化的なニュアンス:人間とは異なり、機械翻訳システムが、その国特有の慣用表現や、文化的な言い回しを理解することは不可能です。
  • 専門用語: 機械翻訳は、専門用語を含んだ文章を扱えない場合があります。 人間の校正者は、エラーや近似値を見つけだし、原文を参照しながら、翻訳テキストを修正します。

機械翻訳の校正の主な利点

  • 低コスト:機械翻訳の校正は、安いコストで実現できます
  • 早い納期:人間の校正者は、1日あたり平均7,000~9,000ワード、つまり100%人間による翻訳の4~6倍のボリュームを処理することができます。