「他讓我很窩心」這句話,你會怎麼翻譯?用 Meta Llama 2 的語言模型來翻,會翻成「He made me feel very nervous.」

「窩心」在臺灣的用法是令人感到溫暖、感動,而「nervous」的英文意思是焦慮、緊張,兩者意思完全相反。

但如果是我國的 TAIDE 模型,就會準確翻譯成「He made me feel very touched.」

AI 評測中心的十個項目,其中有一項是「準確性」。AI 模型如果缺乏準確性,就有可能造成誤解,甚至影響到工作和生活。

例如,在醫療領域,翻譯不準確可能會導致誤診或延誤治療;在金融領域,可能會造成交易損失;在法律領域,則可能導致訴訟糾紛。

其次,如果我們沒有符合文化環境的語言模型,或是在國外的語言模型,要進入我們市場的時候,沒有準確性的評測能力,那就有可能讓他國的語言模型,用最便宜的方式,隨意應付過去、進入市場被大眾使用,造成不利影響。

最後,「準確性」的標準,究竟要以誰為準呢?這也是許多人的疑惑。AI 評測中心並不會自己憑空發明標準答案,而是依據有規範效力的來源,例如國家教育研究院等權威教育機構,作為準確性的依據。

回到一開始的例子,Llama 2 一開始訓練的資料裡面,顯然「窩心」是不舒服的意思的原始資料比較多,它才會選擇這樣翻譯。要說它錯誤嗎?也不能說錯誤,只是沒有符合臺灣的準確性要求。

因此選擇準確性要對標的單位很重要,再往下延伸的話,準確性也必須考慮各行各業的需求,在應用語言模型時,也必須根據行業的溝通規則,給予二次的調校與對齊。

比方在各行各業裡,都有我們俗稱的「行話」,意即行業內的「自訂」詞彙,而這些詞彙在同產業的人都一聽就能夠理解,但在行外的人,可就不一定知道;也可能因為行業別的關係,產生同樣的詞語,卻代表著天差地遠的意思。

舉例來說,律師事務所、公部門所寫的公文,都有非常明確的行話用法,而這些專有詞彙,外人不一定都看得懂。這時,我們就需要在行業內建構資料集,來微調先前訓練過的 AI 模型,進一步對齊。

當各行各業都能自由微調翻譯模型時,文字翻譯工作者,就轉變為擔任最後校稿,以及調教模型的任務,這可能是這兩三年內就會發生的事情。