天才剛亮,孩子們已經在教室裡坐好,跟著螢幕上的老師,唸出自己的母語。

🎪 這是原民會「原住民族社會直播共學系統計畫」的景象。每天早自習時間一到,族語老師都會在綠幕前面,為臺灣另一端的小朋友們遠距上課。其中一個攝影棚,就位於空總社會創新實驗中心。

🌏 臺灣作為太平洋上的海島,光是原住民族,就有 16 種族語、42 種方言。然而,這些語言面臨嚴重流失的困境,其中卑南語、賽夏語、撒奇萊雅語、噶瑪蘭語、邵語、拉阿魯哇語、卡那卡那富語、茂林魯凱語、萬山魯凱語、多納魯凱語等 10 種,更被聯合國與原民會列為瀕危語言。

🏡 從下一代開始的族語教學,是語言復育的必經之路。因此,當我看到社創中心的攝影棚有這個功用時,除了高興,也開始思考:除了直播共學,我們還能貢獻什麼?

💬 Mozilla(美商謀智)這家社會企業開發的 Common Voice(同聲計畫),讓我看見另一種可能。

📲 這個計畫透過群眾參與,來改善現有的 AI 語音辨識系統。現有的手機語音助理,讓人們的生活更便利,但語音辨識需要大量的語音資料,機器才能深度學習,而無論是建置運算系統或語音資料庫,都十分昂貴。因此,當前的語音辨識技術,仍然偏重於主流語言,造成少數語言的使用度越來越低,反而不利於語言復育。

📖 於是,Mozilla 發想出 Common Voice 計畫,從採集過程到檔案都採用 CC0 授權開放、完全拋棄著作權。只要唸出網站的文字敘述,錄下自己的聲音,便可以收集不同語言、腔調、性別、年齡的聲音,建立一個全球最大的開源語音資料庫。

🏫 我們的《原住民族基本法》、《客家基本法》,或是審查中的《國家語言發展法》,都強調任何人應該享有平等學習固有族群語言的機會。因此,我們未來將和 Common Voice 合作,結合政府現有資源,來採集臺灣的少數語言,如原住民各族族語,或固有族群語言的各個腔調。如此一來,相關的語言教材將更完整。

🎨 多年以來,我在 g0v 社群中參與的「萌典」專案,建置整合臺灣多語言的線上詞典。我認為,Common Voice 和萌典的精神,都是透過數位工具和開放資料,達到「文化平權」的精神。

只要大家同聲協力,未來臺灣的每種語言,都是每個人的「common voice」。