
“`html
AI 聽懂台灣話不再是夢!Taiwan Tongues 語料庫開源帶來希望
隨著生成式AI在全球掀起浪潮,AI模型對不同語言的理解能力成為關鍵。然而,多數模型以英文、簡體中文為基礎訓練,導致台灣華語、台語、客語及原住民族語等本土語言在數位世界中嚴重缺席。為了解決這個問題,IMA資訊經理人協會攜手作家發起「Taiwan Tongues 台灣通用語料庫」計畫,旨在讓AI能真正「聽懂台灣」,並促進台灣語言文化的數位傳承。
Taiwan Tongues 語料庫計畫:讓AI擁抱台灣語言
Taiwan Tongues計畫旨在擴大台灣語料庫,涵蓋台灣華語、台灣台語、台灣客語及原住民語,讓這些語言成為全球AI模型學習的核心語料,提升AI對台灣語言和文化的理解能力。
計畫執行委員會主委胡長松無償釋出150萬字文學作品,並號召數十位作家授權,累計超過500萬字高品質語料,陸續上架Hugging Face平台,開放各界用於非商業用途,支援語音助理、機器翻譯、語言教學及數位文化推廣等應用。
Taiwan Tongues計畫設計了專屬測試集,由IMA協會提供語境和語言能力評測標準,與陽明交通大學教授廖元甫合作,進行模型實證測試。結果顯示,台語模型的正確率顯著提升,能夠理解語意、寫成書信文字等。
政府與民間攜手合作:建構台灣主權AI
數位發展部次長林宜敬表示,數發部將統籌整合政府機關掌握的語料,計劃加以開放,可讓Taiwan Tongues計畫以及更多民間單位取用。未來也將強化政府與民間在語料開放、模型建構及應用評測上的合作,這有助於建構台灣主權AI。
群聯電子加入:提升AI訓練的硬體效能
群聯電子技術長林緯指出,該計畫整合Reward Model及RL微調技術,開發一套具備多元觀點辨識和區域語意調適能力,可做為企業訓練在地化AI的訓練框架。
啟動 Wiki Taiwan 專案:增加台灣語言在網路世界的能見度
Taiwan Tongues計畫預計啟動Wiki Taiwan專案,擴增台灣語言在網路世界的能見度。針對台灣華語,將號召有志人士優先補齊維基百科中「只有英文(或其他主流語言)但尚缺繁體中文」的條目。針對台語,第一階段將先直接翻譯目前維基百科約140萬筆繁體中文條目變成台語內容,第二階段再進行與英文條目的差集翻譯。這麼做不僅大幅增加台灣通用語言的數位內容和AI訓練語料,也將進一步實現數位平權和語言文化自主。
優勢和潛在挑戰分析:理想與現實的差距
- 提升AI對台灣語言文化的理解能力,促進本土語言的數位傳承。
- 建構台灣主權AI,避免AI模型受到其他語言文化的影響。
- 促進數位平權和語言文化自主。
- 語料庫的收集和整理需要大量的人力和時間。
- 如何確保語料庫的品質和準確性。
- 如何吸引更多人參與Wiki Taiwan專案。
深入分析前景與未來動向:AI與台灣語言的共生關係
Taiwan Tongues計畫的成功,將為台灣語言在AI時代的發展帶來無限可能。未來,我們可以期待看到更多以台灣語言為基礎的AI應用,例如更精準的語音助理、更自然的機器翻譯,以及更豐富的數位文化內容。AI將不再只是理解英文或簡體中文,而是能
相關連結:
Share this content: