
台灣數位發展部(數發部)積極推動 AI 生態系建構,其中一項重要計畫便是建立台灣主權 AI 訓練語料庫。這項計畫旨在提供 AI 模型訓練所需的優質台灣語料,並在保障資料隱私的同時,促進 AI 研究發展。此舉將有助於提升台灣 AI 模型的品質和競爭力,但也引發了關於著作權、資料隱私和內容產業的爭議。
台灣主權 AI 訓練語料庫:邁向 AI 強國的關鍵一步
目前 AI 模型訓練所需的語料多來自國外,缺乏台灣文化和語言的特色,導致 AI 模型在處理台灣相關議題時,容易出現偏差或理解錯誤。建立台灣主權 AI 訓練語料庫,可以為 AI 模型提供更符合台灣情境的訓練資料,提升其理解和應對台灣議題的能力。
數發部計畫以政府資料為主要來源,包括公文內容、政策文件、統計數據等。此外,也將鼓勵民間捐贈文學作品、論文、新聞報導等。但民間部分採自願方式,不會強制要求。
建立語料庫涉及著作權和資料隱私問題。數發部表示,會先取得合法授權,並符合現行著作權法,也規劃了一年期的資料匯流與隱私強化計畫,以確保資料使用的合法性和安全性。
隱私強化計畫:保障資料安全與 AI 發展並存
數發部將視個案與各部會討論資料欄位和處理流程,運用隱私強化技術來處理資料,例如去識別化、資料加密等,以保護個人隱私。
數發部將建立資料匯流機制,方便 AI 研究人員申請使用政府資料。研究人員需要使用資料時,可通知數發部,數發部再代為向各部會提出需求。
例如,可利用警政署、國家通訊傳播委員會(NCC)、移民署的資料,去辨識化後,再強化隱私,幫助打擊詐騙。
AI 人才培育:厚植 AI 發展動能
數發部將強化公務人員的 AI 技能,並將 AI 素養納入公務員培訓體系。
數發部與人工智慧學校等民間機構合作,制定 AI 開發人才指引和認定標準,加速 AI 產業發展。
正面影響:邁向智慧台灣
台灣主權 AI 訓練語料庫可以為 AI 模型提供更符合台灣情境的訓練資料,提升其理解和應對台灣議題的能力。
語料庫的建立可以降低 AI 模型訓練成本,吸引更多國內外大型語言模型業者使用,促進 AI 產業發展。
發展 AI 技術是國家競爭力的關鍵,台灣主權 AI 訓練語料庫可以幫助台灣在 AI 領域佔有一席之地。
負面影響:挑戰與隱憂
建立語料庫涉及著作權問題,如何取得合法授權,如何平衡內容產業的利益和 AI 發展的需要,需要進一步討論。
雖然數發部規劃了隱私強化計畫,但如何確保資料安全,避免資料被濫用,仍需要嚴格的監管和機制。
一些內容產業擔心,語料庫的建立會造成內容免費提供給 AI 模型訓練使用,影響
相關連結:
Share this content: