數發部擬推台灣主權AI訓練語料庫及隱私強化計畫

台灣數位發展部（數發部）積極推動 AI 生態系建構，其中一項重要計畫便是建立台灣主權 AI 訓練語料庫。這項計畫旨在提供 AI 模型訓練所需的優質台灣語料，並在保障資料隱私的同時，促進 AI 研究發展。此舉將有助於提升台灣 AI 模型的品質和競爭力，但也引發了關於著作權、資料隱私和內容產業的爭議。

台灣主權 AI 訓練語料庫：邁向 AI 強國的關鍵一步

建立台灣主權 AI 訓練語料庫的必要性：
目前 AI 模型訓練所需的語料多來自國外，缺乏台灣文化和語言的特色，導致 AI 模型在處理台灣相關議題時，容易出現偏差或理解錯誤。建立台灣主權 AI 訓練語料庫，可以為 AI 模型提供更符合台灣情境的訓練資料，提升其理解和應對台灣議題的能力。

語料庫的內容來源：
數發部計畫以政府資料為主要來源，包括公文內容、政策文件、統計數據等。此外，也將鼓勵民間捐贈文學作品、論文、新聞報導等。但民間部分採自願方式，不會強制要求。

著作權與資料隱私的考量：
建立語料庫涉及著作權和資料隱私問題。數發部表示，會先取得合法授權，並符合現行著作權法，也規劃了一年期的資料匯流與隱私強化計畫，以確保資料使用的合法性和安全性。

隱私強化技術的運用：
數發部將視個案與各部會討論資料欄位和處理流程，運用隱私強化技術來處理資料，例如去識別化、資料加密等，以保護個人隱私。

資料匯流機制：
數發部將建立資料匯流機制，方便 AI 研究人員申請使用政府資料。研究人員需要使用資料時，可通知數發部，數發部再代為向各部會提出需求。

公部門的可能應用：
例如，可利用警政署、國家通訊傳播委員會（NCC）、移民署的資料，去辨識化後，再強化隱私，幫助打擊詐騙。

公務員 AI 技能強化：
數發部將強化公務人員的 AI 技能，並將 AI 素養納入公務員培訓體系。

民間合作：
數發部與人工智慧學校等民間機構合作，制定 AI 開發人才指引和認定標準，加速 AI 產業發展。

提升 AI 模型品質：
台灣主權 AI 訓練語料庫可以為 AI 模型提供更符合台灣情境的訓練資料，提升其理解和應對台灣議題的能力。

促進 AI 產業發展：
語料庫的建立可以降低 AI 模型訓練成本，吸引更多國內外大型語言模型業者使用，促進 AI 產業發展。

強化國家競爭力：
發展 AI 技術是國家競爭力的關鍵，台灣主權 AI 訓練語料庫可以幫助台灣在 AI 領域佔有一席之地。

著作權爭議：
建立語料庫涉及著作權問題，如何取得合法授權，如何平衡內容產業的利益和 AI 發展的需要，需要進一步討論。

資料隱私疑慮：
雖然數發部規劃了隱私強化計畫，但如何確保資料安全，避免資料被濫用，仍需要嚴格的監管和機制。

內容產業的擔憂：
一些內容產業擔心，語料庫的建立會造成內容免費提供給 AI 模型訓練使用，影響