台灣語言AI新革命!Taiwan Tongues語料庫開源引爆數位文化風潮

Taiwan AI language dataset open source computer coding
image credit : pexels

“`html

AI 聽懂台灣話不再是夢!Taiwan Tongues 語料庫開源帶來希望

隨著生成式AI在全球掀起浪潮,AI模型對不同語言的理解能力成為關鍵。然而,多數模型以英文、簡體中文為基礎訓練,導致台灣華語、台語、客語及原住民族語等本土語言在數位世界中嚴重缺席。為了解決這個問題,IMA資訊經理人協會攜手作家發起「Taiwan Tongues 台灣通用語料庫」計畫,旨在讓AI能真正「聽懂台灣」,並促進台灣語言文化的數位傳承。

Taiwan Tongues 語料庫計畫:讓AI擁抱台灣語言

  • 計畫的核心目標是什麼?
    Taiwan Tongues計畫旨在擴大台灣語料庫,涵蓋台灣華語、台灣台語、台灣客語及原住民語,讓這些語言成為全球AI模型學習的核心語料,提升AI對台灣語言和文化的理解能力。
  • 如何擴大台灣語料庫?
    計畫執行委員會主委胡長松無償釋出150萬字文學作品,並號召數十位作家授權,累計超過500萬字高品質語料,陸續上架Hugging Face平台,開放各界用於非商業用途,支援語音助理、機器翻譯、語言教學及數位文化推廣等應用。
  • 如何驗證語料庫的有效性?
    Taiwan Tongues計畫設計了專屬測試集,由IMA協會提供語境和語言能力評測標準,與陽明交通大學教授廖元甫合作,進行模型實證測試。結果顯示,台語模型的正確率顯著提升,能夠理解語意、寫成書信文字等。
  • 政府與民間攜手合作:建構台灣主權AI

    數位發展部次長林宜敬表示,數發部將統籌整合政府機關掌握的語料,計劃加以開放,可讓Taiwan Tongues計畫以及更多民間單位取用。未來也將強化政府與民間在語料開放、模型建構及應用評測上的合作,這有助於建構台灣主權AI。

    群聯電子加入:提升AI訓練的硬體效能

    群聯電子技術長林緯指出,該計畫整合Reward Model及RL微調技術,開發一套具備多元觀點辨識和區域語意調適能力,可做為企業訓練在地化AI的訓練框架。

    啟動 Wiki Taiwan 專案:增加台灣語言在網路世界的能見度

    Taiwan Tongues計畫預計啟動Wiki Taiwan專案,擴增台灣語言在網路世界的能見度。針對台灣華語,將號召有志人士優先補齊維基百科中「只有英文(或其他主流語言)但尚缺繁體中文」的條目。針對台語,第一階段將先直接翻譯目前維基百科約140萬筆繁體中文條目變成台語內容,第二階段再進行與英文條目的差集翻譯。這麼做不僅大幅增加台灣通用語言的數位內容和AI訓練語料,也將進一步實現數位平權和語言文化自主。

    優勢和潛在挑戰分析:理想與現實的差距

  • 優勢:
    • 提升AI對台灣語言文化的理解能力,促進本土語言的數位傳承。
    • 建構台灣主權AI,避免AI模型受到其他語言文化的影響。
    • 促進數位平權和語言文化自主。
  • 潛在挑戰:
    • 語料庫的收集和整理需要大量的人力和時間。
    • 如何確保語料庫的品質和準確性。
    • 如何吸引更多人參與Wiki Taiwan專案。
  • 深入分析前景與未來動向:AI與台灣語言的共生關係

    Taiwan Tongues計畫的成功,將為台灣語言在AI時代的發展帶來無限可能。未來,我們可以期待看到更多以台灣語言為基礎的AI應用,例如更精準的語音助理、更自然的機器翻譯,以及更豐富的數位文化內容。AI將不再只是理解英文或簡體中文,而是能

    相關連結:

    siuleeboss

    Share this content:

    熱門内容

    • AI資訊
    • AI工具
    • AI繪圖指令
    • 食譜
    • ai生成圖片

      Introduction MyEdit  Midjourney DALL·E3 Stable Diffusio…

      Read more


    • Janitor Ai

      Introduction Platform Overview 1 Account Terminati…

      Read more


    • Stable Video Diffusion 穩定的圖片轉動畫Demo

      Stable Video Diffusion 穩定的圖片轉動畫Demo

      Stable Video Diffusion能讓你用一張圖片變成動畫. 限制 Share this conte…

      Read more


    • HappyAccidents

      HappyAccidents

      HappyAccidents是一個提供預先訓練的AI模型庫的平台,讓使用者能夠輕鬆生成圖像而無需手動下載和上傳…

      Read more


    • 文心一格

      文心一格

      「文心一格」是百度推出的一個基於文心大模型能力的AI藝術和創意輔助平台。該平台於2022年8月正式發布,利用百…

      Read more


    • Ai Gallery

      Ai Gallery

      Ai Gallery為用戶提供了一個強大的工具,利用人工智慧技術根據用戶輸入提示產生令人驚嘆的圖像。但是要強調…

      Read more


    • Graviti Diffus

      Graviti Diffus

      Graviti Diffus 是一個免部署的在線平台,專注於提供穩定擴散(Stable Diffusion)的…

      Read more


    • Aitubo

      Aitubo

      Aitubo是一個AI創作工具,它提供了方便且強大的功能,讓使用者能夠透過文本和照片輸入來生成藝術作品。 Ai…

      Read more


    • SeaArt

      SeaArt

      SeaArt AI是一款免費且強大的AI繪畫工具,它能夠幫助使用者無需專業技能,輕鬆生成高品質的繪畫作品。 S…

      Read more


    • Diffusion Art

      Diffusion Art

      DiffusionArt是一個精選的開源AI藝術模型庫,專注於藝術、動漫和照片逼真圖像的生成,涵蓋數十個類別。…

      Read more