語料申請

一、語料簡介

本語言資料庫包含語音辨識語料(音檔)、語音合成語料(音檔)以及三族語平行語料(族語及華語對譯),用以發展族語語音合成語料庫及發展族語擬真語音合成模型,可作為基於深度學習之語音合成研究資料。

二、語料清單與授權費用

本會採取分級收費機制。公教單位與學術研究機構憑公函申請,可享「全額免費」豁免資格;一般機構則依下表酌收單次行政工本費。

本族語AI系統所使用之語料如下列(聲音語料以小時計、文字語料以句數計):

(一)本基金會既有語料(均一工本費:NT$ 1,000 / 次)

  1. 族語E樂園:573.19小時、525,968句
  2. 原住民族語言線上辭典:132.15小時、96,720句
  3. 原住民族語言資料庫口語語料及逐字稿:45.03小時、59,987句
  4. 語推組織採集口語語料及逐字稿:5.33小時、8,413句

上述語料業經處理為可機讀語料,處理原則包括:

  1. 特殊符號修正、文字正規化。若文字中含有括弧或斜線,以致無法確定轉換與否,則略過該語句,以避免模稜兩可的情況。
  2. 略過了含有阿拉伯數字與中文的語句。

(二)語音辨識語料(依族別計價,NT$ 3,000 / 每族別)

本計畫新搜集之聲音語料,包含阿美族五語別、太魯閣族語、賽德克族四語別,朗讀文本經專業族語老師校正後,由各族發音員使用手邊器材(手機、電腦等)錄製而成,每位發音員音檔時長約1小時左右,各語別發音員音檔時長統計逾 100 小時。

(三)語音合成語料(依族別計價,NT$ 3,000 / 每族別)

包含秀姑巒阿美語、太魯閣語、德固達雅賽德克語三語別,每語別各有2位(含)以上發音員於錄音室錄製文本朗讀,文本業經專業族語老師校正,每語別各發音員音檔時長合計達10小時。

  • 副檔名:WAV
  • 音檔規格:24 bt / 192 kHz
  • 總時數:達 30 小時

(四)族、華語平行語料(依族別計價,NT$ 3,000 / 每族別)

包含阿美族五語別、太魯閣族語、賽德克族四語別共 10 語別之文字語料,其中阿美語達 1.8 萬句、太魯閣語達 1 萬句、賽德克語達 1.3 萬句,每句皆有華語平行對應,作爲基礎翻譯模型訓練用語料,發展族語翻譯模型。

(五)計畫程式碼及計畫模型

本族語AI系統所開發的AI應用程式碼及訓練模型,可供後續有合作需求之學術研究單位參考。考量到模型與程式碼仍為初步成果,其目的在於作為學術研究與技術交流的起點,提供一個可供優化與再開發的基礎,共同為族語AI應用領域做出貢獻。

三、授權範圍與使用限制

本語料庫採用 CC BY-NC 4.0(姓名標示-非商業性) 條款授權,申請者請務必遵守以下規範:

  1. 非商業使用: 僅限於學術研究與非營利性質之 AI 模型訓練,產出之衍生模型或產品不得用於商業營利。
  2. 禁止轉授權: 被授權單位不得以任何形式將未經授權之原始語料公開傳輸、轉售、分享或轉授權予第三方。

標示來源:發表使用本資料庫產出之相關研究或應用成果時,需於顯著處標註資料來源為「財團法人原住民族語言研究發展基金會」。

四、申請流程

  1. 下載協議書: [族語 AI 可機讀語料庫授權申請使用協議書]
  2. 填妥與用印: 確實填寫申請資訊、使用目的,並完成單位與負責人簽章(印信)一式2份。
  3. 文件寄送:
    1. 公教單位將協議書之電子檔連同研究計畫書等相關資料,以公函方式傳送至本會;非公教單位則用 email 方式寄至承辦人信箱。
    2. 將協議書實體正本2份郵寄至本會(地址:100 臺北市中正區羅斯福路一段63號 / 研究發展組 王凱弘 先生 收)
  4. 審核與開通: 本會收到申請後將進行資格審核。若為公教單位與學術研究機構,將於資格審核完畢後,提供下載權限並寄回1份協議書。若為一般機構,將另行發送匯款通知,審核並繳費完畢後,才會提供下載權限並寄回1份協議書。

如有任何申請相關問題,歡迎來信或致電本基金會研究發展組承辦人 王凱弘 研究員

五、語料範例

秀姑巒阿美語

O ta’akay sato a ’alo^ i, ano awaay ko ’o’ol ato ’aresing no kilakilang ato semosemot i, mimaan a malata’angay a ’alo^?

如此大的河流,如果沒有來自樹木與草地的露水,河流又該如何壯大呢?

太魯閣語

Tgpusu bi knkla kndsan ka kari, ungat ka kari do ungat ka knkla kndsan uri da.

語言是文化的根本,沒有語言就沒有文化。

德固達雅賽德克語

ni hani ba mkela mesa ini slai ka nGaya, nkari Seediq nii.

才發現自己的語言文化竟是如此地豐郁而深富內涵。