(審稿中,尚未定稿)
一、語料簡介
本語言資料庫包含語音辨識語料(音檔)、語音合成語料(音檔)以及三族語平行語料(族語及華語對譯),用以發展族語語音合成語料庫及發展族語擬真語音合成模型,可作為基於深度學習之語音合成研究資料。
二、申請資格
(審稿中)
三、申請方法
下載並填妥「族語AI翻譯計畫語料授權書」,將授權書寄至__ ,將由本會專責窗口與您聯繫。
四、授權範圍
本語言資料庫建置之語料能作為原住民族語AI應用發展的基礎,語料包含:
(一)原語會既有語料
既有語料有聲音語料也有文字語料,下方聲音語料將由小時為單位,文字語料則以句數計之:
- 族語E樂園:573.19小時、525,968句
- 原住民族語言線上辭典:132.15小時、96,720句
- 原住民族語言資料庫口語語料及逐字稿:45.03小時、59,987句(同步確認中)
- 語推組織採集口語語料及逐字稿:5.33小時、8,413句(同步確認中)
上述語料於本計畫經語料處理為可機讀語料,語料處理包括:
- 特殊符號的修正、文字正規化。若文字中含有括弧或斜線,以至於我們無法確定可轉換與否,則略過該語句,以避免模稜兩可的情況。
- 略過了含有阿拉伯數字與中文的語句;然而,這些語句未來都可以再進一步處理後使用。
(二)語音辨識語料
本計畫新搜集之聲音語料,包含阿美族五語別、太魯閣族語、賽德克族四語別,朗讀文本經專業族語老師校正後,由各族發音員使用手邊器材(手機、電腦等)錄製而成,每發音員音檔時長約1小時左右,三族10語別發音員音檔時長統計共N小時,其中阿美族五語別共達N小時、太魯閣語達N小時、賽德克族四語別共達N小時。
(三)語音合成語料
本計畫新搜集之聲音語料,包含秀姑巒阿美語、太魯閣語、德固達雅賽德克語三語別,每語別各有2位(含)以上發音員於錄音室錄製文本朗讀,朗讀文本業經專業族語老師校正,每語別各發音員音檔時長合計達10小時。
- 副檔名:WAV
- 音檔規格:24 bt / 192 kHz
- 總時數:達 30 小時
(四)族、華語平行語料
本計畫新搜集之文字語料,包含阿美族五語別、太魯閣族語、賽德克族四語別共 10 語別,其中阿美語達 1.8 萬句、太魯閣語達 1 萬句、賽德克語達 1.3 萬句,每句皆有華語平行對應,可作爲基礎翻譯模型訓練用語料,發展族語翻譯模型。
(五)計畫程式碼及計畫模型
本計畫所開發的AI應用程式碼及訓練模型,供後續有合作需求的學術研究單位參考。考量到模型與程式碼仍為初步成果,其目的在於作為學術研究與技術交流的起點,提供一個可供優化與再開發的基礎,共同為族語AI應用領域做出貢獻。
語料範例
秀姑巒阿美語
O ta’akay sato a ’alo^ i, ano awaay ko ’o’ol ato ’aresing no kilakilang ato semosemot i, mimaan a malata’angay a ’alo^?
如此大的河流,如果沒有來自樹木與草地的露水,河流又該如何壯大呢?
太魯閣語
Tgpusu bi knkla kndsan ka kari, ungat ka kari do ungat ka knkla kndsan uri da.
語言是文化的根本,沒有語言就沒有文化。
德固達雅賽德克語
ni hani ba mkela mesa ini slai ka nGaya, nkari Seediq nii.
才發現自己的語言文化竟是如此地豐郁而深富內涵。