Microsoft Azure 聲音合成服務 (自訂神經語音 TTS)

手把手教你打造最自然的 Ai 語音技術

過去配音員替客服或是產品配音,至少都需要上萬句才可完成配音,但透過自訂神經語音僅需幾百句就能完成配音。而本篇所要介紹的就是 AzureTTS 。雖然使用申請相較於過去變得更加嚴格,不僅需事先填寫表單提 Azure 審核,訓練模型的最低門檻也要 300 句才能訓練。但如果讀者有需要的話也可以了解大致的實作過程。

一、Microsoft Azure 自訂神經語音使用場景設定

有個家電業者近期將推出智慧管家產品,需要請人為該產品配音。最終決定透過客製化語音來合成產品的配音,因為這樣日後語音資料庫也比較好進行擴充,不必再麻煩配音員重新配音。(由於受限於資源限制,訓練模型之後的步驟,只會簡單敘述並不會實作)。

二、Microsoft Azure 自訂神經語音實作步驟

下圖為我們實作的大致流程圖

Microsoft Azure 自訂神經語音大致流程圖

Microsoft Azure 自訂神經語音大致流程圖

1. 申請 Microsoft Azure Speech Service 服務

a. 登入 Azure 入口網站,進入主控台選擇認知服務

Microsoft Azure 自訂神經語音實作步驟 | 申請 Speech Service 服務 : 登入 Azure 入口網站,進入主控台選擇認知服務

Azure 主控台

b. 下滑並選擇語音服務,並點選建立。

c. 建立 Speech Service 資源

Microsoft Azure 自訂神經語音實作步驟 | 申請 Speech Service 服務 : 建立 Speech Service 資源

建立 Speech Service 資源

Speech Service 並須隸屬於一個資源群組,如果之前沒創過,需先新建資源群組。

  • 由於自訂神經語音僅限美國東部、東南亞和英國南部,因此區域需選三個地區的其中一個。
  • 神經語音僅能搭配 S0 層,故 Pricing tier 選擇 S0
  • Network 則可以選擇網路存取的權限
  • 完成後點選檢閱+建立

d.部署完成後便能前往資源

Microsoft Azure 自訂神經語音實作步驟 | 申請 Speech Service 服務 : 建立 Speech Service 資源,部署完成後便能前往資源

e.點選「探索」標籤

Microsoft Azure 自訂神經語音實作步驟 | 申請 Speech Service 服務 :前往資源, 點選「探索」標籤

d.往下滑點選 Speech Studio,並前往 Speech Studio

Microsoft Azure 自訂神經語音實作步驟 | 申請 Speech Service 服務 : 往下滑點選 Speech Studio,並前往 Speech Studio

2.使用客製化文字轉語音

a.進入 Speech Studio,往下滑至文字轉語音並選擇自訂語音

Microsoft Azure 自訂神經語音實作步驟 | 使用客製化文字轉語音 : 進入 Speech Studio,往下滑至文字轉語音並選擇自訂語音

b.接著點選剛所建立的資源

使用資源會跳出警示,Azure 會要求你填完使用需求表單才可以使用自訂神經語音。如果你沒填仍可以繼續接下來的流程,但到訓練模型階段,就需填寫完畢才能繼續進行。

Microsoft Azure 自訂神經語音實作步驟 | 使用客製化文字轉語音 : 使用資源會跳出警示,Azure 會要求你填完使用需求表單才可以使用自訂神經語音。

c.選擇男聲還女聲以及語言類型

Microsoft Azure 自訂神經語音實作步驟 | 使用客製化文字轉語音 : 選擇男聲還女聲以及語言類型

專案建立後就可以進入專案介面。

3.設定配音員

a.進入後點選新增語音配音員

Microsoft Azure 自訂神經語音實作步驟 | 設定配音員 : 進入後點選新增語音配音員

b.選擇語音特性,我們選擇「智慧管家」的語音特性

Microsoft Azure 自訂神經語音實作步驟 | 設定配音員 : 選擇語音特性,我們選擇「智慧管家」的語音特性

c.上傳語音配音員聲明,請錄音員錄一段聲明以避免日後被濫用

Microsoft Azure 自訂神經語音實作步驟 | 設定配音員 : 上傳語音配音員聲明,請錄音員錄一段聲明以避免日後被濫用

4.語音資料格式

錄製音訊檔案的詳細格式在官網都有說明,主要是檔案格式為 wav,且單一檔案需小於 15 秒。

我們依據氣象預報的講稿,分段錄了五個檔案,檔名分別為001至005。錄完後將五個音訊檔案壓縮為一個zip,我們取名為「sample.zip」

接著建立一個文字檔(txt),每行內容為「檔案名稱」與「音訊內容逐字稿」,中間以定位字元 (\t) 分隔

Microsoft Azure 自訂神經語音實作步驟 | 語音資料格式 : 接著建立一個文字檔(txt),每行內容為「檔案名稱」與「音訊內容逐字稿」,中間以定位字元 (\t) 分隔

5.準備定型資料

a.進入準備定型資料,MyVoice 是我們之前先創的,第一次進入不會有任何資料。

Microsoft Azure 自訂神經語音實作步驟 | 準備定型資料 : 進入準備定型資料,MyVoice 是我們之前先創的,第一次進入不會有任何資料。

b.點選新增訓練集,命名以及給予描述

Microsoft Azure 自訂神經語音實作步驟 | 準備定型資料 : 進入準備定型資料,點選新增訓練集,命名以及給予描述

c.進入剛創建的資料集,點選上傳資料就能選擇資料類型

Microsoft Azure 自訂神經語音實作步驟 | 備定型資料 : 進入剛創建的資料集,點選上傳資料就能選擇資料類型

d.上傳步驟 4 所完成的錄音檔和文字檔

Microsoft Azure 自訂神經語音實作步驟 | 準備定型資料 : 上傳步驟 4 所完成的錄音檔和文字檔

e.一直按下一步直到完成,完成後可至訓練集,查看語音資料的品質是否合格

Microsoft Azure 自訂神經語音實作步驟 | 準備定型資料 : 完成後可至訓練集,查看語音資料的品質是否合格
Microsoft Azure 自訂神經語音實作步驟 | 準備定型資料 : 完成後可至訓練集,查看語音資料的品質是否合格

6.訓練神經模型

神經模型訓練至少需要 300 個語句,因為我們只是範例,如有需要的讀者可再自行去錄音測試。

Microsoft Azure 自訂神經語音實作步驟 | 訓練神經模型 : 神經模型訓練至少需要 300 個語句

訓練完成後每個定型都會自動產生 100 個範例音訊檔案,用來測試模型,也可提供自己的測試腳本做為測試。測試腳本必須排除檔案名的識別碼。

7.部署模型

將模型部署為 REST API,輸入文字便回傳合成聲音的音訊內容。另外也可以透過 Python,Java 的 SDK 去進行呼叫。

三、總結

自訂神經語音無論是在客服或是智慧管家中,都具有明顯的效益。不過從以上步驟就可以知道 Azure 自訂神經語音的實作過程,相較於過往變得更加複雜,此篇有詳細說明過去自訂神經語音的操作流程。
AI 的興起創造出許多便利的應用,但也產生許多新興的犯罪型態,本篇所介紹的 TTS 技術也是被詐騙組織運用在社交工程上。可能也是因為如此,Azure對於自訂神經語音的限制也就變得更加複雜。所以該項服務最好還是與專業夥伴合作,審核有問題時也可以有與 Azure 有直接的溝通管道,如有需求讀者也歡迎來信諮詢。

試著將 Azure Speech Service 運用在企業環境裡,為品牌打造獨一無二的語音輸出吧!


Microsoft Azure 文字轉換語音 Text to Speech Voices (TTS)

教你如何用 Vertex AI 實現文本分類

發布日期 : 2023-01 | Jeff

從 0 到 1 教你如何用 AI 進行瑕疵檢測 | Google Cloud Vertex AI

| Google 的機器學習平台 Vertex AI

| Vertex AI – 使用整合式人工智慧平台中的預先訓練和自訂工具,加快建立、部署及擴充機器學習模型的速度

羽昇國際-企業上雲規劃評估服務

Tagged with: