解決方案

2023-02-01

Microsoft Azure 聲音合成服務 (自訂神經語音 TTS)

手把手教你打造最自然的 Ai 語音技術

過去配音員替客服或是產品配音，至少都需要上萬句才可完成配音，但透過自訂神經語音僅需幾百句就能完成配音。而本篇所要介紹的就是 Azure 的 TTS 。雖然使用申請相較於過去變得更加嚴格，不僅需事先填寫表單提 Azure 審核，訓練模型的最低門檻也要 300 句才能訓練。但如果讀者有需要的話也可以了解大致的實作過程。

一、Microsoft Azure 自訂神經語音使用場景設定

有個家電業者近期將推出智慧管家產品，需要請人為該產品配音。最終決定透過客製化語音來合成產品的配音，因為這樣日後語音資料庫也比較好進行擴充，不必再麻煩配音員重新配音。（由於受限於資源限制，訓練模型之後的步驟，只會簡單敘述並不會實作）。

二、Microsoft Azure 自訂神經語音實作步驟

下圖為我們實作的大致流程圖

_{Microsoft Azure 自訂神經語音大致流程圖}

1. 申請 Microsoft Azure Speech Service 服務

a. 登入 Azure 入口網站，進入主控台選擇認知服務

Microsoft Azure 自訂神經語音實作步驟 | 申請 Speech Service 服務 : 登入 Azure 入口網站，進入主控台選擇認知服務

_{Azure 主控台}

b. 下滑並選擇語音服務，並點選建立。

c. 建立 Speech Service 資源

_{建立 Speech Service 資源}

Speech Service 並須隸屬於一個資源群組，如果之前沒創過，需先新建資源群組。

由於自訂神經語音僅限美國東部、東南亞和英國南部，因此區域需選三個地區的其中一個。
神經語音僅能搭配 S0 層，故 Pricing tier 選擇 S0
Network 則可以選擇網路存取的權限
完成後點選檢閱+建立

d.部署完成後便能前往資源

Microsoft Azure 自訂神經語音實作步驟 | 申請 Speech Service 服務 : 建立 Speech Service 資源，部署完成後便能前往資源

e.點選「探索」標籤

Microsoft Azure 自訂神經語音實作步驟 | 申請 Speech Service 服務 :前往資源，點選「探索」標籤

d.往下滑點選 Speech Studio，並前往 Speech Studio

Microsoft Azure 自訂神經語音實作步驟 | 申請 Speech Service 服務 : 往下滑點選 Speech Studio，並前往 Speech Studio

2.使用客製化文字轉語音

a.進入 Speech Studio，往下滑至文字轉語音並選擇自訂語音

Microsoft Azure 自訂神經語音實作步驟 | 使用客製化文字轉語音 : 進入 Speech Studio，往下滑至文字轉語音並選擇自訂語音

b.接著點選剛所建立的資源

使用資源會跳出警示，Azure 會要求你填完使用需求表單才可以使用自訂神經語音。如果你沒填仍可以繼續接下來的流程，但到訓練模型階段，就需填寫完畢才能繼續進行。

Microsoft Azure 自訂神經語音實作步驟 | 使用客製化文字轉語音 : 使用資源會跳出警示，Azure 會要求你填完使用需求表單才可以使用自訂神經語音。

c.選擇男聲還女聲以及語言類型

Microsoft Azure 自訂神經語音實作步驟 | 使用客製化文字轉語音 : 選擇男聲還女聲以及語言類型

專案建立後就可以進入專案介面。

3.設定配音員

a.進入後點選新增語音配音員

Microsoft Azure 自訂神經語音實作步驟 | 設定配音員 : 進入後點選新增語音配音員

b.選擇語音特性，我們選擇「智慧管家」的語音特性

Microsoft Azure 自訂神經語音實作步驟 | 設定配音員 : 選擇語音特性，我們選擇「智慧管家」的語音特性

c.上傳語音配音員聲明，請錄音員錄一段聲明以避免日後被濫用

Microsoft Azure 自訂神經語音實作步驟 | 設定配音員 : 上傳語音配音員聲明，請錄音員錄一段聲明以避免日後被濫用

4.語音資料格式

錄製音訊檔案的詳細格式在官網都有說明，主要是檔案格式為 wav，且單一檔案需小於 15 秒。

我們依據氣象預報的講稿，分段錄了五個檔案，檔名分別為001至005。錄完後將五個音訊檔案壓縮為一個zip，我們取名為「sample.zip」

接著建立一個文字檔（txt），每行內容為「檔案名稱」與「音訊內容逐字稿」，中間以定位字元 (\t) 分隔

5.準備定型資料

a.進入準備定型資料，MyVoice 是我們之前先創的，第一次進入不會有任何資料。

Microsoft Azure 自訂神經語音實作步驟 | 準備定型資料 : 進入準備定型資料，MyVoice 是我們之前先創的，第一次進入不會有任何資料。

b.點選新增訓練集，命名以及給予描述

Microsoft Azure 自訂神經語音實作步驟 | 準備定型資料 : 進入準備定型資料，點選新增訓練集，命名以及給予描述

c.進入剛創建的資料集，點選上傳資料就能選擇資料類型

Microsoft Azure 自訂神經語音實作步驟 | 備定型資料 : 進入剛創建的資料集，點選上傳資料就能選擇資料類型

d.上傳步驟 4 所完成的錄音檔和文字檔

Microsoft Azure 自訂神經語音實作步驟 | 準備定型資料 : 上傳步驟 4 所完成的錄音檔和文字檔

e.一直按下一步直到完成，完成後可至訓練集，查看語音資料的品質是否合格

Microsoft Azure 自訂神經語音實作步驟 | 準備定型資料 : 完成後可至訓練集，查看語音資料的品質是否合格

6.訓練神經模型

神經模型訓練至少需要 300 個語句，因為我們只是範例，如有需要的讀者可再自行去錄音測試。

Microsoft Azure 自訂神經語音實作步驟 | 訓練神經模型 : 神經模型訓練至少需要 300 個語句

訓練完成後每個定型都會自動產生　100　個範例音訊檔案，用來測試模型，也可提供自己的測試腳本做為測試。測試腳本必須排除檔案名的識別碼。

7.部署模型

將模型部署為 REST API，輸入文字便回傳合成聲音的音訊內容。另外也可以透過 Python,Java 的 SDK 去進行呼叫。

三、總結

自訂神經語音無論是在客服或是智慧管家中，都具有明顯的效益。不過從以上步驟就可以知道 Azure 自訂神經語音的實作過程，相較於過往變得更加複雜，此篇有詳細說明過去自訂神經語音的操作流程。
AI 的興起創造出許多便利的應用，但也產生許多新興的犯罪型態，本篇所介紹的 TTS 技術也是被詐騙組織運用在社交工程上。可能也是因為如此，Azure對於自訂神經語音的限制也就變得更加複雜。所以該項服務最好還是與專業夥伴合作，審核有問題時也可以有與 Azure 有直接的溝通管道，如有需求讀者也歡迎來信諮詢。

試著將 Azure Speech Service 運用在企業環境裡，為品牌打造獨一無二的語音輸出吧！

Microsoft Azure 文字轉換語音 Text to Speech Voices (TTS)

教你如何用 Vertex AI 實現文本分類

發布日期 : 2023-01 | Jeff

從 0 到 1 教你如何用 AI 進行瑕疵檢測 | Google Cloud Vertex AI