本文最后更新于2022年6月11日,已超过 60天没有更新,可能文章内容已失效,请自行测试!

前言

如果你经常刷视频,也许会发现很多那些短视频里面说话的语音很像,你可能以为他们是模仿某些腔调,其实不然。他们大多都是采用了文本转语言,让AI来替他们完成解说。经过AI学习后,AI可以分辨出中文的多音字,儿化音也可以连起来,还可以自动推断出语气和情感。

文本转语音现在网上有很多,其中比较优秀的是微软的文本转语言,下面我们就来看看如何实现。

文末有懒人版本!!!


创建Azure订阅

我们在使用微软的文本转语音功能前,我们应该先创建Azure订阅。首次创建,微软提供了12个月的试用。

首先先打开免费试用页面:https://azure.microsoft.com/zh-cn/free/

然后点击免费开始试用,如果已经有了微软账户,这里可以直接登录,如果没有直接账户,那么可以注册一个或者您可以用账户。

如果是大学生的话,学校账号关联了微软可以直接使用你的学生邮箱登录,没有关联可以创建账号填写你的学生邮箱作为账号。这会影响到下一步验证

进到下一步,在出现的页面上填写你的基本信息使用手机短信或者电话认证,再下一步,需要您使用您的信用卡进行身份验证,支持visa和万事达。

如果是学生邮箱注册的,免信用卡认证。
 

填好信息后就成功创建了微软免费Azure订阅。


创建语音资源

我们创建好订阅后,接下来需要创建语音资源。打开(如果出现登录,请登录刚才创建订阅的账号):https://portal.azure.com/#create/Microsoft.CognitiveServicesSpeechServices

接下来我们创建语音资源,资源组需要新建一个,随意名字;区域我们一般选择Southeast Asia或者East Asia都可以,名称随意。定价层我们选择FREE F0,当然如果你需求量大,选择付费的也可以。

填好后点击创建即可。接下来我们开始我们的文本转语音。


Speech Studio

接下来我们打开微软Speech Studio:https://speech.microsoft.com/portal/

选择文本转语音 - 语音库。

接下来在Voice catalog里选择你想转成的声音的样本。在语言处中文可选普通话、粤语、台湾腔,还可以选择其他各种语言。点击一个,在右侧选择试听文本,满意后我们点击创建音频。

创建好音频后,我们就可以正式开始文本转语言了。我们可以对它进行微调,保存等操作。到此,教程就结束了。

注意:免费账号每月50w个字符限制!


编程中的文本转语音

如果你想将微软的文本转语音集成于你的编程环境中,可以参考微软相关文档:https://docs.microsoft.com/zh-cn/azure/cognitive-services/speech-service/get-started-text-to-speech?tabs=terminal

文档已经很详细了就不再解释。


EDGE文本转语音

我们知道,Edge是微软的默认浏览器,安装于默认Windows中。而微软在Edge里集成了一部分文本转语音的功能。

微软Edge浏览器中有个“大声朗读”的功能,可以直接朗读网页的内容。我们在网页的右上角中,点击“设置及其他”按钮,在弹出来的设置对话框,选择“大声朗读”功能之后就可以进行转换了。

但这个功能只能用于朗读,而且语音有限。于是就有网友基于 edge 文字转语音制作了一个网页版,可播放可下载。如果你没有信用卡来创建微软azure订阅,或者你不想这么麻烦,你可以直接使用这个网页进行文本转语音。

ToolB文本转语音:https://toolb.cn/textspeech


总结

在这里总结一下,我们使用微软的文本转语音功能,需要以下操作:

  1. 创建azure订阅;
  2. 创建语音资源;
  3. 在speech studio里进行语音合成与调整。

如果不想这么麻烦,可以直接使用Edge的“大声朗读”功能,或者使用ToolB的网页版:https://toolb.cn/textspeech

这里的一切都有始有终,却能容纳所有的不期而遇和久别重逢。
最后更新于 2022-06-11