前言
如果你经常刷视频,也许会发现很多那些短视频里面说话的语音很像,你可能以为他们是模仿某些腔调,其实不然。他们大多都是采用了文本转语言,让AI来替他们完成解说。经过AI学习后,AI可以分辨出中文的多音字,儿化音也可以连起来,还可以自动推断出语气和情感。
文本转语音现在网上有很多,其中比较优秀的是微软的文本转语言,下面我们就来看看如何实现。
创建Azure订阅
我们在使用微软的文本转语音功能前,我们应该先创建Azure订阅。首次创建,微软提供了12个月的试用。
首先先打开免费试用页面:https://azure.microsoft.com/zh-cn/free/
然后点击免费开始试用,如果已经有了微软账户,这里可以直接登录,如果没有直接账户,那么可以注册一个或者您可以用账户。
进到下一步,在出现的页面上填写你的基本信息使用手机短信或者电话认证,再下一步,需要您使用您的信用卡进行身份验证,支持visa和万事达。
填好信息后就成功创建了微软免费Azure订阅。
创建语音资源
我们创建好订阅后,接下来需要创建语音资源。打开(如果出现登录,请登录刚才创建订阅的账号):https://portal.azure.com/#create/Microsoft.CognitiveServicesSpeechServices
接下来我们创建语音资源,资源组需要新建一个,随意名字;区域我们一般选择Southeast Asia或者East Asia都可以,名称随意。定价层我们选择FREE F0,当然如果你需求量大,选择付费的也可以。
填好后点击创建即可。接下来我们开始我们的文本转语音。
Speech Studio
接下来我们打开微软Speech Studio:https://speech.microsoft.com/portal/
选择文本转语音 - 语音库。
接下来在Voice catalog里选择你想转成的声音的样本。在语言处中文可选普通话、粤语、台湾腔,还可以选择其他各种语言。点击一个,在右侧选择试听文本,满意后我们点击创建音频。
创建好音频后,我们就可以正式开始文本转语言了。我们可以对它进行微调,保存等操作。到此,教程就结束了。
编程中的文本转语音
如果你想将微软的文本转语音集成于你的编程环境中,可以参考微软相关文档:https://docs.microsoft.com/zh-cn/azure/cognitive-services/speech-service/get-started-text-to-speech?tabs=terminal
文档已经很详细了就不再解释。
EDGE文本转语音
我们知道,Edge是微软的默认浏览器,安装于默认Windows中。而微软在Edge里集成了一部分文本转语音的功能。
微软Edge浏览器中有个“大声朗读”的功能,可以直接朗读网页的内容。我们在网页的右上角中,点击“设置及其他”按钮,在弹出来的设置对话框,选择“大声朗读”功能之后就可以进行转换了。
但这个功能只能用于朗读,而且语音有限。于是就有网友基于 edge 文字转语音制作了一个网页版,可播放可下载。如果你没有信用卡来创建微软azure订阅,或者你不想这么麻烦,你可以直接使用这个网页进行文本转语音。
ToolB文本转语音:https://toolb.cn/textspeech
总结
在这里总结一下,我们使用微软的文本转语音功能,需要以下操作:
- 创建azure订阅;
- 创建语音资源;
- 在speech studio里进行语音合成与调整。
如果不想这么麻烦,可以直接使用Edge的“大声朗读”功能,或者使用ToolB的网页版:https://toolb.cn/textspeech
Comments NOTHING