-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Showing
2 changed files
with
37 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,24 @@ | ||
--- | ||
layout: post | ||
title: "MetaVoice 1B - TTS 和语音克隆" | ||
date: 2024-02-08 21:34:52 +0800 | ||
categories: Python | ||
--- | ||
|
||
MetaVoice 最新发布的 MetaVoice1B,是一款引起热烈讨论的文字转语音(TTS)模型。不过,让我们不要太着急——鉴于有时候这类模型会表现出“飞跃式”的语言表达,我们还是一步步来。 | ||
|
||
MetaVoice 是一家涉足语音到语音转换领域的初创公司,如今也进入了文字转语音的领域。 看来他们撸起袖子、构建了一个庞然大物——拥有 12 亿个参数、注入了10万小时语音数据。对于一家初创公司来说,就像是以小博大,称得上是非常有雄心壮志了。 | ||
|
||
该模型号称具有 zero-shot 克隆功能, 不熟悉这个术语的朋友可以理解为:它无需事先针对特定声音进行训练,就可以模仿这些声音。只需给它三十秒某人甜美的声音样本,无论这个人是说美式英语还是英式英语,瞧——你就拥有了一个数字模仿者。这就像是一只上了声乐课的鹦鹉。 | ||
|
||
更有趣的是,MetaVoice 承诺即将推出微调脚本,供那些自己热衷于克隆声音的玩家使用。他们声称,不久你就能调整模型的“声带”,让它可以匹配各种口音,走出英语世界的局限、进入更为广阔的语言环境。 | ||
|
||
他们的另一个亮点是成功克服了语音模型中经常出现的"幻觉",也就是说模型会创造出一些不存在的词句。我们可不想在询问天气预报时得到虚构的词汇,对吧? 之前的 Bach 模型就颇有这种创作倾向,常常让使用者哭笑不得。 | ||
|
||
好奇背后的机制吗?模型架构的讨论就像是一场科技诗会:融合了 causal transformer 和 non-causal transformer,还有 multiband diffusion,以及负责过滤噪音的深度神经网络——简直是未来机器人的美梦。 | ||
|
||
不过实践出真知,我们不应只停留在理论上。接下来,我要在 Colab notebook 里实际试用一下这个模型。Colab 可以说是我们的数字沙盒,在里面做实验完全免费。我的发现是什么呢?有些生成的声音流畅优美,但其他的就……嗯,恐怕是赢不了任何模仿秀的大奖。 | ||
|
||
尝试调整不同的参数,比如 temperature 和 guidance scale ,这种感觉就像是在调校一件精密的乐器。精细的调整可以将笨手笨脚的 TTS 模型变成一位谈吐自如的播音员。不过,我确实也碰到了生成文本缺失的情况,在语音合成的宏伟交响中,出现这些小插曲是可以理解的。 | ||
|
||
现在是共享的时代,MetaVoice1B 是开源的,是送给技术玩家和创作者们的一份大礼。当然也有要注意的地方:这个模型还有很多地方需要向私有模型学习,比如 Google 那神乎其神的 SoundStorm,或是 OpenAI 的大师之作。MetaVoice1B 就像一位潜力无限,但尚未完成学业的天才少年。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,13 @@ | ||
#!/bin/bash | ||
|
||
# 这个脚本用来创建新的 blog 文章 | ||
# | ||
# 文件名模板: <yyyy-mm-dd>-<title>.md | ||
# | ||
# 内容初始化模板格式 | ||
# --- | ||
# layout: post | ||
# title: "<title>" | ||
# date: 2024-02-08 21:34:52 +0800 | ||
# categories: | ||
# --- |