Skip to content

Commit

Permalink
修复错误处理逻辑
Browse files Browse the repository at this point in the history
  • Loading branch information
jamiesun committed Feb 23, 2024
1 parent 145bee6 commit 4ced042
Show file tree
Hide file tree
Showing 2 changed files with 37 additions and 0 deletions.
24 changes: 24 additions & 0 deletions _posts/2024-02-23-metavoice-1b-tts-clone.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,24 @@
---
layout: post
title: "MetaVoice 1B - TTS 和语音克隆"
date: 2024-02-08 21:34:52 +0800
categories: Python
---

MetaVoice 最新发布的 MetaVoice1B,是一款引起热烈讨论的文字转语音(TTS)模型。不过,让我们不要太着急——鉴于有时候这类模型会表现出“飞跃式”的语言表达,我们还是一步步来。

MetaVoice 是一家涉足语音到语音转换领域的初创公司,如今也进入了文字转语音的领域。 看来他们撸起袖子、构建了一个庞然大物——拥有 12 亿个参数、注入了10万小时语音数据。对于一家初创公司来说,就像是以小博大,称得上是非常有雄心壮志了。

该模型号称具有 zero-shot 克隆功能, 不熟悉这个术语的朋友可以理解为:它无需事先针对特定声音进行训练,就可以模仿这些声音。只需给它三十秒某人甜美的声音样本,无论这个人是说美式英语还是英式英语,瞧——你就拥有了一个数字模仿者。这就像是一只上了声乐课的鹦鹉。

更有趣的是,MetaVoice 承诺即将推出微调脚本,供那些自己热衷于克隆声音的玩家使用。他们声称,不久你就能调整模型的“声带”,让它可以匹配各种口音,走出英语世界的局限、进入更为广阔的语言环境。

他们的另一个亮点是成功克服了语音模型中经常出现的"幻觉",也就是说模型会创造出一些不存在的词句。我们可不想在询问天气预报时得到虚构的词汇,对吧? 之前的 Bach 模型就颇有这种创作倾向,常常让使用者哭笑不得。

好奇背后的机制吗?模型架构的讨论就像是一场科技诗会:融合了 causal transformer 和 non-causal transformer,还有 multiband diffusion,以及负责过滤噪音的深度神经网络——简直是未来机器人的美梦。

不过实践出真知,我们不应只停留在理论上。接下来,我要在 Colab notebook 里实际试用一下这个模型。Colab 可以说是我们的数字沙盒,在里面做实验完全免费。我的发现是什么呢?有些生成的声音流畅优美,但其他的就……嗯,恐怕是赢不了任何模仿秀的大奖。

尝试调整不同的参数,比如 temperature 和 guidance scale ,这种感觉就像是在调校一件精密的乐器。精细的调整可以将笨手笨脚的 TTS 模型变成一位谈吐自如的播音员。不过,我确实也碰到了生成文本缺失的情况,在语音合成的宏伟交响中,出现这些小插曲是可以理解的。

现在是共享的时代,MetaVoice1B 是开源的,是送给技术玩家和创作者们的一份大礼。当然也有要注意的地方:这个模型还有很多地方需要向私有模型学习,比如 Google 那神乎其神的 SoundStorm,或是 OpenAI 的大师之作。MetaVoice1B 就像一位潜力无限,但尚未完成学业的天才少年。
13 changes: 13 additions & 0 deletions post.sh
Original file line number Diff line number Diff line change
@@ -0,0 +1,13 @@
#!/bin/bash

# 这个脚本用来创建新的 blog 文章
#
# 文件名模板: <yyyy-mm-dd>-<title>.md
#
# 内容初始化模板格式
# ---
# layout: post
# title: "<title>"
# date: 2024-02-08 21:34:52 +0800
# categories:
# ---

0 comments on commit 4ced042

Please sign in to comment.