修复错误处理逻辑

talkincode · Feb 23, 2024 · 4ced042 · 4ced042
1 parent 145bee6
commit 4ced042
Show file tree

Hide file tree

Showing 2 changed files with 37 additions and 0 deletions.
diff --git a/_posts/2024-02-23-metavoice-1b-tts-clone.md b/_posts/2024-02-23-metavoice-1b-tts-clone.md
@@ -0,0 +1,24 @@
+---
+layout: post
+title:  "MetaVoice 1B - TTS 和语音克隆"
+date:   2024-02-08 21:34:52 +0800
+categories: Python
+---
+
+MetaVoice 最新发布的 MetaVoice1B，是一款引起热烈讨论的文字转语音（TTS）模型。不过，让我们不要太着急——鉴于有时候这类模型会表现出“飞跃式”的语言表达，我们还是一步步来。
+
+MetaVoice 是一家涉足语音到语音转换领域的初创公司，如今也进入了文字转语音的领域。 看来他们撸起袖子、构建了一个庞然大物——拥有 12 亿个参数、注入了10万小时语音数据。对于一家初创公司来说，就像是以小博大，称得上是非常有雄心壮志了。
+
+该模型号称具有 zero-shot 克隆功能， 不熟悉这个术语的朋友可以理解为：它无需事先针对特定声音进行训练，就可以模仿这些声音。只需给它三十秒某人甜美的声音样本，无论这个人是说美式英语还是英式英语，瞧——你就拥有了一个数字模仿者。这就像是一只上了声乐课的鹦鹉。
+
+更有趣的是，MetaVoice 承诺即将推出微调脚本，供那些自己热衷于克隆声音的玩家使用。他们声称，不久你就能调整模型的“声带”，让它可以匹配各种口音，走出英语世界的局限、进入更为广阔的语言环境。
+
+他们的另一个亮点是成功克服了语音模型中经常出现的"幻觉"，也就是说模型会创造出一些不存在的词句。我们可不想在询问天气预报时得到虚构的词汇，对吧？ 之前的 Bach 模型就颇有这种创作倾向，常常让使用者哭笑不得。
+
+好奇背后的机制吗？模型架构的讨论就像是一场科技诗会：融合了 causal transformer 和 non-causal transformer，还有 multiband diffusion，以及负责过滤噪音的深度神经网络——简直是未来机器人的美梦。
+
+不过实践出真知，我们不应只停留在理论上。接下来，我要在 Colab notebook 里实际试用一下这个模型。Colab 可以说是我们的数字沙盒，在里面做实验完全免费。我的发现是什么呢？有些生成的声音流畅优美，但其他的就……嗯，恐怕是赢不了任何模仿秀的大奖。
+
+尝试调整不同的参数，比如 temperature 和 guidance scale ，这种感觉就像是在调校一件精密的乐器。精细的调整可以将笨手笨脚的 TTS 模型变成一位谈吐自如的播音员。不过，我确实也碰到了生成文本缺失的情况，在语音合成的宏伟交响中，出现这些小插曲是可以理解的。
+
+现在是共享的时代，MetaVoice1B 是开源的，是送给技术玩家和创作者们的一份大礼。当然也有要注意的地方：这个模型还有很多地方需要向私有模型学习，比如 Google 那神乎其神的 SoundStorm，或是 OpenAI 的大师之作。MetaVoice1B 就像一位潜力无限，但尚未完成学业的天才少年。
diff --git a/post.sh b/post.sh
@@ -0,0 +1,13 @@
+#!/bin/bash
+
+# 这个脚本用来创建新的 blog 文章
+#
+# 文件名模板: <yyyy-mm-dd>-<title>.md
+#
+# 内容初始化模板格式
+# ---
+# layout: post
+# title:  "<title>"
+# date:   2024-02-08 21:34:52 +0800
+# categories:
+# ---