新年伊始,我vibe code了一个能让任何人帮我朗读有声书的APP(附下载链接)
我是一个有声书的重度爱好者。
我喜欢在烹饪,健身,散步,晚上睡前等不便阅读的场景中,戴上耳机,打开手机上的“Voice” APP,听上面已经存好的有声书。
在我看来听有声书不仅仅是一种高效利用碎片时间获取知识的途径,也是一种非常好的放松方法。
自打2022年ChatGPT发布以来,人工智能技术的发展可谓日新月异,除了我们大家熟知的LLM,图片生成,视频生成技术之外,人工智能语音合成技术也得到了长足的发展,特别是可以实现声音克隆的文字转语音技术,不但造福了很多内容创作者,也让有声书这个场景多了许多可能性。
正如麦克卢汉所说,媒介即信息,我们在听有声书的时候,抛开书的内容不谈,朗读这本书的声音本身就是一个非常重要的信息,它甚至可以从某种程度上决定你是否会喜欢这本书的内容。
因为,首先,朗读这件事不仅仅很吃天赋,也是一门技术活,其次,每个人对于声音和口音的喜好也是不一样的。
所以就好像译制作品的读者会挑译本一样,有声书的听众也会挑朗读者。
我平时听有声书时候,首选作者本人朗读的版本,如果没有的话,那就只能碰运气了。有时候就会遇到那种本来很喜欢的书但是不喜欢朗读者的情况。例如:Yuval Harari 2024年出版的新书《智人之上》(Nexus:Nexus: A Brief History of Information Networks from the Stone Age to AI),它的有声书版本我就不是特别喜欢。
去年年底,我脑中冒出一个想法:何不利用现有的TTS语音合成技术,来制作一个可以生成自己喜欢版本有声书的工具。
其实,网络上利用TTS来生成有声书的工具已经很多了,但是经过我的一番研究,发现它们都存在这样那样的瓶颈:例如有些工具仅仅面向拥有英伟达显卡的电脑开发;有些工具又没有图形化界面,命令行界面操作起来非常不直观;还有的工具并不提供电子书预处理功能,导致有声书生成过程中出现目录,标注信息被朗读出来的情况。
当然,最终,我还是在github上找到了一款最适合我魔改的开源项目:audiblez。它利用了轻量化的Kokoro模型作为基底,融合了一些文本处理的Python脚本和图形化界面,形成了一套非常友好顺畅的电子书到有声书的工作流。
美中不足是,Kokoro模型本身并不支持声音克隆。
于是,我需要做的事情就是,找到一款可以在我的丐版M1上面跑起来的,支持声音克隆的开源模型,对Kokoro进行替换。
经过一番搜寻,我发现最合适的是由Resemble新近发布的Chatterbox Turbo模型,它支持语音克隆,并且有针对Apple Silicon优化过的mlx版本。
说干就干,在谷歌Antigravity的帮助下, 我终于成功地将Audiblez项目原有的Kokoro模型替换成了可以进行声音克隆的Chatterbox Turbo模型。
大功告成了吗?并没有!
我做出来这个东西虽然能用,但是存在两个硬伤:第一,audiblez基于wxPython的界面很丑,而且非常不容易改动。第二,我的丐版M1在运行这个APP的时候几乎会动用电脑所有资源,导致电脑卡顿无比,几乎无法正常做其他事情。所以我也只能在晚上睡觉的时候才敢开着它生成有声书。
生命在于折腾,于是我开始对这个初版进行大刀阔斧的改造:首先,要用有现代美的Web界面替换掉古早风的wxPython界面,然后要寻找一个能够不那么占用电脑计算资源的方法,让它在生成电子书的时候还允许我使用电脑进行其他工作。
经过和Claude Opus的无数轮对话探讨,和几次失败的UI重构尝试,最终我决定使用对小白更友好的Electron作为UI框架。
至于算力瓶颈的问题,我则要感谢法国团队Kyutai在近日开源的最新版Pocket TTS模型,这个只有100M参数的小模型,不仅仅可以只在两个CPU核心上跑(完全不需要GPU),而且具有非常高水平的声音克隆技术。美中不足是它目前仅支持英文。
至此,我这个项目已经和最一开始的audiblez关系不太大了,因为我对它进行了从内到外的大规模重构。于是乎,我决定给它起一个新名字:ClonEpub。

ClonEpub能做的事情很简单:给它任意一本英文电子书(Epub格式),提供一段10-30秒长的声音克隆样本,可以是你喜欢的播音员,演员,有声书朗读者,或者是你朋友,家人或者你自己的声音。点击开始生成,它就会为你生成一本M4B格式,带有封面和章节信息的有声书文件。在我的丐版M1 Macbook Air上面,它可以在100分钟内生成一本《Animal Farm》的有声书。
我已经把ClonEpub第一个测试版进行了打包,因为我目前手头只有一个丐版M1,所以暂时只能提供Mac Apple Silicon的打包版本。后续会考虑打包针对Mac Intel,Windows和Linux的打包。
想要尝试的朋友请在后台回复关键词“clonepub”获取下载链接。
这大概率不会是这款APP的最后一个版本,因为我有足够理由相信,后面还会有更加优秀的,支持更多语种的模型和更尖端的AI语音合成技术涌现出来。
我会持续关注。
本文系数字游民Jarod原创,如需转载请联系作者授权。
原文发表于微信公众号:数字游民部落
🔗 Helpful Links
欢迎加入中文互联网最大的数字游民Discord群,目前已有2000+成员。邀请链接: https://discord.gg/sVvYqgwBAZ