v2.0 是声墨 自 1.x 以来变化最大的一个版本,但这个"变化"并不是加了很多功能,而是做了一个减法决策:去掉本地模型依赖,先做一个纯云端的轻量版本。
安装包从原来的几百 MB 压缩到 21MB。这背后是一个现实的产品判断。
问题出在哪里
1.x 阶段,声墨 维护着云端 / 本地双模式。这在技术上是可行的,但在实际使用中暴露出了一些问题:
- 本地模式需要加载 ASR 模型,安装包很大,启动慢
- 对显卡有要求,很多用户的机器跑不起来
- 维护两套模式的代码路径,迭代成本很高
- 大多数用户实际上都在用云端模式
换句话说:本地模式的存在,让整个产品更重了,但绝大多数用户并没有从中受益。
21MB 意味着什么
21MB
v2.0 安装包大小
0
对显卡的要求
联网
唯一前提条件
21MB 的安装包意味着:下载快、安装快、启动快。对于想试用的新用户来说,门槛降到了最低。不需要研究自己的显卡型号,不需要等模型加载,装上就能用。
v2.0 的功能重新出发
去掉本地模式之后,v2.0 在云端能力上做了一次全面的重整:
核心能力
- 全局热键语音转写
- 耳语模式(低音量识别)
- 云端 ASR 引擎(SenseVoice)
- 转录历史本地存储
智能增强
- AI 智能润色与纠错
- 多语言翻译
- 自动更新检测
- 公告系统
放弃本地路线了吗?
没有。这是 v2.0 最容易被误解的一点。
从此版本起,客户端仅支持云端模式,无需显卡,联网即用。本地模式将在后续版本中作为独立分支重新推出。
v2.0 是一次战略收敛,不是放弃。收敛的目的是:先让更多人能用起来,同时集中资源把云端能力做好,再回来做本地离线。
这个判断后来被证明是对的。v2.9 开始重新推进本地 Python ASR 服务,v3.0 本地离线模式正式落地,而那个时候的本地实现,比 1.x 时代的版本稳定得多。
从这次取舍里学到了什么
v2.0 这次决策的核心逻辑是:在资源有限的情况下,维护两条路线的成本,可能高于暂时放弃一条路线、集中做好另一条的成本。
这不是一个通用原则,而是一个具体情境下的判断。但它提醒我们:产品的"轻"不只是安装包大小,也包括维护复杂度和用户的使用门槛。