声墨 最早不叫这个名字,也没有任何的产品包装。它起源于一个很朴素的需求:能不能在本地直接跑一个 ASR 模型,让语音输入彻底离线?
v0.1 是 2025 年 5 月的一个原型验证版本。核心只有两件事:调用本地 ASR 模型做语音识别,把识别结果显示出来。没有热键,没有粘贴,没有界面设计,就是验证这件事在技术上是否可行。
本地模式的代价
本地模式能跑,但用起来有一个很现实的门槛:模型要加载到内存或显存里。对于没有独立显卡、或者显存不够大的用户,启动就很慢,甚至直接失败。
这个问题在内部测试中很快暴露出来。有的机器能跑,有的机器跑不动。即使能跑,每次启动都要等几十秒加载模型,体验很差。
用户反馈:本地模式需要加载模型到内存/显卡,对硬件要求较高,很多人根本跑不起来。
为什么加入云端模式
v1.0 在 2025 年 6 月发布,这个版本的核心决定是:加入云端模式,让两种模式并存。
逻辑很清晰:本地模式对硬件有要求,但云端模式不需要显卡,只要网络好就能用。把两种模式都提供出来,让用户根据自己的情况选择,是当时最务实的方案。
2025-05
项目雏形
本地模式:调用本地 ASR 模型,基础语音转文字功能,验证核心可行性。
2025-06
云端 / 本地双模式
加入云端模式,无需本地显卡,通过云端服务器完成语音识别。用户可根据硬件条件自由切换。
双模式设计的意义
云端 / 本地双模式不是一个临时方案,而是声墨 早期最重要的产品判断之一。
它承认了一个现实:不是所有用户的硬件条件都一样。强行要求本地模式会把很多用户挡在门外。而纯云端又解决不了数据隐私和离线使用的需求。把两条路都保留下来,才能覆盖更广的使用场景。
这个设计思路在后续的版本演进中一直延续。v2.0 时为了降低入门门槛,曾经暂时收敛到纯云端版本;而 v3.0 本地离线模式的正式落地,也是对这条路线的最终兑现。
第一阶段的核心任务
回头看 v0.1 到 v1.0 这段时间,声墨 的核心任务不是功能有多丰富,而是回答一个问题:语音输入这件事,能不能真正稳定可用?
答案是肯定的。这也是后续所有功能迭代的基础。