声墨是怎么开始的：从本地语音识别原型到云端 / 本地双模式

声墨最早不叫这个名字，也没有任何的产品包装。它起源于一个很朴素的需求：能不能在本地直接跑一个 ASR 模型，让语音输入彻底离线？

v0.1 是 2025 年 5 月的一个原型验证版本。核心只有两件事：调用本地 ASR 模型做语音识别，把识别结果显示出来。没有热键，没有粘贴，没有界面设计，就是验证这件事在技术上是否可行。

本地模式的代价

本地模式能跑，但用起来有一个很现实的门槛：模型要加载到内存或显存里。对于没有独立显卡、或者显存不够大的用户，启动就很慢，甚至直接失败。

这个问题在内部测试中很快暴露出来。有的机器能跑，有的机器跑不动。即使能跑，每次启动都要等几十秒加载模型，体验很差。

用户反馈：本地模式需要加载模型到内存/显卡，对硬件要求较高，很多人根本跑不起来。

v1.0 在 2025 年 6 月发布，这个版本的核心决定是：加入云端模式，让两种模式并存。

逻辑很清晰：本地模式对硬件有要求，但云端模式不需要显卡，只要网络好就能用。把两种模式都提供出来，让用户根据自己的情况选择，是当时最务实的方案。

v0.1
2025-05

本地模式：调用本地 ASR 模型，基础语音转文字功能，验证核心可行性。

v1.0
2025-06

加入云端模式，无需本地显卡，通过云端服务器完成语音识别。用户可根据硬件条件自由切换。

云端 / 本地双模式不是一个临时方案，而是声墨早期最重要的产品判断之一。

它承认了一个现实：不是所有用户的硬件条件都一样。强行要求本地模式会把很多用户挡在门外。而纯云端又解决不了数据隐私和离线使用的需求。把两条路都保留下来，才能覆盖更广的使用场景。

这个设计思路在后续的版本演进中一直延续。v2.0 时为了降低入门门槛，曾经暂时收敛到纯云端版本；而 v3.0 本地离线模式的正式落地，也是对这条路线的最终兑现。

回头看 v0.1 到 v1.0 这段时间，声墨的核心任务不是功能有多丰富，而是回答一个问题：语音输入这件事，能不能真正稳定可用？

答案是肯定的。这也是后续所有功能迭代的基础。