从语音输入到文件转写：声墨在 2.x 补齐了哪些核心能力

v2.0 发布之后，声墨有了一个稳定的轻量云端基础。接下来 2.x 的主要任务，是在这个基础上把能力边界真正扩展出去：从"只能实时语音输入"，变成"能处理更完整的语音工作流"。

v2.1 到 v2.4，每个版本都在回答一个问题：哪些场景现在还做不到？

v2.1：数据库展示与分页

v2.1这是一个基础设施升级。随着历史记录越来越多，需要一个能正常展示和翻页的数据库视图，而不是简单列一个列表就算了。v2.1 补齐了这部分，为后续功能在历史记录维度的扩展做好了准备。

v2.2增加了四种使用场景格式。语音输入的内容，因为场景不同，最终需要的文本格式也不同——会议记录、口述文稿、聊天消息、指令输入，各有各的排版习惯。场景格式让 AI 润色时能更准确地对齐用户意图。

支持选择预设行业词库（医疗、法律、IT、金融等），也支持自定义词汇列表。专业领域内的术语、人名、产品名，识别准确率大幅提升。

这是一个影响深远的功能。通用 ASR 模型对专业术语的识别往往准确率偏低，行业词汇可以在送入模型之前做偏置，让结果更贴近实际业务语境。

这是 2.x 阶段影响最大的一次功能扩展。

导入 WAV、MP3、MP4 等格式，一键生成 SRT 字幕文件或 TXT 文本。录制好的会议录音、课程视频、采访素材，直接导入处理，不再需要一遍遍手动听写。

v2.4 还带来了两个配套能力：

文件转录功能后续可能暂停，因当前产品定位侧重 AI 对话的快捷性，同时需考虑并发处理压力，公测后视情况重新开放。

文件转写的功能在后续版本中确实有过调整，但这个方向本身一直延续下来。v3.0 时文件转写支持了 MP3、AAC、M4A、OGG 等更多压缩格式，并内置了 FFmpeg 自动解码。

v2.1 到 v2.4 这段时间，声墨的扩展路径是清晰的：先补基础设施，再扩场景（行业词汇），再扩输入方式（文件转写）。

每一步都是对"现在还做不到什么"这个问题的直接回答，而不是功能的随机堆叠。这也是为什么这几个版本在功能上感觉比较"扎实"——它们都在填真实的缺口。