v2.0 发布之后,声墨 有了一个稳定的轻量云端基础。接下来 2.x 的主要任务,是在这个基础上把能力边界真正扩展出去:从"只能实时语音输入",变成"能处理更完整的语音工作流"。
v2.1 到 v2.4,每个版本都在回答一个问题:哪些场景现在还做不到?
v2.1:数据库展示与分页
v2.1这是一个基础设施升级。随着历史记录越来越多,需要一个能正常展示和翻页的数据库视图,而不是简单列一个列表就算了。v2.1 补齐了这部分,为后续功能在历史记录维度的扩展做好了准备。
v2.2:使用场景格式
v2.2增加了四种使用场景格式。语音输入的内容,因为场景不同,最终需要的文本格式也不同——会议记录、口述文稿、聊天消息、指令输入,各有各的排版习惯。场景格式让 AI 润色时能更准确地对齐用户意图。
v2.3:行业词汇
行业词汇选择与自定义
支持选择预设行业词库(医疗、法律、IT、金融等),也支持自定义词汇列表。专业领域内的术语、人名、产品名,识别准确率大幅提升。
这是一个影响深远的功能。通用 ASR 模型对专业术语的识别往往准确率偏低,行业词汇可以在送入模型之前做偏置,让结果更贴近实际业务语境。
v2.4:文件转写
这是 2.x 阶段影响最大的一次功能扩展。
音频 / 视频文件转写
导入 WAV、MP3、MP4 等格式,一键生成 SRT 字幕文件或 TXT 文本。录制好的会议录音、课程视频、采访素材,直接导入处理,不再需要一遍遍手动听写。
v2.4 还带来了两个配套能力:
- 录音优先模式:录音完成后统一转写,适合需要完整录音再处理的场景
- WAV 音频裁剪导出:可以在历史记录中选取片段,直接导出对应的音频文件
文件转录功能后续可能暂停,因当前产品定位侧重 AI 对话的快捷性,同时需考虑并发处理压力,公测后视情况重新开放。
文件转写的功能在后续版本中确实有过调整,但这个方向本身一直延续下来。v3.0 时文件转写支持了 MP3、AAC、M4A、OGG 等更多压缩格式,并内置了 FFmpeg 自动解码。
能力边界的扩展逻辑
v2.1 到 v2.4 这段时间,声墨 的扩展路径是清晰的:先补基础设施,再扩场景(行业词汇),再扩输入方式(文件转写)。
每一步都是对"现在还做不到什么"这个问题的直接回答,而不是功能的随机堆叠。这也是为什么这几个版本在功能上感觉比较"扎实"——它们都在填真实的缺口。