声墨 会在本机启动一个本地 HTTP 后端服务。绝大多数用户开箱即用,默认地址是 127.0.0.1:9532。你的智能体、自动化脚本或自己开发的 App,可以把音频交给这个服务处理,再拿回识别后的文本结果。
本地 HTTP 引擎只负责接收音频、执行识别、返回文本,不负责录音控制本身。
也就是说,你的程序或智能体需要负责“采集音频”,声墨 负责“把音频转成文字”。
如有端口冲突,可通过系统环境变量 VOICEINK_ASR_PORT 修改端口并重启应用生效。
这是 Rust 后端启动时读取的系统 / 用户级环境变量,不是前端 `VITE_` 变量,.env 文件对打包后的 Tauri 应用不生效。
把声墨 当作本机语音识别后端使用,任何能发 HTTP 请求的程序都可接入。
短音频同步返回,长文件支持异步轮询,适配各类场景。
只要你的智能体支持调用 HTTP 工具或 Webhook,就可以把它接到声墨 的本地服务上。
你自己的桌面应用、浏览器插件或内部工具,可以把录音与文件转写能力接到同一个本地后端。
无界面后台运行,适合服务进程、自动化脚本和开发联调场景。
服务运行在本机,音频与文本处理流程留在本地,更适合隐私敏感场景。
它负责模型管理、接收音频、执行识别、返回文本,以及必要的后处理能力。你可以把它理解成“本地语音识别后端”。
无论是智能体、桌面 App、浏览器插件还是内部工具,都由你自己负责录音采集、发送音频、轮询结果和展示文本。
如果你的智能体支持 HTTP 工具调用,就可以把录好的音频文件路径或 Base64 音频提交到声墨 的本地服务,再把返回文本继续交给后续推理、总结或执行节点。
你的 App 负责麦克风权限、录音按钮、文件选择和结果展示;声墨 的本地后端只负责处理音频并返回文字,两者职责清晰、接入成本低。
如果你只是想做一个小工具,也可以直接用 Python、Node.js、Shell 脚本调用 HTTP 接口,把声墨 作为通用的本地语音识别能力来复用。
你可以把转写结果继续接到自动填表、生成摘要、知识库入库或业务流程自动化中,作为本地语音输入的基础能力。
启动桌面客户端后,绝大多数用户会直接使用默认地址 127.0.0.1:9532。如有端口冲突,可通过系统环境变量 VOICEINK_ASR_PORT 修改后重启应用生效。
智能体或 App 录好音频后,可通过文件路径或 Base64 的方式提交给 /tasks/transcribe 或 /transcribe。
短音频可同步拿结果,长音频通过任务轮询返回文本。之后由你的智能体或 App 决定展示、摘要、粘贴或进入下一步业务处理。
import requests
base_url = "http://127.0.0.1:9532" # 绝大多数用户直接使用默认值
resp = requests.post(
f"{base_url}/tasks/transcribe",
json={
"file_path": "D:/records/demo.wav",
"input_type": "audio",
"language": "auto"
}
)
print(resp.json())
# → {"task_id": "...", "status": "queued"}