🔌 开发者 / 本地后端集成

让你的智能体或应用
调用本地语音识别服务

声墨 会在本机启动一个本地 HTTP 后端服务。绝大多数用户开箱即用,默认地址是 127.0.0.1:9532。你的智能体、自动化脚本或自己开发的 App,可以把音频交给这个服务处理,再拿回识别后的文本结果。

📖 查看完整 API 文档 ⬇ 下载声墨

集成前必读

本地 HTTP 引擎只负责接收音频、执行识别、返回文本,不负责录音控制本身。

也就是说,你的程序或智能体需要负责“采集音频”,声墨 负责“把音频转成文字”。

如有端口冲突,可通过系统环境变量 VOICEINK_ASR_PORT 修改端口并重启应用生效。

这是 Rust 后端启动时读取的系统 / 用户级环境变量,不是前端 `VITE_` 变量,.env 文件对打包后的 Tauri 应用不生效。

🌐

本地 HTTP 后端

把声墨 当作本机语音识别后端使用,任何能发 HTTP 请求的程序都可接入。

同步 + 异步

短音频同步返回,长文件支持异步轮询,适配各类场景。

🤖

智能体接入

只要你的智能体支持调用 HTTP 工具或 Webhook,就可以把它接到声墨 的本地服务上。

💻

自研 App 接入

你自己的桌面应用、浏览器插件或内部工具,可以把录音与文件转写能力接到同一个本地后端。

🖥️

Headless 启动

无界面后台运行,适合服务进程、自动化脚本和开发联调场景。

🔒

完全本地

服务运行在本机,音频与文本处理流程留在本地,更适合隐私敏感场景。

API 集成是什么意思

声墨 提供一个本地后端服务

它负责模型管理、接收音频、执行识别、返回文本,以及必要的后处理能力。你可以把它理解成“本地语音识别后端”。

你的程序来负责前台交互

无论是智能体、桌面 App、浏览器插件还是内部工具,都由你自己负责录音采集、发送音频、轮询结果和展示文本。

本质上就是:声墨 负责“识别”,你的智能体或 App 负责“交互”和“业务流程”。

自己的智能体或 App 如何接入

🤖

自己的智能体接入

如果你的智能体支持 HTTP 工具调用,就可以把录好的音频文件路径或 Base64 音频提交到声墨 的本地服务,再把返回文本继续交给后续推理、总结或执行节点。

💻

自己开发的 App 接入

你的 App 负责麦克风权限、录音按钮、文件选择和结果展示;声墨 的本地后端只负责处理音频并返回文字,两者职责清晰、接入成本低。

⌨️

轻量工具或脚本接入

如果你只是想做一个小工具,也可以直接用 Python、Node.js、Shell 脚本调用 HTTP 接口,把声墨 作为通用的本地语音识别能力来复用。

🔄

内部流程或自动化接入

你可以把转写结果继续接到自动填表、生成摘要、知识库入库或业务流程自动化中,作为本地语音输入的基础能力。

最小接入流程

01

启动声墨 本地服务

启动桌面客户端后,绝大多数用户会直接使用默认地址 127.0.0.1:9532。如有端口冲突,可通过系统环境变量 VOICEINK_ASR_PORT 修改后重启应用生效。

02

由你的程序提交音频

智能体或 App 录好音频后,可通过文件路径或 Base64 的方式提交给 /tasks/transcribe/transcribe

03

拿回文本并进入业务流程

短音频可同步拿结果,长音频通过任务轮询返回文本。之后由你的智能体或 App 决定展示、摘要、粘贴或进入下一步业务处理。

快速示例

Python · 提交文件转写任务
import requests

base_url = "http://127.0.0.1:9532"  # 绝大多数用户直接使用默认值

resp = requests.post(
    f"{base_url}/tasks/transcribe",
    json={
        "file_path": "D:/records/demo.wav",
        "input_type": "audio",
        "language": "auto"
    }
)

print(resp.json())
# → {"task_id": "...", "status": "queued"}
适合接入的调用方
🤖 自己的智能体 🖥️ 桌面应用 🌐 Web / 插件工具 🐍 Python 脚本 🟨 Node.js 工具 🐚 Shell / curl

当前能力边界

可通过 HTTP 完成

  • 健康检查与状态查询
  • 模型加载、切换、卸载等管理能力
  • 同步 / 异步语音转写
  • 标点恢复与文本后处理

仍需调用方负责

  • 麦克风打开与录音采集
  • 录音开始 / 停止控制
  • 结果复制到剪贴板或自动粘贴
  • 是否展示给用户或进入后续工作流

准备好开始集成了吗?

查看完整的 API 参考文档,包含启动方式、接口参数、返回结构与完整示例代码。

📖 查看完整 API 文档 →