🔌 开发者 / 本地后端集成

让你的智能体或应用
调用本地语音识别服务

声墨会在本机启动一个本地 HTTP 后端服务。绝大多数用户开箱即用，默认地址是 127.0.0.1:9532。你的智能体、自动化脚本或自己开发的 App，可以把音频交给这个服务处理，再拿回识别后的文本结果。

📖 查看完整 API 文档 ⬇ 下载声墨

集成前必读

本地 HTTP 引擎只负责接收音频、执行识别、返回文本，不负责录音控制本身。

也就是说，你的程序或智能体需要负责“采集音频”，声墨负责“把音频转成文字”。

调用方自行申请麦克风权限
调用方自行完成录音开始 / 停止
调用方将音频文件路径或 Base64 数据提交给本地引擎
引擎返回识别结果，调用方再决定展示、粘贴或进入后续工作流

如有端口冲突，可通过系统环境变量 VOICEINK_ASR_PORT 修改端口并重启应用生效。

这是 Rust 后端启动时读取的系统 / 用户级环境变量，不是前端 `VITE_` 变量，.env 文件对打包后的 Tauri 应用不生效。

🌐

本地 HTTP 后端

把声墨当作本机语音识别后端使用，任何能发 HTTP 请求的程序都可接入。

⚡

同步 + 异步

短音频同步返回，长文件支持异步轮询，适配各类场景。

🤖

智能体接入

只要你的智能体支持调用 HTTP 工具或 Webhook，就可以把它接到声墨的本地服务上。

💻

自研 App 接入

你自己的桌面应用、浏览器插件或内部工具，可以把录音与文件转写能力接到同一个本地后端。

🖥️

Headless 启动

无界面后台运行，适合服务进程、自动化脚本和开发联调场景。

🔒

完全本地

服务运行在本机，音频与文本处理流程留在本地，更适合隐私敏感场景。

API 集成是什么意思

声墨提供一个本地后端服务

它负责模型管理、接收音频、执行识别、返回文本，以及必要的后处理能力。你可以把它理解成“本地语音识别后端”。

你的程序来负责前台交互

无论是智能体、桌面 App、浏览器插件还是内部工具，都由你自己负责录音采集、发送音频、轮询结果和展示文本。

本质上就是：声墨负责“识别”，你的智能体或 App 负责“交互”和“业务流程”。

自己的智能体或 App 如何接入

🤖

自己的智能体接入

如果你的智能体支持 HTTP 工具调用，就可以把录好的音频文件路径或 Base64 音频提交到声墨的本地服务，再把返回文本继续交给后续推理、总结或执行节点。

💻

自己开发的 App 接入

你的 App 负责麦克风权限、录音按钮、文件选择和结果展示；声墨的本地后端只负责处理音频并返回文字，两者职责清晰、接入成本低。

⌨️

轻量工具或脚本接入

如果你只是想做一个小工具，也可以直接用 Python、Node.js、Shell 脚本调用 HTTP 接口，把声墨作为通用的本地语音识别能力来复用。

🔄

内部流程或自动化接入

你可以把转写结果继续接到自动填表、生成摘要、知识库入库或业务流程自动化中，作为本地语音输入的基础能力。

最小接入流程

启动声墨本地服务

启动桌面客户端后，绝大多数用户会直接使用默认地址 127.0.0.1:9532。如有端口冲突，可通过系统环境变量 VOICEINK_ASR_PORT 修改后重启应用生效。

由你的程序提交音频

智能体或 App 录好音频后，可通过文件路径或 Base64 的方式提交给 /tasks/transcribe 或 /transcribe。

拿回文本并进入业务流程

短音频可同步拿结果，长音频通过任务轮询返回文本。之后由你的智能体或 App 决定展示、摘要、粘贴或进入下一步业务处理。

快速示例

Python · 提交文件转写任务

import requests

base_url = "http://127.0.0.1:9532"  # 绝大多数用户直接使用默认值

resp = requests.post(
    f"{base_url}/tasks/transcribe",
    json={
        "file_path": "D:/records/demo.wav",
        "input_type": "audio",
        "language": "auto"
    }
)

print(resp.json())
# → {"task_id": "...", "status": "queued"}

适合接入的调用方

🤖 自己的智能体 🖥️ 桌面应用 🌐 Web / 插件工具 🐍 Python 脚本 🟨 Node.js 工具 🐚 Shell / curl

让你的智能体或应用
调用本地语音识别服务

集成前必读

本地 HTTP 后端

同步 + 异步

智能体接入

自研 App 接入

Headless 启动

完全本地

API 集成是什么意思

声墨提供一个本地后端服务

你的程序来负责前台交互

自己的智能体或 App 如何接入

自己的智能体接入

自己开发的 App 接入

轻量工具或脚本接入

内部流程或自动化接入

最小接入流程

启动声墨本地服务

由你的程序提交音频

拿回文本并进入业务流程

快速示例

当前能力边界

可通过 HTTP 完成

仍需调用方负责

准备好开始集成了吗？

让你的智能体或应用调用本地语音识别服务

集成前必读

本地 HTTP 后端

同步 + 异步

智能体接入

自研 App 接入

Headless 启动

完全本地

API 集成是什么意思

声墨 提供一个本地后端服务

你的程序来负责前台交互

自己的智能体或 App 如何接入

自己的智能体接入

自己开发的 App 接入

轻量工具或脚本接入

内部流程或自动化接入

最小接入流程

启动声墨 本地服务

由你的程序提交音频

拿回文本并进入业务流程

快速示例

当前能力边界

可通过 HTTP 完成

仍需调用方负责

准备好开始集成了吗？

让你的智能体或应用
调用本地语音识别服务

声墨提供一个本地后端服务

启动声墨本地服务