🎙️ 设想
文本聊天框已经卷到极致,但人和人之间最自然的协作仍然是 说话。voice-agent 是我对"语音 × Agent"这条线的尝试:
- 把 ASR / LLM / TTS 串成一条低延迟回路
- 验证哪些任务靠"说"比靠"打字"更顺手
- 探索 Agent 在通话场景里能不能"自己挂机"
🚧 当前进度
调研期 —— 评估开源 ASR / 流式 TTS 与延迟预算。
文本聊天框已经卷到极致,但人和人之间最自然的协作仍然是 说话。voice-agent 是我对"语音 × Agent"这条线的尝试:
调研期 —— 评估开源 ASR / 流式 TTS 与延迟预算。