🎙️ 设想

文本聊天框已经卷到极致,但人和人之间最自然的协作仍然是 说话。voice-agent 是我对"语音 × Agent"这条线的尝试:

  • 把 ASR / LLM / TTS 串成一条低延迟回路
  • 验证哪些任务靠"说"比靠"打字"更顺手
  • 探索 Agent 在通话场景里能不能"自己挂机"

🚧 当前进度

调研期 —— 评估开源 ASR / 流式 TTS 与延迟预算。