MushroomAgent
一个大脑,调度万物。思考留给 AI,感知交还世界。
我们以分布式架构,打破硬件的物理边界,为 AI 编排一具跨空间的"数字躯体"。
【听·说】实时语境交互:麦克风与音箱构筑灵敏的声学系统,赋予 Agent 丝滑的交互能力。
【视·记】环境语义理解:摄像头捕捉物理瞬间,AI 实时解析环境,让智能拥有"记忆"深度。
【行·做】跨端动作编排:硬件接口化身虚拟双手,将云端思考精准转化为物理世界的行动。
先安装 agent;需要独立设备输入输出时,再接入 node。
官方 Linux/macOS 脚本:install.sh 安装 agent,install_node.sh 安装 node,并提供卸载脚本。
启动 agent 后,浏览器打开 /i/chat 即可聊天。
MushroomAgent 是什么?
MushroomAgent 是一个分布式 agent 运行时,核心有两个角色:
-
Agent — 决策端。它接收文本、语音、视频、设备事件等上下文,调用模型做判断,决定下一步要做什么,再派发 action。agent 可以通过
mushroom-agent start在一台机器上单独运行,不一定需要额外 node。 -
Node — 设备输入输出端。node 收集麦克风音频、摄像头视频、文本、本地设备事件等信息并转发给 agent;agent 决策后,node 执行返回的 action。action 可以是语音输出、界面操作、机器人动作,或其他设备特有能力。
MushroomAgent 面向需要跨平台构建 agent 系统的开发者 — 聊天机器人、语音助手、IoT 控制器和硬件 agent — 无需为每个界面运行独立的 agent 实例。
工作原理
channel → communication → sensor → agent → think → skill
输入通过渠道进入 — 飞书、Discord、HTTP、WebSocket。Sensor 层将文本、语音、文件处理为结构化感知。Agent 从对话历史、工作区文件、工具结果和已加载的 Skills 中组装上下文,交给 think 引擎。LLM 决定做什么:回复、执行工具,或派发设备动作。结果沿相同路径返回。
| 模式 | Think 位置 | 输入输出位置 | 命令 |
|---|---|---|---|
| 单机 agent | 本设备 | 本设备 | mushroom-agent start |
| agent + nodes | Agent 主机 | 各接入 node | agent 执行 mushroom-agent start,node 执行 mushroom-agent node attach |
核心能力
agent 负责决策,node 负责采集输入和执行设备输出。
飞书、Discord、HTTP、WebSocket — 一个 agent 服务全部。
实时语音,VAD 检测、TTS 合成、流式 LLM。跟 agent 自然对话。
Shell 执行、文件读写、网页抓取、API 调用、任务委派和调度。
按需加载的领域知识和操作流程。自己写,或从 Skills Hub 安装。
AGENTS.md 定义规则,SOUL.md 定义人格,IDENTITY.md 定义身份 — 定制你的 agent。
快速安装
先从 agent 模式开始。agent 可以单独运行,已经足够用于本地聊天和本地 runtime。之后如果有另一台设备需要负责语音、视频等输入收集和 action 执行,再接入 node 模式。
详见 Getting Started 获取安装命令和 node 模式路径。