跳到主要内容

MushroomAgent

分布式具身智能体

一个大脑,调度万物。思考留给 AI,感知交还世界。

我们以分布式架构,打破硬件的物理边界,为 AI 编排一具跨空间的"数字躯体"。

【听·说】实时语境交互:麦克风与音箱构筑灵敏的声学系统,赋予 Agent 丝滑的交互能力。
【视·记】环境语义理解:摄像头捕捉物理瞬间,AI 实时解析环境,让智能拥有"记忆"深度。
【行·做】跨端动作编排:硬件接口化身虚拟双手,将云端思考精准转化为物理世界的行动。

MushroomAgent 是什么?

MushroomAgent 是一个分布式 agent 运行时,核心有两个角色:

  • Agent — 决策端。它接收文本、语音、视频、设备事件等上下文,调用模型做判断,决定下一步要做什么,再派发 action。agent 可以通过 mushroom-agent start 在一台机器上单独运行,不一定需要额外 node。

  • Node — 设备输入输出端。node 收集麦克风音频、摄像头视频、文本、本地设备事件等信息并转发给 agent;agent 决策后,node 执行返回的 action。action 可以是语音输出、界面操作、机器人动作,或其他设备特有能力。

MushroomAgent 面向需要跨平台构建 agent 系统的开发者 — 聊天机器人、语音助手、IoT 控制器和硬件 agent — 无需为每个界面运行独立的 agent 实例。

工作原理

channel → communication → sensor → agent → think → skill

输入通过渠道进入 — 飞书、Discord、HTTP、WebSocket。Sensor 层将文本、语音、文件处理为结构化感知。Agent 从对话历史、工作区文件、工具结果和已加载的 Skills 中组装上下文,交给 think 引擎。LLM 决定做什么:回复、执行工具,或派发设备动作。结果沿相同路径返回。

模式Think 位置输入输出位置命令
单机 agent本设备本设备mushroom-agent start
agent + nodesAgent 主机各接入 nodeagent 执行 mushroom-agent start,node 执行 mushroom-agent node attach

核心能力

快速安装

先从 agent 模式开始。agent 可以单独运行,已经足够用于本地聊天和本地 runtime。之后如果有另一台设备需要负责语音、视频等输入收集和 action 执行,再接入 node 模式。

详见 Getting Started 获取安装命令和 node 模式路径。

浏览文档