跳到主要内容

Mushroom Architecture

MushroomAgent 的核心目标,是成为一个能够在现实世界中持续感知、持续思考、持续行动的分布式具身智能体。

Design goals

Unified subject

所有节点都被纳入同一个主体边界之内。

Unified world model

不同节点和模态的输入最终汇聚成同一个上下文。

Unified action plane

节点能力在同一个调度平面上被编排。

Unified evolution

随着节点和场景增长,系统仍保持“一个智能体”的整体性。

System overview

现实世界 / 用户 / RTC 房间 / 外部平台
|
channel
|
communication
|
sensor
|
agent
|
think
|
skill
|
tools / planning / node dispatch
|
节点 A / 节点 B / 节点 C / 设备能力

Core abstractions

Channel -> Communication

channel 负责平台协议语义,communication 负责统一 transport 和消息收发。两者把飞书、Discord、LiveKit、HTTP、WebSocket 等不同入口收敛到同一个 runtime 入口。

Sensor

sensor 是现实世界进入智能体内部的第一层理解器。文本、音频、视频和控制事件会先在这里被规范化、补全或转译,然后才进入 agent turn。

Agent -> Think -> Skill

这三段是认知主链的中心:

  • agent 负责一次 turn 的上下文、memory、调度和生命周期
  • think 负责决策、推理和回复计划
  • skill 负责把可复用的步骤化知识提供给 think 使用

Nodes and capabilities

节点是 MushroomAgent 在现实世界中的具身单元。系统最终不是直接按“节点类型”做硬编码,而是按节点暴露出来的能力和当前任务目标做统一调度。

Embodied session onboarding

节点 MushroomAgent
| |
|---- 建立连接 ---------------------------->|
|---- session.create --------------------->|
| (身份信息 + 当前可用能力) |
|<--- session.created ---------------------|
| |
|---- session.update --------------------->|
| (更新后的可用能力信息) |
|<--- session.updated ---------------------|