跳到主要内容

Agent

这组页面覆盖智能体内部如何工作——运行时、认知主链，以及如何延伸到多节点系统。

核心主链

channel -> communication -> sensor -> agent -> think -> skill

这条链路里：

channel 负责平台协议和外部接入（飞书、Discord、WebSocket、HTTP 等）
communication 负责 transport 与统一收发
sensor 负责把外部输入变成 agent 可处理的消息和感知结果——文本、语音转录、文件内容、事件
agent 负责 runtime 编排：上下文组装、会话管理、turn 生命周期
think 负责决策、推理和回复计划，通过 LLM 实现
skill 为 think 提供可复用的程序化工作流和操作指导，按上下文按需加载

三大支柱

MushroomAgent 的架构基于三个设计原则：

统一主体：无论底层接了多少节点，对外都是同一个智能体。所有会话、记忆和工具结果都汇聚到单一的认知核心。
统一世界模型：不同模态（文本、语音、文件、传感器数据）和不同位置（服务端、边缘设备、手机）的输入汇入同一个共享上下文，agent 看到的是全景。
统一动作编排：能力分布在设备端，但规划与决策集中于 think 引擎。

两种模式：Local 和 Remote

MushroomAgent 支持两种运行模式：

Local 模式（`start`）

思考与执行在同一台设备上运行。mushroom-agent start 会把 agent runtime 和配置化设备 runtime 嵌入在当前进程内。所有输入、推理和动作都在一个地方完成。

Remote 模式

远端 agent 服务负责思考，一台或多台设备连接到它并在本地执行动作。

使用流程：

在远端主机上执行 mushroom-agent serve — 启动 think 引擎
配置每台设备的 remote.yaml，然后执行 mushroom-agent node attach — 设备连接到远端服务

远端 serve 实例支持挂多个设备。每个设备采集自己的输入（音频、视频、文本）并发送给远端 think 引擎。Think 引擎处理输入、做出决策，并将动作派发给对应设备去执行。

Agent 生命周期

一次典型的 turn 经历以下阶段：

接收 — 通过渠道接收输入（聊天消息、语音、HTTP 请求）
感知 — sensor 层处理输入（语音转录、文件解析、意图提取）
上下文化 — agent 组装对话历史、已加载的 Skills、工具结果和世界模型，构成 prompt
推理 — think 层调用 LLM 决定要做什么
行动 — 执行工具、调用 Skill、派发节点动作或生成回复
响应 — 通过渠道将输出发送回去

从这里开始

Think loop 如何工作 — 输入、上下文组装、LLM 调用、工具执行。

System Prompt

Agent 每次 LLM 调用前看到的 5 层 prompt。

Agent Workspace

目录结构、上下文文件及加载方式。

Mushroom 架构

这条主链如何延伸到多节点系统。

核心主链
三大支柱
两种模式：Local 和 Remote
- Local 模式（start）
- Remote 模式
Agent 生命周期
从这里开始