Agent
这组页面覆盖智能体内部如何工作——运行时、认知主链,以及如何延伸到多节点系统。
核心主链
channel -> communication -> sensor -> agent -> think -> skill
这条链路里:
channel负责平台协议和外部接入(飞书、Discord、WebSocket、HTTP 等)communication负责 transport 与统一收发sensor负责把外部输入变成 agent 可处理的消息和感知结果——文本、语音转录、文件内容、事件agent负责 runtime 编排:上下文组装、会话管理、turn 生命周期think负责决策、推理和回复计划,通过 LLM 实现skill为 think 提供可复用的程序化工作流和操作指导,按上下文按需加载
三大支柱
MushroomAgent 的架构基于三个设计原则:
- 统一主体:无论底层接了多少节点,对外都是同一个智能体。所有会话、记忆和工具结果都汇聚到单一的认知核心。
- 统一世界模型:不同模态(文本、语音、文件、传感器数据)和不同位置(服务端、边缘设备、手机)的输入汇入同一个共享上下文,agent 看到的是全景。
- 统一动作编排:能力分布在设备端,但规划与决策集中于 think 引擎。
两种模式:Local 和 Remote
MushroomAgent 支持两种运行模式:
Local 模式(start)
思考与执行在同一台设备上运行。mushroom-agent start 会把 agent runtime 和配置化设备 runtime 嵌入在当前进程内。所有输入、推理和动作都在一个地方完成。
Remote 模式
远端 agent 服务负责思考,一台或多台设备连接到它并在本地执行动作。
使用流程:
- 在远端主机上执行
mushroom-agent serve— 启动 think 引擎 - 配置每台设备的
remote.yaml,然后执行mushroom-agent node attach— 设备连接到远端服务
远端 serve 实例支持挂多个设备。每个设备采集自己的输入(音频、视频、文本)并发送给远端 think 引擎。Think 引擎处理输入、做出决策,并将动作派发给对应设备去执行。
Agent 生命周期
一次典型的 turn 经历以下阶段:
- 接收 — 通过渠道接收输入(聊天消息、语音、HTTP 请求)
- 感知 — sensor 层处理输入(语音转录、文件解析、意图提取)
- 上下文化 — agent 组装对话历史、已加载的 Skills、工具结果和世界模型,构成 prompt
- 推理 — think 层调用 LLM 决定要做什么
- 行动 — 执行工具、调用 Skill、派发节点动作或生成回复
- 响应 — 通过渠道将输出发送回去