跳到主要内容

Agent

这组页面覆盖智能体内部如何工作——运行时、认知主链,以及如何延伸到多节点系统。

核心主链

channel -> communication -> sensor -> agent -> think -> skill

这条链路里:

  • channel 负责平台协议和外部接入(飞书、Discord、WebSocket、HTTP 等)
  • communication 负责 transport 与统一收发
  • sensor 负责把外部输入变成 agent 可处理的消息和感知结果——文本、语音转录、文件内容、事件
  • agent 负责 runtime 编排:上下文组装、会话管理、turn 生命周期
  • think 负责决策、推理和回复计划,通过 LLM 实现
  • skill 为 think 提供可复用的程序化工作流和操作指导,按上下文按需加载

三大支柱

MushroomAgent 的架构基于三个设计原则:

  • 统一主体:无论底层接了多少节点,对外都是同一个智能体。所有会话、记忆和工具结果都汇聚到单一的认知核心。
  • 统一世界模型:不同模态(文本、语音、文件、传感器数据)和不同位置(服务端、边缘设备、手机)的输入汇入同一个共享上下文,agent 看到的是全景。
  • 统一动作编排:能力分布在设备端,但规划与决策集中于 think 引擎。

两种模式:Local 和 Remote

MushroomAgent 支持两种运行模式:

Local 模式(start

思考与执行在同一台设备上运行。mushroom-agent start 会把 agent runtime 和配置化设备 runtime 嵌入在当前进程内。所有输入、推理和动作都在一个地方完成。

Remote 模式

远端 agent 服务负责思考,一台或多台设备连接到它并在本地执行动作。

使用流程:

  1. 在远端主机上执行 mushroom-agent serve — 启动 think 引擎
  2. 配置每台设备的 remote.yaml,然后执行 mushroom-agent node attach — 设备连接到远端服务

远端 serve 实例支持挂多个设备。每个设备采集自己的输入(音频、视频、文本)并发送给远端 think 引擎。Think 引擎处理输入、做出决策,并将动作派发给对应设备去执行。

Agent 生命周期

一次典型的 turn 经历以下阶段:

  1. 接收 — 通过渠道接收输入(聊天消息、语音、HTTP 请求)
  2. 感知 — sensor 层处理输入(语音转录、文件解析、意图提取)
  3. 上下文化 — agent 组装对话历史、已加载的 Skills、工具结果和世界模型,构成 prompt
  4. 推理 — think 层调用 LLM 决定要做什么
  5. 行动 — 执行工具、调用 Skill、派发节点动作或生成回复
  6. 响应 — 通过渠道将输出发送回去

从这里开始