跳到主要内容

Web Fetch

web_fetch 用来抓取网页内容并返回可读文本。它更像“页面抓取工具”,不是“通用 API 客户端”。

功能说明

  • 仅接受 http://https://
  • 默认会跟随重定向
  • 默认会把 HTML 提取成正文文本
  • 会返回状态码、headers、最终 URL 和正文
  • 默认阻止私有网段和 loopback 地址

参数

除了必填的 url,实现里还支持这些常用参数:

参数说明
method默认 GET,也支持 POSTPUTPATCHDELETEHEAD
headersJSON 对象形式的请求头
paramsJSON 对象形式的 query 参数
body请求体
timeout超时秒数
max_bytes最大返回字节数
follow_redirects是否跟随跳转
extract_text对 HTML 是否提取正文文本
user_agent自定义 User-Agent

配置

tools:
web_fetch:
enabled: true
timeout: 20
max_bytes: 200000
follow_redirects: true
user_agent: "MushroomAgent web_fetch/1.0"
allow_private_networks: false

使用场景

  • 抓公开网页正文
  • 拉取文档、公告、静态 HTML 页面
  • 不需要复杂认证和 API 语义时

如果你要访问结构化 HTTP 接口、内网服务、或者需要精确控制 API path,优先看 API Request