让 AI 编程代理自己读文档,不再靠猜 —— Openclaw Skill 推荐

一个真实的痛点

用 AI 编程代理写代码的时候,你有没有遇到过这种情况:

“帮我用 VitePress 的 sidebar 配置实现多级嵌套导航”

然后 AI 自信满满地写出一段配置——语法看着对,但参数名是老版本的,甚至某个选项压根不存在。

这不是 AI 笨,是它压根没看过最新文档。它用的全是训练数据里的”记忆”,而不是文档里白纸黑字写的 API。

更扎心的是:更扎心的是:文档只能通过文档网站查看,AI直接使用web_search无法得到准确全面的文档内容,使用普通的爬虫工具,又爬不到结构化的文档内容,甚至会出现爬不全内容的情况。


DocsForAI 是什么

DocsForAI 是一个针对常见文档框架深度优化的爬虫工具。它能自动识别 VitePress、Docsify、GitBook 等多种文档站点,按章节结构提取干净的 Markdown 内容,专门解决一个问题:让 AI 像程序员一样查文档

它能把任意文档网站爬下来,转成干净的结构化 Markdown,让 AI 可以按需查阅——不是把整本文档塞进上下文(那会爆 token),而是:

  1. 先看目录结构
  2. 找到相关章节
  3. 只读需要的那几页
  4. 写代码 / 改 bug

这才是正确的使用文档的方式。

核心能力:

  • 🔍 自动识别 10 种主流文档框架(VitePress、Docsify、Mintlify、Docusaurus、mdBook、MkDocs、Starlight、GitBook、飞书文档、通用兜底)
  • 📁 保留原站层级结构,每个页面对应一个 .md 文件
  • 🧹 内容干净,去掉导航栏、侧边栏、页脚等噪音
  • 异步并发,爬完一个中等文档站只需几十秒
  • 💾 持久化存储,爬一次永久可用,跨 session 不丢失

在 OpenClaw 中使用(完整体验)

OpenClaw 是 DocsForAI 的第一公民平台。作为 Skill 安装后,AI Agent 会自动感知何时需要查文档,并主动去做——你甚至不需要明确说”查文档”。

安装

1
2
3
4
5
# 安装 Skill(OpenClaw 生态)
clawhub install docsforai

# 安装 Python 工具本体
uv tool install docsforai

没装过 ClawHub?先 npm i -g clawhub

自动化工作流

装好之后,Skill 会被 OpenClaw 自动加载。当你说:

  • “帮我查查 Pydantic V2 的 validator 怎么写”
  • “读一下 React Router 的文档”
  • “这个 API 的参数我记不清了”

AI 会自动触发 DocsForAI skill,完整流程如下:

1️⃣ 检查本地是否已有文档

1
ls ~/.openclaw/workspace/skills/docsforai/docs/

同时查阅 MEMORY.md 中的「已下载文档」记录——OpenClaw 的长期记忆机制确保 AI 跨 session 也知道哪些文档已经在本地了。

2️⃣ 没有就爬(全自动)

1
2
docsforai crawl https://docs.pydantic.dev -f multi-md \
-o ~/.openclaw/workspace/skills/docsforai/docs

自动创建 docs/pydantic/ 目录,里面是按原站结构组织的 Markdown 文件。

3️⃣ 按需读取(最关键的一步)

AI 不会把整个文档读进来,而是:

1
2
3
4
5
6
7
8
# 先看目录结构
find docs/pydantic -name "*.md" | sort

# 搜索关键词,精确定位
grep -rl "validator" docs/pydantic/ | head -5

# 只读相关文件
read docs/pydantic/concepts/validators.md

既省 token,又精准。

4️⃣ 记录到 MEMORY.md

爬取完成后,AI 会在 MEMORY.md 的「已下载文档」章节记录路径和时间。这是 OpenClaw 独有的能力——AI 有长期记忆,新 session 启动时一看就知道哪些文档在本地,不重复爬取。

主动查文档的决策机制

Skill 内置了一套完整的决策指引,AI 会在以下场景主动查阅文档

场景 AI 的行为
用一个没用过的 API 读 API reference 页
写框架配置 读 configuration guide
调试异常行为 搜索文档关键词,读匹配章节
实现复杂功能 先读 guide,再写代码
升级依赖版本 先查 migration / changelog

核心原则:文档在磁盘上就别猜,两秒读文档强过一个幻觉参数。


在 Claude Code / Codex 等其他工具中使用

DocsForAI 的底层是一个标准的 Python CLI 工具,不依赖 OpenClaw 也能用。如果你使用 Claude Code、Codex、Cursor 等工具,可以这样用:

安装

1
pip install docsforai

在提示词中引导 AI

把以下内容加到你的系统提示词(System Prompt)或项目的 CLAUDE.md / .cursorrules 中:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
## 文档查阅规则

当你需要使用某个库或框架的 API,但不确定具体用法时:

1. 先用 docsforai 爬取文档:
docsforai crawl <文档URL> -f multi-md -o ./docs

2. 浏览目录结构:
find ./docs/<站点名> -name "*.md" | sort

3. 搜索关键词定位:
grep -rl "<关键词>" ./docs/<站点名>/

4. 只读相关文件,不要一次性读取全部

原则:不要猜 API 参数,查文档。

这样 Claude Code 或 Codex 就知道怎么用 docsforai 了。虽然没有 OpenClaw 的 MEMORY.md 长期记忆和自动触发能力,但核心的”爬文档 + 按需读”完全可用。


为什么不用通用爬虫?

你可能会想:我用 Playwright 或者 requests 也能爬啊。

问题在于文档框架的特殊性

场景 通用爬虫 DocsForAI
VitePress 侧边栏结构 只能猜 直接读侧边栏 JSON
Docsify 内容 解析渲染后的 HTML 直接拉 .md 源文件
Mintlify 全量文档 逐页爬 一次请求读 llms-full.txt
代码块语言标注 经常丢 完整保留
Cloudflare 防护 403 失败 自动回退 curl

DocsForAI 针对每种框架都有专用解析器,不是 one-size-fits-all 的通用方案。


支持的框架(全部自动识别)

框架 检测方式 优化策略
VitePress .VPSidebar CSS 类 解析侧边栏 JSON,提取 .vp-doc 区域
Docsify $docsify 全局变量 直接拉 .md 源文件,跳过 HTML
Mintlify x-llms-txt 响应头 一次请求获取全量内容
Docusaurus generator meta 解析侧边栏,提取主内容区
mdBook #mdbook-sidebar 解析 toc.html 获取章节树
MkDocs generator meta 支持 Material 和默认主题
Starlight #starlight__sidebar 解析分组导航
GitBook generator meta 通过 sitemap.xml 发现页面
飞书文档 open.feishu.cn 调用飞书内部 API
Generic 兜底 BFS 遍历,启发式识别主内容区

真实使用场景

场景一:写一个没用过的库

“用 Hono 框架写一个 REST API”

AI 先爬 Hono 文档 → 读 Getting Started → 读 Routing → 读 Middleware → 写出来的代码每个 API 调用都是对的

场景二:调试一个奇怪的问题

“为什么 Pydantic V2 的 model_validate 不接受字典了?”

AI 搜索本地文档 grep -rl "model_validate" → 读到 Migration Guide → 发现 V2 变更了参数验证方式 → 准确修复。

场景三:升级依赖

“把项目从 VitePress 0.x 升级到 1.x”

AI 读 Migration 文档 → 逐条对照变更 → 改配置改代码,不遗漏。


和其他方案的对比

方案 准确性 上下文消耗 持久化 自动触发
AI 靠训练数据猜 ❌ 过时
手动复制文档到 prompt ✅ 但费力 ❌ 巨大
web_fetch 实时抓页面 ✅ 但粗糙 ⚠️ 噪音多
DocsForAI + OpenClaw ✅ 干净准确 ✅ 按需加载 ✅ MEMORY.md ✅ Skill 自动触发
DocsForAI + 提示词 ✅ 干净准确 ✅ 按需加载 ⚠️ 需手动管理 ⚠️ 需提示词引导

总结

DocsForAI 解决的是一个根本问题:AI 编程代理不应该靠记忆写代码,应该像人一样查文档。

在 OpenClaw 生态中,它是一个即装即用的 Skill——AI 知道什么时候该查文档、怎么查、查完记住。你不需要操心任何事。

在其他工具中,它是一个强大的 CLI——配合一段提示词,就能让任何 AI 编程代理学会查文档。

一行命令安装:

1
clawhub install docsforai

然后就忘了它的存在吧。当 AI 需要文档的时候,它会自己去找。


🔗 ClawHub:https://clawhub.ai/skills/docsforai
📦 PyPI:https://pypi.org/project/docsforai/
🐙 GitHub:https://github.com/dx2331lxz/DocsForAI

如果觉得有用,欢迎在 ClawHub 上 star ⭐,也欢迎提 Issue 或 PR。