跳到主内容
个人站点
← 返回 Skill 目录
Web抓取Markdown

Firecrawl Scrape

从任意 URL 提取干净 Markdown,支持 JS 渲染页面,是 Web 内容获取的标准 Skill。

访问官方资源 ↗

简介

Firecrawl Scrape 是 Firecrawl 工具链中的核心 Skill,让 Agent 能够从任意网页 URL 提取结构化 Markdown 内容。它支持 JavaScript 渲染的单页应用(SPA),自动处理动态加载内容,是构建 Web 研究、内容分析、竞品监控等 Agent 工作流的基础能力。

使用流程

  1. 在 Cursor 中确保已安装并配置 firecrawl-cli(运行 firecrawl login 完成认证)

  2. 在对话中描述需要抓取的 URL 和目标(如「抓取该页面正文为 Markdown」)

  3. Agent 调用 firecrawl scrape 技能,传入 URL 与可选参数(格式、等待时间等)

  4. 获取返回的 Markdown 内容,用于摘要、分析或写入本地文件

  5. 如需多页抓取,可链式调用 firecrawl crawl 或 map 技能扩展范围

适用场景

  • 抓取技术文档、博客文章用于 Agent 上下文
  • 竞品页面内容分析与对比
  • 将网页内容转为 Markdown 存档
  • 为 RAG 知识库采集公开网页数据

前置条件

  • 已安装 firecrawl-cli 并完成 firecrawl login
  • 目标 URL 可公开访问(无需登录)
  • 网络可访问 firecrawl.dev API

使用提示

  • 复杂 SPA 页面可指定 waitFor 参数等待渲染完成
  • 批量抓取时注意 API 配额与速率限制
  • 敏感页面请确认合规后再抓取