D’où ils viennent
Firecrawl a été fondé en 2024 par Caleb Peffer et Nicolas Camara, deux développeurs qui avaient identifié un problème spécifique à l’ère des agents IA : les outils de scraping existants (Apify, Playwright, BeautifulSoup) retournaient du HTML brut ou des datasets structurés, mais aucun ne retournait du contenu directement utilisable par un LLM. Pour qu’un agent Claude ou GPT puisse lire le contenu d’un site, le développeur devait :
- Scraper le HTML
- Nettoyer le contenu (enlever nav, footer, ads, scripts)
- Convertir en markdown
- Tronquer si trop long
Firecrawl a proposé de faire ces 4 étapes en une seule requête API. Tu pointes une URL, tu reçois du markdown propre, prêt à être passé comme contexte à un LLM.
La société est passée par Y Combinator S24 en 2024 — validation que c’est un segment réel et croissant. En 2025, l’écosystème agent IA a explosé (Claude Code, Cursor, Lovable, etc.), et Firecrawl s’est positionné comme le scraper par défaut des agents. En 2026, intégration native dans Claude Code et Cursor via MCP — quand un agent IA a besoin de lire un site, c’est Firecrawl qui exécute.
Ce que c’est vraiment
Firecrawl est une API de scraping web focalisée sur l’usage LLM/agent. Les endpoints principaux :
/scrape— scraper une URL, retourner markdown + métadonnées/crawl— crawler un site entier (suivre les liens internes jusqu’à profondeur N)/map— découvrir toutes les URLs d’un site sans scraper le contenu/search— recherche web + scraping des résultats (équivalent SerpAPI + scraping)/extract— extraction structurée avec schéma JSON Zod-like (tu décris ce que tu veux, l’API utilise un LLM pour extraire)/instruct(depuis 2025) — interaction avec une page (clic, fill form, scroll) via natural language
Capacités sous-jacentes :
- Playwright + Chromium headless par défaut — JS-rendered support natif
- Proxies datacenter inclus, proxies résidentiels sur Scale
- Anti-bot automatique (rotation user agents, retry intelligent)
- Markdown propre — nav, footer, ads, scripts filtrés
- Mode raw HTML disponible si tu veux le HTML complet pour traitement custom
- SDKs Python et Node officiels, MCP pour Claude Code
Le modèle de pricing est basé sur les crédits. Une page scrapée = 1 crédit en mode standard, +5 crédits avec stealth (proxies résidentiels). Plan Free : 500 crédits/mois. Hobby : 19 USD/mo pour 3 000 crédits. Standard : 99 USD/mo pour 100 000 crédits.
Comment ça s’intègre avec Claude Code
Pour un opérateur qui bâtit des agents qui interagissent avec le web depuis Claude Code, Firecrawl est devenu un défaut. Le flux typique :
- Tu obtiens une clé API sur firecrawl.dev (Free tier suffisant pour tester)
- Tu installes le SDK —
pip install firecrawl-pyounpm install @mendable/firecrawl-js - Tu mets ta clé dans
.env—FIRECRAWL_API_KEY=fc-... - Tu demandes à Claude Code de scraper un site — « va lire la doc officielle de Stripe sur les subscriptions et résume-moi les concepts clés en français » — l’agent appelle
firecrawl.scrape(url), récupère le markdown, le résume en FR - Pour des crawls complets — « crawl toute la doc Anthropic et extrais les concepts liés au prompt caching » — l’agent utilise
firecrawl.crawl(url, max_depth=2), traite le résultat batch
Le truc qui change vraiment : Firecrawl élimine la friction entre l’agent et le web. Versus Playwright self-host (gérer Chromium, proxies, retry, markdown conversion), Firecrawl en une ligne fait tout. C’est 19-99 USD/mois pour ne plus jamais maintenir un scraper.
Pour LeadLoup et Taverne AI, Firecrawl est utilisé ponctuellement par Claude Code pour lire des docs externes (API providers, services tiers), enrichir des fiches d’outils en allant chercher l’info officielle, et auditer des sites concurrents avant un PDF démo.
Pour qui c’est fait
Firecrawl est conçu pour les développeurs et opérateurs qui bâtissent avec des LLMs. Si tu fais du scraping classique pour alimenter une base de données interne (sans LLM derrière), Apify reste plus efficient. Si tu construis un agent IA qui doit lire le web, Firecrawl est dans son terrain de jeu.
Public idéal :
- Développeurs qui bâtissent des agents IA (Claude Code, Cursor, agents custom)
- Pipelines RAG qui ingèrent des sites entiers pour QA et search
- Indie hackers qui prototypent des outils basés sur du data scraping LLM-augmenté
- Solo opérateurs comme moi qui croisent scraping et LLMs au quotidien
- SaaS qui extraient du contenu structuré de sites tiers (par exemple, agrégation de prix, fiches produits)
Public moins adapté : les workflows de scraping pur sans LLM derrière (Apify Actors pré-packagés font le travail à coût plus bas), les très grosses volumes où négocier directement avec des data providers, et les workflows ultra-spécifiques (LinkedIn, Instagram) où Phantombuster reste mieux.
Le verdict de la Taverne
J’utilise Firecrawl depuis 2025 dans plusieurs pipelines. Quand Claude Code a besoin de lire un site externe (doc Stripe, page LinkedIn d’un concurrent, doc API d’un nouveau fournisseur), c’est Firecrawl qui appelle.
Ce qui me garde dessus :
- Le markdown propre par défaut. Versus Playwright + Cheerio + Turndown + nettoyage custom, Firecrawl le fait en une ligne. Gain de temps de développement énorme.
- L’intégration MCP avec Claude Code transforme Firecrawl en outil natif de l’agent. Tu demandes en français, l’agent appelle Firecrawl, l’agent lit le résultat, l’agent répond.
- L’endpoint
/extractavec schéma est puissant. Tu décris ce que tu veux extraire (par exemple, « tous les produits de cette page e-commerce avec nom, prix, image »), tu reçois du JSON structuré. C’est ce qu’on faisait avec Beautiful Soup + selectors fragiles avant. - Le programme affiliate à 25 % les 12 premiers mois est honnête. Cookie 90j généreux.
Ce qui m’agace :
- Les coûts peuvent grimper sur les crawls volumineux. Crawler 10 000 pages = 10 000 crédits = ~100 USD si tu n’es pas sur Standard. Faut planifier.
- Pas d’écosystème de scrapers pré-packagés comme Apify Store. Pour des sites populaires (LinkedIn, Instagram), faut coder l’extraction toi-même versus prendre un Actor Apify clé en main.
- Configurabilité limitée versus Playwright self-host pour les cas vraiment custom (workflows multi-step complexes, captcha solving avancé).
- Pas de proxies résidentiels en Hobby — pour scraper Cloudflare-protected, faut Standard ou Scale.
Bottom line : si tu bâtis des agents IA qui interagissent avec le web en 2026, Firecrawl est probablement dans ton stack. Plan Hobby à 19 USD/mo pour solo, Standard à 99 USD/mo pour pipelines de production réguliers.
Disclosure affiliate : si tu signes via mon lien Firecrawl (plans Hobby et Standard), je touche 25 % de commission récurrente les 12 premiers mois, puis 15 % à vie. Firecrawl est dans mon stack actif — donc la recommandation est authentique. Pour les développeurs d’agents IA francophones, c’est un outil que je recommanderais même sans commission.
Au Québec
L’interface est en anglais seulement (pas de localisation FR). Facturation USD via Stripe (~38 % de change en CAD). Pas de TPS/TVQ ajoutée à la facture — Firecrawl n’a pas de présence taxable au Canada en 2026.
Conformité Loi 25 : si tu utilises Firecrawl pour scraper des données personnelles (emails individuels, profils nominatifs), tu deviens responsable du traitement au sens de la Loi 25, comme avec Apify ou tout autre outil de scraping. Firecrawl est neutre — la responsabilité éthique et légale reste sur toi.
Pour la majorité des usages Firecrawl (scraping de docs publiques, de contenus marketing, d’articles), il n’y a pas de question Loi 25 — ce n’est pas du traitement de données personnelles.
Le service tourne sur infra US (AWS principalement) — pour des données strictement sensibles soumises à résidence canadienne, Firecrawl n’est pas la bonne option. Envisager du self-host Playwright + ton propre setup proxies sur Railway région US-East (latence acceptable depuis Montréal).
L’abonnement Firecrawl est déductible comme dépense d’exploitation pour entreprises et travailleurs autonomes au Québec.