Fiche outil · Recherche Utilisé par David

Firecrawl

par Firecrawl

Scraping web LLM-friendly — markdown propre, JS-rendered, anti-bot inclus, conçu pour les agents IA.

Essayer Firecrawl

Fondé en

2024

Siège

San Francisco, États-Unis (équipe distribuée)

Statut

Firecrawl Inc. · société privée, Y Combinator S24 batch

Fondateurs

Caleb Peffer · Nicolas Camara

D’où ils viennent

Firecrawl a été fondé en 2024 par Caleb Peffer et Nicolas Camara, deux développeurs qui avaient identifié un problème spécifique à l’ère des agents IA : les outils de scraping existants (Apify, Playwright, BeautifulSoup) retournaient du HTML brut ou des datasets structurés, mais aucun ne retournait du contenu directement utilisable par un LLM. Pour qu’un agent Claude ou GPT puisse lire le contenu d’un site, le développeur devait :

Scraper le HTML
Nettoyer le contenu (enlever nav, footer, ads, scripts)
Convertir en markdown
Tronquer si trop long

Firecrawl a proposé de faire ces 4 étapes en une seule requête API. Tu pointes une URL, tu reçois du markdown propre, prêt à être passé comme contexte à un LLM.

La société est passée par Y Combinator S24 en 2024 — validation que c’est un segment réel et croissant. En 2025, l’écosystème agent IA a explosé (Claude Code, Cursor, Lovable, etc.), et Firecrawl s’est positionné comme le scraper par défaut des agents. En 2026, intégration native dans Claude Code et Cursor via MCP — quand un agent IA a besoin de lire un site, c’est Firecrawl qui exécute.

Ce que c’est vraiment

Firecrawl est une API de scraping web focalisée sur l’usage LLM/agent. Les endpoints principaux :

/scrape — scraper une URL, retourner markdown + métadonnées
/crawl — crawler un site entier (suivre les liens internes jusqu’à profondeur N)
/map — découvrir toutes les URLs d’un site sans scraper le contenu
/search — recherche web + scraping des résultats (équivalent SerpAPI + scraping)
/extract — extraction structurée avec schéma JSON Zod-like (tu décris ce que tu veux, l’API utilise un LLM pour extraire)
/instruct (depuis 2025) — interaction avec une page (clic, fill form, scroll) via natural language

Capacités sous-jacentes :

Playwright + Chromium headless par défaut — JS-rendered support natif
Proxies datacenter inclus, proxies résidentiels sur Scale
Anti-bot automatique (rotation user agents, retry intelligent)
Markdown propre — nav, footer, ads, scripts filtrés
Mode raw HTML disponible si tu veux le HTML complet pour traitement custom
SDKs Python et Node officiels, MCP pour Claude Code

Le modèle de pricing est basé sur les crédits. Une page scrapée = 1 crédit en mode standard, +5 crédits avec stealth (proxies résidentiels). Plan Free : 500 crédits/mois. Hobby : 19 USD/mo pour 3 000 crédits. Standard : 99 USD/mo pour 100 000 crédits.

Comment ça s’intègre avec Claude Code

Pour un opérateur qui bâtit des agents qui interagissent avec le web depuis Claude Code, Firecrawl est devenu un défaut. Le flux typique :

Tu obtiens une clé API sur firecrawl.dev (Free tier suffisant pour tester)
Tu installes le SDK — pip install firecrawl-py ou npm install @mendable/firecrawl-js
Tu mets ta clé dans .env — FIRECRAWL_API_KEY=fc-...
Tu demandes à Claude Code de scraper un site — « va lire la doc officielle de Stripe sur les subscriptions et résume-moi les concepts clés en français » — l’agent appelle firecrawl.scrape(url), récupère le markdown, le résume en FR
Pour des crawls complets — « crawl toute la doc Anthropic et extrais les concepts liés au prompt caching » — l’agent utilise firecrawl.crawl(url, max_depth=2), traite le résultat batch

Le truc qui change vraiment : Firecrawl élimine la friction entre l’agent et le web. Versus Playwright self-host (gérer Chromium, proxies, retry, markdown conversion), Firecrawl en une ligne fait tout. C’est 19-99 USD/mois pour ne plus jamais maintenir un scraper.

Pour LeadLoup et Taverne AI, Firecrawl est utilisé ponctuellement par Claude Code pour lire des docs externes (API providers, services tiers), enrichir des fiches d’outils en allant chercher l’info officielle, et auditer des sites concurrents avant un PDF démo.

Pour qui c’est fait

Firecrawl est conçu pour les développeurs et opérateurs qui bâtissent avec des LLMs. Si tu fais du scraping classique pour alimenter une base de données interne (sans LLM derrière), Apify reste plus efficient. Si tu construis un agent IA qui doit lire le web, Firecrawl est dans son terrain de jeu.

Public idéal :

Développeurs qui bâtissent des agents IA (Claude Code, Cursor, agents custom)
Pipelines RAG qui ingèrent des sites entiers pour QA et search
Indie hackers qui prototypent des outils basés sur du data scraping LLM-augmenté
Solo opérateurs comme moi qui croisent scraping et LLMs au quotidien
SaaS qui extraient du contenu structuré de sites tiers (par exemple, agrégation de prix, fiches produits)

Public moins adapté : les workflows de scraping pur sans LLM derrière (Apify Actors pré-packagés font le travail à coût plus bas), les très grosses volumes où négocier directement avec des data providers, et les workflows ultra-spécifiques (LinkedIn, Instagram) où Phantombuster reste mieux.

Le verdict de la Taverne

J’utilise Firecrawl depuis 2025 dans plusieurs pipelines. Quand Claude Code a besoin de lire un site externe (doc Stripe, page LinkedIn d’un concurrent, doc API d’un nouveau fournisseur), c’est Firecrawl qui appelle.

Ce qui me garde dessus :

Le markdown propre par défaut. Versus Playwright + Cheerio + Turndown + nettoyage custom, Firecrawl le fait en une ligne. Gain de temps de développement énorme.
L’intégration MCP avec Claude Code transforme Firecrawl en outil natif de l’agent. Tu demandes en français, l’agent appelle Firecrawl, l’agent lit le résultat, l’agent répond.
L’endpoint /extract avec schéma est puissant. Tu décris ce que tu veux extraire (par exemple, « tous les produits de cette page e-commerce avec nom, prix, image »), tu reçois du JSON structuré. C’est ce qu’on faisait avec Beautiful Soup + selectors fragiles avant.
Le programme affiliate à 25 % les 12 premiers mois est honnête. Cookie 90j généreux.

Ce qui m’agace :

Les coûts peuvent grimper sur les crawls volumineux. Crawler 10 000 pages = 10 000 crédits = ~100 USD si tu n’es pas sur Standard. Faut planifier.
Pas d’écosystème de scrapers pré-packagés comme Apify Store. Pour des sites populaires (LinkedIn, Instagram), faut coder l’extraction toi-même versus prendre un Actor Apify clé en main.
Configurabilité limitée versus Playwright self-host pour les cas vraiment custom (workflows multi-step complexes, captcha solving avancé).
Pas de proxies résidentiels en Hobby — pour scraper Cloudflare-protected, faut Standard ou Scale.

Bottom line : si tu bâtis des agents IA qui interagissent avec le web en 2026, Firecrawl est probablement dans ton stack. Plan Hobby à 19 USD/mo pour solo, Standard à 99 USD/mo pour pipelines de production réguliers.

Disclosure affiliate : si tu signes via mon lien Firecrawl (plans Hobby et Standard), je touche 25 % de commission récurrente les 12 premiers mois, puis 15 % à vie. Firecrawl est dans mon stack actif — donc la recommandation est authentique. Pour les développeurs d’agents IA francophones, c’est un outil que je recommanderais même sans commission.

Au Québec

L’interface est en anglais seulement (pas de localisation FR). Facturation USD via Stripe (~38 % de change en CAD). Pas de TPS/TVQ ajoutée à la facture — Firecrawl n’a pas de présence taxable au Canada en 2026.

Conformité Loi 25 : si tu utilises Firecrawl pour scraper des données personnelles (emails individuels, profils nominatifs), tu deviens responsable du traitement au sens de la Loi 25, comme avec Apify ou tout autre outil de scraping. Firecrawl est neutre — la responsabilité éthique et légale reste sur toi.

Pour la majorité des usages Firecrawl (scraping de docs publiques, de contenus marketing, d’articles), il n’y a pas de question Loi 25 — ce n’est pas du traitement de données personnelles.

Le service tourne sur infra US (AWS principalement) — pour des données strictement sensibles soumises à résidence canadienne, Firecrawl n’est pas la bonne option. Envisager du self-host Playwright + ton propre setup proxies sur Railway région US-East (latence acceptable depuis Montréal).

L’abonnement Firecrawl est déductible comme dépense d’exploitation pour entreprises et travailleurs autonomes au Québec.

Plans tarifaires

Free

Gratuit

500 crédits/mois, support communauté

Suffit pour tester et petits scrapings ponctuels

Hobby

19 $US/mois

3 000 crédits/mois, concurrence augmentée, support email

Le sweet spot pour solo opérateurs

Standard

99 $US/mois

100 000 crédits/mois, plus de concurrence, support prioritaire

Pour pipelines de production réguliers

Scale

399 $US/mois

500 000 crédits/mois, proxies résidentiels, SLA

Pour grosse volume RAG ou agents en prod

Enterprise

Gratuit

Tarification négociée, custom proxies, support dédié

À partir de plusieurs milliers USD/mois

Ce qui marche

✦ Format markdown propre par défaut, directement utilisable par LLMs
✦ Endpoints minimalistes (scrape, crawl, map, search, extract)
✦ Anti-bot inclus (proxies datacenter en standard, résidentiels en Scale)
✦ SDKs Python et Node officiels, MCP pour Claude Code en 2026
✦ Mode 'extract' avec schema JSON pour extraction structurée

Ce qui agace

· Interface en anglais seulement
· Coûts qui peuvent grimper rapidement sur des crawls volumineux
· Moins de configurabilité que Playwright self-host
· Pas d'écosystème de scrapers pré-packagés comme Apify Store
· Plan Hobby exclut certaines fonctionnalités avancées (proxies résidentiels)

Pour qui

Développeurs qui bâtissent des agents IA avec accès au web
Pipelines RAG qui ingèrent des sites entiers pour QA et search
Indie hackers qui prototypent des outils basés sur du data scraping
Solo opérateurs comme moi qui croisent scraping et LLMs
SaaS qui ont besoin d'extraire du contenu structuré de sites tiers

Alternatives

Questions fréquentes

Qu'est-ce qui rend Firecrawl 'LLM-friendly' ?

Trois choses : (1) le contenu est retourné en markdown propre par défaut, pas en HTML brut — directement utilisable comme contexte pour Claude/GPT, (2) les éléments non-pertinents (navigation, footer, popups, scripts) sont automatiquement filtrés, (3) le mode `extract` permet de demander une extraction structurée avec un schéma JSON Zod-like.

Firecrawl gère-t-il les sites JS-lourds ?

Oui — Firecrawl utilise Playwright sous le capot et exécute le JavaScript par défaut. Les sites Next.js, React, Astro, Vue qui rendent côté client sont scrapés correctement. Tu peux désactiver le JS pour économiser des crédits sur des sites statiques (option `formats: ['markdown']` sans `formats: ['rawHtml']`).

Combien coûte Firecrawl en pratique ?

Plan Free : 500 crédits/mois. Hobby : 19 USD/mo pour 3 000 crédits. Standard : 99 USD/mo pour 100 000 crédits. Une page scrapée coûte typiquement 1 crédit, 1 site map ~1 crédit, un crawl complet d'un site dépend du nombre de pages. Pour usage régulier de Claude Code avec Firecrawl, le plan Hobby suffit pour la plupart.

Firecrawl peut-il contourner les Cloudflare ou Datadome ?

Firecrawl inclut de l'anti-bot léger par défaut (rotation user agents, proxies datacenter). Pour des sites très protégés (Cloudflare Bot Management aggressive, Datadome), tu peux activer le mode `stealth` (consommation +5 crédits/page) qui utilise des proxies résidentiels. Ça ne garantit pas 100 %, mais ça augmente significativement le taux de succès.

Mises à jour

/monitor27 mai 2026 dernier
- ▸Notifie les agents IA des changements de pages web en temps réel
- ▸Réduit l'utilisation de tokens LLM jusqu'à 90%
- ▸Ingère uniquement les contenus modifiés
Endpoint de monitoring pour détecter les changements web et notifier les agents IA.
Firecrawl sur Vercel Marketplace26 mai 2026
- ▸Intégration native sur Vercel Marketplace
- ▸Installation en un clic avec injection automatique de clé API
- ▸Facturation directement via Vercel
Firecrawl est maintenant disponible nativement sur le marketplace Vercel.
Question and Highlights Formats8 mai 2026
- ▸Réponses fondées sur des pages web avec une seule requête API
- ▸Extraits verbatim avec le format highlights
- ▸Consommation de tokens réduite de 100x vs scrape complet
- ▸Stack LLM entièrement géré avec protection contre l'injection de prompts
Deux nouveaux formats pour /scrape optimisés pour les réponses LLM à faible coût.
Lockdown Mode30 avril 2026
- ▸Mode scrape cache-only sans requête sortante
- ▸Zéro rétention de données
- ▸Un flag unifié sur tous les SDKs, CLI et MCP
- ▸Idéal pour les environnements sécurisés
Mode de scrape privé et sans réseau pour applications sensibles.
/parse Endpoint28 avril 2026
- ▸Upload PDF, Word doc ou feuille de calcul
- ▸Retour en markdown clean, résumé ou JSON structuré
- ▸Traitement en une seule requête
- ▸Support multi-formats de documents
Nouveau endpoint pour transformer documents en données prêtes pour LLM.
Firecrawl /search sur OpenRouter21 avril 2026
- ▸Recherche web intégrée nativement à OpenRouter
- ▸Un toggle pour fonder tous les modèles en données web live
- ▸Contenu markdown-ready sur chaque page
- ▸Compatible avec tous les modèles OpenRouter
Firecrawl devient moteur de recherche officiel sur OpenRouter.
Firecrawl web-agent (Open Source)16 avril 2026
- ▸Stack agent léger pour recherche et extraction web
- ▸Scaffold projet complet en secondes
- ▸Fork, étend et déploie selon tes besoins
- ▸Code source public et extensible
Agent web open-source pour recherche et extraction autonome.
/extract v216 avril 2026
- ▸Support natif de la pagination automatique
- ▸Interactions intelligentes via FIRE-1
- ▸Recherche intégrée dans /extract
- ▸Workflows d'extraction drastiquement améliorés
Version 2 de /extract avec pagination, FIRE-1 et recherche intégrée.
FIRE-1 Agent15 avril 2026
- ▸Agent IA pour actions web intelligentes
- ▸Navigation et interaction autonomes
- ▸Prise de décision sur contenu dynamique
- ▸Intégration native à tous les endpoints
Agent web FIRE-1 pour navigation et interactions intelligentes.
Fire-PDF Engine14 avril 2026
- ▸Moteur de parsing PDF basé Rust
- ▸3.5-5x plus rapide que l'ancienne version
- ▸Optimisation intelligente de l'utilisation GPU
- ▸Meilleure précision sur layouts complexes
Nouveau parseur PDF Rust 3.5-5x plus rapide et précis.
Change Tracking Amélioré14 avril 2026
- ▸Insights détaillés sur mises à jour de pages
- ▸Diffs précis et comparaisons structurées
- ▸Suivi des modifications côté données
- ▸Monitoring automatisé des changements
Change Tracking amélioré avec diffs et comparaisons structurées.
/interact Endpoint25 mars 2026
- ▸Scrape et interactions dynamiques en une seule requête
- ▸Click, fill forms, navigate via prompts IA ou code
- ▸Support des contenus dynamiques
- ▸Intégration transparente avec /scrape
Nouvel endpoint pour scraper et interagir dynamiquement avec pages web.
PDF Parser v226 février 2026
- ▸Parser Rust 3x plus rapide
- ▸Trois modes intelligents de parsing
- ▸Adaptation automatique au type de document
- ▸Handling de layouts scannés complexes
Parser PDF v2 Rust 3x plus rapide avec 3 modes intelligents.
Browser Sandbox18 février 2026
- ▸Environnement browser isolé et sécurisé pour agents IA
- ▸Zéro configuration requise
- ▸Pré-chargé avec outils utiles
- ▸Compatible avec scrape et search endpoints
Sandbox browser géré pour agents IA avec isolation complète.
Branding Format v26 février 2026
- ▸Extraction logos significativement améliorée
- ▸Meilleure compatibilité avec builders modernes
- ▸Données marque structurées pour agents IA
- ▸Précision accrue sur métadonnées brand
Branding Format v2 avec extraction logos améliorée.
Parallel Agents30 janvier 2026
- ▸Batch processing de centaines/milliers de requêtes /agent
- ▸Formats spreadsheet et JSON supportés
- ▸Résultats en streaming temps réel
- ▸Traitement massif parallélisé
Agents parallèles pour batch processing à grande échelle.
Firecrawl Skill et CLI27 janvier 2026
- ▸Commande unique pour toolkit web complet des agents
- ▸Support scrape, search, browse en un flag
- ▸Compatible Claude Code, Codex, Gemini CLI
- ▸MCP standard pour tous les agents
Skill et CLI unifiés pour toolkit web d'agents IA.
Spark 1 Pro et Spark 1 Mini14 janvier 2026
- ▸Spark 1 Mini 60% moins cher pour tâches standard
- ▸Spark 1 Pro pour extraction complexe haute précision
- ▸Sélection flexible de modèles via /agent
- ▸Optimisation coût vs qualité
Deux variantes Spark 1 pour optimiser coût et précision.
/agent Endpoint18 décembre 2025
- ▸Recherche autonome et navigation de sites complexes
- ▸Extraction de données en lieux difficiles d'accès
- ▸Automatisation tâches prenant heures manuellement
- ▸Intelligence intégrée pour exploration web
/agent endpoint pour recherche et extraction autonome web.
Firecrawl v2.530 octobre 2025
- ▸Qualité et couverture web données maximales
- ▸Semantic Index propriétaire
- ▸Custom browser stack optimisé
- ▸Fiabilité et pertinence supérieures
v2.5 avec Semantic Index et stack browser custom pour meilleure qualité.
Firecrawl /search Endpoint3 juin 2025
- ▸Recherche web + contenu LLM-ready en une requête
- ▸Markdown préformaté pour chaque résultat
- ▸API simple pour agents et développeurs
- ▸Accès web data rapide et structuré
/search endpoint pour recherche web et scrape combinés.
Deep Research API27 mars 2025
- ▸Recherche web autonome et IA-powered
- ▸Investigation approfondie sur n'importe quel sujet
- ▸Résultats structurés et synthétisés
- ▸Agent de recherche entièrement autonome
API Deep Research pour recherche web autonome et approfondie.

Histoire

2024 Fondation par Caleb Peffer et Nicolas Camara. Lancement en bêta publique avec focus 'scraping for LLMs'.
2024 Y Combinator S24 batch — Firecrawl est validé par YC comme une opportunity dans l'écosystème agent IA.
2025 Lancement du mode 'extract' (extraction structurée avec schema). Plus de 5 000 développeurs actifs.
2026 Intégration native dans Claude Code et Cursor via MCP. Firecrawl devient le scraper par défaut des agents IA modernes.

Langues natives: EN
Site officiel: www.firecrawl.dev
Page tarifs: Voir la grille

Articles qui mentionnent Firecrawl

Aucun article ne cite encore Firecrawl. Cette section se remplira automatiquement à mesure que la rédaction publie.

Fiche maintenue par David Cyr · Taverne AI