
È sempre più frequente che un imprenditore o un responsabile IT noti traffico anomalo sul sito web o venga informato del fatto che il sito consuma più risorse del solito, guardi i log del proprio sito e pensi:
“Ma il server è sotto attacco? Perché il traffico è esploso?”.
In molti casi, però, non si tratta di un DDoS o di un hacker classico, bensì di bot crawler delle AI che indicizzano e attingono informazioni dai siti web.
Nel 2026 i bot AI‑crawler stanno diventando parte strutturale del traffico web: OpenAI, Anthropic, Perplexity, Google, Microsoft, ByteDance e altri stanno rilasciando crawler specifici (GPTBot, ClaudeBot, PerplexityBot, Bytespider, Google‑Extended, ecc.) che visitano milioni di pagine al giorno per addestrare modelli, alimentare motori di risposta e costruire motori di ricerca AI‑assistiti.
In questo articolo ti spieghiamo come riconoscere i bot crawler delle AI che “leggono” il tuo sito, quali sono i rischi reali per il tuo business (banda, CDN, concorrenza, protezione dei contenuti) e come impostare una strategia tecnica e operativa per gestirli senza bloccare ingiustamente il traffico utile.
Chi sono davvero i bot crawler delle AI oggi
Dalla ricerca tradizionale ai crawler AI‑specifici
Fino a poco tempo fa il traffico automatizzato era dominato da Googlebot, BingBot, Yahoo Slurp e altri crawler SEO. Oggi, accanto a questi, si sono affiancati crawler AI‑specifici che hanno obiettivi diversi:
- Indicizzazione per modelli linguistici (training di LLM come GPT‑4/5, Claude, Gemini ecc.),
- Indicizzazione per motori di ricerca AI‑assistiti (risposte generate, citazioni, link inline),
- Indicizzazione per agenti autonomi (AI che prendono decisioni, fanno acquisti, prenotano, ecc.).
Questi bot si identificano nei log con user agent specifici, chiaramente documentati dalle aziende (OpenAI, Anthropic, Perplexity, ByteDance, ecc.).
OpenAI ad esempio, indica chiaramente quali sono i sui bot, i loro indirizzi IP e come riconoscerli: qui
Principali bot crawler AI che “leggono” il tuo sito
Di seguito una sintesi di alcuni dei più comuni AI‑crawler che puoi trovare nei tuoi log:
| Bot crawler AI | Proprietario | Scopo principale |
|---|---|---|
| GPTBot | OpenAI | Addestra modelli linguistici partendo da contenuti web. |
| ChatGPT‑User | OpenAI | Visita pagine real‑time dopo una richiesta dell’utente in ChatGPT. |
| ClaudeBot | Anthropic | Crawling per miglioramento di Claude (training e ricerca). |
| PerplexityBot | Perplexity | Indicizza siti per costruire il motore di risposta e citare le fonti. |
| Google‑Extended | Google (Gemini) | Crawler per modelli AI‑assistiti di Google. |
| Bytespider | ByteDance (TikTok/Douyin) | Crawling per contenuti e modelli AI aziendali. |
| Amazonbot | Amazon | Crawler per modelli e servizi AI interni. |
Questi bot sono tutti strumenti “legittimi” che però, se non gestiti, possono generare milioni di richieste al mese, impattando banda, CDN e costi operativi.
Come capire se il tuo sito è “visitato” dai bot crawler delle AI?
Primi segnali nei log e nelle metriche
Senza entrare subito in analisi profonde, puoi già notare alcune cose analizzando i dati del tuo sito web:
- Picchi notturni di traffico con distribuzione “troppo perfetta” (niente ore‑morte, richieste continue).
- Alta percentuale di richieste da data center (range IP pubblici di grandi cloud/AI, non utenti residenziali).
- Bounce rate molto basso o molto alto, tempi di permanenza vicini a 0, assenza di interazioni con form, bottoni, scroll.
- Sessioni super lunghe ma lineari (es. 100 pagine al secondo, tutte scaricate in ordine, senza click “umani”).
Questi schemi sono tipici dei crawler AI e si riflettono anche nelle eventuali dashboard di Cloudflare, WAF, CDN e strumenti come GA4.
Come identificare i bot crawler delle AI nei tuoi log?
Server access logs (Apache/Nginx)
Per un’analisi precisa devi guardare i log del tuo server web, non solo le metriche di analytics.
Esempio di log con ClaudeBot:
216.73.216.152 - - [19/Mar/2026:06:43:36 +0100] "GET <INDIRIZZO PAGINA WEB> HTTP/1.0" 200 10153 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)"
Per isolare i bot crawler AI nel tuo file access.log puoi usare comandi come:
# Estrarre solo le richieste dei bot AI
grep -E "(GPTBot|ClaudeBot|PerplexityBot|Bytespider|Google-Extended|ChatGPT-User|anthropic-ai|Perplexity-User)" access.log
# Contare quante richieste per bot
grep -oE "(GPTBot|ClaudeBot|PerplexityBot|Bytespider|Google-Extended)" access.log | sort | uniq -c | sort -nr
# Calcolare la banda usata da GPTBot (es. MegaBytes)
grep "GPTBot" access.log | awk '{sum += $10} END {print sum/1024/1024 " MB"}'
Questo ti permette di:
- sapere quale bot sta consumando più banda,
- capire quante richieste al minuto/ora genera,
- individuare quali pagine sono “sorvegliate” più spesso (cataloghi, prezzi, FAQ, ecc.).
Analytics e dashboard CDN
In GA4 puoi filtrare sessioni con UA contenente GPTBot, ClaudeBot, PerplexityBot, ecc., per capire quale bot genera traffico “visibile” anche lato analytics.
In Cloudflare Analytics & Logs puoi vedere la sezione Top Crawlers, con percentuale di traffico, richieste e trend nel tempo.
Impatto reale dei bot crawler delle AI sui siti aziendali
Costi e performance
Per un sito medio‑grande, anche un solo crawler AI aggressivo può generare milioni di richieste al mese, con effetti concreti su:
- Banda e CDN: traffico che può crescere anche del 40–60% senza portare valore diretto di conversione.
- Latency: richieste continue, spesso su endpoint pesanti ( pagine dinamiche con query pesanti nel DB), rallentano il sito per gli utenti reali.
- Costi operativi: se il CDN è tariffato per traffico, il costo può raddoppiare solo per il crawling AI non gestito.
Concetti competitivi e uso dei contenuti
Per un’azienda che pubblica cataloghi, prezzi, listini, whitepaper, ricerche, FAQ:
- può essere un vantaggio essere citati da GPTBot, ClaudeBot, PerplexityBot, perché il tuo sito diventa “fonte ufficiale” delle risposte AI.
- può essere un rischio se il tuo contenuto viene usato per addestrare modelli concorrenti, senza che tu ne tragga value diretto (es. SEO, contatto, traffico di ritorno).
Legalità e responsabilità
- I bot crawler più “seri” (OpenAI, Anthropic, Perplexity, Google‑Extended) pubblicano gli IP, i UA e spiegano chiaramente lo scopo, permettendo al proprietario del sito di opt‑out tramite
robots.txto blocco. - Altri crawler, meno trasparenti o mascherati, possono violare termini di servizio o policy e risultare più difficili da tracciare e gestire.
Come gestire i bot crawler delle AI: strategia operativa
Distinguerli: “buoni”, “utili” e “aggressivi”
Non tutti i bot AI sono uguali. Puoi ragionare in tre macro‑categorie:
| Tipo di bot AI | Esempi tipici | Cosa fare |
|---|---|---|
| Bot “buoni” per SEO/visibilità | GPTBot, ClaudeBot, PerplexityBot, Google‑Extended (per risposta citata) | Lasciare libero, eventualmente limitare solo sottosezioni o endpoint pesanti. |
| Bot “aggressivi” ma identificabili | Bytespider, altri crawler non documentati chiaramente | Limitare fortemente o bloccare tramite WAF/robots.txt e rate limiting. |
| Bot malevoli / non‑bot | Attacchi, scraping non‑etichettato, bot anonimi | Gestire con WAF, bot‑management e security policy. |
Usare robots.txt in modo consapevole
Per i crawler AI‑specifici, il file robots.txt è il primo livello di controllo, anche se non è una protezione “hard” ma solo un’indicazione di come vorremmo che si comportassero.
Esempio di configurazione consapevole:
User-agent: GPTBot
Allow: /blog/
Allow: /about/
Disallow: /catalog/
Disallow: /pricing/
Disallow: /admin/
User-agent: ClaudeBot
Allow: /blog/
Disallow: /catalog/
Disallow: /pricing/
User-agent: PerplexityBot
Allow: /blog/
Allow: /case-studies/
Disallow: /catalog/
Disallow: /pricing/
Disallow: /private/
User-agent: Google-Extended
Allow: /blog/
Allow: /services/
Disallow: /catalog/
Disallow: /pricing/
User-agent: Bytespider
Disallow: /
User-agent: *
Allow: /
In questo modo ( è solo un esempio, usa i tuoi URL reali):
- lasci aperto il contenuto “brand” e informativo (blog, società, casi studio),
- chiudi o limiti aree sensibili (catalogo, prezzi, area admin, contenuti privati).
Rate limiting e limitazione server‑side
Per i bot AI‑crawler più aggressivi, bisogna passare da regole “soft” a limiti tecnici chiari.
Esempio di configurazione di Nginx:
# Rate limiting per bot AIlimit_req_zone $binary_remote_addr zone=ai_bot:10m rate=10r/s;
limit_conn_zone $binary_remote_addr zone=ai_conn:10m;
server {
location / {
# Limita le richieste per IP (bot AI tendono a usare pochi indirizzi)
limit_req zone=ai_bot burst=20 nodelay;
limit_conn ai_conn 5;
# Sui percorsi sensibili, limiti ancora più severi
location ~* "/(catalog|pricing|admin)" {
limit_req zone=ai_bot burst=5 nodelay;
limit_conn ai_conn 2;
}
include fastcgi_params;
# ...
}
}
Questo schema:
- riduce il numero di richieste al secondo,
- impedisce che il bot saturi il pool di connessioni,
- lascia comunque passare il traffico umano.
WAF e bot‑management
Strumenti come Cloudflare Bot Management, Imperva, Akamai, AWS Shield e simili offrono:
- blocking selettivo per user agent (
GPTBot,ClaudeBot,PerplexityBot, ecc.), - rate limiting granulare per IP/ASN,
- bot score (machine‑learning che valuta il livello di rischio e applica challenge o blocchi).
Questi sistemi sono particolarmente utili per:
- e‑commerce,
- siti con cataloghi, prezzi, form di contatto sensibili,
- siti web con contenuti di alto valore.
Conviene far entrare i bot crawler delle AI se voglio essere citato?
Se il tuo obiettivo è che le AI citino il tuo sito, i tuoi dati o i tuoi risultati quando rispondono agli utenti, allora la risposta tende a essere sì: il controllo è più importante della chiusura totale.
Quando lasciare entrare i bot AI ha senso
Per molte aziende, permettere ai crawler specifici di leggere il contenuto pubblico rappresenta un vantaggio concreto.
Quando:
- il tuo sito ospita contenuti di valore informativo (blog, whitepaper, ricerche, FAQ, casi studio),
- vuoi apparire come fonte autorevole nelle risposte di ChatGPT, Perplexity, Claude, Gemini, ecc.,
- desideri che il tuo brand sia cliccabile in una citazione diretta (con link che porta al tuo sito),
dei bot come GPTBot, ClaudeBot, PerplexityBot devono poter leggere il contenuto.
Se blocchi questi crawler:
- il tuo sito non entra nel loro training set o nel loro indici di risposta,
- resti visibile solo attraverso il traffico tradizionale, mentre molte decisioni di ricerca passano già dai motori generativi.
Quando limitare è una decisione strategica
Non è detto però che “lasciare tutto aperto” sia la scelta migliore.
Conviene limitare o bloccare i bot AI su:
- cataloghi, prezzi, offerte di canale, margini,
- contenuti protetti da copyright o riservati (es. report interni, documenti commerciali),
- zone ad accesso controllato (client area, intranet, dashboard private).
In questi casi, puoi:
- disallow solo dei percorsi sensibili in
robots.txt, - proteggere con autenticazione le pagine che non vuoi siano copiate in modo brutale dai modelli di terze parti.
Come bilanciare “visibilità AI” e “protezione”
Una strategia efficace può essere:
- Permettere i bot AI sui contenuti “pubblici di valore”
- blog, pagine di caso studio, ricerche, contenuti di opinione, FAQ aperte.
- Bloccarli sulle aree sensibili
- prezzi, listini, cataloghi, dati di mercato, aree cliente.
- Rendere il contenuto “facile da citare”
- risposte chiare all’inizio dei paragrafi,
- dati numerici, fonti, nomi di aziende e ricerche ben evidenziate.
In questo modo il tuo sito mantiene la visibilità nei motori AI, ma non espone dati sensibili che non vuoi vengano usati come “materiale gratuito” per addestrare modelli o fornire risposte ai tuoi concorrenti.
Case study: gestione bot crawler AI su un sito aziendale e‑commerce
Scenario iniziale
- Sito: e‑commerce.
- Problema:
- picchi di traffico principalmente notturni ma anche diurni,
- picchi di traffico su endpoint pesanti (filtri avanzati multipli)
- catalogo e prezzi che vengono “catturati” da bot AI.
Analisi dei log
Estrarzione e analisi dei bot AI dall’access log del server web:
grep -E "(GPTBot|ClaudeBot|PerplexityBot|Bytespider)" access.log | sort | uniq -c
Risultato:
- Bytespider: 42% del traffico totale,
- GPTBot: 15%,
- PerplexityBot: 8%,
il resto bot “classici” e utenti reali.
Decisione strategica
- Bloccare Bytespider (bot aggressivo, non documentato con chiarezza).
- Permettere GPTBot e PerplexityBot solo sulle pagine istituzionali,
- limitare fortemente le richieste sugli endpoint pesanti.
Configurazioni implementate
robots.txt (non sono riportati gli URL reali per non esporre inutilmente il sito web):
User-agent: GPTBot
Allow: /blog/
Disallow: /catalog/
Disallow: /pricing/
Disallow: /admin/
User-agent: PerplexityBot
Allow: /blog/
Allow: /about/
Allow: /case-studies/
Disallow: /catalog/
Disallow: /pricing/
User-agent: Bytespider
Disallow: /
Nginx (non sono riportati gli URL reali per non esporre inutilmente il sito web):
limit_req_zone $binary_remote_addr zone=ai_bot:10m rate=10r/s;
location /catalog {
limit_req zone=ai_bot burst=5 nodelay;
}
location /pricing {
limit_req
