Bot delle AI: come riconoscere e gestire il traffico automatizzato

Aiuto, il mio sito è sotto attacco? No, sono i bot delle AI

2 Aprile 2026 Casi di studio Intelligenza Artificiale (AI)Web Marketing

È sempre più frequente che un imprenditore o un responsabile IT noti traffico anomalo sul sito web o venga informato del fatto che il sito consuma più risorse del solito, guardi i log del proprio sito e pensi:

“Ma il server è sotto attacco? Perché il traffico è esploso?”.

In molti casi, però, non si tratta di un DDoS o di un hacker classico, bensì di bot crawler delle AI che indicizzano e attingono informazioni dai siti web.

Nel 2026 i bot AI‑crawler stanno diventando parte strutturale del traffico web: OpenAI, Anthropic, Perplexity, Google, Microsoft, ByteDance e altri stanno rilasciando crawler specifici (GPTBot, ClaudeBot, PerplexityBot, Bytespider, Google‑Extended, ecc.) che visitano milioni di pagine al giorno per addestrare modelli, alimentare motori di risposta e costruire motori di ricerca AI‑assistiti.

In questo articolo ti spieghiamo come riconoscere i bot crawler delle AI che “leggono” il tuo sito, quali sono i rischi reali per il tuo business (banda, CDN, concorrenza, protezione dei contenuti) e come impostare una strategia tecnica e operativa per gestirli senza bloccare ingiustamente il traffico utile.

Chi sono davvero i bot crawler delle AI oggi

Dalla ricerca tradizionale ai crawler AI‑specifici

Fino a poco tempo fa il traffico automatizzato era dominato da Googlebot, BingBot, Yahoo Slurp e altri crawler SEO. Oggi, accanto a questi, si sono affiancati crawler AI‑specifici che hanno obiettivi diversi:

Indicizzazione per modelli linguistici (training di LLM come GPT‑4/5, Claude, Gemini ecc.),
Indicizzazione per motori di ricerca AI‑assistiti (risposte generate, citazioni, link inline),
Indicizzazione per agenti autonomi (AI che prendono decisioni, fanno acquisti, prenotano, ecc.).

Questi bot si identificano nei log con user agent specifici, chiaramente documentati dalle aziende (OpenAI, Anthropic, Perplexity, ByteDance, ecc.).
OpenAI ad esempio, indica chiaramente quali sono i sui bot, i loro indirizzi IP e come riconoscerli: qui

Principali bot crawler AI che “leggono” il tuo sito

Di seguito una sintesi di alcuni dei più comuni AI‑crawler che puoi trovare nei tuoi log:

Bot crawler AI	Proprietario	Scopo principale
GPTBot	OpenAI	Addestra modelli linguistici partendo da contenuti web.
ChatGPT‑User	OpenAI	Visita pagine real‑time dopo una richiesta dell’utente in ChatGPT.
ClaudeBot	Anthropic	Crawling per miglioramento di Claude (training e ricerca).
PerplexityBot	Perplexity	Indicizza siti per costruire il motore di risposta e citare le fonti.
Google‑Extended	Google (Gemini)	Crawler per modelli AI‑assistiti di Google.
Bytespider	ByteDance (TikTok/Douyin)	Crawling per contenuti e modelli AI aziendali.
Amazonbot	Amazon	Crawler per modelli e servizi AI interni.

Questi bot sono tutti strumenti “legittimi” che però, se non gestiti, possono generare milioni di richieste al mese, impattando banda, CDN e costi operativi.

Come capire se il tuo sito è “visitato” dai bot crawler delle AI?

Primi segnali nei log e nelle metriche

Senza entrare subito in analisi profonde, puoi già notare alcune cose analizzando i dati del tuo sito web:

Picchi notturni di traffico con distribuzione “troppo perfetta” (niente ore‑morte, richieste continue).
Alta percentuale di richieste da data center (range IP pubblici di grandi cloud/AI, non utenti residenziali).
Bounce rate molto basso o molto alto, tempi di permanenza vicini a 0, assenza di interazioni con form, bottoni, scroll.
Sessioni super lunghe ma lineari (es. 100 pagine al secondo, tutte scaricate in ordine, senza click “umani”).

Questi schemi sono tipici dei crawler AI e si riflettono anche nelle eventuali dashboard di Cloudflare, WAF, CDN e strumenti come GA4.

Come identificare i bot crawler delle AI nei tuoi log?

Server access logs (Apache/Nginx)

Per un’analisi precisa devi guardare i log del tuo server web, non solo le metriche di analytics.

Esempio di log con ClaudeBot:

216.73.216.152 - - [19/Mar/2026:06:43:36 +0100] "GET <INDIRIZZO PAGINA WEB> HTTP/1.0" 200 10153 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)"

Per isolare i bot crawler AI nel tuo file access.log puoi usare comandi come:

# Estrarre solo le richieste dei bot AI
grep -E "(GPTBot|ClaudeBot|PerplexityBot|Bytespider|Google-Extended|ChatGPT-User|anthropic-ai|Perplexity-User)" access.log

# Contare quante richieste per bot
grep -oE "(GPTBot|ClaudeBot|PerplexityBot|Bytespider|Google-Extended)" access.log | sort | uniq -c | sort -nr

# Calcolare la banda usata da GPTBot (es. MegaBytes)
grep "GPTBot" access.log | awk '{sum += $10} END {print sum/1024/1024 " MB"}'

Questo ti permette di:

sapere quale bot sta consumando più banda,
capire quante richieste al minuto/ora genera,
individuare quali pagine sono “sorvegliate” più spesso (cataloghi, prezzi, FAQ, ecc.).

Analytics e dashboard CDN

In GA4 puoi filtrare sessioni con UA contenente GPTBot, ClaudeBot, PerplexityBot, ecc., per capire quale bot genera traffico “visibile” anche lato analytics.

In Cloudflare Analytics & Logs puoi vedere la sezione Top Crawlers, con percentuale di traffico, richieste e trend nel tempo.

Impatto reale dei bot crawler delle AI sui siti aziendali

Costi e performance

Per un sito medio‑grande, anche un solo crawler AI aggressivo può generare milioni di richieste al mese, con effetti concreti su:

Banda e CDN: traffico che può crescere anche del 40–60% senza portare valore diretto di conversione.
Latency: richieste continue, spesso su endpoint pesanti ( pagine dinamiche con query pesanti nel DB), rallentano il sito per gli utenti reali.
Costi operativi: se il CDN è tariffato per traffico, il costo può raddoppiare solo per il crawling AI non gestito.

Concetti competitivi e uso dei contenuti

Per un’azienda che pubblica cataloghi, prezzi, listini, whitepaper, ricerche, FAQ:

può essere un vantaggio essere citati da GPTBot, ClaudeBot, PerplexityBot, perché il tuo sito diventa “fonte ufficiale” delle risposte AI.
può essere un rischio se il tuo contenuto viene usato per addestrare modelli concorrenti, senza che tu ne tragga value diretto (es. SEO, contatto, traffico di ritorno).

Legalità e responsabilità

I bot crawler più “seri” (OpenAI, Anthropic, Perplexity, Google‑Extended) pubblicano gli IP, i UA e spiegano chiaramente lo scopo, permettendo al proprietario del sito di opt‑out tramite robots.txt o blocco.
Altri crawler, meno trasparenti o mascherati, possono violare termini di servizio o policy e risultare più difficili da tracciare e gestire.

Come gestire i bot crawler delle AI: strategia operativa

Distinguerli: “buoni”, “utili” e “aggressivi”

Non tutti i bot AI sono uguali. Puoi ragionare in tre macro‑categorie:

Tipo di bot AI	Esempi tipici	Cosa fare
Bot “buoni” per SEO/visibilità	GPTBot, ClaudeBot, PerplexityBot, Google‑Extended (per risposta citata)	Lasciare libero, eventualmente limitare solo sottosezioni o endpoint pesanti.
Bot “aggressivi” ma identificabili	Bytespider, altri crawler non documentati chiaramente	Limitare fortemente o bloccare tramite WAF/`robots.txt` e rate limiting.
Bot malevoli / non‑bot	Attacchi, scraping non‑etichettato, bot anonimi	Gestire con WAF, bot‑management e security policy.

Usare `robots.txt` in modo consapevole

Per i crawler AI‑specifici, il file robots.txt è il primo livello di controllo, anche se non è una protezione “hard” ma solo un’indicazione di come vorremmo che si comportassero.

Esempio di configurazione consapevole:

User-agent: GPTBot
Allow: /blog/
Allow: /about/
Disallow: /catalog/
Disallow: /pricing/
Disallow: /admin/

User-agent: ClaudeBot
Allow: /blog/
Disallow: /catalog/
Disallow: /pricing/

User-agent: PerplexityBot
Allow: /blog/
Allow: /case-studies/
Disallow: /catalog/
Disallow: /pricing/
Disallow: /private/

User-agent: Google-Extended
Allow: /blog/
Allow: /services/
Disallow: /catalog/
Disallow: /pricing/

User-agent: Bytespider
Disallow: /

User-agent: *
Allow: /

In questo modo ( è solo un esempio, usa i tuoi URL reali):

lasci aperto il contenuto “brand” e informativo (blog, società, casi studio),
chiudi o limiti aree sensibili (catalogo, prezzi, area admin, contenuti privati).

Rate limiting e limitazione server‑side

Per i bot AI‑crawler più aggressivi, bisogna passare da regole “soft” a limiti tecnici chiari.

Esempio di configurazione di Nginx:

# Rate limiting per bot AIlimit_req_zone $binary_remote_addr zone=ai_bot:10m rate=10r/s;
limit_conn_zone $binary_remote_addr zone=ai_conn:10m;

server {
    location / {
        # Limita le richieste per IP (bot AI tendono a usare pochi indirizzi)
        limit_req zone=ai_bot burst=20 nodelay;
        limit_conn ai_conn 5;

        # Sui percorsi sensibili, limiti ancora più severi
        location ~* "/(catalog|pricing|admin)" {
            limit_req zone=ai_bot burst=5 nodelay;
            limit_conn ai_conn 2;
        }

        include fastcgi_params;
        # ...
    }
}

Questo schema:

riduce il numero di richieste al secondo,
impedisce che il bot saturi il pool di connessioni,
lascia comunque passare il traffico umano.

WAF e bot‑management

Strumenti come Cloudflare Bot Management, Imperva, Akamai, AWS Shield e simili offrono:

blocking selettivo per user agent (GPTBot, ClaudeBot, PerplexityBot, ecc.),
rate limiting granulare per IP/ASN,
bot score (machine‑learning che valuta il livello di rischio e applica challenge o blocchi).

Questi sistemi sono particolarmente utili per:

e‑commerce,
siti con cataloghi, prezzi, form di contatto sensibili,
siti web con contenuti di alto valore.

Conviene far entrare i bot crawler delle AI se voglio essere citato?

Se il tuo obiettivo è che le AI citino il tuo sito, i tuoi dati o i tuoi risultati quando rispondono agli utenti, allora la risposta tende a essere sì: il controllo è più importante della chiusura totale.

Quando lasciare entrare i bot AI ha senso

Per molte aziende, permettere ai crawler specifici di leggere il contenuto pubblico rappresenta un vantaggio concreto.
Quando:

il tuo sito ospita contenuti di valore informativo (blog, whitepaper, ricerche, FAQ, casi studio),
vuoi apparire come fonte autorevole nelle risposte di ChatGPT, Perplexity, Claude, Gemini, ecc.,
desideri che il tuo brand sia cliccabile in una citazione diretta (con link che porta al tuo sito),

dei bot come GPTBot, ClaudeBot, PerplexityBot devono poter leggere il contenuto.

Se blocchi questi crawler:

il tuo sito non entra nel loro training set o nel loro indici di risposta,
resti visibile solo attraverso il traffico tradizionale, mentre molte decisioni di ricerca passano già dai motori generativi.

Quando limitare è una decisione strategica

Non è detto però che “lasciare tutto aperto” sia la scelta migliore.
Conviene limitare o bloccare i bot AI su:

cataloghi, prezzi, offerte di canale, margini,
contenuti protetti da copyright o riservati (es. report interni, documenti commerciali),
zone ad accesso controllato (client area, intranet, dashboard private).

In questi casi, puoi:

disallow solo dei percorsi sensibili in robots.txt,
proteggere con autenticazione le pagine che non vuoi siano copiate in modo brutale dai modelli di terze parti.

Come bilanciare “visibilità AI” e “protezione”

Una strategia efficace può essere:

Permettere i bot AI sui contenuti “pubblici di valore”
- blog, pagine di caso studio, ricerche, contenuti di opinione, FAQ aperte.
Bloccarli sulle aree sensibili
- prezzi, listini, cataloghi, dati di mercato, aree cliente.
Rendere il contenuto “facile da citare”
- risposte chiare all’inizio dei paragrafi,
- dati numerici, fonti, nomi di aziende e ricerche ben evidenziate.

In questo modo il tuo sito mantiene la visibilità nei motori AI, ma non espone dati sensibili che non vuoi vengano usati come “materiale gratuito” per addestrare modelli o fornire risposte ai tuoi concorrenti.

Case study: gestione bot crawler AI su un sito aziendale e‑commerce

Scenario iniziale

Sito: e‑commerce.
Problema:
- picchi di traffico principalmente notturni ma anche diurni,
- picchi di traffico su endpoint pesanti (filtri avanzati multipli)
- catalogo e prezzi che vengono “catturati” da bot AI.

Analisi dei log

Estrarzione e analisi dei bot AI dall’access log del server web:

grep -E "(GPTBot|ClaudeBot|PerplexityBot|Bytespider)" access.log | sort | uniq -c

Risultato:

Bytespider: 42% del traffico totale,
GPTBot: 15%,
PerplexityBot: 8%,

il resto bot “classici” e utenti reali.

Decisione strategica

Bloccare Bytespider (bot aggressivo, non documentato con chiarezza).
Permettere GPTBot e PerplexityBot solo sulle pagine istituzionali,
limitare fortemente le richieste sugli endpoint pesanti.

Configurazioni implementate

robots.txt (non sono riportati gli URL reali per non esporre inutilmente il sito web):

User-agent: GPTBot
Allow: /blog/
Disallow: /catalog/
Disallow: /pricing/
Disallow: /admin/

User-agent: PerplexityBot
Allow: /blog/
Allow: /about/
Allow: /case-studies/
Disallow: /catalog/
Disallow: /pricing/

User-agent: Bytespider
Disallow: /

Nginx (non sono riportati gli URL reali per non esporre inutilmente il sito web):

limit_req_zone $binary_remote_addr zone=ai_bot:10m rate=10r/s;

location /catalog {
    limit_req zone=ai_bot burst=5 nodelay;
}

location /pricing {
    limit_req

Sviluppo progetti Web

Contattaci