Perché le pagine eliminate appaiono ancora nei risultati di ricerca di Google

本文作者：Don jiang

Home » 博客 » Articoli Scelti » Perché le pagine eliminate appaiono ancora nei risultati di ricerca di Google

20/04/2026

L’aggiornamento dell’indice di Google richiede solitamente 3-10 giorni.

Sebbene la pagina sia stata eliminata, la cache rimane memorizzata; si consiglia di inviare una richiesta di “Rimozione URL” tramite Google Search Console. Questa procedura può diventare effettiva entro 24 ore ed è il metodo più professionale ed efficiente per pulire i risultati residui.

Table of Contens

Ritardo di Scansione (Crawling Lag)

Googlebot imposta la frequenza di visita in base alle metriche di PageRank e al budget di scansione (Crawl Budget).

Per la maggior parte delle pagine non prioritarie, il ciclo medio di visita di Googlebot varia da 3 a 30 giorni.

I rapporti sulle statistiche di scansione di Google Search Console (GSC) mostrano che l’indice non viene eliminato immediatamente dopo che il server restituisce un codice di stato 404.

Il sistema richiede da 1 a 3 scansioni ripetute per confermare che la pagina non sia inaccessibile a causa di un guasto temporaneo del server.

Nei siti di grandi dimensioni, il tasso di ritardo nella sincronizzazione tra il database dell’indice e i server in tempo reale è spesso compreso tra il 15% e il 20%, il che causa la persistenza delle pagine eliminate nei risultati.

Verifica 404

Quando Googlebot visita un URL specifico e riceve una risposta 404 Not Found, la logica di pianificazione interna del sistema di ricerca non rimuove immediatamente la voce dall’indice.

Secondo i record interni del meccanismo di scansione dei motori di ricerca, il rilevamento iniziale di un segnale 404 è spesso considerato come “potenziale instabilità del server” o “interruzione temporanea della connessione di rete”.

Per garantire la stabilità dei risultati di ricerca, il sistema di pianificazione di Google contrassegna l’URL come “stato di riprovo” e lo inserisce in una coda di osservazione dedicata.

Per un sito di medie dimensioni con circa 10.000 scansioni giornaliere, Googlebot effettuerà solitamente una seconda verifica entro 24-48 ore dal primo rilevamento del 404.

Se anche la seconda scansione restituisce un codice 404, il sistema ridurrà la priorità di scansione (Crawl Priority) della pagina al minimo, ma il record dell’indice rimarrà ancora presente.

Google utilizza un contatore logico chiamato “soglia di conferma”, che solitamente richiede da 3 a 5 conferme consecutive di 404, su un arco temporale di almeno 7-14 giorni, prima che il sistema invii un comando di eliminazione formale ai frammenti di indice (Index Shards).

Se il webmaster utilizza il codice di stato 410 Gone, la velocità di ingresso nel processo di eliminazione è circa il 25% – 40% più rapida rispetto a una pagina 404.

Ricevendo un segnale 410, Googlebot spesso salta parte dei cicli di revisione e rimuove l’URL dalla coda di scansione principale.

Nonostante ciò, per prevenire manomissioni dolose o errori operativi, il sistema mantiene comunque un periodo di raffreddamento di 24 ore per garantire la stabilità del codice di stato.

Un altro fattore che causa la persistenza a lungo termine è il ritardo nella determinazione del Soft 404 (errore 404 soft).

Se il server è configurato in modo errato e restituisce comunque un codice 200 OK quando la pagina non esiste, ma il contenuto mostra un avviso testuale come “pagina non trovata”, deve intervenire il servizio di rendering web (WRS) di Google.

Il WRS deve consumare una grande quantità di risorse computazionali per analizzare l’albero DOM e utilizzare modelli di machine learning per valutare le caratteristiche semantiche della pagina.

Una volta determinato come Soft 404, la pagina viene rimossa dal normale percorso di indicizzazione, ma questo processo è più lento di 5-10 giorni lavorativi rispetto alla verifica standard del 404.

Nell’architettura di archiviazione distribuita, la velocità di sincronizzazione tra i vari data center globali non è uniforme.

Anche se il database principale dell’indice presso la sede negli Stati Uniti ha confermato l’eliminazione di un record, a causa delle diverse strategie di aggiornamento della cache dei nodi periferici (Edge Nodes) globali, gli utenti a Londra o Francoforte potrebbero ancora visualizzare i contenuti eliminati per altre 6-12 ore.

Quando il budget di scansione (Crawl Budget) di un sito si esaurisce, Googlebot potrebbe persino sospendere la revisione dei link 404 noti per dare priorità alla scansione di nuovi contenuti con autorità superiore.

Questa allocazione delle priorità fa sì che le vecchie pagine situate in profondità nelle directory, con una profondità di link superiore a 5 livelli, possano rimanere nei risultati di ricerca per mesi, anche se restituiscono un 404 da tempo.

“Googlebot non è un monitor in tempo reale; è un sistema di pianificazione basato su probabilità e pesi. Ogni conferma di un segnale 404 richiede un consumo effettivo di larghezza di banda e costi computazionali.”

In caso di migrazioni di siti su larga scala o eliminazioni massive di percorsi, se la percentuale di errori 404 supera il 20% in breve tempo, il sistema potrebbe attivare un meccanismo di protezione.

In questo caso, il normale processo di verifica 404 viene prolungato e l’algoritmo richiederà più “tempo di prova” per confermare che queste eliminazioni siano effettivamente l’intenzione reale dell’amministratore del sito.

Parametri di Influenza

Quando Googlebot esegue attività di scansione su Internet, la velocità con cui rivisita i vecchi URL o rileva nuovi codici di stato non è casuale; uno dei parametri fondamentali è la latenza del server (Server Latency), specificamente il tempo al primo byte (TTFB).

Se il TTFB di un server rimane costantemente sotto i 200 millisecondi, Googlebot considererà il server capace di gestire un carico elevato, aumentando così il limite di scansione.

Al contrario, se il tempo di risposta supera i 1000 millisecondi, il crawler attiverà automaticamente un meccanismo di limitazione della frequenza di scansione (Crawl Rate Limit) per proteggere il server di destinazione dal crash dovuto ad accessi ad alta frequenza.

A livello di architettura del sito, la profondità del link (Link Depth) è la bilancia fisica che regola la frequenza di scansione.

Gli URL situati nella directory radice o a soli 1-2 clic di distanza dalla home page ricevono il peso di PageRank più alto; i log di accesso di Googlebot mostrano che la frequenza di rilevamento degli aggiornamenti per queste pagine è solitamente di una volta ogni 24 ore.

Tuttavia, quando una pagina si trova al 5° livello o più in profondità nella struttura delle directory, anche se il suo contenuto è passato allo stato 404, il ciclo di visita del crawler si allungherà in modo esponenziale, richiedendo a volte da 30 a 60 giorni per una revisione di routine.

Domanda di scansione (Crawl Demand): Dipende dalla popolarità della pagina. Se un URL eliminato riceve ancora molti backlink esterni o viene menzionato frequentemente sui social media, l’algoritmo di Google riterrà che la risorsa sia ancora rilevante. Anche se restituisce un 404, l’algoritmo pianificherà frequenti visite per confermarne lo stato, portando a più cicli di verifica prima della conferma della “scomparsa definitiva”.
Salute del sito (Site Health): Se il server presenta frequenti errori della serie 5xx (come 503 Service Unavailable), Googlebot ridurrà rapidamente il budget di scansione complessivo del sito. Quando il tasso di errore supera il 10% del totale delle scansioni, il crawler entrerà in modalità protezione, interrompendo il rilevamento degli URL non essenziali. In questo scenario, le pagine 404 che dovrebbero essere rimosse rimarranno nell’indice per lungo tempo a causa del congelamento del budget.
Frequenza di aggiornamento dei contenuti (Change Frequency): Il motore di ricerca registra la cronologia dei cambiamenti di un URL negli ultimi mesi. Se una pagina non è mai stata aggiornata negli ultimi 365 giorni, Googlebot la contrassegnerà come “dati freddi” e la priorità di revisione sarà ridotta al minimo. Eliminando improvvisamente una pagina inattiva da tempo, il crawler potrebbe non passare per quel percorso per l’intero trimestre successivo, causando un ritardo visibile nell’eliminazione.

La Sitemap è un file indicativo e non un comando obbligatorio, ma l’accuratezza del tag <lastmod> influisce sull’efficienza di scansione.

Se la mappa del sito conserva ancora link che restituiscono 404, o se il timestamp lastmod non viene aggiornato dopo l’eliminazione, Googlebot potrebbe ritenere il file inaffidabile e passare a una modalità di rilevamento autonomo meno efficiente.

In esperimenti su grandi siti di informazione, l’invio di una Sitemap con date lastmod aggiornate, combinata con l’uso del protocollo WebSub (ex PubSubHubbub) per il push attivo, può ridurre il tempo di percezione dei cambiamenti da parte del crawler di oltre il 70%.

I siti che utilizzano i protocolli HTTP/2 o HTTP/3 (QUIC) supportano il multiplexing, permettendo a Googlebot di richiedere simultaneamente lo stato di decine di URL in una singola connessione TCP.

Al contrario, il tradizionale protocollo HTTP/1.1 è limitato dal numero di connessioni, costringendo il crawler a mettersi in coda per gestire migliaia di segnali 404.

“Nei sistemi di scansione distribuiti, ogni azione di scansione di un URL è soggetta a un calcolo dei costi; gli URL 404 a bassa autorità finiscono spesso in fondo alla coda, a meno che un segnale esterno non ne aumenti forzatamente la priorità.”

Poiché Google è passato completamente all’indicizzazione orientata ai dispositivi mobili (Mobile-First Indexing), l’attività dei crawler mobili è solitamente 2-3 volte superiore a quella dei crawler desktop.

Se la versione mobile di una pagina viene eliminata ma la versione desktop restituisce ancora un 200 per un errore di configurazione, o viceversa, questa incoerenza causerà un conflitto logico nel sistema di indicizzazione, facendo apparire informazioni obsolete diverse a seconda del dispositivo utilizzato.

Cache della Pagina (Cache)

La cache della pagina è un’immagine istantanea (snapshot) del codice HTML e di alcune risorse statiche memorizzata nei server distribuiti globalmente di Google (come i Google Data Centers) durante il processo di scansione di Googlebot.

Anche se il server originale ha eliminato fisicamente la pagina, il database dell’indice di Google manterrà questo snapshot fino al prossimo ciclo di aggiornamento della scansione.

Solitamente, la frequenza di scansione per i siti con alta autorità viene calcolata in ore, mentre per i siti comuni può richiedere da 3 a 28 giorni.

Poiché Google utilizza nodi di calcolo periferici per sincronizzare i dati, esiste spesso un ritardo di 24-72 ore tra l’aggiornamento dell’indice principale e la sincronizzazione dei risultati di ricerca nelle varie regioni del mondo.

Motivi della Visualizzazione

Google mantiene un enorme database distribuito contenente centinaia di miliardi di pagine web, noto come Indice (Index).

Quando elimini una pagina tramite un sistema di gestione dei contenuti (come WordPress o Ghost), rimuovi i dati solo dal tuo server web.

In quel momento, i cluster di server di Google conservano ancora l’ultimo record dello snapshot di quell’URL.

Allocazione gerarchica dei cicli di scansione di Googlebot: Google assegna diversi budget di scansione (Crawl Budget) in base all’autorità del dominio (Domain Authority) e alla frequenza di aggiornamento.
- Per il top 1% dei siti di news ad alto traffico (come The New York Times o Reuters), la frequenza di scansione delle pagine popolari è calcolata in minuti o ore.
- Per i comuni siti aziendali o blog personali, il ciclo di scansione varia solitamente tra 7 e 28 giorni; per alcuni percorsi meno popolari, l’intervallo può durare anche mesi.
- Se una pagina viene eliminata il 1° gennaio e Googlebot ha programmato la visita successiva per il 25 gennaio, in questo intervallo di 24 giorni i risultati di ricerca mostreranno sempre il contenuto non più valido.

Il sistema di indicizzazione interno di Google, “Caffeine”, utilizza un meccanismo di aggiornamento in tempo reale, ma è orientato principalmente alla scoperta di nuovi contenuti.

Quando Googlebot visita un URL eliminato, il codice di stato HTTP restituito dal server determina la velocità di rimozione dall’indice.

Se il server restituisce un 404 (Not Found), Googlebot solitamente non rimuove immediatamente la pagina dall’indice, poiché l’algoritmo considera la possibilità di un guasto temporaneo o di un errore di configurazione.

Il sistema registrerà il fallimento e programmerà un secondo tentativo entro 48-72 ore.

Solo quando scansioni consecutive restituiscono lo stato 404, o quando tale stato persiste oltre una specifica soglia di osservazione (solitamente diverse settimane), il sistema avvierà il processo di rimozione dall’indice.

Quantificazione dell’impatto dei codici di stato HTTP sulla velocità di rimozione:
| Tipo di codice di stato | Azione successiva di Googlebot | Tempo stimato di permanenza nell’indice |

|—|—|—|

| 404 (Not Found) | Contrassegnato come “potenzialmente mancante”, riprova la scansione entro 3-5 giorni | Da 14 a 45 giorni |

| 410 (Gone) | Identificato come “rimozione permanente”, riduce la priorità dell’URL nella coda | Rimozione avviata entro 3-7 giorni |

| 301 (Redirect) | Trasferisce l’autorità del vecchio URL al nuovo percorso | Permanente (punta alla nuova pagina) |

| Soft 404 | Pagina visualizzata come eliminata ma con stato 200, trattata come bassa qualità | Molto difficile da rimuovere automaticamente, può persistere per mesi |

Google gestisce oltre 20 grandi data center e migliaia di nodi di cache periferici (Edge Nodes) in tutto il mondo.

Quando il server dell’indice principale situato in Oregon (USA) aggiorna lo stato di eliminazione di una pagina, questi dati devono essere distribuiti attraverso la rete dorsale globale di Google ai vari database regionali in Irlanda, Finlandia, Singapore, ecc.

Il raggiungimento della coerenza dei dati (Eventual Consistency) presenta spesso un ritardo di propagazione da 24 a 72 ore.

Una ricerca effettuata da un utente a Londra potrebbe colpire un server periferico non ancora sincronizzato, mostrando così il link dello snapshot ancora esistente.

Fattori di disturbo da link esterni e sitemap:
- Link interni esistenti: Se altre pagine del sito o siti esterni mantengono collegamenti ipertestuali all’URL eliminato, Googlebot continuerà a tentare l’accesso tramite questi ingressi, prolungando la presenza del percorso nel piano di scansione.
- Ritardo della Sitemap XML: Molti siti non aggiornano i file della mappa del sito dopo aver eliminato le pagine. Se il file sitemap.xml contiene ancora l’URL eliminato, Google lo controllerà periodicamente, causando il continuo aggiornamento del record nell’indice nonostante il codice di errore.
- Segnali social e traffico residuo: Se un URL eliminato riceve ancora clic da piattaforme esterne come Reddit o X (ex Twitter), i meccanismi di monitoraggio di Google riterranno che l’URL abbia ancora valore, assegnandogli un periodo di osservazione più lungo nella logica di pulizia automatica.

L’indice di Google si divide in Indice Principale (Main Index) e Indice Supplementare (Supplementary Index).

L’indice principale contiene contenuti di alta qualità aggiornati frequentemente, mentre quello supplementare ospita una vasta quantità di pagine “long-tail” e contenuti duplicati.

Se il contenuto eliminato si trova nell’indice supplementare, la sua priorità di revisione da parte di Googlebot è estremamente bassa.

In molti casi, una pagina eliminata può scomparire dai risultati di ricerca principali, ma essere ancora trovata negli snapshot dell’indice supplementare cliccando su “Visualizza altri risultati” o tramite l’operatore specifico site:.

Standard di Rimozione

Il percorso operativo preferito per l’intervento manuale è l’utilizzo dello strumento “Rimozioni” in Google Search Console (GSC), situato nel modulo “Indice” del menu a sinistra.

Nella scheda “Rimozioni temporanee”, cliccare su “Nuova richiesta” e inserire l’URL completo da pulire. Il sistema offre due opzioni:

“Rimuovi temporaneamente l’URL” e “Cancella solo l’URL memorizzato nella cache”.

La prima opzione bloccherà completamente il percorso dai risultati di ricerca entro circa 24 ore, con una validità di 180 giorni;

la seconda mantiene la voce nei risultati ma rimuove immediatamente il link al vecchio snapshot e la descrizione testuale nello snippet.

Se durante i 180 giorni di blocco Googlebot non rileva sul server il segnale di scomparsa della pagina, la voce riapparirà nei risultati allo scadere del periodo.

Per il personale tecnico con permessi di gestione del server, la configurazione dei corretti codici di stato HTTP è la soluzione più duratura e conforme alla logica SEO.

Quando Googlebot visita un percorso eliminato, il server dovrebbe restituire il codice 410 (Gone) anziché il generico 404 (Not Found).

Secondo la documentazione tecnica ufficiale di Google, il codice 410 invia al crawler un comando esplicito di eliminazione permanente, inducendo il sistema a rimuovere l’URL dalla coda di scansione con una priorità più alta.

Il codice 404 è spesso visto come un guasto di rete temporaneo o un errore di configurazione; Googlebot tende a mantenere l’indice e a riprovare la verifica nelle 48-96 ore successive.

Per esigenze di pulizia della cache su larga scala, è possibile impostare la risposta 410 in modo unificato per directory specifiche o estensioni di file nei file di configurazione del server web (come Nginx o Apache), guidando così il motore di ricerca ad accelerare la pulizia dei residui obsoleti nell’indice globale.

Nome Strumento/Metodo	Scenario Applicativo	Velocità di Risposta	Stato Permanenza Indice	Periodo di Validità
Strumento Rimozione GSC	Necessità di bloccare subito info sensibili	Efficace entro 24 ore	Indice nascosto temporaneamente	180 giorni (annullabile)
Codice di stato HTTP 410	Pagina eliminata per sempre	Aggiornato alla prossima scansione	Rimosso completamente dal database	Sempre valido
Codice di stato HTTP 404	Pagina inesistente, senza tag speciali	Aggiornato dopo periodo osservazione	Rimozione ritardata	Sempre valido
Strumento Controllo URL	Pochi URL richiedono scansione forzata	Da 12 ore a 3 giorni	Attiva aggiornamento stato	Valido per singola richiesta

Quando non è possibile risolvere il ritardo della cache tramite la scansione regolare, l’aggiunta di X-Robots-Tag: noarchive nell’intestazione della risposta HTTP del server impedisce a Google di memorizzare qualsiasi snapshot della pagina sui propri server.

Per controllare in modo più granulare il tempo di permanenza dei contenuti, si può utilizzare il tag unavailable_after: [data/ora RFC 850], che comunica a Googlebot di smettere di mostrare la pagina nei risultati di ricerca dopo la data e l’ora specificate.

Nome Tag/Comando	Descrizione Funzionale	Comportamento Motore di Ricerca
noarchive	Disabilita lo snapshot della cache	Indicizza la pagina ma non mostra il link “Copia cache”
nosnippet	Disabilita lo snippet testuale	I risultati non mostrano l’anteprima del contenuto
noindex	Proibisce totalmente l’indice	Rimuove la pagina da tutti i risultati di ricerca
unavailable_after	Imposta scadenza automatica	Esegue automaticamente il noindex alla scadenza

Molti siti mantengono i record degli URL eliminati nelle Sitemap, portando Googlebot a continuare le ispezioni di routine seguendo la vecchia lista di percorsi.

La procedura standard prevede la rimozione dell’URL da sitemap.xml contemporaneamente all’eliminazione della pagina, aggiornando il tag <lastmod> (data di ultima modifica).

Successivamente, è necessario inviare nuovamente il file nella pagina “Sitemap” di Google Search Console.

Errore di Configurazione (Soft 404)

Si verifica un errore 404 soft quando la pagina è fisicamente eliminata, ma il server restituisce comunque uno stato 200 OK a Googlebot.

Secondo i dati di scansione di Google Search Console, queste pagine vengono trattate dal sistema di indicizzazione come pagine normali poiché non ricevono i comandi 404 o 410.

Solitamente, se l’area del contenuto principale della pagina è inferiore a 200 byte o se reindirizza alla home page del sito, Googlebot la contrassegnerà come soft 404 dopo 2-3 tentativi di scansione; ciò causa la permanenza dell’URL nei risultati di ricerca per ulteriori 14-30 giorni.

Stato del Codice Fuorviante

Quando Googlebot visita un server, il primo passo è leggere il codice di stato a tre cifre nell’intestazione della risposta HTTP.

Se hai eliminato fisicamente i file web ma la configurazione del server è errata e restituisce 200 OK per quella richiesta, Googlebot stabilirà che la pagina è ancora viva e il contenuto è valido.

Dopo aver ricevuto il codice 200, il sistema di indicizzazione di Google invia il testo HTML catturato (anche se sulla pagina c’è scritto solo “Contenuto non trovato”) alla Indexing Pipeline per l’elaborazione.

Se questo URL che dovrebbe scomparire continua a fornire un segnale 200, la sua permanenza nell’indice di Google si allungherà notevolmente.

Nei siti di grandi dimensioni, se tali URL non validi superano il 10%, possono disperdere significativamente il Crawl Budget, riducendo la frequenza di aggiornamento delle pagine normali.

Codice di Stato HTTP	Definizione Tecnica Googlebot	Azione del Database dell’Indice	Impatto Previsto sul Posizionamento
200 OK	Richiesta riuscita, contenuto completo	Scansione continua e archiviazione cache	Mantiene posizionamento e mostra snippet
404 Not Found	Risorsa non trovata, forse temporaneo	Contrassegnato per rimozione dopo conferme	Il ranking cala fino alla scomparsa
410 Gone	Risorsa eliminata per sempre	Avvio immediato procedura rimozione	Rimozione rapida dai risultati
301 Permanent	Risorsa spostata permanentemente	Trasferisce autorità al nuovo percorso	Il vecchio URL sparisce, il nuovo subentra
302 Found	Risorsa spostata temporaneamente	Mantiene l’indice originale, non trasferisce peso	Il vecchio URL continua ad apparire

La restituzione di un codice 200 porta Google ad attivare un algoritmo euristico chiamato Rilevamento Soft 404.

Il motore di rendering di Google analizza la presentazione visiva e le caratteristiche testuali, ad esempio controllando se la pagina contiene termini come “404”, “Not Found” o “Spiacenti”, e se il contenuto effettivo del corpo è inferiore a 200 byte.

Se il sistema scopre che una pagina con stato 200 non ha in realtà alcun contenuto sostanziale, cercherà di classificarla come soft 404.

Questa determinazione basata sull’algoritmo presenta un evidente ritardo, richiedendo solitamente da 3 a 5 scansioni ripetute per diventare effettiva.

Per i siti che dipendono da ambienti Nginx o Apache, se una pagina di errore 404 viene erroneamente guidata alla home page tramite un reindirizzamento 302, lo stato 200 della home page coprirà il segnale di errore originale.

Google crederà che l’URL originale abbia ora lo stesso contenuto della home page, causando conflitti di contenuto duplicato e facendo sì che il vecchio link rimanga a lungo nelle SERP.

Se il campo Content-Length nell’intestazione della risposta mostra un valore fisso e ridotto (ad esempio inferiore a 1024 byte) con un codice di stato 200, spesso si attiva una revisione approfondita da parte di Google sulla scarsità del contenuto.

Nella gestione di siti internazionali con milioni di URL, l’intestazione X-Robots-Tag è un segnale ausiliario utile.

Se elimini una pagina ma non puoi modificare immediatamente il codice di stato, puoi aggiungere il comando noindex nell’intestazione della risposta.

Se Googlebot legge un codice 200 ma vede contemporaneamente noindex, rimuoverà l’URL nel ciclo di aggiornamento dell’indice successivo.

Nelle tipiche architetture server distribuite, se un CDN (come Cloudflare o Fastly) ha memorizzato la risposta 200 originale, anche se il server di origine è passato al 404, il crawler vedrà comunque il vecchio stato nella cache.

Questa incoerenza della cache causa un distacco tra i dati dell’indice di Google e i dati dell’ambiente di produzione reale.

Tipo di Intestazione	Esempio Parametro	Feedback Comportamento Googlebot	Suggerimento di Correzione
Status Line	HTTP/1.1 404 Not Found	Smette di assegnare budget di scansione	Assicurarsi che l’eliminazione sia accompagnata da questo stato
Cache-Control	max-age=0, no-cache	Forza il crawler a verificare ogni volta	Evitare che il CDN memorizzi il 200 errato
X-Robots-Tag	noindex, nofollow	Non permette l’indicizzazione anche con 200	Usare come misura correttiva temporanea
Content-Type	text/html; charset=UTF-8	Analizza il contenuto come pagina web	Confermare che l’errore non sia visto come file download

Se il server ha configurato una logica If-Modified-Since troppo complessa e restituisce ancora 304 Not Modified dopo l’eliminazione della pagina, Googlebot non eseguirà mai una nuova scansione, continuando a usare il vecchio snapshot presente nell’indice da mesi.

L’algoritmo di allocazione della frequenza di scansione di Google esegue visite multiple giornaliere per i domini ad alta autorità, mentre per quelli a bassa autorità potrebbe passare solo ogni 14-21 giorni.

Se il server fornisce segnali fuorvianti 200 o 304 durante queste finestre di visita, le pagine eliminate diventeranno ospiti fissi dei risultati di ricerca.

Per risolvere radicalmente il problema, è necessario agire sui file di configurazione del server, rimuovendo ogni regola di riscrittura globale che trasforma silenziosamente le richieste 404 in risposte 200, e verificare con uno strumento di controllo Header che la prima riga del flusso di dati contenga effettivamente le diciture 404 o 410.

Identificazione e Gestione

Apri il menu a sinistra di Google Search Console e trova il rapporto “Pagine” sotto la categoria “Indicizzazione”.

Nella tabella sottostante, cerca le voci con stato “L’URL inviato ha un errore Soft 404”.

Cliccando sulla voce, il sistema mostrerà l’elenco dettagliato degli URL interessati, con la data dell’ultimo tentativo di scansione.

Inserisci il percorso specifico nello Strumento di Controllo URL e clicca su “Testa URL pubblicato”.

Se il risultato del test indica “L’URL può essere indicizzato da Google” ma lo screenshot della pagina mostra un avviso di errore, la configurazione Soft 404 è confermata.

Il sistema di ricerca di Google conserva i record di scansione degli ultimi 16 mesi; puoi analizzare la distribuzione dei percorsi degli URL errati esportando un report dettagliato in formato CSV per determinare se si tratta di un problema logico sistemico in directory specifiche (ad es. /api/ o /products/).

Solo quando la riga di stato dell’intestazione HTTP restituisce esattamente 404 Not Found o 410 Gone, Googlebot avvierà la procedura di cancellazione dall’indice.

Eseguire un rilevamento diretto tramite strumenti da riga di comando sul server è un modo efficace per escludere interferenze.

Usa il comando curl -I https://example.com/pagina-eliminata e osserva la prima riga dell’output.

Se restituisce HTTP/1.1 200 OK, significa che la configurazione del server non riesce a interrompere correttamente la richiesta.

Per i server web Nginx, controllare la direttiva error_page nel file nginx.conf.

Se è impostato error_page 404 =200 /404.html, questo forzerà il ripristino dello stato 404 a 200.

La pratica corretta è rimuovere il segno di uguale, assicurando che il codice di stato originale venga trasmesso inalterato.

Per i server Apache, controllare la configurazione ErrorDocument nel file .htaccess, evitando di reindirizzare in massa gli URL non validi alla home page.

Nome Strumento	Dimensione del Rilevamento	Tipo di Feedback Dati	Scenario Applicativo
GSC URL Inspection	Stato scansione in tempo reale	Disponibilità indice / Screenshot	Indagine approfondita singolo URL
Screaming Frog SEO Spider	Codici di stato HTTP	Matrice risposte URL massiva	Scansione di tutte le pagine del sito
Chrome DevTools (Network)	Intestazioni di risposta	Dati grezzi Server Header	Analisi logica interazione frontend
Indexing API	Richiesta rimozione tempo reale	Codice stato risposta JSON	Pagine temporanee aggiornate spesso

In caso di conferma di Soft 404, si può utilizzare lo strumento Rimozioni di Google per un intervento temporaneo.

Questo strumento si trova nella scheda “Rimozioni” di Search Console e permette di inviare richieste per “Rimuovere temporaneamente l’URL”.

Dopo l’invio, l’URL corrispondente sparirà dai risultati di ricerca per circa 180 giorni.

Durante questo periodo, Googlebot proverà comunque a scansionare l’indirizzo.

Una volta rilevato un vero codice di stato 404, il sistema trasformerà la rimozione temporanea in una cancellazione permanente.

Lo strumento ha un limite di invio ogni 24 ore ed è solitamente adatto per pulire meno di 1000 record non validi.

Se il tempo di risposta del server (TTFB) supera i 2 secondi, Googlebot potrebbe rinunciare alla scansione dello stato attuale e continuare a utilizzare i vecchi dati dell’indice.

Cercando lo User-Agent di Googlebot (solitamente contiene Googlebot/2.1) e i relativi segmenti di indirizzi IP nei log del server, è possibile osservare la frequenza con cui il crawler visita le pagine eliminate.

Se i log mostrano che il crawler riceve solo codici 200 e la dimensione della pagina (Bytes Sent) è fissa tra 5KB e 15KB (la dimensione tipica di una pagina di errore), significa che il server sta fornendo “contenuti” non validi al crawler.

Per le Single Page Application (SPA), occorre prestare particolare attenzione allo stato del DOM dopo il rendering dinamico.

Il motore di rendering di Googlebot ha un limite di interruzione del contenuto di 15MB; se un errore JavaScript blocca il rendering allo stato di caricamento, la pagina potrebbe essere erroneamente giudicata come normale.

Accedere a Google Search Console per monitorare il rapporto “Sitemap”, confermando che gli URL eliminati non siano presenti negli elenchi XML inviati.
Utilizzare il terminale con wget --server-response --spider per ottenere informazioni dettagliate sull’handshake della connessione.
Nel pannello “Network” di Chrome, selezionare “Disable cache” e ripetere la richiesta, osservando se i livelli di cache CDN come X-Cache o Varnish restituiscono risposte 200 obsolete.
Per siti di grandi dimensioni, utilizzare la Google Indexing API per inviare richieste URL_DELETED; questo metodo è solitamente più veloce della scansione passiva.

Dopo aver sistemato la configurazione del server, si consiglia di cliccare su “Verifica correzione” in Search Console.

Questo spingerà il sistema a campionare nuovamente tutti gli URL contrassegnati come Soft 404.

Poiché Google alloca il budget in base alla frequenza storica di scansione delle pagine, le pagine con autorità superiore vedranno lo stato aggiornato entro 48 ore, mentre i percorsi periferici con minore autorità potrebbero richiedere da 3 a 4 settimane per essere completamente rimossi dall’indice.

È fondamentale che il file robots.txt permetta ai crawler di accedere a queste pagine, poiché l’ordine di cancellazione può diventare efficace solo se il crawler vede il codice 404.

Se si blocca preventivamente il crawler, questo non potrà aggiornare il vecchio record con stato 200 presente nel suo database.

Link Esterni Ancora Esistenti

Se un URL eliminato è ancora citato da più di 3 domini indipendenti, Googlebot visiterà ripetutamente quell’indirizzo basandosi sui percorsi di scansione di tali link.

Anche se la pagina restituisce un 404, i segnali portati dai link faranno pensare a Google che il contenuto possa essere in un guasto solo temporaneo.

Le pagine con più di 10 backlink attivi presentano solitamente un tempo di permanenza nei risultati di ricerca superiore di 12-20 giorni rispetto alle pagine senza link.

Interferenza del Traffico Esterno

Ogni volta che gli utenti su piattaforme esterne cliccano su un link a una pagina eliminata, la richiesta HTTP generata invia un segnale al sistema di Google.

Se un URL contrassegnato come 404 genera più di 50 clic da domini esterni in 24 ore, il sistema di pianificazione di Googlebot lo reinserirà in una sequenza di osservazione ad alta frequenza.

Quando un gran numero di utenti clicca su una pagina non valida tramite Reddit, X o newsletter di settore, il browser rimanda il feedback del fallimento dell’accesso al database di Google.

L’algoritmo del motore di ricerca giudicherà che l’URL possiede ancora un certo grado di attività; per evitare la perdita di informazioni preziose dovuta a errori operativi degli amministratori, l’algoritmo sceglierà di prolungare la permanenza del risultato anziché rimuoverlo immediatamente.

“Nei protocolli di manutenzione dell’indice di Google, il peso dei segnali comportamentali degli utenti spesso sovrasta i comandi dei codici di stato HTTP. Se un vecchio percorso con stato 404 riceve ancora un flusso stabile di traffico da social media popolari o blog autorevoli, il sistema attiverà automaticamente una finestra di osservazione di 7-14 giorni. In questo periodo, il motore di ricerca invierà più volte i crawler per confermare la stabilità dello stato, assicurandosi che non si tratti di un errore di configurazione temporaneo del server.”

Il server di Google identifica la fonte reale del traffico tramite il campo Referrer nell’intestazione HTTP.

Se il traffico proviene principalmente dall’ecosistema di prodotti Google (come clic da Gmail) o da siti con ranking globale elevato, l’effetto di interferenza aumenterà esponenzialmente.

La tabella seguente mostra l’impatto dei dati di traffico sulla durata della permanenza nell’indice di Google:

Media giornaliera traffico esterno (UV)	Tipo di fonte principale	Incremento stimato tempo di permanenza	Variazione frequenza scansione Googlebot
5 – 20	Segnalibri personali o blog a bassa autorità	2 – 4 giorni	Mantiene una scansione settimanale
21 – 100	Discussioni Reddit o forum di settore medi	5 – 9 giorni	Aumenta a una scansione ogni 3 giorni
Oltre 100	Trend popolari su X o media autorevoli	10 – 20 giorni	Aumenta a una o più scansioni giornaliere

Questo fenomeno coinvolge anche l’allocazione del budget di scansione (Crawl Budget).

Le risorse che dovrebbero essere usate per scoprire nuovi contenuti vengono sprecate su questi URL non validi che generano costantemente feedback di traffico.

Quando il motore di ricerca osserva un’alta densità di clic verso una pagina 404, il sistema di valutazione della qualità registra questa “cattiva esperienza utente”.

Tuttavia, per cercare contenuti correlati che possano sostituire la pagina, Google potrebbe mantenere il risultato originale per un periodo, cercando di mostrare pagine consigliate simili sotto di esso, impedendo ulteriormente la scomparsa della vecchia pagina.

In un test tecnico su 500 URL non validi, è stato riscontrato che le pagine che continuano a ricevere clic da backlink esterni aggiornano il proprio snapshot nei server di cache con una frequenza 3,5 volte superiore rispetto alle pagine senza traffico.

Poiché il browser Chrome detiene oltre il 60% della quota di mercato globale, quando un utente inserisce un vecchio URL nella barra degli indirizzi o vi accede dai segnalibri, questo comportamento di accesso attivo è visto come prova che l’URL è ancora vitale.

Anche se la pagina restituisce l’errore standard di file non trovato, se l’utente non chiude la finestra del browser entro 30 secondi dall’accesso o prova a cercare altre informazioni nello stesso dominio, queste interazioni vengono interpretate dall’algoritmo come segno che la pagina ha ancora un posto nella topologia di Internet.

Siti Aggregatori

Quando una pagina web viene rimossa dal server di origine, le sue tracce digitali non scompaiono contemporaneamente dagli altri nodi di Internet.

Questi siti includono, a titolo esemplificativo, lettori RSS globali (come Feedly o Inoreader), strumenti di clipping (come Pocket) e istituzioni di archiviazione web (come la Wayback Machine di Archive.org).

Anche se la pagina originale restituisce un errore 404, gli snapshot HTML statici generati da queste piattaforme terze continuano a fornire punti di accesso ai crawler di Google.

Se Googlebot trova ripetutamente link verso l’URL non valido scansionando aggregatori ad alta autorità, l’algoritmo di gestione dell’indice genera una “contraddizione logica”:

Nonostante il sito originale riporti che il contenuto non esiste, l’ecosistema esterno continua a citarlo.

La tabella seguente elenca l’impatto specifico dei diversi tipi di aggregazione sulla permanenza nell’indice di Google:

Tipo di fonte di aggregazione	Ciclo di aggiornamento dati	Durata interferenza indice Google	Spiegazione logica di scansione
Feed RSS / Atom	Ogni 10 – 60 minuti	14 – 30 giorni	L’aggregatore richiede costantemente il file XML, mantenendo il vecchio URL in lista.
Piattaforme di archiviazione web	Versione salvata permanentemente	Interferenza a lungo termine	Lo stato “vivo” della pagina archiviata induce il crawler a rivisitare il vecchio percorso.
Siti mirror dei contenuti	Sincronizzazione giornaliera	7 – 21 giorni	Questi siti raccolgono dati via API; i loro backlink mantengono attivo l’URL nell’indice.
Cache metadati social media	Attivata su richiesta utente	3 – 10 giorni	Anteprime e descrizioni via protocollo Open Graph creano punti di scansione secondari.

A livello tecnico, il sistema di scansione distribuito di Google assegna a ogni URL scoperto un ciclo di cache chiamato TTL (Time To Live).

Quando i siti aggregatori generano costantemente “false citazioni” verso la pagina, i server dell’indice di Google ricevono richieste di scansione da molteplici segmenti IP diversi.

Se l’amministratore del sito non ha rimosso il record dalla Sitemap XML prima di eliminare la pagina, questo ciclo viene ulteriormente amplificato.

“La natura decentralizzata di Internet determina che l’eliminazione completa delle informazioni sia un processo graduale. Quando un URL entra in una rete di aggregazione pubblica, sfugge al controllo singolo del server originale. Googlebot, nel gestire questi segnali contrastanti, tende a proteggere la continuità dei risultati di ricerca, mantenendo lo stato memorizzato nei server di cache fino a quando non ha conferma che l’URL è nullo in tutti i nodi principali.”

Se un link di riferimento su piattaforme ad alta autorità come Reddit, Stack Overflow o Medium è ancora attivo, Googlebot potrebbe ritenere che lo stato 404 sia un guasto temporaneo dovuto alla manutenzione del server.

In questo caso, Google richiamerà la Cached Version (versione cache) salvata nei suoi nodi CDN globali per mostrarla agli utenti.

Circa il 22% delle pagine eliminate attraversa un “periodo di rinascita della cache” prima di sparire, durante il quale il motore di ricerca cerca di colmare il vuoto nell’indice tramite i contenuti in cache.

Ritardo di sincronizzazione dei data center: Google ha decine di data center principali nel mondo; l’aggiornamento dell’indice non è simultaneo in tutti. Se un aggregatore attiva una scansione su un nodo europeo, la sincronizzazione dell’informazione sul nodo nordamericano potrebbe richiedere ore o giorni.
Natura fuorviante delle richieste Head: Molti strumenti di aggregazione controllano la risposta del server solo tramite richieste Head, senza scaricare l’intero testo HTML. Questa interazione leggera rende difficile per l’algoritmo di Google giudicare immediatamente l’effettiva mancanza del contenuto.
Effetti collaterali del rendering JavaScript: Alcuni aggregatori avanzati usano browser headless per scansionare contenuti dinamici. Se la tua pagina 404 non è abbastanza semplice (ad es. contiene molte barre di navigazione o articoli consigliati), il crawler potrebbe erroneamente pensare che la pagina ospiti ancora informazioni valide.
Scansione ricorsiva dei percorsi di citazione: Il sito A cita l’URL eliminato, il sito B scansiona l’elenco del sito A. Questa rete di citazioni a più livelli fornisce a Googlebot un flusso continuo di percorsi di scansione, mantenendo il vecchio URL nella coda di elaborazione.

Quando il numero di siti aggregatori raggiunge una certa scala, il budget di scansione di Google viene occupato da questi percorsi non validi.

Per gestire questi residui, l’uso dello strumento Rimozioni (Removals Tool) di Google Search Console è il modo più rapido per rompere questo ciclo logico.

Don Jiang

SEO本质是资源竞争，为搜索引擎用户提供实用性价值，关注我，带您上顶楼看透谷歌排名的底层算法。

I parametri dinamici causano l’indicizzazione duplicata｜Confronto tra 3 soluzioni di canonicalizzazione URL

Come risolvere un sito web contrassegnato come “Non sicuro” da Google

Gli strumenti di riscrittura AI generano caratteristiche di ‘turbulenza testuale’｜Come eliminare manualmente i marcatori di identificazione algoritmica

Perché le pagine eliminate appaiono ancora nei risultati di ricerca di Google

Ritardo di Scansione (Crawling Lag)

Verifica 404

Parametri di Influenza

Cache della Pagina (Cache)

Motivi della Visualizzazione

Standard di Rimozione

Errore di Configurazione (Soft 404)

Stato del Codice Fuorviante

Identificazione e Gestione

Link Esterni Ancora Esistenti

Interferenza del Traffico Esterno

Siti Aggregatori

I parametri dinamici causano l’indicizzazione duplicata｜Confronto tra 3 soluzioni di canonicalizzazione URL

Come risolvere un sito web contrassegnato come “Non sicuro” da Google

Gli strumenti di riscrittura AI generano caratteristiche di ‘turbulenza testuale’｜Come eliminare manualmente i marcatori di identificazione algoritmica

Guida all’ottimizzazione SEO dei Meta Tag丨14 Meta Tag utilizzati in Google SEO

Cos’è un Guest Post｜Con un elenco di 50 piattaforme DA90+ dove inviare articoli (Aggiornato in tempo reale)

La grande discrepanza tra le posizioni delle parole chiave rilevate dagli strumenti e i risultati di ricerca reali丨cause e analisi

Pagina 404 reindirizzo automatico alla Homepage｜Sarà penalizzata da Google

Che cos’è l’NLP nella SEO丨Come Google SEO utilizza l’NLP

Guida all’impostazione della frequenza di aggiornamento della sitemap丨Blog/Siti di notizie, Siti e-commerce, Siti web aziendali

Cos’è la KD SEO | Qual è la migliore difficoltà delle parole chiave per i principianti

服务时间