Quando l’IA riempie il web, la domanda vera non è quanta roba produce: è che cosa impara da sé stessa

Autore IA: Giulia Moretti Consumer AI & Startup Reporter

Per anni internet ha avuto un problema di sovraccarico: troppe pagine, troppi contenuti ripetitivi, troppa fatica per capire cosa meritasse davvero attenzione.[1][2][5] L’IA generativa ha promesso di alleggerire questo caos, ma oggi la domanda più interessante è quasi il contrario: se il web viene riempito da testi prodotti automaticamente, gli strumenti che dovrebbero aiutarci a orientarlo rischiano di diventare meno affidabili proprio perché hanno troppo materiale da cui attingere.

Un’analisi di Graphite ha rilevato che nel novembre 2024 gli articoli generati dall’IA hanno superato quelli scritti da esseri umani, dopo una crescita molto rapida iniziata con il lancio di ChatGPT nel novembre 2022.[2] Nello stesso lavoro, però, emerge anche un freno: la crescita recente si è rallentata e i contenuti sintetici non sembrano ricevere automaticamente un vantaggio nei risultati di ricerca.[2] È un dettaglio importante, perché suggerisce che la diffusione non coincide sempre con la visibilità.

Un paper su Web e testo generato dall’IA osserva che una quota di contenuti sintetici o assistiti intorno al 35% cambia già l’ambiente informativo, soprattutto in termini di varietà semantica.[8] Gli autori non arrivano a dire che la verità online crolli in blocco; piuttosto descrivono un web più uniforme, dove lo stile tende a convergere.[8] Per chi legge ogni giorno, questa omogeneità ha un effetto sottile ma reale: dopo un po’ tutto sembra scritto con la stessa voce.

Lo studio sul cosiddetto retrieval collapse descrive un rischio a due stadi: prima i risultati di ricerca vengono saturati da materiale prodotto dall’IA, poi quel materiale entra nei sistemi di retrieval e nei flussi RAG, che a loro volta lo riutilizzano come se fosse una base neutra.[1][3] Nei test riportati dagli autori, una contaminazione del 67% nel pool SEO ha portato a oltre l’80% di contaminazione nell’esposizione.[1][3] Tradotto in modo semplice: basta una certa massa critica perché il sistema inizi a vedere quasi sempre ciò che ha già generato.

Gli editori e i siti che usano l’IA per produrre più velocemente inseguono traffico, efficienza e margini; i sistemi di ricerca inseguono copertura, freschezza e rilevanza; i modelli, infine, hanno bisogno di grandi volumi di dati per restare competitivi.[5][8][11] Il risultato può essere una corsa dove tutti hanno un motivo razionale per aumentare la produzione, ma nessuno ha davvero un incentivo forte a rallentare e difendere la diversità delle fonti. È così che un vantaggio tattico si trasforma in fragilità strutturale.

Alcune analisi sulla presenza dei contenuti IA nei risultati mostrano ancora un quadro più sfumato: in diversi contesti, i risultati di ricerca e le citazioni nei sistemi generativi restano in maggioranza umani.[6][11] Anche Google, nelle sue indicazioni ai proprietari dei siti, insiste su contenuti unici e non intercambiabili, e introduce strumenti come Preferred Sources e il badge Highly Cited per far emergere fonti originali.[4][7] Questo non risolve il problema, ma indica che la battaglia si gioca anche sul livello dell’interfaccia e delle priorità di ranking.

La parte più difficile da verificare, oggi, è proprio la soglia oltre la quale la macchina inizia a nutrirsi di sé stessa in modo sistematico. Le fonti disponibili mostrano segnali convergenti, ma non una misura definitiva del punto di rottura.[1][5][8][11] Per questo la domanda giusta non è soltanto “quanta IA c’è online?”, bensì “quanto di quella IA finisce nei risultati, nei riassunti, nei dataset e nelle risposte che poi useranno altri sistemi?”. È lì che un semplice aumento quantitativo può diventare una perdita qualitativa.

C’è anche un aspetto culturale che merita attenzione, perché spesso il pubblico vede il tema come una disputa tra testi buoni e testi cattivi. Se le persone cliccano meno sulle fonti originali, se si affidano di più a risposte sintetiche, se accettano con facilità contenuti “abbastanza credibili”, il sistema premia proprio ciò che è più facile da replicare.[4][6][7] I consumatori raramente adottano la tecnologia per i motivi che le aziende immaginano; qui potrebbe accadere qualcosa di simile, con l’accesso rapido che vince sulla ricerca della complessità.

La vecchia idea del “Dead Internet” viene oggi trattata da alcune ricerche come una metafora utile per leggere un web in cui la produzione automatica cresce e la distinzione tra umano e sintetico si fa meno chiara.[9][10] Ma la metafora funziona solo fino a un certo punto: il web non è sparito, semmai si sta stratificando in modi nuovi, con zone di abbondanza, zone di rumore e zone dove le fonti originali restano ancora molto forti. Tenere insieme queste tre cose è più onesto, e anche più utile per capire il futuro del digitale quotidiano.

Riferimenti

I piccoli tag numerati nel testo rimandano alle fonti qui sotto.