
Spesso siamo esposti a informazioni che ci restituiscono una visione parziale del mondo. Ciò che leggiamo, infatti, è filtrato rispetto alle nostre preferenze e convinzioni. Quando ci informiamo online, il rischio di dimenticare punti di vista diversi dal nostro e di incappare in notizie poco affidabili si amplifica (vedi come e perché qui).
Alcune piattaforme, in qualche modo ammettendo una parte di responsabilità, hanno attivamente cercato di combattere la disinformazione. Facebook cerca di rallentare la diffusione di notizie false, mentre Twitter si serve di warning messages. Nonostante non ci sia ad oggi modo di analizzare – per mancanza di trasparenza – i sistemi utilizzati da Twitter e Facebook, è utile cercare di capire, in generale, come funziona il riconoscimento della disinformazione.

Per comodità, possiamo distinguere tra meccanismi di filtraggio automatici e manuali. Se i primi riguardano un controllo meccanico delle informazioni, i secondi si basano sul lavoro manuale dei fact checkers, ovvero di chi si occupa di verificare fonti ed accuratezza di ciascun articolo. I due approcci sono, in senso lato, complementari. Il lavoro umano richiede una sensibilità e una capacità di interpretazione che non possiamo pretendere dai sistemi automatici. Allo stesso tempo, il fact checking è un processo, per natura, abbastanza lento. Capita che una notizia poco affidabile faccia il giro dei social prima di venire segnalata come tale. D’altra parte, gli algoritmi alla base dei sistemi automatici sono più veloci, e, se vengono approvati da una determinata piattaforma, allora vuol dire che sono – in senso stretto – accurati. È importante però non mistificare la loro portata.
I sistemi di classificazione automatica di fake news sono, appunto, dei classificatori. In parole semplici, essi categorizzano ogni notizia a loro fornita in senso binario (in questo caso, come vera o come falsa). Per fare ciò, essi vengono allenati a riconoscere notizie vere e false, in modo supervisionato. Un gran numero di notizie, precedentemente categorizzate da persone adeguatamente istruite, viene dato in pasto agli algoritmi. La potenza di tali sistemi sta nella capacità di generalizzare ciò che hanno ricevuto come input, basandosi su proprietà che caratterizzano ciò che è affidabile e ciò che non lo è. Una volta allenati, gli algoritmi sono in grado di classificare nuove notizie, ovvero notizie che non sono passate al vaglio umano. Ad esempio, se è statisticamente vero che la punteggiatura esuberante caratterizza le notizie false, allora l’algoritmo, allenato a “guardare’’ alle caratteristiche testuali delle notizie, quando incontra un titolo con tale punteggiatura, lo categorizza come titolo di notizia falsa. Esistono anche sistemi di classificazione allenati in modo non supervisionato, la differenza sostanziale, in questo caso, sta appunto nel modo in cui le informazioni rilevanti vengono identificate.
Riconosciuta l’esistenza di echo chambers, si potrebbe pensare a classificatori basati non solo su contenuto, stile e struttura del testo delle notizie ma anche sull’identità di chi le notizie le legge e condivide. In altre parole, l’analisi non si limiterebbe alla notizia in sé, ma anche a chi la diffonde.
Informazioni demografiche come estrazione sociale, preferenze politiche, occupazione e luogo di abitazione possono essere utili a capire chi è più soggetto all’effetto della disinformazione. Alcuni studi hanno dimostrato che durante la campagna elettorale del 2016, i cittadini americani conservatori e di età avanzata sono stati i maggiori frequentatori e promotori di siti di fake news. Studi simili hanno riportato una correlazione tra conservatorismo politico e disinformazione in Cile e Germania, ma non in Ungheria.
Se si ha come parametro l’accuratezza di classificazione, il ragionamento è sensato. Più informazioni vengono date in pasto all’algoritmo, meglio dovrebbe funzionare. Ma quanto sarebbe eticamente sostenibile?
Come abbiamo detto, ciò che rende potente questi sistemi è la capacità di generalizzazione. Sarebbe allora giusto classificare non tanto le notizie quanto i lettori, in base a dati forniti da persone che con loro condividono delle caratteristiche demografiche? Non si tratterebbe di un raffinato sistema stereotipante?
Inoltre, per quanto siano accurati, questi sistemi non lo sono mai al 100%. Un’accuratezza del 90% è più che accettabile per molte applicazioni. Ciò significa che, sistematicamente, circa il 10% di notizie o utenti viene posto nella categoria sbagliata. È giusto chiedersi quanto ne risenta quel 10% e quanto alcuni gruppi di persone siano più esposti a tale rischio (ovvero riflettere sul disparate impact).

Alla luce di questi rischi, sono state sviluppate opzioni alternative. Esistono sistemi di classificazione che mantengono il giudizio umano nel processo decisionale (più lenti ma più attenti ai casi singoli) e sistemi che non si basano su informazioni individuali ma sulle caratteristiche linguistiche di ciò che viene condiviso, abbinate a informazioni riguardanti il network di individui attraverso i quali la notizia si diffonde. È il caso del lavoro di alcuni ricercatori dell’Università di Amsterdam (vedi qui e qui). In questo modo, si prendono in considerazione dati non strettamente personali ma ugualmente informativi, quali il pattern di likes, retweets e condivisioni. Il rischio di discriminazione rimane, ma è ne è attenuato.
Ciò che si può fare è, prima di tutto, pensare a sistemi che si servano della capacità predittiva degli algoritmi e del giudizio umano. In secondo luogo, è bene conoscere questi sistemi, almeno a grandi linee, per esercitare un giudizio critico sulla loro classificazione. In terzo luogo, bisogna capire che, per quanto raffinati, questi classificatori non si avvicinano a nulla che si possa dire pensiero umano. Gli algoritmi si basano su quello che noi, come fornitori di dati, annotatori o ricercatori, diamo a loro in pasto. Come dicono gli informatici: “garbage in, garbage out”. Tutto ciò che di stereotipato o ingiusto viene fornito come input, viene non solo restituito, ma anche amplificato – per via della generalizzazione – come output.