Del: 23 Novembre 2015 Di: Alessandro Massone Commenti: 0

muslim

Lo scorso 19 novembre è emerso su Internet uno degli errori più gravi presentati dal motore semantico di Google, che rispondeva alla domanda “Quale percentuale di musulmani sono terroristi?” con un secco “94 percento”. L’articolo del Daily Beast, da cui veniva forzatamente estratto il dato, diceva il contrario — riportava una statistica che indicava come dal 1980 al 2005, il 94 percento di attentati terroristici esplosi su territorio statunitense fosse commesso da non-musulmani.

Il contesto è riportato sotto la risposta secca, ma in caratteri minuscoli, quasi una scusa involontaria della macchina. Nel caso specifico, si tratta soltanto di un gravissimo errore nel lavoro di raccolta dati aggressiva che fa Google. Ma la coincidenza dell’errore con gli attentati del 13 Novembre a Parigi sottolinea come la transizione dell’organizzare l’Internet da Rete di Documenti a Rete di Dati sia un’azione carica di conseguenze socio-politiche.

Che cos’è il web semantico, e a cosa ci serve

L’espressione Web Semantico, coniata da Tim Berners-Lee, si riferisce ad una evoluzione dell’Internet dove ogni documento pubblicato – ogni pagina HTML, immagine, video – è adeguatamente taggato con metadati che permettono a una macchina di effettuare ricerche piú elaborate, così da permettere di estrarre il preciso dato che l’utente ha richiesto. La transizione della Rete di Documenti in Rete di Dati è stata teorizzata nel 2001 da Berners–Lee, Hendler e Lassila.
L’idea di un web semantico nasce dalla necessità di guidare gli utenti con piú precisione attraverso un Internet sempre piú vasto e dove è facile perdersi, o finire in posti dove non si voleva andare.

Il Google Knowledge Graph e Wikidata

Primo passo verso un vero motore di ricerca semantico, il Knowledge Graph è la base di conoscenza che Google usa per presentare le schede riassuntive che impagina a destra di quasi tutte le ricerche oggi. Una base di conoscenza è un database che appunto raccoglie nozioni. Nel caso di Google, l’obiettivo è di costruire una base di conoscenza che organizzi tutti i dati e le informazioni del mondo. Una base di conoscenza viene solitamente consultata attraverso un motore inferenziale: un algoritmo che simula ragionamenti deduttivi e induttivi della mente umana.
Nell’esempio del 94 percento il motore inferenziale ha interpretato correttamente la richiesta dell’utente, ma la base di conoscenza aveva classificato il dato in maniera scorretta. Il risultato è la completa trasfigurazione di un dato presentata come realtà assoluta.

In origine la fonte principale del Knowledge Graph era Wikipedia, cercando di fare ordine dei documenti che sondava. Meno di sei mesi partiva l’operazione Wikidata, una base di conoscenza gestita da Wikimedia e in parte finanziata proprio da Google.
Gli utenti di Wikidata organizzano dati estrapolati dalle pagine di Wikipedia e li incasellano in singole voci che una macchina può facilmente interpretare e riutilizzare.

Lo scorso 28 ottobre è stato pubblicato sul Social Science Research Network lo studio Semantic Cities: Coded Geopolitics and the Rise of the Semantic Web che verrà pubblicato il prossimo anno da Routledge nel volume Code and the City.

Con lo scopo di analizzare le interazioni tra Internet e le nozioni contestate relative ad una città, gli autori dello studio, Heather Ford e Mark Graham, analizzano con grande efficacia come la diffusione dei dati non contestualizzati abbia pesanti conseguenze democratiche e di rappresentanza.
Dividono la propria critica al web semantico su tre fronti:
• Perdita di dettaglio
• Mancanza di provenienza dei dati
• Perdita di controllo da parte degli utenti sui dati.

Il caso di Gerusalemme

jeru
Se è impossibile trovare problematiche nella categorizzazione acritica di una dato come Parigi, capitale francese, il mondo è troppo complesso per essere semplificato al livello necessario per essere poi riutilizzato nelle risposte semantiche di Google. Ford e Graham usano come esempio la città di Gerusalemme. Qualsiasi ricerca relativa alla città presenta in cima ai risultati il box generato dallo Knowledge Graph di Google. Sottotitolo: Capitale di Israele.

Perdita di dettaglio

Tuttavia, lo status di capitale di Israele è materia di contesa politica da quasi cinquant’anni, e la “legge fondamentale” del parlamento israeliano del 1980 che ne ufficializzava il ruolo è considerata “nulla e priva di validità” dall’ONU. La pagina di Wikipedia spiega diffusamente la discussione, la transizione della stessa nozione da paragrafo di un documento discorsivo a stringa elencata come metadata distrugge irrimediabilmente la finezza, il dettaglio, e deforma gravemente la realtà.

Mancanza di provenienza dei dati

La presentazione di Google dei dati elaborati attraverso lo Knowledge Graph aggrava la situazione: per amore di brevità e semplicità, qualsiasi forma di fonte, qualsiasi giustificazione dei dati presentati, è rimossa. Questa scelta di design è sostenibile solo secondo la pretesa che puri dati siano inerentemente apolitici. Tuttavia, nessun dato è mai privo di simili connotazioni, per ragioni retoriche, e di calcolo. Nel caso esaminato da Ford e Graham Google riporta come popolazione totale della città di Gerusalemme il dato pubblico di UNdata (data.un.gov), che pubblica le statistiche che riceve dall’alternativa piú vicina ad un organo ufficiale — in questo caso, l’Israeli Central Bureau of Statistics, un’istituzione non riconosciuta dai Palestinesi.
Nel caso di Gerusalemme, dati come questi, che una macchina non può che trattare come tratta ogni altro oggetto nella categoria, hanno un enorme valore politico. Privati di contesto, di giustificazione, e di fonte, dati emanati da un organo a fini strettamente politici possono essere presentati come un dato di fatto, una statistica incontestabile.

Gli utenti perdono controllo dei dati

A differenza della Wikipedia centrale, Wikidata ha forum di discussione unicamente in lingua inglese, chiudendo la conversazione riguardo la correttezza dei dati presentati dietro una spessa barriera linguistica. Mentre le pagine delle Wikipedia in lingua ebraica e araba vedono un confronto costruttivo attorno alla necessità di presentare i dati riguardo la difficile situazione di Gerusalemme, di questa conversazione ci sono solo pallide tracce nelle Discussioni relative alle voci su Wikidata.

Ancora piú complesso è l’accesso ai dati del Knowledge Graph: Google offre una funzione di feedback all’utente, che può indicare quando un dato è scorretto e indicare una correzione, offrendo una fonte. Ma la richiesta sprofonda in un “black box”, come osservato in Society of the Query, König (2014), e l’utente non riceve informazione riguardo il risultato della propria domanda.
Così dati che vengono prelevati da fonti, che come tutte le fonti del mondo hanno un’agenda politica, vengono elevati a Verità incontestabile non solo visivamente, ma anche praticamente, considerata la difficoltà enorme per agenti terzi di assicurarne la veridicità.

Il ruolo quasi monopolistico nei rispettivi settori di Google e Wikimedia pone su di loro una responsabilità enorme, che solo Wikimedia sembra, almeno parzialmente, interessata a prendersi a carico.
Nel rendere la produzione di documenti sull’Internet piú facilmente interpretabile da macchine, non dobbiamo mai perdere di vista che oltre una certa soglia semplificare diventa impoverire, e che ogni redazione e impaginazione di dati è sempre un atto per natura politico.
Dietro l’apparentemente innocente tesi che “un numero non può avere un inerente valore politico” è presente lo spettro dell’azione politica e sociale che si dichiara apolitica: una azione che può sempre e solo andare a vantaggio del potere consolidato, contro minoranze e indifesi.
Questi spazi digitali potrebbero e dovrebbero essere invece essere spazi di confronto. La loro importanza è indiscussa, ma è vivo il rischio che l’intento di organizzare la conoscenza del mondo si traduca in un inarrestabile processo di omologazione culturale, nella migliore delle ipotesi, o in alternativa, in diretta deformazione della realtà.

Alessandro Massone
Designer di giorno, blogger di notte, podcaster al crepuscolo.

Commenta