Macchine di disuguaglianza: l’innata assenza di democrazia nel web semantico

muslim

Lo scor­so 19 novem­bre è emer­so su Inter­net uno degli erro­ri più gra­vi pre­sen­ta­ti dal moto­re seman­ti­co di Goo­gle, che rispon­de­va alla doman­da “Qua­le per­cen­tua­le di musul­ma­ni sono ter­ro­ri­sti?” con un sec­co “94 per­cen­to”. L’ar­ti­co­lo del Dai­ly Bea­st, da cui veni­va for­za­ta­men­te estrat­to il dato, dice­va il con­tra­rio — ripor­ta­va una sta­ti­sti­ca che indi­ca­va come dal 1980 al 2005, il 94 per­cen­to di atten­ta­ti ter­ro­ri­sti­ci esplo­si su ter­ri­to­rio sta­tu­ni­ten­se fos­se com­mes­so da non-musulmani. 

Il con­te­sto è ripor­ta­to sot­to la rispo­sta sec­ca, ma in carat­te­ri minu­sco­li, qua­si una scu­sa invo­lon­ta­ria del­la mac­chi­na. Nel caso spe­ci­fi­co, si trat­ta sol­tan­to di un gra­vis­si­mo erro­re nel lavo­ro di rac­col­ta dati aggres­si­va che fa Goo­gle. Ma la coin­ci­den­za del­l’er­ro­re con gli atten­ta­ti del 13 Novem­bre a Pari­gi sot­to­li­nea come la tran­si­zio­ne del­l’or­ga­niz­za­re l’In­ter­net da Rete di Docu­men­ti a Rete di Dati sia un’a­zio­ne cari­ca di con­se­guen­ze socio-politiche.

Che cos’è il web semantico, e a cosa ci serve

L’espressione Web Seman­ti­co, conia­ta da Tim Ber­ners-Lee, si rife­ri­sce ad una evo­lu­zio­ne dell’Internet dove ogni docu­men­to pub­bli­ca­to – ogni pagi­na HTML, imma­gi­ne, video – è ade­gua­ta­men­te tag­ga­to con meta­da­ti che per­met­to­no a una mac­chi­na di effet­tua­re ricer­che piú ela­bo­ra­te, così da per­met­te­re di estrar­re il pre­ci­so dato che l’utente ha richie­sto. La tran­si­zio­ne del­la Rete di Docu­men­ti in Rete di Dati è sta­ta teo­riz­za­ta nel 2001 da Berners–Lee, Hend­ler e Lassila.
L’idea di un web seman­ti­co nasce dal­la neces­si­tà di gui­da­re gli uten­ti con piú pre­ci­sio­ne attra­ver­so un Inter­net sem­pre piú vasto e dove è faci­le per­der­si, o fini­re in posti dove non si vole­va andare.

Il Google Knowledge Graph e Wikidata

Pri­mo pas­so ver­so un vero moto­re di ricer­ca seman­ti­co, il Kno­w­led­ge Gra­ph è la base di cono­scen­za che Goo­gle usa per pre­sen­ta­re le sche­de rias­sun­ti­ve che impa­gi­na a destra di qua­si tut­te le ricer­che oggi. Una base di cono­scen­za è un data­ba­se che appun­to rac­co­glie nozio­ni. Nel caso di Goo­gle, l’obiettivo è di costrui­re una base di cono­scen­za che orga­niz­zi tut­ti i dati e le infor­ma­zio­ni del mon­do. Una base di cono­scen­za vie­ne soli­ta­men­te con­sul­ta­ta attra­ver­so un moto­re infe­ren­zia­le: un algo­rit­mo che simu­la ragio­na­men­ti dedut­ti­vi e indut­ti­vi del­la men­te umana.
Nell’esempio del 94 per­cen­to il moto­re infe­ren­zia­le ha inter­pre­ta­to cor­ret­ta­men­te la richie­sta dell’utente, ma la base di cono­scen­za ave­va clas­si­fi­ca­to il dato in manie­ra scor­ret­ta. Il risul­ta­to è la com­ple­ta tra­sfi­gu­ra­zio­ne di un dato pre­sen­ta­ta come real­tà assoluta.

In ori­gi­ne la fon­te prin­ci­pa­le del Kno­w­led­ge Gra­ph era Wiki­pe­dia, cer­can­do di fare ordi­ne dei docu­men­ti che son­da­va. Meno di sei mesi par­ti­va l’operazione Wiki­da­ta, una base di cono­scen­za gesti­ta da Wiki­me­dia e in par­te finan­zia­ta pro­prio da Google.
Gli uten­ti di Wiki­da­ta orga­niz­za­no dati estra­po­la­ti dal­le pagi­ne di Wiki­pe­dia e li inca­sel­la­no in sin­go­le voci che una mac­chi­na può facil­men­te inter­pre­ta­re e riutilizzare. 

Lo scor­so 28 otto­bre è sta­to pub­bli­ca­to sul Social Scien­ce Research Net­work lo stu­dio Seman­tic Cities: Coded Geo­po­li­tics and the Rise of the Seman­tic Web che ver­rà pub­bli­ca­to il pros­si­mo anno da Rou­tled­ge nel volu­me Code and the City.

Con lo sco­po di ana­liz­za­re le inte­ra­zio­ni tra Inter­net e le nozio­ni con­te­sta­te rela­ti­ve ad una cit­tà, gli auto­ri del­lo stu­dio, Hea­ther Ford e Mark Gra­ham, ana­liz­za­no con gran­de effi­ca­cia come la dif­fu­sio­ne dei dati non con­te­stua­liz­za­ti abbia pesan­ti con­se­guen­ze demo­cra­ti­che e di rappresentanza.
Divi­do­no la pro­pria cri­ti­ca al web seman­ti­co su tre fronti:
• Per­di­ta di dettaglio
• Man­can­za di pro­ve­nien­za dei dati
• Per­di­ta di con­trol­lo da par­te degli uten­ti sui dati.

Il caso di Gerusalemme

jeru
Se è impos­si­bi­le tro­va­re pro­ble­ma­ti­che nel­la cate­go­riz­za­zio­ne acri­ti­ca di una dato come Pari­gi, capi­ta­le fran­ce­se, il mon­do è trop­po com­ples­so per esse­re sem­pli­fi­ca­to al livel­lo neces­sa­rio per esse­re poi riu­ti­liz­za­to nel­le rispo­ste seman­ti­che di Goo­gle. Ford e Gra­ham usa­no come esem­pio la cit­tà di Geru­sa­lem­me. Qual­sia­si ricer­ca rela­ti­va alla cit­tà pre­sen­ta in cima ai risul­ta­ti il box gene­ra­to dal­lo Kno­w­led­ge Gra­ph di Goo­gle. Sot­to­ti­to­lo: Capi­ta­le di Israele.

Perdita di dettaglio

Tut­ta­via, lo sta­tus di capi­ta­le di Israe­le è mate­ria di con­te­sa poli­ti­ca da qua­si cinquant’anni, e la “leg­ge fon­da­men­ta­le” del par­la­men­to israe­lia­no del 1980 che ne uffi­cia­liz­za­va il ruo­lo è con­si­de­ra­ta “nul­la e pri­va di vali­di­tà” dall’ONU. La pagi­na di Wiki­pe­dia spie­ga dif­fu­sa­men­te la discus­sio­ne, la tran­si­zio­ne del­la stes­sa nozio­ne da para­gra­fo di un docu­men­to discor­si­vo a strin­ga elen­ca­ta come meta­da­ta distrug­ge irri­me­dia­bil­men­te la finez­za, il det­ta­glio, e defor­ma gra­ve­men­te la realtà. 

Mancanza di provenienza dei dati

La pre­sen­ta­zio­ne di Goo­gle dei dati ela­bo­ra­ti attra­ver­so lo Kno­w­led­ge Gra­ph aggra­va la situa­zio­ne: per amo­re di bre­vi­tà e sem­pli­ci­tà, qual­sia­si for­ma di fon­te, qual­sia­si giu­sti­fi­ca­zio­ne dei dati pre­sen­ta­ti, è rimos­sa. Que­sta scel­ta di desi­gn è soste­ni­bi­le solo secon­do la pre­te­sa che puri dati sia­no ine­ren­te­men­te apo­li­ti­ci. Tut­ta­via, nes­sun dato è mai pri­vo di simi­li con­no­ta­zio­ni, per ragio­ni reto­ri­che, e di cal­co­lo. Nel caso esa­mi­na­to da Ford e Gra­ham Goo­gle ripor­ta come popo­la­zio­ne tota­le del­la cit­tà di Geru­sa­lem­me il dato pub­bli­co di UNda­ta (data.un.gov), che pub­bli­ca le sta­ti­sti­che che rice­ve dall’alternativa piú vici­na ad un orga­no uffi­cia­le — in que­sto caso, l’Israeli Cen­tral Bureau of Sta­ti­stics, un’istituzione non rico­no­sciu­ta dai Palestinesi.
Nel caso di Geru­sa­lem­me, dati come que­sti, che una mac­chi­na non può che trat­ta­re come trat­ta ogni altro ogget­to nel­la cate­go­ria, han­no un enor­me valo­re poli­ti­co. Pri­va­ti di con­te­sto, di giu­sti­fi­ca­zio­ne, e di fon­te, dati ema­na­ti da un orga­no a fini stret­ta­men­te poli­ti­ci pos­so­no esse­re pre­sen­ta­ti come un dato di fat­to, una sta­ti­sti­ca incontestabile.

Gli utenti perdono controllo dei dati

A dif­fe­ren­za del­la Wiki­pe­dia cen­tra­le, Wiki­da­ta ha forum di discus­sio­ne uni­ca­men­te in lin­gua ingle­se, chiu­den­do la con­ver­sa­zio­ne riguar­do la cor­ret­tez­za dei dati pre­sen­ta­ti die­tro una spes­sa bar­rie­ra lin­gui­sti­ca. Men­tre le pagi­ne del­le Wiki­pe­dia in lin­gua ebrai­ca e ara­ba vedo­no un con­fron­to costrut­ti­vo attor­no alla neces­si­tà di pre­sen­ta­re i dati riguar­do la dif­fi­ci­le situa­zio­ne di Geru­sa­lem­me, di que­sta con­ver­sa­zio­ne ci sono solo pal­li­de trac­ce nel­le Discus­sio­ni rela­ti­ve alle voci su Wikidata. 

Anco­ra piú com­ples­so è l’accesso ai dati del Kno­w­led­ge Gra­ph: Goo­gle offre una fun­zio­ne di feed­back all’utente, che può indi­ca­re quan­do un dato è scor­ret­to e indi­ca­re una cor­re­zio­ne, offren­do una fon­te. Ma la richie­sta spro­fon­da in un “black box”, come osser­va­to in Socie­ty of the Que­ry, König (2014), e l’utente non rice­ve infor­ma­zio­ne riguar­do il risul­ta­to del­la pro­pria domanda.
Così dati che ven­go­no pre­le­va­ti da fon­ti, che come tut­te le fon­ti del mon­do han­no un’agenda poli­ti­ca, ven­go­no ele­va­ti a Veri­tà incon­te­sta­bi­le non solo visi­va­men­te, ma anche pra­ti­ca­men­te, con­si­de­ra­ta la dif­fi­col­tà enor­me per agen­ti ter­zi di assi­cu­rar­ne la veridicità.

Il ruo­lo qua­si mono­po­li­sti­co nei rispet­ti­vi set­to­ri di Goo­gle e Wiki­me­dia pone su di loro una respon­sa­bi­li­tà enor­me, che solo Wiki­me­dia sem­bra, alme­no par­zial­men­te, inte­res­sa­ta a pren­der­si a carico.
Nel ren­de­re la pro­du­zio­ne di docu­men­ti sull’Internet piú facil­men­te inter­pre­ta­bi­le da mac­chi­ne, non dob­bia­mo mai per­de­re di vista che oltre una cer­ta soglia sem­pli­fi­ca­re diven­ta impo­ve­ri­re, e che ogni reda­zio­ne e impa­gi­na­zio­ne di dati è sem­pre un atto per natu­ra politico.
Die­tro l’apparentemente inno­cen­te tesi che “un nume­ro non può ave­re un ine­ren­te valo­re poli­ti­co” è pre­sen­te lo spet­tro dell’azione poli­ti­ca e socia­le che si dichia­ra apo­li­ti­ca: una azio­ne che può sem­pre e solo anda­re a van­tag­gio del pote­re con­so­li­da­to, con­tro mino­ran­ze e indifesi.
Que­sti spa­zi digi­ta­li potreb­be­ro e dovreb­be­ro esse­re inve­ce esse­re spa­zi di con­fron­to. La loro impor­tan­za è indi­scus­sa, ma è vivo il rischio che l’intento di orga­niz­za­re la cono­scen­za del mon­do si tra­du­ca in un inar­re­sta­bi­le pro­ces­so di omo­lo­ga­zio­ne cul­tu­ra­le, nel­la miglio­re del­le ipo­te­si, o in alter­na­ti­va, in diret­ta defor­ma­zio­ne del­la realtà.

Con­di­vi­di:
Alessandro Massone
Desi­gner di gior­no, blog­ger di not­te, pod­ca­ster al crepuscolo.

Commenta per primo

Lascia un commento

L'indirizzo email non sarà pubblicato.