Il mito dell'accuratezza


L'11 Novembre si è conclusa la quinta edizione del Codemotion Milano, tra le maggiori conferenze italiane dedicate interamente agli sviluppatori. È stata anche la prima edizione che ho seguito interamente come membro del program committee, cercando di dare vita ad una track di interesse dedicata al mondo del machine learning e dell'IA. Una track del genere è una novità più o meno recente per il Codemotion, e siamo stati fortunati ad avere speaker dalle maggiori realtà industriali (Google, NVIDIA, ...) che hanno animato il pubblico per le due giornate di presentazioni.

Per chi come me viene dal mondo della ricerca, vedere in continuazione centinaia di sviluppatori, imprenditori e programmatori interessati al deep learning è al tempo stesso un'esperienza inebriante e fonte di riflessione. Lanciarsi oggi in questo campo è sicuramente una scelta fondata: NVIDIA a Maggio aveva annunciato di voler formare oltre centomila sviluppatori per far fronte ad una domanda che non sembra voler diminuire. Un grafico da solo riassume bene l'esplosione dell'uso del deep learning in Google dal 2012 al 2015:

Eppure, per quanto se ne dica, gli algoritmi di deep learning sono intelligenti tanto quanto chi li programma, e quest'uso massiccio di tecniche data-driven in pratica dovrebbe anche far riflettere su cosa potrebbe andare storto e sui loro limiti. Un aspetto di cui abbiamo discusso a lungo al Codemotion è quello che mi piace chiamare il mito dell'accuratezza. Qualche mese fa abbiamo letto su molti giornali specialistici che IBM è vicina ad ottenere una accuratezza sovraumana nel riconoscimento del parlato, e questo è in linea con molte altre notizie degli ultimi anni. Ma quando parliamo di un algoritmo di deep learning nella pratica, basta veramente discutere di accuratezza per decidere se l'algoritmo risolve o meno il nostro problema? Per dirla in altri termini: può un solo numero in percentuale quantificare la complessità del mondo reale?

Bias e discriminazioni

Partiamo da un esempio reale: nel 2016 l'organizzazione no-profit ProPublica pubblicò un'inchiesta molto dettagliata che accusava un software in uso in molti tribunali americani di essere fortemente discriminatorio. Il software, usato dai giudici per valutare la probabilità che l'imputato commettesse nuovamente un crimine in futuro, sembrava basarsi quasi esclusivamente su un fattore razziale:

I dettagli del software sono proprietari, ma questo genere di risultato non dovrebbe sorprendere. Se nei dati usati dalla compagnia che ha realizzato il software esiste una correlazione tra etnia e criminalità, qualsiasi sia la sua origine, essa diventerà un fattore predittivo importante in termini di accuratezza media. Come persone, sappiamo tutti che è un'aberrazione statistica usare una correlazione nei confronti di un singolo individuo, ma questo l'algoritmo non lo sa, anzi: dal punto di vista dell'accuratezza, queste correlazioni sono benefiche.

Un problema simile è salito alla ribalta pochi mesi dopo, quando un gruppo di ricercatori della Boston University e di Microsoft hanno mostrato che quasi tutti gli algoritmi di word embedding usati comunemente per applicazioni di natural language processing sono un coacervo di stereotipi nei confronti delle donne:

Nel grafico, si vede chiaramente che in due dei word embedding più usati, Word2Vec e GloVE, un uomo è più propenso ad essere associato al concetto di "eroe", mentre una donna è più propensa ad essere associata a professioni di stilista, ballerina, o infermiera - pensate solo a cosa può succedere quando questi algoritmi vengono usati in un algoritmo per la ricerca automatica di posizioni lavorative! Anche in questo caso, la conclusione sembra banale: se i dati su cui sono allenati questi word embedding contengono questo genere di stereotipi, essi saranno automaticamente assorbiti negli algoritmi che ci alleniamo sopra. Eppure, migliaia di applicazioni e di articoli sono stati pubblicati prima che questo problema emergesse nel dominio pubblico.

Imparzialità nelle decisioni

Un problema legato alla discriminatorietà è l'imparzialità: un algoritmo usato in situazioni di interesse sociale, come assicurazioni e banche, non può permettersi di favorire un gruppo di persone a discapito di un altro. Eppure, il solo utilizzo dell'accuratezza in fase di training non assicura nulla di tutto questo: essere certi che la rete neurale non discrimini è compito di chi la mette in produzione e di chi la utilizza. Cito da un recente lavoro di Google:

As machine learning is increasingly used to make important decisions across core social domains, the work of ensuring that these decisions aren't discriminatory becomes crucial.

La conclusione dell'articolo è particolarmente interessante: assicurarci l'imparizialità non ha nulla di complicato - ad esempio, è quasi sempre possibile imporla modificando in modo opportuno le soglie con le quali prendiamo le nostre decisioni:

Una conclusione simile si trova nell'articolo sui word embedding citato prima: è possibile eseguire un debiasing dei dati, ma per farlo dobbiamo essere noi ad identificare questi bias, e sempre noi a ripulire i nostri dati.

Il punto cieco della ricerca sull'IA

Da questa breve discussione possiamo già estrapolare due riflessioni di carattere abbastanza generale:

  • Nonostante l'enorme hype che circonda il deep learning, qualsiasi algoritmo data-driven è intelligente tanto quanto sono 'intelligenti' i dati che gli passiamo. Dati discriminatori danno vita ad algoritmi discriminatori, e né l'accuratezza né la magia del deep learning ci aiuteranno a risolverlo.
  • In maniera simile, gli algoritmi sono furbi tanto quanto gli obiettivi che gli diamo da ottimizzare. Ad esempio, un algoritmo accurato non è necessariamente imparziale, e per renderlo tale siamo noi a doverlo imporre.

Questi problemi hanno relativamente poco di tecnico e molto di sociale: Kate Crawford di Microsoft e Ryan Calo dell'Università di Washington l'hanno chiamato il punto cieco della ricerca sull'intelligenza artificiale:

Recent years have brought extraordinary advances in the technical domains of AI. Alongside such efforts, designers and researchers from a range of disciplines need to conduct what we call social-systems analyses of AI. They need to assess the impact of technologies on their social, cultural and political settings.

La stessa Kate Crawford ritiene il tema così importante da aver da poco co-fondato l'AI Now Research Institute, un centro di ricerca interamente dedicato a comprendere le implicazioni sociali della pervasività del machine learning oggi. Personalmente, ritengo fortemente che i ricercatori, i legislatori, e tutti gli appassionati di tecnologia abbiano il forte interesse a sensibilizzare su questi temi per evitare l'esplosione di quello che il Guardian ha chiamato ironicamente l'avvento dei robot razzisti, e che già adesso ha potenziali conseguenze devastanti.


Riferimenti

Questo post deriva dal mio intervento al Codemotion Milano sul 'lato oscuro' del deep learning - se siete interessati ad approfondire, qui trovate la presentazione.

Previous Post Next Post