Studio dei bias di genere nei modelli per il linguaggio

L’articolo Gender bias in transformers: a comprehensive review of detection and mitigation strategies esamina la letteratura esistente sui pregiudizi di genere nei transformers e riporta delle metriche e dei metodi impiegati per misurare e mitigare questa fonte di distorsione. Di seguito è riportata una breve sintesi dello studio e il link all’articolo originale. 

In alcune applicazioni di intelligenza artificiale (AI) sono presenti diversi bias di carattere demografico, tra cui i pregiudizi di genere, che possono perpetuare stereotipi dannosi e limitare le opportunità dei soggetti discriminati in aree come l’occupazione, l’educazione e la salute. Ad esempio, alcune app per la salute hanno dimostrato un pregiudizio nel riconoscere sintomi descritti prevalentemente con un linguaggio associato agli uomini, mettendo potenzialmente a rischio interventi medici tempestivi e accurati per le donne. Indagare il legame tra gli strumenti basati sull’intelligenza artificiale e i bias di genere è fondamentale per promuovere tecnologie più inclusive ed eque.

Nell’articolo, i bias di genere vengono analizzati in relazione ai modelli di elaborazione del linguaggio naturale (NLP), utilizzati per una vasta gamma di applicazioni, tra cui la classificazione dei testi, la traduzione automatica e la generazione di risposte alle domande fornite dagli utenti. Per rappresentare il significato delle parole, questi modelli si basano tipicamente sui word embeddings, una rappresentazione vettoriale che cattura le relazioni semantiche e sintattiche tra le parole. Un esempio di bias di genere nei word embeddings è l’associazione di specifiche professioni a un determinato genere: ad esempio, in alcuni modelli, la parola “infermiera” potrebbe essere prevalentemente associata al genere femminile. Un altro caso riguarda i modelli di traduzione automatica, che spesso generano traduzioni imprecise a causa delle differenze di genere tra la lingua di partenza e quella di destinazione. Bias simili si riscontrano anche nella generazione automatica di descrizioni testuali per immagini e video.

Negli ultimi anni, i modelli per il linguaggio hanno acquistato molta popolarità,  dovuta soprattutto allo sviluppo dei transformers, modelli di deep learning che pesano l’importanza di ogni parola nel contesto dell’intera frase, permettendo di capire il significato di una parola sulla base delle parole che la circondano. Anche nei transformers sono stati individuati bias di genere e questo può avere implicazioni preoccupanti a livello sociale ed etico. Questi pregiudizi sono integrati nella semantica appresa dal metodo di machine learning e questo sottolinea come una delle fonti principali dei bias di genere nei modelli sia costituita dai dati di addestramento, che tendono a rappresentare profili demografici limitati. I modelli adattati su questi dati ereditano i bias demografici presenti, amplificando i pregiudizi e conducendo a risultati distorti. E’ quindi fondamentale considerare la rappresentazione demografica nella collezione di dati testuali usati per l’addestramento. Inoltre, un altro aspetto critico è il fatto che i linguaggi sono in costante evoluzione, rendendo difficile catturarne la complessità e le sfumature. Usare un ristretto insieme di dati testuali può solamente fornire una visione limitata e temporanea del fenomeno. 

Per valutare la presenza di bias di genere nei modelli transformers non è indicato usare metriche individuali perché potrebbero non riuscire a catturare la reale presenza di distorsioni nel modello. Combinando varie metriche è possibile valutare in maniera più accurata se il modello stia esibendo un’associazione tra parole legate al genere e specifiche caratteristiche come la carriera o la famiglia. Una volta individuati i bias di genere, diverse metodologie e tecniche possono essere impiegate per mitigare questo aspetto. Un suggerimento che viene proposto è quello di integrare l’individuazione dei bias direttamente nella fase di sviluppo del modello. Tuttavia, un elemento critico è la mancanza di definizioni e metriche condivise per valutare i bias di genere nei modelli. Diventa quindi essenziale adottare criteri e riferimenti comuni per garantire un’analisi più coerente e accurata.

Praneeth Nemani, Yericherla Deepak Joel, Palla Vijay, Farhana Ferdouzi Liza,
Gender bias in transformers: A comprehensive review of detection and mitigation strategies,
Natural Language Processing Journal,
Volume 6,
2024,
100047,
ISSN 2949-7191,
https://doi.org/10.1016/j.nlp.2023.100047.