Metriche relative al bias dei dati per Vertex AI

Questa pagina descrive le metriche di valutazione che puoi utilizzare per rilevare la distorsione dei dati, che puรฒ essere presente nei dati non elaborati e nei valori empirici reali anche prima di addestrare il modello. Per gli esempi e la notazione in questa pagina, utilizziamo un set di dati ipotetico di richieste di ammissione al college, che descriviamo in dettaglio in Introduzione alla valutazione del modello per l'equitร .

Per le descrizioni delle metriche generate dai dati post-addestramento, consulta Metriche di distorsione del modello.

Panoramica

Nel nostro set di dati di esempio per le domande di ammissione all'universitร , abbiamo 200 candidati provenienti dalla California nella sezione 1 e 100 candidati della Florida nella sezione 2, etichettati come segue:

Sezione Rifiuta Accetta
California 140 60
Florida 80 20

In genere, puoi interpretare il segno per la maggior parte delle metriche nel seguente modo:

  • Valore positivo: indica un potenziale bias a favore della sezione 1 rispetto alla sezione 2.

  • Valore zero: indica che non esiste distorsione tra la fetta 1 e la fetta 2.

  • Valore negativo: indica un potenziale bias a favore della sezione 2 rispetto alla sezione 1.

Indichiamo quando ciรฒ non si applica a una metrica.

Differenza nelle dimensioni della popolazione

Differenza nella dimensione della popolazione misura se ci sono piรน esempi nella sezione 1 rispetto alla sezione 2, normalizzati in base alla popolazione totale delle due sezioni:

$$ \frac{n_1-n_2}{n_1+n_2} $$

(popolazione totale della sezione 1 - popolazione totale della sezione 2) / (somma delle popolazioni nelle sezioni 1 e 2)

Nel nostro set di dati di esempio:

(200 candidati della California - 100 candidati della Florida)/ 300 candidati totali = 100/300 = 0,33.

Il valore positivo della differenza nella dimensione della popolazione indica che ci sono un numero sproporzionato di candidati della California rispetto a quelli della Florida. Il valore positivo potrebbe o meno indicare un bias di per sรฉ, ma quando un modello viene addestrato su questi dati, potrebbe imparare a ottenere risultati migliori per i candidati della California.

Differenza nelle proporzioni positive nelle etichette effettive (DPPTL)

La Differenza nelle proporzioni positive nelle etichette reali misura se un set di dati ha un numero sproporzionato di etichette basate su dati empirici reali positive per una sezione rispetto all'altra. Questa metrica calcola la differenza nelle proporzioni positive nelle etichette veritร  tra la sezione 1 e la sezione 2, dove le proporzioni positive nelle etichette veritร  per una sezione sono (risultati positivi etichettati / dimensione totale della popolazione). Questa metrica รจ nota anche come Sbilanciamento etichette:

$$ \frac{l^1_1}{n_1} - \frac{l^1_2}{n_2} $$

(Risultati positivi etichettati per la sezione 1/Dimensione totale della popolazione della sezione 1) - (Risultati positivi etichettati per la sezione 2/Dimensione totale della popolazione della sezione 2)

Nel nostro set di dati di esempio:

(60 candidati accettati in California/200 candidati in California) - (20 candidati accettati in Florida/100 candidati in Florida) = 60/200 - 20/100 = 0,1.

Il valore positivo di DPPTL indica che il set di dati ha risultati positivi sproporzionatamente piรน elevati per i candidati della California rispetto a quelli della Florida. Il valore positivo potrebbe o meno indicare un bias di per sรฉ, ma quando un modello viene addestrato su questi dati, potrebbe imparare a prevedere risultati positivi in modo sproporzionato per i candidati della California.

Passaggi successivi