SGF² AI Project
Applicazione di tecniche di Machine Learning supervisionato al dataset Adult (UCI) per predire se il reddito annuo di un individuo supera i $50K.
32.5K
Record analizzati
~82%
Best accuracy (RF)
3
Modelli confrontati
DI < 0.80
Soglia fairness
Descrizione del Progetto
SGF² AI Project applica il flusso completo di un progetto di Machine Learning: dal caricamento e preprocessing dei dati, all'addestramento e valutazione di tre modelli di classificazione binaria, fino all'analisi della fairness e dell'importanza delle feature.
Sviluppato per il corso di Artificial Intelligence (Università di Bologna), utilizza il dataset Adult Census Income (UCI Machine Learning Repository) composto da 32.561 record con 14 attributi demografici e occupazionali.
Pipeline completa: preprocessing, modelli, fairness
Tecnologie Utilizzate
| Componente | Tecnologia | Versione |
|---|---|---|
| Linguaggio | Python | 3.x |
| ML Framework | scikit-learn | 1.3+ |
| Data Processing | pandas | 2.x |
| Notebook | Jupyter | - |
| Plotting | matplotlib | 3.x |
Pipeline del Progetto
📥 Caricamento e Preprocessing
Pulizia dei dati: rimozione record con valori mancanti (2.399 rimossi), codifica delle variabili categoriche tramite Label Encoding e suddivisione 80/20 train/test.
📈 Modelli di Classificazione
Tre modelli confrontati: Logistic Regression (~80%), Random Forest (~82%), SVM (~81%). Valutazione con accuracy, precision, recall, F1-score e matrice di confusione.
⚖️ Fairness Analysis
Calcolo del Disparate Impact (DI) per sesso (DI ~0.30) e razza (DI ~0.60). I valori inferiori a 0.80 indicano discriminazione significativa nelle predizioni.
🔍 Feature Importance
Analisi dell'importanza delle feature sul modello Random Forest: marital-status, capital-gain, age risultano i predittori più rilevanti.
Risultati
L'analisi della fairness evidenzia un Disparate Impact significativo legato al sesso (DI ~0.30) e alla razza (DI ~0.60), suggerendo la necessità di tecniche di debiasing. Lo studio dell'importanza delle feature mostra che lo stato civile e il guadagno di capitale sono i predittori più influenti per la stima del reddito.
Prova il Progetto
Il notebook completo con l'analisi esplorativa, i modelli e la fairness analysis è disponibile su GitHub.