Progetto Universitario

SGF² AI Project

Applicazione di tecniche di Machine Learning supervisionato al dataset Adult (UCI) per predire se il reddito annuo di un individuo supera i $50K.

ML Python scikit-learn UniBo
📊

32.5K

Record analizzati

🎯

~82%

Best accuracy (RF)

⚖️

3

Modelli confrontati

🔍

DI < 0.80

Soglia fairness

Descrizione del Progetto

SGF² AI Project applica il flusso completo di un progetto di Machine Learning: dal caricamento e preprocessing dei dati, all'addestramento e valutazione di tre modelli di classificazione binaria, fino all'analisi della fairness e dell'importanza delle feature.

Sviluppato per il corso di Artificial Intelligence (Università di Bologna), utilizza il dataset Adult Census Income (UCI Machine Learning Repository) composto da 32.561 record con 14 attributi demografici e occupazionali.

Pipeline ML

Pipeline completa: preprocessing, modelli, fairness

Tecnologie Utilizzate

Componente Tecnologia Versione
LinguaggioPython3.x
ML Frameworkscikit-learn1.3+
Data Processingpandas2.x
NotebookJupyter-
Plottingmatplotlib3.x

Pipeline del Progetto

📥 Caricamento e Preprocessing

Pulizia dei dati: rimozione record con valori mancanti (2.399 rimossi), codifica delle variabili categoriche tramite Label Encoding e suddivisione 80/20 train/test.

📈 Modelli di Classificazione

Tre modelli confrontati: Logistic Regression (~80%), Random Forest (~82%), SVM (~81%). Valutazione con accuracy, precision, recall, F1-score e matrice di confusione.

⚖️ Fairness Analysis

Calcolo del Disparate Impact (DI) per sesso (DI ~0.30) e razza (DI ~0.60). I valori inferiori a 0.80 indicano discriminazione significativa nelle predizioni.

🔍 Feature Importance

Analisi dell'importanza delle feature sul modello Random Forest: marital-status, capital-gain, age risultano i predittori più rilevanti.

Risultati

Miglior modello: Random Forest
Accuracy: ~82%
Precision: ~0.78
Recall: ~0.82

L'analisi della fairness evidenzia un Disparate Impact significativo legato al sesso (DI ~0.30) e alla razza (DI ~0.60), suggerendo la necessità di tecniche di debiasing. Lo studio dell'importanza delle feature mostra che lo stato civile e il guadagno di capitale sono i predittori più influenti per la stima del reddito.

Prova il Progetto

Il notebook completo con l'analisi esplorativa, i modelli e la fairness analysis è disponibile su GitHub.

📂 View on GitHub