Accessibility Tools

Autores
Tipo Autor
Autor
Rodrigo Pereira Pagliusi
Orientador
Geraldo Zimbrão da Silva
Teses, Dissertações e Outros
id
3241
Engenharia de Dados e Conhecimento
Dissertação de Mestrado
9/9/2025
tituloi

Modelos de aprendizado de máquina extraem padrões de grandes volumes de dados. Quando estes refletem desigualdades históricas ou sociais, tendem a reproduzi-las em suas previsões. Esse risco é especialmente relevante em domínios sensíveis como justiça criminal, saúde, emprego e finanças, nos quais decisões algorítmicas podem impactar diretamente a vida das pessoas.

Embora existam diversas técnicas para mitigar injustiças, o grau adequado de intervenção ainda é pouco explorado, sobretudo porque envolve equilibrar justiça e desempenho preditivo. Esta dissertação investiga como algoritmos tradicionais se comportam sob dados enviesados sem mecanismos de mitigação, por meio de uma análise sistemática de seu desempenho em condições progressivamente injustas.

Para este fim, foi proposta a metodologia Systematic Label Flipping for Fairness Stress Testing, que insere viés controlado nos dados de treinamento. Essa abordagem permite avaliar a robustez de classificadores e observar, de forma gradual, como métricas de desempenho e justiça evoluem à medida que o viés aumenta.

Foram analisados os modelos Árvore de Decisão, Floresta Aleatória, Regressão Logística e Rede Neural. Em geral, os resultados foram semelhantes, com exceção da Regressão Logística, que no dataset COMPAS sofreu maior degradação de desempenho e aumento de injustiça. As Árvores de Decisão mostraram-se ligeiramente mais estáveis, mas as diferenças entre algoritmos foram discretas.

As contribuições desta dissertação são duas: a proposição de uma metodologia reprodutível de stress testing de justiça e a apresentação de evidências empíricas sobre a robustez de modelos tradicionais frente a cenários enviesados.

Machine learning models extract patterns from large volumes of data. When such data reflect historical or social inequalities, algorithms tend to reproduce them in their predictions. This risk is particularly relevant in sensitive domains such as criminal justice, healthcare, employment, and finance, where algorithmic decisions can directly affect people's lives.

Although several techniques exist to mitigate unfairness, the appropriate degree of intervention remains underexplored, especially because it requires balancing fairness and predictive performance. This dissertation investigates how traditional algorithms behave when exposed to biased data without mitigation mechanisms, through a systematic analysis of their performance under progressively unfair conditions.

To this end, the Systematic Label Flipping for Fairness Stress Testing methodology was proposed, which introduces controlled bias into the training data. This approach makes it possible to assess the robustness of classifiers and to gradually observe how performance and fairness metrics evolve as data bias increases.

The models analyzed were Decision Tree, Random Forest, Logistic Regression, and Neural Network. Overall, results were similar, with the main exception being Logistic Regression, which on the COMPAS dataset suffered a greater drop in performance accompanied by increased unfairness. Decision Trees proved slightly more stable, but overall the differences across algorithms were modest.

The contributions of this dissertation are twofold: the proposal of a reproducible methodology for fairness stress testing and the presentation of empirical evidence on the robustness of traditional models when subjected to biased scenarios.

url

Em caso de problemas, enviar um e-mail para Este endereço de email está sendo protegido de spambots. Você precisa do JavaScript ativado para vê-lo. .

Topo