Accessibility Tools

Autores
Tipo Autor
Autor
Felipe Bevilaqua Foldes Guimarães
Orientador
Geraldo Zimbrão da Silva
Teses, Dissertações e Outros
id
3243
Engenharia de Dados e Conhecimento
Dissertação de Mestrado
9/9/2025
tituloi

A crescente adoção da geração de dados tabulares sintéticos em aplicações de aprendizado de máquina levanta questões importantes sobre as implicações de injustiça dos dados gerados. Este trabalho examina se os modelos de geração de dados sintéticos preservam, amplificam ou reduzem a injustiça dos conjuntos de dados originais, e avalia a eficácia de algoritmos de mitigação de injustiça em dados gerados sinteticamente. Para isso, seis modelos de geração de dados sintéticos foram avaliados em quatro conjuntos de dados de referência da área de injustiça em aprendizado de máquina. Para avaliar a eficácia dos experimentos de mitigação de injustiça, dois algoritmos foram selecionados. Os resultados mostram que os conjuntos de dados sintéticos aumentam sistematicamente a injustiça do classificador em comparação com os dados originais, com aumentos de injustiça variando de modestos a substanciais, dependendo do modelo utilizado. Os algoritmos de mitigação de injustiça permaneceram eficazes em dados sintéticos, alcançando desempenho comparável à sua aplicação em dados reais. Modelos capazes de gerar dados sintéticos de alta utilidade demonstraram as melhores reduções de injustiça após a mitigação. Esses resultados indicam que os dados sintéticos amplificam a injustiça, mas que isso pode ser abordado através de técnicas padrão de mitigação de injustiça quando aplicadas a conjuntos de dados sintéticos de alta qualidade.

The increasing adoption of synthetic tabular data generation in machine learning applications raises essential questions about the fairness implications of the generated data. This work examines whether synthetic data generation models preserve, amplify, or reduce unfairness from original datasets, and evaluates the effectiveness of fairness mitigation algorithms on synthetically generated data. For this, six synthetic data generation models were evaluated across four fairness benchmark datasets. To assess the efficacy of fairness mitigation experiments, two algorithms were selected. Results show that synthetic datasets systematically increase classifier unfairness compared to original data, with unfairness increases ranging from modest to substantial depending on the model used. Fairness mitigation algorithms remained effective on synthetic data, achieving comparable performance to their application on real data. High-utility synthetic models demonstrated the best fairness improvements after mitigation. The findings indicate that synthetic data amplifies unfairness but that this can be addressed through standard fairness mitigation techniques when applied to high-quality synthetic datasets.

url

Em caso de problemas, enviar um e-mail para Este endereço de email está sendo protegido de spambots. Você precisa do JavaScript ativado para vê-lo. .

Topo