ESTUDO SOBRE AVALIAÇÃO DE DADOS E MODELOS DE APRENDIZADO DE MÁQUINA EM CONTEXTO SENSÍVEL UTILIZANDO A TEORIA DE RESPOSTA AO ITEM

Unidade: INSTITUTO DE CIENCIAS EXATAS E NATURAIS
Subunidade: FACULDADE DE COMPUTACAO
Coordenador: REGIANE SILVA KAWASAKI FRANCES
Período: 2023-11-01 a 2025-10-31
Grupo: Pesquisa

ODS vinculados

4 - Educação de Qualidade
8 - Trabalho Decente e Crescimento Econômico
9 - Indústria, Inovação e Infraestrutura
10 - Redução das Desigualdades
16 - Paz, Justiça e Instituições Eficazes

Resumo

O uso de sistemas inteligentes que envolvem Aprendizado de Máquina (AM) são cada vez mais comuns e isso se deve a versatilidade da aplicação desses sistemas em diferentes esferas, seja com interesse acadêmico ou por interesse de mercado (Russell & Norvig, 2016). O AM é uma subárea da Inteligência Artificial (IA) que pode ser dividida em três tipos principais: aprendizado supervisionado, não-supervisionado e por reforço, sendo o primeiro o mais comum e utilizado. Sistemas ou modelos de aprendizado supervisionado, comumente, são empregados para tarefas de classificação, onde os algoritmos devem aprender um tipo de classificação pré-existente, esses algoritmos são também chamados de classificadores (Kotsiantis; Zaharakis & Pintelas, 2007). É cada vez mais comum que sistemas de IA sejam parte do dia a dia da sociedade, possibilitando que decisões simples ou complexas da vida das pessoas sejam tomadas por um sistema inteligente. As decisões podem variar desde escolher qual filme assistir até decisões de contextos sensíveis, i.e, contextos que afetem diretamente a vida das pessoas. Por exemplo, uso de AM para prever se um paciente possui ou não uma doença a partir de seus exames (Linardatos, Papastefanopoulos & Kotsiantis, 2020). Ao lidar diretamente com dados de indivíduos em contextos sensíveis é necessário um cuidado redobrado para o desenvolvimento de uma IA. Recentemente, os sistemas inteligentes tomaram decisões injustas e antiéticas se tornaram mais comuns. Por exemplo, foi descoberto que o software COMPAS, utilizado pelos tribunais dos Estados Unidos para tomar decisões de prisão preventiva e libertação que mede o risco de uma pessoa voltar a cometer outro crime, possui preconceito com pessoas afro-americanas ao apresentar mais falsos positivos que essas pessoas tenham tendência de cometer novos crimes (N. Mehrabi et al. 2021). Situações como essas mobilizaram pesquisadores a trabalhar em soluções para mitigar situações de injustiça em sistemas de IA, esse campo é comumente chamado de Fairness AI ou IA Justa em tradução direta. Segundo o trabalho de N. Mehrabi et al. (2021), existem várias causas que podem gerar uma IA dita injusta. Um exemplo prático, são conjuntos de dados enviesados onde uma determinada classe desses conjuntos apresenta uma exemplos que não refletem as características reais de uma população. Como citado anteriormente, o COMPAS, por exemplo, utiliza o histórico de prisão de amigo ou familiar como uma das variáveis para medir o risco de reincidência. O que é uma medição injusta, pois comunidades minoritárias como os afro-americanos tendem a ser mais policiados com maior frequência, logo é natural que membros do círculo de convivência de uma pessoa sejam mais frequentemente detidas. Logo, isso não permite concluir que pessoas da mesma comunidade são mais perigosas que outras (N. Mehrabi et al. 2021). Para evitar que situações assim aconteçam, é preciso que o sistema de IA ou modelo de AM seja devidamente avaliado e testado por especialistas antes que o mesmo seja lançado e utilizado na sociedade. Porém, identificar se uma IA é realmente justa não é uma tarefa simples, pois muitas vezes isso envolve explicar/interpretar a decisão do modelo e então avaliar o que levou o modelo a gerar tal predição, envolvendo técnicas estudadas pela XAI (Inteligência Artificial Explicada) que visa fornecer aos usuários explicações que lhes permitam compreender os pontos fortes e fracos gerais do sistema (Gunning, D., & Aha, D., 2019). Dessa forma,é difícil realizar esse tipo de análise apenas com as métricas clássicas de AM, pois tais métricas tendem apenas a avaliar a quantidade de acerto de um modelo e não a sua qualidade, e muitas vezes desconsidera-se a complexidade dos dados utilizados. Em trabalhos anteriores, como Martínez-Plumed et al. (2019) e Cardoso et al. (2020) foram aplicados conceitos provenientes da psicometria para fornecer uma abordagem mais robusta na análise de dados e modelos de AM, para isso foi utilizada a Teoria de Resposta ao Item (TRI). A TRI é comumente usada em testes psicométricos para avaliar o desempenho de indivíduos em um conjunto de itens (por exemplo, questões) com diferentes níveis de dificuldade. A TRI foi estendida para avaliação de AM, tratando classificadores como os indivíduos e as instâncias de teste como itens. Assim, os algoritmos de AM podem ser classificados pelo TRI de acordo com sua capacidade de responder corretamente às instâncias mais difíceis. Além disso, a pesquisa recente de Cardoso et al. (2022) apresentou um estudo que utilizava os conceitos psicométricos da TRI para realizar a explicação de modelos de AM, pelo método de explicação baseada em exemplos da XAI. Com foco em usar a TRI para mensurar a confiabilidade dos modelos em problemas de classificação. A partir disso, entende-se que a TRI tem potencial para ser utilizada como uma nova medida de avaliação para IAs que atuem em contexto sensível. Dessa forma, este trabalho visa explorar quais informações a TRI pode gerar sobre os dados referentes a grupos minoritários em um contexto sensível.