Tomada de Decisões e Missing Data

Elemento decorativo neurônio
Capa Post Missing Data
Em textos anteriores, explicamos como a pesquisa pode ser uma ferramenta crucial para gerar inteligência a respeito de algum assunto e, a partir da análise de seus resultados, encontrar caminhos para a tomada de decisão estratégica.
Porém, um desafio comum para a análise se encontra na ocorrência de dados faltantes (também chamados de Missing Data) na compilação final dos resultados. Os motivos para a aparição dos dados faltantes em pesquisas são bastante variados (respondentes de pesquisas online, por exemplo, podem pular questões não-obrigatórias ou decidir não revelar informações que julguem sensíveis demais) e comprometem a visualização completa e acertada do cenário.
Lidar com dados faltantes é importante para manter o grau de confiabilidade dos resultados. Neste artigo, apresentaremos alguns dos principais métodos pelos quais o analista pode resolver essa situação e viabilizar a análise que leva à tomada de decisão estratégica.

Tipos de Dados Faltantes

Nem toda base de dados é resultante de uma coleta de dados via entrevista ou formulários, portanto, é importante reconhecer os motivos pelos quais dados podem estar faltando em seu banco de dados. Os tipos de dados faltantes se dividem em três grupos:
Faltante Aleatório (MAR): a falta de um dado não está relacionada ao dado faltante em si, mas sim a um fator externo à pesquisa.
Faltante Completamente Aleatório (MCAR): a falta do dado não tem motivo explícito e não apresenta relação ou padrão com sujeito, pesquisa ou pergunta.
Faltante Não Aleatório (MNAR): a falta do dado está condicionada com algum fator de relação entre o sujeito e a pergunta  (por exemplo, pessoas com altos salários podem preferir não revelar sua renda mensal em uma pesquisa) ou, ainda, a algo estrutural ligado à pesquisa, como perguntas mal formuladas.
A forma de se lidar com esses três tipos de situação é uma decisão que o analista precisará tomar após avaliar cuidadosamente o cenário. A princípio, os dois  métodos de tratamento são a exclusão ou a imputação de dados.
Pesquisa e Metaverso

Exclusão e Imputação de Dados

A exclusão consiste, basicamente, na remoção do dado faltante, seja apenas pelo próprio dado faltante ou por toda a série à qual ele pertence. Obviamente, a decisão pela exclusão de dados faltantes precisa ser tomada a partir da avaliação do objetivo do tratamento e tomando o devido cuidado com o enviesamento do banco.
A alternativa para a exclusão sumária de dados faltantes é chamada de Imputação de Dados e se baseia na utilização de modelos estatísticos para preencher os dados faltantes com informações que possuam algum grau de confiabilidade.
Contudo, a utilização de imputação de dados não garante precisão e, assim, pode afetar o grau de confiabilidade dos dados. Existem diversos métodos de imputação e eles possuem diferentes níveis de performance, de acordo com a situação e o tipo de banco de dados ou pesquisa com que se está trabalhando. É importante ter em mente que os dados obtidos via imputação são aproximações baseadas em variáveis já presentes no banco de dados.
Uma das formas mais comuns de imputação é o Input da Média, que consiste em preencher lacunas no banco de dados através de um cálculo da média entre dados vizinhos. Trata-se de um método de fácil implementação e bom nível de agilidade, embora seja pouco preciso e altamente dependente da situação que se está observando. É possível, por exemplo, utilizar a média para preencher um dado de cotação de uma moeda dentro de intervalos padronizados de tempo, porém esse método não é viável quando o dado observado se trata da renda mensal entre diferentes indivíduos. Utilizar a média, ainda, pode diminuir a confiabilidade por deturpar dados que estão mais próximos das mínimas/máximas e, principalmente, na margem do desvio padrão.
Já o Input de Maximização Esperada é um modelo que leva em consideração os demais dados apresentados no banco para estabelecer correlações entre eles e buscar aumentar o grau de precisão em sua preenchimento de lacunas. Outros exemplos, ainda, são a utilização de modelos de Imputação Múltipla e de algoritmos baseados em Regressão Linear, que estudam as variáveis presentes e buscam relações entre elas para preencher lacunas ou fazer “correções” iterativas no banco, de modo a normalizar uma sequência temporal.
O papel do cientista de dados perante a existência de dados faltantes é o de avaliar a situação e pesar os benefícios de um determinado método de imputação em relação ao risco de enviesamento dos dados observados. A margem de erro sempre irá existir dentro de um cenário de pesquisa ou de análise de um grupo de dados, porém mantê-la dentro de um limite aceitável deve ser sempre um norte para que análises confiáveis possam servir como base para tomadas de decisão.
Quer conhecer formas inovadoras de gerenciar e refinar os dados de sua empresa para gerar inteligência e estratégia? Entre em contato para uma consultoria focada em fazer sua empresa realizar mais!
Acompanhe a Realize Hub nas redes sociais
Privacy Preferences
When you visit our website, it may store information through your browser from specific services, usually in form of cookies. Here you can change your privacy preferences. Please note that blocking some types of cookies may impact your experience on our website and the services we offer.