Em textos anteriores, explicamos como a pesquisa pode ser uma ferramenta crucial para gerar inteligência a respeito de algum assunto e, a partir da análise de seus resultados, encontrar caminhos para a tomada de decisão estratégica.
Porém, um desafio comum para a análise se encontra na ocorrência de dados faltantes (também chamados de Missing Data) na compilação final dos resultados. Os motivos para a aparição dos dados faltantes em pesquisas são bastante variados (respondentes de pesquisas online, por exemplo, podem pular questões não-obrigatórias ou decidir não revelar informações que julguem sensíveis demais) e comprometem a visualização completa e acertada do cenário.
Lidar com dados faltantes é importante para manter o grau de confiabilidade dos resultados. Neste artigo, apresentaremos alguns dos principais métodos pelos quais o analista pode resolver essa situação e viabilizar a análise que leva à tomada de decisão estratégica.
Tipos de Dados Faltantes
Nem toda base de dados é resultante de uma coleta de dados via entrevista ou formulários, portanto, é importante reconhecer os motivos pelos quais dados podem estar faltando em seu banco de dados. Os tipos de dados faltantes se dividem em três grupos:
Faltante Aleatório (MAR): a falta de um dado não está relacionada ao dado faltante em si, mas sim a um fator externo à pesquisa.
Faltante Completamente Aleatório (MCAR): a falta do dado não tem motivo explícito e não apresenta relação ou padrão com sujeito, pesquisa ou pergunta.
Faltante Não Aleatório (MNAR): a falta do dado está condicionada com algum fator de relação entre o sujeito e a pergunta (por exemplo, pessoas com altos salários podem preferir não revelar sua renda mensal em uma pesquisa) ou, ainda, a algo estrutural ligado à pesquisa, como perguntas mal formuladas.
A forma de se lidar com esses três tipos de situação é uma decisão que o analista precisará tomar após avaliar cuidadosamente o cenário. A princípio, os dois métodos de tratamento são a exclusão ou a imputação de dados.
Exclusão e Imputação de Dados
A exclusão consiste, basicamente, na remoção do dado faltante, seja apenas pelo próprio dado faltante ou por toda a série à qual ele pertence. Obviamente, a decisão pela exclusão de dados faltantes precisa ser tomada a partir da avaliação do objetivo do tratamento e tomando o devido cuidado com o enviesamento do banco.
A alternativa para a exclusão sumária de dados faltantes é chamada de Imputação de Dados e se baseia na utilização de modelos estatísticos para preencher os dados faltantes com informações que possuam algum grau de confiabilidade.
Contudo, a utilização de imputação de dados não garante precisão e, assim, pode afetar o grau de confiabilidade dos dados. Existem diversos métodos de imputação e eles possuem diferentes níveis de performance, de acordo com a situação e o tipo de banco de dados ou pesquisa com que se está trabalhando. É importante ter em mente que os dados obtidos via imputação são aproximações baseadas em variáveis já presentes no banco de dados.
Uma das formas mais comuns de imputação é o Input da Média, que consiste em preencher lacunas no banco de dados através de um cálculo da média entre dados vizinhos. Trata-se de um método de fácil implementação e bom nível de agilidade, embora seja pouco preciso e altamente dependente da situação que se está observando. É possível, por exemplo, utilizar a média para preencher um dado de cotação de uma moeda dentro de intervalos padronizados de tempo, porém esse método não é viável quando o dado observado se trata da renda mensal entre diferentes indivíduos. Utilizar a média, ainda, pode diminuir a confiabilidade por deturpar dados que estão mais próximos das mínimas/máximas e, principalmente, na margem do desvio padrão.
Já o Input de Maximização Esperada é um modelo que leva em consideração os demais dados apresentados no banco para estabelecer correlações entre eles e buscar aumentar o grau de precisão em sua preenchimento de lacunas. Outros exemplos, ainda, são a utilização de modelos de Imputação Múltipla e de algoritmos baseados em Regressão Linear, que estudam as variáveis presentes e buscam relações entre elas para preencher lacunas ou fazer “correções” iterativas no banco, de modo a normalizar uma sequência temporal.
O papel do cientista de dados perante a existência de dados faltantes é o de avaliar a situação e pesar os benefícios de um determinado método de imputação em relação ao risco de enviesamento dos dados observados. A margem de erro sempre irá existir dentro de um cenário de pesquisa ou de análise de um grupo de dados, porém mantê-la dentro de um limite aceitável deve ser sempre um norte para que análises confiáveis possam servir como base para tomadas de decisão.
Quer conhecer formas inovadoras de gerenciar e refinar os dados de sua empresa para gerar inteligência e estratégia? Entre em contato para uma consultoria focada em fazer sua empresa realizar mais!