8 Melhores práticas na preparação de dados - manequins

Os pacotes de software estatístico são extremamente poderosos nos dias de hoje, mas eles não conseguem superar dados de baixa qualidade. Seguir é uma lista de verificação das coisas que você precisa fazer antes de sair construindo modelos estatísticos.

Verifique os formatos de dados

Sua análise sempre começa com um arquivo de dados brutos. Os arquivos de dados brutos vêm em diferentes formas e tamanhos. Os dados do mainframe são diferentes dos dados do PC, os dados da planilha são formatados de forma diferente dos dados da web, e assim por diante. E na era dos grandes dados, você certamente será confrontado com dados de uma variedade de fontes. Seu primeiro passo na análise de seus dados é garantir que você possa ler os arquivos que você forneceu.

Você precisa realmente olhar para o que cada campo contém. Por exemplo, não é sensato confiar nisso só porque um campo está listado como um campo de caracteres, ele realmente contém dados de caracteres.

Verificar tipos de dados

Todos os dados se enquadram em uma das quatro categorias que afetam o tipo de estatísticas que você pode aplicar adequadamente:

Os dados nominais são essencialmente apenas um nome ou um identificador.
Os dados ordinais colocam os registros na ordem do menor para o mais alto.
Dados de intervalo representam valores onde as diferenças entre eles são comparáveis.
Os dados de Ratio são como dados de intervalo, exceto que ele também permite um valor de 0.

É importante entender as categorias em que seus dados se inserem antes de alimentá-lo no software estatístico. Caso contrário, você corre o risco de acabar com um jargão de aparência perfeitamente razoável.

Graphize seus dados

É importante ter uma idéia de como seus dados são distribuídos. Você pode executar procedimentos estatísticos até que você seja azul no rosto, mas nenhum deles lhe dará uma visão mais detalhada do que seus dados se parecem como um gráfico simples.

Verifique a precisão dos dados

Uma vez que você se sinta confortável que os dados são formatados da maneira que você deseja, você ainda precisa ter certeza de que é preciso e que faz sentido. Esta etapa exige que você tenha algum conhecimento da área de assunto em que você está trabalhando.

Não há realmente uma abordagem cortada e seca para verificar a precisão dos dados. A idéia básica é formular algumas propriedades que você acha que os dados devem exibir e testar os dados para ver se essas propriedades possuem. Os preços das ações são sempre positivos? Todos os códigos de produtos correspondem à lista de válidos? Essencialmente, você está tentando descobrir se os dados realmente são o que lhe foi dito.

Identificar outliers

Os outliers são pontos de dados que estão fora do tempo com o resto dos dados. Eles são valores muito grandes ou muito pequenos em comparação com o resto do conjunto de dados.

Os outliers são problemáticos porque podem comprometer seriamente as estatísticas e os procedimentos estatísticos. Um único outlier pode ter um enorme impacto no valor da média. Porque a média é suposto representar o centro dos dados, em certo sentido, esse outlier torna o significado inútil.

Quando confrontado com outliers, a estratégia mais comum é excluí-los. Em alguns casos, você pode querer levá-los em consideração. Nestes casos, geralmente é desejável fazer suas análises duas vezes - uma vez com outliers incluídos e uma vez excluídos os outliers. Isso permite que você avalie qual método fornece resultados mais úteis.

Atualize os valores perdidos

Os valores perdidos são um dos problemas de dados mais comuns (e irritantes) que você encontrará. Seu primeiro impulso pode ser soltar registros com valores faltantes de sua análise. O problema com isso é que os valores em falta são freqüentemente não apenas pequenas falhas de dados aleatórias.

Verifique seus pressupostos sobre como os dados são distribuídos

Muitos procedimentos estatísticos dependem do pressuposto de que os dados são distribuídos de uma certa maneira. Se essa suposição não for o caso, a precisão de suas previsões sofre.

A suposição mais comum para as técnicas de modelagem discutidas neste livro é que os dados são normalmente distribuídos.

Ou não. Nos casos em que os dados não são distribuídos conforme você precisa, tudo não está necessariamente perdido. Existem várias maneiras de transformar dados para obter a distribuição na forma que você precisa.

Uma das melhores maneiras de verificar a precisão de um modelo estatístico é testá-lo contra os dados uma vez que ele foi construído. Uma maneira de fazer isso é dividir aleatoriamente seu conjunto de dados em dois arquivos. Você pode chamar esses arquivos de Análise e Teste, respectivamente.

Você precisa dividir aleatoriamente os dados para que seja efetivo. Você não pode simplesmente dividir o conjunto de dados na metade superior e na metade inferior, por exemplo. Quase todos os arquivos de dados são classificados de alguma forma - por data, se nada mais. Isso introduz padrões sistemáticos que darão diferentes porções do arquivo de propriedades estatísticas diferentes. Quando você separa aleatoriamente o arquivo, você dá a cada registro uma chance igual de estar em ambos os arquivos. Figurativamente, você está lançando uma moeda para cada registro para decidir em qual arquivo ele entra. Randomness dá a ambos os arquivos as mesmas propriedades estatísticas que os dados originais.

Depois de dividir o conjunto de dados, reserve o arquivo de teste. Em seguida, proceda para construir seu modelo preditivo usando o arquivo de análise. Uma vez que o modelo é construído, aplique-o no arquivo de teste e veja como ele faz.

Os modelos de teste desta forma ajudam a proteger contra um fenômeno conhecido como sobreposto . Essencialmente, é possível que os procedimentos estatísticos memorizem o arquivo de dados ao invés de descobrir relacionamentos significativos entre as variáveis. Se o ajuste excessivo ocorrer, o modelo testará bastante mal contra o arquivo de teste.

Fazer backup e documentar tudo o que faz

Como o software estatístico está sendo tão simples de usar, é um pedaço de bolo para começar a gerar relatórios e gráficos, para não mencionar arquivos de dados.Você pode executar procedimentos literalmente com o toque de um botão. Você pode gerar vários dúzia de gráficos com base em diferentes transformações de dados em questão de alguns minutos. Isso torna muito fácil perder o controle do que você fez e por quê.

É importante ter certeza de manter um registro escrito do que você está fazendo. Os gráficos devem ser rotulados com o nome (e a versão) dos dados que foram usados para criá-los. Os procedimentos estatísticos que você constrói precisam ser salvos e documentados.

Também é importante fazer backup de seus arquivos de dados. No curso de sua análise, você provavelmente criará várias versões de seus dados que refletem várias correções e transformação de variáveis. Você deve salvar os procedimentos que criaram essas versões. Eles também devem ser documentados de forma a descrever quais as transformações que você fez e por quê.

A documentação não é a tarefa favorita de ninguém, mas falamos de experiência quando encorajamos fortemente a não confiar na sua memória quando se trata de seus projetos de análise.

Ao trabalhar com as etapas que acabamos de descrever, você maximiza a confiabilidade de seus modelos estatísticos. Em muitos casos, o trabalho de preparação é realmente mais demorado do que o modelo real de construção. Mas é necessário. E você vai se agradecer no final por trabalhar metodicamente.