Lar Finanças Pessoais 8 Melhores práticas na preparação de dados - manequins

8 Melhores práticas na preparação de dados - manequins

Índice:

Vídeo: Diferença da rede externa - Cabo Drop x Cabo Autossustentado 2024

Vídeo: Diferença da rede externa - Cabo Drop x Cabo Autossustentado 2024
Anonim

Os pacotes de software estatístico são extremamente poderosos nos dias de hoje, mas eles não conseguem superar dados de baixa qualidade. Seguir é uma lista de verificação das coisas que você precisa fazer antes de sair construindo modelos estatísticos.

Verifique os formatos de dados

Sua análise sempre começa com um arquivo de dados brutos. Os arquivos de dados brutos vêm em diferentes formas e tamanhos. Os dados do mainframe são diferentes dos dados do PC, os dados da planilha são formatados de forma diferente dos dados da web, e assim por diante. E na era dos grandes dados, você certamente será confrontado com dados de uma variedade de fontes. Seu primeiro passo na análise de seus dados é garantir que você possa ler os arquivos que você forneceu.

Você precisa realmente olhar para o que cada campo contém. Por exemplo, não é sensato confiar nisso só porque um campo está listado como um campo de caracteres, ele realmente contém dados de caracteres.

Verificar tipos de dados

Todos os dados se enquadram em uma das quatro categorias que afetam o tipo de estatísticas que você pode aplicar adequadamente:

  • Os dados nominais são essencialmente apenas um nome ou um identificador.

  • Os dados ordinais colocam os registros na ordem do menor para o mais alto.

  • Dados de intervalo representam valores onde as diferenças entre eles são comparáveis.

  • Os dados de Ratio são como dados de intervalo, exceto que ele também permite um valor de 0.

É importante entender as categorias em que seus dados se inserem antes de alimentá-lo no software estatístico. Caso contrário, você corre o risco de acabar com um jargão de aparência perfeitamente razoável.

Graphize seus dados

É importante ter uma idéia de como seus dados são distribuídos. Você pode executar procedimentos estatísticos até que você seja azul no rosto, mas nenhum deles lhe dará uma visão mais detalhada do que seus dados se parecem como um gráfico simples.

Verifique a precisão dos dados

Uma vez que você se sinta confortável que os dados são formatados da maneira que você deseja, você ainda precisa ter certeza de que é preciso e que faz sentido. Esta etapa exige que você tenha algum conhecimento da área de assunto em que você está trabalhando.

Não há realmente uma abordagem cortada e seca para verificar a precisão dos dados. A idéia básica é formular algumas propriedades que você acha que os dados devem exibir e testar os dados para ver se essas propriedades possuem. Os preços das ações são sempre positivos? Todos os códigos de produtos correspondem à lista de válidos? Essencialmente, você está tentando descobrir se os dados realmente são o que lhe foi dito.

Identificar outliers

Os outliers são pontos de dados que estão fora do tempo com o resto dos dados. Eles são valores muito grandes ou muito pequenos em comparação com o resto do conjunto de dados.

Os outliers são problemáticos porque podem comprometer seriamente as estatísticas e os procedimentos estatísticos. Um único outlier pode ter um enorme impacto no valor da média. Porque a média é suposto representar o centro dos dados, em certo sentido, esse outlier torna o significado inútil.

Quando confrontado com outliers, a estratégia mais comum é excluí-los. Em alguns casos, você pode querer levá-los em consideração. Nestes casos, geralmente é desejável fazer suas análises duas vezes - uma vez com outliers incluídos e uma vez excluídos os outliers. Isso permite que você avalie qual método fornece resultados mais úteis.

Atualize os valores perdidos

Os valores perdidos são um dos problemas de dados mais comuns (e irritantes) que você encontrará. Seu primeiro impulso pode ser soltar registros com valores faltantes de sua análise. O problema com isso é que os valores em falta são freqüentemente não apenas pequenas falhas de dados aleatórias.

Verifique seus pressupostos sobre como os dados são distribuídos

Muitos procedimentos estatísticos dependem do pressuposto de que os dados são distribuídos de uma certa maneira. Se essa suposição não for o caso, a precisão de suas previsões sofre.

A suposição mais comum para as técnicas de modelagem discutidas neste livro é que os dados são normalmente distribuídos.

Ou não. Nos casos em que os dados não são distribuídos conforme você precisa, tudo não está necessariamente perdido. Existem várias maneiras de transformar dados para obter a distribuição na forma que você precisa.

Uma das melhores maneiras de verificar a precisão de um modelo estatístico é testá-lo contra os dados uma vez que ele foi construído. Uma maneira de fazer isso é dividir aleatoriamente seu conjunto de dados em dois arquivos. Você pode chamar esses arquivos de Análise e Teste, respectivamente.

Você precisa dividir aleatoriamente os dados para que seja efetivo. Você não pode simplesmente dividir o conjunto de dados na metade superior e na metade inferior, por exemplo. Quase todos os arquivos de dados são classificados de alguma forma - por data, se nada mais. Isso introduz padrões sistemáticos que darão diferentes porções do arquivo de propriedades estatísticas diferentes. Quando você separa aleatoriamente o arquivo, você dá a cada registro uma chance igual de estar em ambos os arquivos. Figurativamente, você está lançando uma moeda para cada registro para decidir em qual arquivo ele entra. Randomness dá a ambos os arquivos as mesmas propriedades estatísticas que os dados originais.

Depois de dividir o conjunto de dados, reserve o arquivo de teste. Em seguida, proceda para construir seu modelo preditivo usando o arquivo de análise. Uma vez que o modelo é construído, aplique-o no arquivo de teste e veja como ele faz.

Os modelos de teste desta forma ajudam a proteger contra um fenômeno conhecido como sobreposto . Essencialmente, é possível que os procedimentos estatísticos memorizem o arquivo de dados ao invés de descobrir relacionamentos significativos entre as variáveis. Se o ajuste excessivo ocorrer, o modelo testará bastante mal contra o arquivo de teste.

Fazer backup e documentar tudo o que faz

Como o software estatístico está sendo tão simples de usar, é um pedaço de bolo para começar a gerar relatórios e gráficos, para não mencionar arquivos de dados.Você pode executar procedimentos literalmente com o toque de um botão. Você pode gerar vários dúzia de gráficos com base em diferentes transformações de dados em questão de alguns minutos. Isso torna muito fácil perder o controle do que você fez e por quê.

É importante ter certeza de manter um registro escrito do que você está fazendo. Os gráficos devem ser rotulados com o nome (e a versão) dos dados que foram usados ​​para criá-los. Os procedimentos estatísticos que você constrói precisam ser salvos e documentados.

Também é importante fazer backup de seus arquivos de dados. No curso de sua análise, você provavelmente criará várias versões de seus dados que refletem várias correções e transformação de variáveis. Você deve salvar os procedimentos que criaram essas versões. Eles também devem ser documentados de forma a descrever quais as transformações que você fez e por quê.

A documentação não é a tarefa favorita de ninguém, mas falamos de experiência quando encorajamos fortemente a não confiar na sua memória quando se trata de seus projetos de análise.

Ao trabalhar com as etapas que acabamos de descrever, você maximiza a confiabilidade de seus modelos estatísticos. Em muitos casos, o trabalho de preparação é realmente mais demorado do que o modelo real de construção. Mas é necessário. E você vai se agradecer no final por trabalhar metodicamente.

8 Melhores práticas na preparação de dados - manequins

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...