Lar Finanças Pessoais Fase 3 do modelo de processo CRISP-DM: preparação de dados - dummies

Fase 3 do modelo de processo CRISP-DM: preparação de dados - dummies

Índice:

Vídeo: Disparate Pieces | Critical Role | Campaign 2, Episode 4 2024

Vídeo: Disparate Pieces | Critical Role | Campaign 2, Episode 4 2024
Anonim

Os mineiros de dados passam a maior parte do tempo na terceira fase do modelo de processo Cross-Industry Standard for Data Mining (CRISP-DM): preparação de dados. A maioria dos dados utilizados para mineração de dados foi originalmente coletado e preservado para outros fins e precisa de algum refinamento antes de estar pronto para usar para modelagem.

A fase de preparação de dados inclui cinco tarefas . Estes são

  • Selecionando dados

  • Dados de limpeza

  • Construindo dados

  • Dados de integração

  • Dados de formatação

O guia passo a passo do CRISP-DM não menciona explicitamente os conjuntos de dados como entregáveis ​​para cada um dos tarefas de preparação de dados, mas esses conjuntos de dados foram bem existentes e estão devidamente arquivados e documentados. Os conjuntos de dados não corresponderão um a um com tarefas, mas informações sobre os dados utilizados devem ser incluídas em cada relatório entregue.

Tarefa: Selecionando dados

Agora você vai decidir qual parte dos dados que você possui realmente será usado para mineração de dados.

O produto para esta tarefa é o raciocínio para inclusão e exclusão. Nela, você explicará quais dados serão e não serão usados ​​para o trabalho de mineração de dados.

Você explicará os motivos para incluir ou excluir cada parte dos dados que você possui, com base na relevância para seus objetivos, qualidade de dados e problemas técnicos - como limites para o número de campos ou linhas que suas ferramentas podem identificador, ou a adequação dos formatos de dados para suas necessidades.

Tarefa: dados de limpeza

Os dados que você escolheu usar provavelmente não estarão perfeitamente limpos (sem erros). Você fará mudanças, talvez rastreando fontes para fazer correções de dados específicas, excluindo alguns casos ou células individuais (itens de dados) ou substituindo alguns itens de dados por valores ou substituições padrão selecionados por uma técnica de modelagem mais sofisticada. Você pode escolher usar apenas subconjuntos de dados para todos ou alguns de seus trabalhos de mineração de dados.

O fornecimento para esta tarefa é o relatório de limpeza de dados, que documenta, em detalhes insatisfatórios, todas as decisões e ações usadas para limpar seus dados. Este relatório deve abranger e referir-se a cada problema de qualidade de dados que foi identificado na tarefa verificar a qualidade dos dados na fase de compreensão de dados do processo. O relatório também deve abordar o impacto potencial sobre os resultados das escolhas que você fez durante a limpeza de dados.

Tarefa: Construtando dados

Talvez seja necessário derivar alguns novos campos (por exemplo, use a data de entrega e a data em que um cliente fez uma ordem para calcular quanto tempo o cliente esperou para receber um pedido), dados agregados, ou de outra forma criar uma nova forma de dados.

Entregáveis ​​para esta tarefa incluem dois relatórios:

  • Atributos derivados: Um relatório que descreve quais novos campos (colunas) você construiu, como você fez e por quê.

  • Registros gerados: Um relatório que descreve quais novos casos (linhas) você construiu, como você fez e por quê.

Embora os dados de mesclagem e as tarefas de dados de formato estejam listados na última fase deste processo, eles nem sempre são os últimos, e eles não podem aparecer apenas uma vez. Você pode ter que fazer alguma mesclagem ou reformatação no início da fase de preparação de dados.

Tarefa: Integrando dados

Seus dados agora podem estar em vários conjuntos de dados diferentes. Você precisará juntar alguns ou todos esses conjuntos de dados diferentes para se preparar para a fase de modelagem.

O fornecimento para esta tarefa é o dado mesclado. (E não daria mal ao documento como a mesclagem foi executada.)

Tarefa: Formatando dados

Os dados geralmente são fornecidos em formatos diferentes dos que são mais convenientes para modelagem. (As modificações no formato geralmente são orientadas pelo design de suas ferramentas). Então, converta esses formatos agora.

O fornecimento para esta tarefa são os dados reformatados. (E um pequeno relatório descrevendo as mudanças que você fez seria uma coisa inteligente para incluir.)

Você deve encerrar a fase de preparação de dados do processo de mineração de dados com um conjunto de dados pronto para modelagem e um relatório detalhado descrevendo o conjunto de dados.

Fase 3 do modelo de processo CRISP-DM: preparação de dados - dummies

Escolha dos editores

ASVAB Paragraph Comprehension Practice - dummies

ASVAB Paragraph Comprehension Practice - dummies

Um dos subtestes que você verá no ASVAB é o teste de compreensão de parágrafos. Esta parte do ASVAB está voltada para ver se você entende o que você lê. Exemplo de perguntas Parágrafo Tempo de compreensão: 13 minutos para 15 perguntas Instruções: A compreensão de parágrafo é o quarto subtesto no ASVAB. As perguntas são projetadas para ...

ASVAB Preparação: Números positivos e negativos - manequins

ASVAB Preparação: Números positivos e negativos - manequins

Certifique-se de que esteja familiarizado com o trabalho positivo e negativo números para o ASVAB. Os números podem ser positivos ou negativos. Um número positivo é qualquer número maior que zero. Então, 4; 3. 2; 793; 3/4; 1/2; e 430, 932, 843, 784 são todos números positivos. Números inferiores a zero são números negativos. Cada número positivo tem um negativo ...

ASVAB Dicas de compreensão de leitura - manequins

ASVAB Dicas de compreensão de leitura - manequins

As abordagens de compreensão de parágrafo no ASVAB geralmente são bastante curtas. Essas dicas podem ajudá-lo a compreender melhor as passagens de leitura ASVAB e as perguntas que as seguem: Compreenda o que a questão quer de você. Solicita o ponto principal, informações específicas ou uma conclusão baseada na informação apresentada? Releia o parágrafo ...

Escolha dos editores

A diferença entre análises analógicas e digitais - manequins

A diferença entre análises analógicas e digitais - manequins

Toda a eletrônica pode ser dividida em duas grandes categorias: analógico e digital. Um dos exemplos mais comuns da diferença entre dispositivos analógicos e digitais é um relógio. No relógio analógico, o tempo é representado por mãos que giram ao redor de um disco e apontam para uma localização no mostrador que representa ...

O papel dos átomos na eletrônica - dummies

O papel dos átomos na eletrônica - dummies

Os átomos são os blocos de construção básicos de tudo no universo, seja natural ou manmade. Eles são tão pequenos que você encontraria milhões deles em uma única partícula de poeira. A corrente elétrica, às vezes conhecida como eletricidade, é o movimento na mesma direção de partículas microscópicamente pequenas e eletricamente carregadas, chamadas elétrons. Cada átomo contém o ...

Roles de prótons e elétrons - dummies

Roles de prótons e elétrons - dummies

É Uma propriedade de certas partículas, como elétrons, prótons , e quarks (sim, quarks) que descreve como eles interagem uns com os outros. Existem dois tipos diferentes de carga elétrica, um pouco arbitrariamente chamada positiva e negativa (bem como as quatro direções cardinais são chamadas norte, sul, leste e oeste). Em geral, partículas que carregam ...

Escolha dos editores

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Trabalhando no Access 2007 é mais fácil uma vez que você entenda executar a janela do Access 2007 e usar ferramentas para ajudar a gerenciar seus dados e responder suas perguntas.

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Antes de enviar uma mensagem de e-mail no Lotus Notes 6, você pode definir Opções de entrega, Opções de segurança e Selos de humor. Use essas dicas de notas para informar o destinatário sobre o quão quente é sua mensagem ou qual é o seu humor; ou solicitar confirmação de entrega, definir o tempo de entrega e muito mais. Depois de terminar de compor o corpo ...

10 Ofícios de teclado do Office 2016 - dummies

10 Ofícios de teclado do Office 2016 - dummies

Um tema comum do Office 2016 é que todos os programas se parecem e funcionam. Depois de aprender a usar o Word, você achará que não é muito mais difícil aprender o Excel ou o PowerPoint porque as guias do Ribbon funcionam de maneiras semelhantes. Ainda melhor, os mesmos comandos de teclas funcionam de forma semelhante em todos os programas do Office 2016. Por ...