Índice:
- Tarefa: Selecionando dados
- Tarefa: dados de limpeza
- Tarefa: Construtando dados
- Tarefa: Integrando dados
- Tarefa: Formatando dados
Vídeo: Disparate Pieces | Critical Role | Campaign 2, Episode 4 2024
Os mineiros de dados passam a maior parte do tempo na terceira fase do modelo de processo Cross-Industry Standard for Data Mining (CRISP-DM): preparação de dados. A maioria dos dados utilizados para mineração de dados foi originalmente coletado e preservado para outros fins e precisa de algum refinamento antes de estar pronto para usar para modelagem.
A fase de preparação de dados inclui cinco tarefas . Estes são
-
Selecionando dados
-
Dados de limpeza
-
Construindo dados
-
Dados de integração
-
Dados de formatação
O guia passo a passo do CRISP-DM não menciona explicitamente os conjuntos de dados como entregáveis para cada um dos tarefas de preparação de dados, mas esses conjuntos de dados foram bem existentes e estão devidamente arquivados e documentados. Os conjuntos de dados não corresponderão um a um com tarefas, mas informações sobre os dados utilizados devem ser incluídas em cada relatório entregue.
Tarefa: Selecionando dados
Agora você vai decidir qual parte dos dados que você possui realmente será usado para mineração de dados.
O produto para esta tarefa é o raciocínio para inclusão e exclusão. Nela, você explicará quais dados serão e não serão usados para o trabalho de mineração de dados.
Você explicará os motivos para incluir ou excluir cada parte dos dados que você possui, com base na relevância para seus objetivos, qualidade de dados e problemas técnicos - como limites para o número de campos ou linhas que suas ferramentas podem identificador, ou a adequação dos formatos de dados para suas necessidades.
Tarefa: dados de limpeza
Os dados que você escolheu usar provavelmente não estarão perfeitamente limpos (sem erros). Você fará mudanças, talvez rastreando fontes para fazer correções de dados específicas, excluindo alguns casos ou células individuais (itens de dados) ou substituindo alguns itens de dados por valores ou substituições padrão selecionados por uma técnica de modelagem mais sofisticada. Você pode escolher usar apenas subconjuntos de dados para todos ou alguns de seus trabalhos de mineração de dados.
O fornecimento para esta tarefa é o relatório de limpeza de dados, que documenta, em detalhes insatisfatórios, todas as decisões e ações usadas para limpar seus dados. Este relatório deve abranger e referir-se a cada problema de qualidade de dados que foi identificado na tarefa verificar a qualidade dos dados na fase de compreensão de dados do processo. O relatório também deve abordar o impacto potencial sobre os resultados das escolhas que você fez durante a limpeza de dados.
Tarefa: Construtando dados
Talvez seja necessário derivar alguns novos campos (por exemplo, use a data de entrega e a data em que um cliente fez uma ordem para calcular quanto tempo o cliente esperou para receber um pedido), dados agregados, ou de outra forma criar uma nova forma de dados.
Entregáveis para esta tarefa incluem dois relatórios:
-
Atributos derivados: Um relatório que descreve quais novos campos (colunas) você construiu, como você fez e por quê.
-
Registros gerados: Um relatório que descreve quais novos casos (linhas) você construiu, como você fez e por quê.
Embora os dados de mesclagem e as tarefas de dados de formato estejam listados na última fase deste processo, eles nem sempre são os últimos, e eles não podem aparecer apenas uma vez. Você pode ter que fazer alguma mesclagem ou reformatação no início da fase de preparação de dados.
Tarefa: Integrando dados
Seus dados agora podem estar em vários conjuntos de dados diferentes. Você precisará juntar alguns ou todos esses conjuntos de dados diferentes para se preparar para a fase de modelagem.
O fornecimento para esta tarefa é o dado mesclado. (E não daria mal ao documento como a mesclagem foi executada.)
Tarefa: Formatando dados
Os dados geralmente são fornecidos em formatos diferentes dos que são mais convenientes para modelagem. (As modificações no formato geralmente são orientadas pelo design de suas ferramentas). Então, converta esses formatos agora.
O fornecimento para esta tarefa são os dados reformatados. (E um pequeno relatório descrevendo as mudanças que você fez seria uma coisa inteligente para incluir.)
Você deve encerrar a fase de preparação de dados do processo de mineração de dados com um conjunto de dados pronto para modelagem e um relatório detalhado descrevendo o conjunto de dados.