Índice:
- Tarefa: Selecionando técnicas de modelagem
- Tarefa: Projetando testes
- Tarefa: modelo (s) de construção
- Tarefa: modelo (s) de avaliação
Vídeo: MODELAGEM - CRISP-DM #FASE4 2024
A modelagem é a parte do modelo de processo Cross-Industry Standard for Mining Data (CRISP-DM) que a maioria dos dados Os mineiros gostam de melhor. Os seus dados já estão em boa forma, e agora você pode procurar padrões úteis em seus dados.
A fase de modelagem inclui quatro tarefas. Estes são
-
Selecionando técnicas de modelagem
-
Testes (s) de design
-
Modelo (s) de construção
-
Modelo (s) de avaliação
Tarefa: Selecionando técnicas de modelagem
O maravilhoso mundo da mineração de dados oferece métodos de modelagem, mas nem todos eles atenderão às suas necessidades. Limite a lista com base nos tipos de variáveis envolvidas, na seleção de técnicas disponíveis em suas ferramentas e em considerações de negócios importantes para você.
Por exemplo, muitas organizações favorecem métodos com resultados que são fáceis de interpretar, de modo que as árvores de decisão ou a regressão logística podem ser aceitáveis, mas as redes neurais provavelmente não serão aceitas.
Entregáveis para esta tarefa incluem dois relatórios:
-
Técnica de modelagem: Especifique a (s) técnica (s) que você usará.
-
Suposições de modelagem: Muitas técnicas de modelagem são baseadas em determinados pressupostos. Por exemplo, um modelo de tipo pode ser destinado a uso com dados que tenham um tipo específico de distribuição. Documentar estes pressupostos neste relatório.
Os estatísticos estão bem informados, rigorosos e exigentes sobre os pressupostos. Isso não é necessariamente verdadeiro para os mineiros de dados, e não é um requisito para se tornar um mineiro de dados. Se você possui conhecimentos estatísticos profundos e compreende os pressupostos por trás dos modelos selecionados, você pode ser rigoroso e exigente sobre os pressupostos.
Mas muitos mineradores de dados, especialmente mineiros de dados novatos, não se preocupam muito com os pressupostos. A alternativa é testar - muitos e muitos testes - de seus modelos.
Tarefa: Projetando testes
O teste nesta tarefa é o teste que você usará para determinar o quão bem o seu modelo funciona. Pode ser tão simples como dividir seus dados em um grupo de casos para o treinamento do modelo e outro grupo para o teste do modelo.
Os dados de treinamento são usados para caber formas matemáticas para o modelo de dados, e os dados de teste são usados durante o processo de treinamento do modelo para evitar overfitting: fazendo um modelo perfeito para um conjunto de dados, mas nenhum outro. Você também pode usar dados de retenção, dados que não são usados durante o processo de treinamento do modelo, para um teste adicional.
O fornecimento para esta tarefa é o seu design de teste. Não precisa ser elaborado, mas você deve pelo menos ter cuidado para que seus dados de treinamento e teste sejam semelhantes e que você evite a introdução de qualquer desvio nos dados.
Tarefa: modelo (s) de construção
Modelagem é o que muitas pessoas imaginam ser todo o trabalho do mineiro de dados, mas é apenas uma tarefa de dezenas! No entanto, a modelagem para abordar objetivos de negócios específicos é o coração da profissão de mineração de dados.
Entregáveis para esta tarefa incluem três itens:
-
Configurações dos parâmetros: Ao construir modelos, a maioria das ferramentas oferece a opção de ajustar uma variedade de configurações e essas configurações têm impacto na estrutura do modelo final. Documentar essas configurações em um relatório.
-
Descrições dos modelos: Descreva seus modelos. Indique o tipo de modelo (como regressão linear ou rede neural) e as variáveis utilizadas. Explique como o modelo é interpretado. Documentar quaisquer dificuldades encontradas no processo de modelagem.
-
Modelos: Este produto é os próprios modelos. Alguns tipos de modelos podem ser facilmente definidos com uma equação simples; outros são muito complexos e devem ser transmitidos em um formato mais sofisticado.
Tarefa: modelo (s) de avaliação
Agora você analisará os modelos que você criou, do ponto de vista técnico e também do ponto de vista das empresas (muitas vezes com informações de especialistas empresariais na equipe do projeto).
Entregáveis para esta tarefa incluem dois relatórios:
-
Avaliação do modelo: Resume a informação desenvolvida na revisão do seu modelo. Se você criou vários modelos, você pode classificá-los com base em sua avaliação de seu valor para um aplicativo específico.
-
Configurações de parâmetros revisadas: Você pode optar por ajustar as configurações que foram usadas para construir o modelo e realizar outra rodada de modelagem e tentar melhorar seus resultados.
A mineração de dados, como uma cebola, uma torta Dobos ou uma rocha sedimentar, tem muitas camadas. Quando você está apenas começando na mineração de dados, você pode começar deixando as configurações dos parâmetros em seus valores padrão (na verdade, talvez você não perceba as opções, a menos que faça um esforço para procurá-las).
À medida que você se sente confortável em sua nova carreira de mineração de dados, terá sentido para você descobrir os parâmetros do modelo e saber como você pode usá-los. Suas opções variam amplamente com o tipo de modelo e ferramenta específica que você está usando.