Vídeo: Usando a Ciência de Dados para criar modelos preditivos 2024
Para o seu projeto de análise preditiva, você precisará identificar fontes apropriadas de dados, agrupar dados dessas fontes e colocá-lo em um formato estruturado e bem organizado. Essas tarefas podem ser muito desafiadoras e provavelmente exigirá uma coordenação cuidadosa entre diferentes administradores de dados em toda a organização.
Você também precisará selecionar as variáveis que você vai analisar. Esse processo deve levar em consideração as restrições de dados, as restrições do projeto e os objetivos comerciais.
As variáveis que você seleciona devem ter poder preditivo. Além disso, você precisa considerar variáveis valiosas e viáveis para o seu projeto dentro do orçamento e prazos. Por exemplo, se você estiver analisando transações bancárias em uma investigação criminal, os registros telefônicos para todas as partes envolvidas podem ser relevantes para a análise, mas não acessíveis aos analistas.
Espere gastar um tempo considerável nesta fase do projeto. A coleta de dados, a análise de dados e o processo de resolução de conteúdo, qualidade e estrutura de dados podem somar uma lista de tarefas que consome tempo.
Durante o processo de identificação de dados, ajuda a entender seus dados e suas propriedades; Este conhecimento irá ajudá-lo a escolher qual algoritmo usar para construir seu modelo. Por exemplo, os dados da série temporal podem ser analisados por algoritmos de regressão; Os algoritmos de classificação podem ser usados para analisar dados discretos.
A seleção de variáveis é afetada por quão bem você entende os dados. Não se surpreenda se você olhar e avaliar centenas de variáveis, pelo menos no início. Felizmente, enquanto você trabalha com essas variáveis e começa a obter informações fundamentais, você começa a reduzi-las até algumas dúzias. Além disso, espere que a seleção de variáveis mude conforme sua compreensão das mudanças de dados ao longo do projeto.
Você pode achar benéfico criar um inventário de dados que você possa usar para rastrear o que você conhece, o que você não sabe e o que pode faltar. O inventário de dados deve incluir uma listagem dos vários elementos de dados e quaisquer atributos relevantes nas etapas subseqüentes do processo.
Por exemplo, você pode querer documentar se os segmentos estão faltando códigos postais ou registros faltantes por um período específico de tempo.
O seu pessoal para o conhecimento empresarial (também conhecido como especialistas em conhecimento de domínio ) o ajudará a selecionar as principais variáveis que podem influenciar positivamente os resultados do seu projeto. Eles podem ajudar a explicar a você a importância dessas variáveis, bem como onde e como obtê-las, entre outras contribuições valiosas.