Vídeo: Português - Aula 02 - Formação de Palavras 2024
A nível de tachas de bronze, a classificação de dados analíticos preditivos consiste em duas etapas: o estágio de aprendizagem e o estágio de previsão.. O estágio de aprendizado implica a formação do modelo de classificação executando um conjunto designado de dados passados através do classificador. O objetivo é ensinar seu modelo a extrair e descobrir relações e regras ocultas - as regras de classificação de dados históricos (treinamento). O modelo faz isso empregando um algoritmo de classificação.
O estágio de previsão que segue o estágio de aprendizagem consiste em ter o modelo de prever novos rótulos de classe ou valores numéricos que classificam dados que não viu antes (ou seja, dados de teste).
Para ilustrar estas etapas, suponha que você seja o proprietário de uma loja online que vende relógios. Você possuiu a loja online há bastante tempo e reuniu muitos dados transacionais e dados pessoais sobre clientes que compraram relógios da sua loja. Suponha que você tenha capturado esses dados através do seu site fornecendo formulários da Web, além dos dados transacionais que você reuniu através das operações.
Você também pode comprar dados de um terceiro que fornece informações sobre seus clientes fora do interesse em relógios. Isso não é tão difícil quanto parece; existem empresas cujo modelo de negócios é acompanhar os clientes on-line e coletar e vender informações valiosas sobre eles.
A maioria dessas empresas terceirizadas coletam dados de sites de redes sociais e aplicam métodos de mineração de dados para descobrir o relacionamento de usuários individuais com produtos. Neste caso, como proprietário de uma loja de relógios, você estaria interessado na relação entre os clientes e seu interesse em comprar relógios.
Você pode inferir esse tipo de informação de analisar, por exemplo, um perfil de rede social de um cliente ou um comentário de microblog do tipo que você encontra no Twitter.
Para medir o nível de interesse de um indivíduo em relógios, você pode aplicar qualquer uma das várias ferramentas de análise de texto que podem descobrir tais correlações no texto escrito de um indivíduo (status de rede social, tweets, postagens de blog e tal) ou atividade on-line (tais como interações sociais on-line, upload de fotos e pesquisas).
Depois de coletar todos esses dados sobre as transações passadas e os interesses atuais de seus clientes - dados de treinamento que mostram o modelo do que procurar - você precisará organizá-lo em uma estrutura que o torne fácil de acessar e usar (como um banco de dados).
Neste ponto, você atingiu a segunda fase de classificação de dados: o estágio de previsão,, que trata de testar seu modelo e a precisão das regras de classificação que gerou. Para isso, você precisará de dados históricos adicionais do cliente, referidos como dados de teste (que é diferente dos dados de treinamento).
Você alimenta esses dados de teste em seu modelo e mede a precisão das previsões resultantes. Você conta os tempos em que o modelo previu corretamente o comportamento futuro dos clientes representados nos dados do teste. Você também conta os tempos em que o modelo fez previsões erradas.
Neste ponto, você tem apenas dois possíveis resultados: Você está satisfeito com a precisão do modelo ou não está:
-
Se estiver satisfeito, então você pode começar a preparar seu modelo para fazer previsões como parte de um sistema de produção.
-
Se você não está feliz com a previsão, então você precisará treinar seu modelo com um novo conjunto de dados de treinamento.
Se seus dados de treinamento originais não fossem representativos o suficiente do grupo de seus clientes - ou continham dados ruidosos que derrubaram os resultados do modelo através da introdução de sinais falsos - então há mais trabalho a fazer para que o seu modelo esteja funcionando. Qualquer resultado é útil no seu caminho.