Visualizando os resultados analíticos do seu modelo preditivo - dummies

Muitas vezes, você precisa mostrar os resultados de suas análises preditivas para aqueles que importam. Aqui estão algumas maneiras de usar técnicas de visualização para reportar os resultados dos seus modelos às partes interessadas.

Visualizando agrupamentos ocultos em seus dados

O agrupamento de dados é o processo de descobrir grupos ocultos de itens relacionados em seus dados. Na maioria dos casos, um cluster (agrupamento) consiste em objetos de dados do mesmo tipo, como usuários de redes sociais, documentos de texto ou e-mails. Uma maneira de visualizar os resultados de um modelo de cluster de dados é mostrada abaixo, onde o gráfico representa comunidades sociais (clusters) que foram descobertas em dados coletados de usuários de redes sociais.

Os dados sobre clientes foram coletados em um formato tabular; então um algoritmo de agrupamento foi aplicado aos dados, e os três grupos (grupos) foram descobertos: clientes fiéis, clientes errantes e clientes com desconto. Suponha que os eixos X e Y representam os dois componentes principais gerados dos dados originais. A análise de componentes principais (PCA) é uma técnica de redução de dados.

Agrupando clientes em três grupos: leais, errantes e desconto.

Aqui a relação visual entre os três grupos já sugere onde os esforços de marketing aprimorados e direcionados podem ser os mais bons.

Visualizando resultados de classificação de dados

Um modelo de classificação atribui uma classe específica a cada novo ponto de dados que examina. As classes específicas, nesse caso, podem ser os grupos resultantes do seu trabalho de clustering. A saída destacada no gráfico pode definir seus conjuntos de destino. Para qualquer novo cliente, um modelo de classificação preditiva tenta prever a qual grupo o novo cliente irá pertencer.

Depois de aplicar um algoritmo de cluster e descobriu agrupamentos nos dados do cliente, você chegou a um momento de verdade: aqui vem um novo cliente - você quer que o modelo preveja que tipo de cliente ele ou ela será.

A imagem mostra como as informações de um novo cliente são alimentadas no seu modelo de análise preditiva, que por sua vez prevê qual grupo de clientes pertence esse novo cliente. Novos clientes A, B e C estão prestes a ser atribuídos a clusters de acordo com o modelo de classificação. A aplicação do modelo de classificação resultou em uma previsão de que o Cliente A pertenceria aos clientes leais, o Cliente B seria um andarilho e o Cliente C só estava aparecendo para o desconto.

Atribuindo Clientes A, B e C, às suas classificações (clusters).

Visualizando outliers em seus dados

No decorrer do clustering ou classificação de novos clientes, de vez em quando você se encontra em outliers (casos especiais que não se encaixam nas divisões existentes).

Abaixo, você vê alguns valores abertos que não se encaixam bem nos clusters predefinidos. Seis clientes externos foram detectados e visualizados. Eles se comportam de forma diferente que o modelo não pode dizer se eles pertencem a categorias definidas de clientes.

Seis clientes outlier desafiam categorização apenas mostrando-se.

Visualização de árvores de decisão

Muitos modelos usam árvores de decisão como resultados: esses diagramas mostram os possíveis resultados de cursos de ação alternativos, definidos como os ramos de uma árvore.

A imagem abaixo mostra um exemplo de uma árvore usada como classificador: classifica os fãs de beisebol com base em alguns critérios, principalmente o valor gasto nos ingressos e as datas de compra. A partir desta visualização, você pode prever o tipo de fã que um novo comprador de bilhetes será: casual, leal, bandwagon, intrincado ou algum outro tipo.

Os atributos de cada fã são mencionados em cada nível da árvore (número total de jogos atendidos, quantidade total gasto, estação); Você pode seguir um caminho de uma determinada "raiz" para uma "folha" específica na árvore, onde você bateu uma das classes de fãs (c1, c2, c3, c4, c5).

Encontrando a classe em que pertence um fã de baseball específico.

Suponha que você deseja determinar o tipo de fã de beisebol que um cliente é para que você possa determinar o tipo de anúncios de marketing para enviar ao cliente. Suponha que você tenha a hipótese de que os fanáticos do baseball e os fãs do bandwagon podem ser persuadidos a comprar um carro novo quando sua equipe está indo bem e se dirigiu para os playoffs.

Você pode enviar anúncios de marketing e descontos para persuadi-los a fazer a compra. Além disso, suponha que a hipótese de que os fãs do bandwagon possam ser persuadidos a votar em apoio de certas questões políticas. Você pode enviar anúncios de marketing pedindo-lhes esse suporte. Se você sabe o tipo de base de fãs que você possui, usar árvores de decisão pode ajudá-lo a decidir como abordá-lo como uma variedade de tipos de clientes.

Visualizando previsões

Suponha que você tenha executado uma série de modelos de análise preditiva, incluindo árvores de decisão, florestas aleatórias e algoritmos de flocagem. Você pode combinar todos esses resultados e apresentar uma narrativa consistente que todos eles suportam. Aqui a confiança é uma porcentagem numérica que pode ser calculada usando uma função matemática. O resultado do cálculo encapsula uma pontuação de quão provável é uma possível ocorrência.

No eixo x, a evidência de suporte representa a fonte de conteúdo que foi analisada com modelos de análise de conteúdo que identificaram os possíveis resultados. Na maioria dos casos, seu modelo preditivo teria processado um grande conjunto de dados, usando dados de várias fontes, para obter esses resultados possíveis. Assim, você precisa mostrar apenas as evidências de suporte mais importantes em sua visualização.

Mostrando apenas a evidência de suporte mais importante na visualização.

Acima, um resumo dos resultados obtidos com a aplicação de análises preditivas é apresentado como uma visualização que ilustra os possíveis resultados, juntamente com um índice de confiança e evidências de suporte para cada um. Três cenários possíveis são mostrados:

O inventário do Item A não acompanhará a demanda se você não enviar pelo menos 100 unidades semanalmente para a loja S. (Pontuação de confiança: 98 por cento.)
O número de vendas aumentará 40% se você aumentar a produção do item A em pelo menos 56%. (Nota de confiança: 83 por cento.)
Uma campanha de marketing na Califórnia aumentará as vendas dos itens A e D, mas não o Item K. (Pontuação de confiança: 72 por cento.)

O índice de confiança representa a probabilidade de que cada cenário acontecer, de acordo com seu modelo de análise preditiva. Note-se que eles estão listados aqui em ordem decrescente de probabilidade.

Aqui, a evidência de suporte mais importante consiste em como excertos de várias fontes de conteúdo são apresentados ao longo do eixo x. Você pode se referir a eles se precisar explicar como você chegou a um cenário particular possível - e trote a evidência que o apóie.

O poder por trás dessa visualização é a sua simplicidade. Imagine, depois de meses de aplicar análises preditivas aos seus dados, trabalhando no seu caminho através de várias iterações, que você entenda uma reunião com o tomador de decisão. Você está armado com uma visualização de slide de três cenários possíveis que podem ter um enorme impacto no negócio. Essa visualização cria discussões efetivas e pode levar o gerenciamento a momentos de "aha".