Vídeo: Aula 5-SPSS, Análise de uma variável nominal 2024
O primeiro passo para a modelagem preditiva é relacionar as variáveis entre si. Uma ferramenta simples e notável para isso é o diagrama de dispersão. É usado para relacionar uma medida contínua com outra. Os mineradores de dados às vezes esticam as regras e usam-na com variáveis categóricas também.
O eixo horizontal ( x ) do gráfico representa valores de uma variável; o eixo vertical ( y ) representa uma segunda variável. Você pode não ter uma idéia de qual variável é independente e que é dependente de cada par de variáveis.
Se você fizer isso, a variável independente deve estar no eixo horizontal. Cada ponto do gráfico representa as coordenadas, o par de valores para as duas variáveis em um único caso. (Estes pares às vezes são chamados xy pairs ).
Encontre sua ferramenta scatterplot e configure uma ferramenta básica scatterplot selecionando duas variáveis para usar. A figura a seguir mostra essa ferramenta no menu de Orange; A localização da ferramenta varia de acordo com o produto.
O exemplo na próxima imagem mostra uma exibição interativa; o diagrama de dispersão aparece imediatamente. Em outra ferramenta, você pode precisar de etapas adicionais para executar e criar o gráfico.
O exemplo do diagrama de dispersão relaciona a quilometragem automática com a potência do motor. A baixa potência é associada a alta quilometragem, e quanto maior a potência, menor a quilometragem. Você pode facilmente ver esse padrão nos dados. Você pode notar uma forma, não linear, mas um pouco curvada. Isso poderia fornecer dicas sobre quais tipos de modelos tentar mais tarde.
As aplicações de mineração de dados geralmente possuem alguns recursos interativos nas telas gráficas. Por exemplo, a figura seguinte mostra que o aumento do mouse sobre um ponto revela os valores exatos das duas variáveis para esse ponto. Isso é mais fácil do que tentar ler os valores dos eixos!