Vídeo: Química - Reações Químicas 2024
Depois de ter todas as ferramentas e dados necessários para começar a criar um modelo preditivo, a diversão começa. Em geral, criar um modelo de aprendizagem para tarefas de classificação implicará as seguintes etapas:
-
Carregar os dados.
-
Escolha um classificador.
-
Treine o modelo.
-
Visualize o modelo.
-
Teste o modelo.
-
Avalie o modelo.
Tanto os modelos de regressão logística quanto os modelos de classificação da máquina de vetores de suporte (SVM) funcionam bastante bem usando o conjunto de dados Iris.
Comprimento Sepal | Largura Sepal | Comprimento da pétala | Largura da pétala | Classe alvo / Etiqueta |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
O modelo de regressão logística com o parâmetro C = 1 foi perfeito em suas previsões, enquanto o modelo SVM e o modelo de regressão logística com C = 150 perderam apenas uma previsão. Na verdade, a alta precisão de ambos os modelos é o resultado de ter um pequeno conjunto de dados que possui pontos de dados que são bastante próximos de linearmente separáveis.
Curiosamente, o modelo de regressão logística com C = 150 apresentou um plano de superfície de decisão de melhor aparência do que aquele com C = 1, mas não apresentou melhor desempenho. Isso não é tão grande, considerando que o conjunto de testes é tão pequeno. Se outra divisão aleatória entre o conjunto de treinamento e o conjunto de teste tivesse sido selecionada, os resultados poderiam ter sido facilmente diferentes.
Isso revela outra fonte de complexidade que surge na avaliação do modelo: o efeito da amostragem e como a escolha dos conjuntos de treinamento e teste pode afetar a saída do modelo. As técnicas de validação cruzada podem ajudar a minimizar o impacto da amostragem aleatória no desempenho do modelo.
Para um conjunto de dados maior com dados não linearmente separáveis, você esperaria que os resultados se desviassem ainda mais. Além disso, escolher o modelo apropriado torna-se cada vez mais difícil devido à complexidade e ao tamanho dos dados. Esteja preparado para passar uma grande quantidade de tempo ajustando seus parâmetros para obter um ajuste ideal.
Ao criar modelos preditivos, tente alguns algoritmos e ajuste exaustivamente seus parâmetros até encontrar o que funciona melhor para seus dados. Em seguida, compare suas saídas umas contra as outras.