Vídeo: Cap09 -Treinamento, Validação e Teste 2024
Em um mundo perfeito, você pode executar um teste em dados que seu algoritmo de aprendizado de máquina nunca aprendeu de antes. No entanto, a espera de novos dados nem sempre é viável em termos de tempo e custos.
Como um primeiro remédio simples, você pode dividir aleatoriamente seus dados em conjuntos de treinamento e teste. A divisão comum é de 25 a 30 por cento para o teste e os restantes 75 a 70 por cento para treinamento. Você dividiu seus dados consistindo em sua resposta e recursos ao mesmo tempo, mantendo a correspondência entre cada resposta e seus recursos.
O segundo remédio ocorre quando você precisa ajustar seu algoritmo de aprendizagem. Nesse caso, o teste de dados divididos não é uma boa prática porque causa outro tipo de superação chamado de espionagem. Para superar o snooping, você precisa de uma terceira divisão, chamada de conjunto de validação. Uma divisão sugerida é ter seus exemplos divididos em terços: 70 por cento para treinamento, 20 por cento para validação e 10 por cento para testes.
Você deve executar a divisão aleatoriamente, ou seja, independentemente da ordem inicial dos dados. Caso contrário, o seu teste não será confiável, porque a ordenação pode causar superestimação (quando há algum pedido significativo) ou subestimação (quando a distribuição difere demais). Como solução, você deve garantir que a distribuição do conjunto de testes não seja muito diferente da distribuição do treinamento e que a ordem seqüencial ocorra nos dados divididos.
Por exemplo, verifique se os números de identificação, quando disponíveis, são contínuos em seus conjuntos. Às vezes, mesmo que você respeite rigorosamente a amostragem aleatória, nem sempre pode obter distribuições similares entre os conjuntos, especialmente quando o número de exemplos é pequeno.
Quando seu número de exemplos n é alto, como n> 10, 000, você pode criar com confiança um conjunto de dados dividido aleatoriamente. Quando o conjunto de dados é menor, comparar estatísticas básicas, como média, modo, mediana e variância em toda a resposta e recursos nos conjuntos de treinamento e teste, ajudarão você a entender se o conjunto de testes não é adequado. Quando você não tem certeza de que a divisão está correta, basta recalcular uma nova.