Vídeo: Proteção e defesa dos direitos da criança e do adolescente na formação esportiva 2024
A aprendizagem em máquina depende muito dos dados na amostra. Esta parte dos seus dados é importante porque você quer descobrir um ponto de vista do mundo e, como em todos os pontos de vista, pode ser errado, distorcido ou simplesmente meramente parcial. Você também sabe que você precisa de um exemplo fora da amostra para verificar se o processo de aprendizagem está funcionando. No entanto, esses aspectos formam apenas parte da imagem.
Quando você faz um algoritmo de aprendizado de máquina trabalhar em dados para adivinhar uma certa resposta, você está efetivamente a fazer uma aposta, e essa aposta não é apenas por causa da amostra que você usa para aprender. Tem mais. Por enquanto, imagine que você tenha acesso livremente a dados adequados, imparciais e na amostra, de modo que os dados não são o problema. Em vez disso, você precisa se concentrar no método de aprendizagem e previsão.
Primeiro, você deve considerar que você está apostando que o algoritmo pode razoavelmente adivinhar a resposta. Você não pode sempre fazer essa suposição porque descobrir algumas respostas não é possível independentemente do que você conheça antecipadamente.
Por exemplo, você não pode determinar completamente o comportamento dos seres humanos ao conhecer sua história e comportamento prévios. Talvez um efeito aleatório esteja envolvido no processo generativo de nosso comportamento (a parte irracional de nós, por exemplo), ou talvez a questão se torne livre vontade (o problema também é filosófico / religioso e há muitas opiniões discordantes). Conseqüentemente, você pode adivinhar apenas alguns tipos de respostas, e para muitos outros, como quando você tenta prever o comportamento das pessoas, você deve aceitar um certo grau de incerteza que, com sorte, é aceitável para seus propósitos.
Em segundo lugar, você deve considerar que você está apostando que a relação entre a informação que você possui e a resposta que você deseja prever pode ser expressa como uma fórmula matemática de algum tipo e que a sua máquina de aprendizagem O algoritmo é realmente capaz de adivinhar essa fórmula. A capacidade do seu algoritmo para adivinhar a fórmula matemática por trás de uma resposta está incorporada intrinsecamente nas porcas e parafusos do algoritmo.
Alguns algoritmos podem adivinhar quase tudo; outros têm um conjunto limitado de opções. O intervalo de possíveis formulações matemáticas que um algoritmo pode adivinhar é o conjunto de suas possíveis hipóteses. Consequentemente, uma hipótese é um único algoritmo, especificado em todos os seus parâmetros e, portanto, capaz de uma única e específica formulação.
A matemática é fantástica. Ele pode descrever grande parte do mundo real usando uma notação simples, e é o núcleo da aprendizagem por máquina, pois qualquer algoritmo de aprendizado tem uma certa capacidade para representar uma formulação matemática.Alguns algoritmos, como a regressão linear, utilizam explicitamente uma formulação matemática específica para representar como uma resposta (por exemplo, o preço de uma casa) se relaciona com um conjunto de informações preditivas (como informações de mercado, localização da casa, superfície da propriedade, e assim por diante).
Algumas formulações são tão complexas e intrincadas que, apesar de representá-las no papel, é possível, fazê-lo é muito difícil em termos práticos. Alguns outros algoritmos sofisticados, como árvores de decisão, não têm uma formulação matemática explícita, mas são tão adaptáveis que podem ser configurados para aproximar uma ampla gama de formulações facilmente. Por exemplo, considere uma formulação simples e facilmente explicada. A regressão linear é apenas uma linha em um espaço de coordenadas dado pela resposta e todos os preditores. No exemplo mais fácil, você pode ter uma resposta, y, e um único preditor, x, com uma formulação de
y = β 1 x 1 + β 0
Em uma situação simples de uma resposta prevista por um único recurso, esse modelo é perfeito quando seus dados se organizam como uma linha. No entanto, o que acontece se não e, em vez disso, se forma como uma curva? Para representar a situação, basta observar as seguintes representações bidimensionais.
Exemplo de um modelo linear que luta para mapear uma função de curva.Quando os pontos se assemelham a uma linha ou a uma nuvem, algum erro ocorre quando você está descobrindo que o resultado é uma linha reta; portanto, o mapeamento fornecido pela formulação anterior é de alguma forma impreciso. No entanto, o erro não aparece sistematicamente, mas sim aleatoriamente porque alguns pontos estão acima da linha mapeada e outros estão abaixo dele. A situação com a nuvem curvada e em forma de pontos é diferente, porque desta vez, a linha às vezes é exata, mas outras vezes é sistematicamente errada. Às vezes, os pontos estão sempre acima da linha; às vezes eles estão abaixo dele.
Dada a simplicidade de seu mapeamento da resposta, seu algoritmo tende a superestimar ou subestimar sistematicamente as regras reais por trás dos dados, representando seu viés. O viés é característico de algoritmos mais simples que não podem expressar formulações matemáticas complexas.