Classificação Algoritmos Usados na Ciência dos Dados - dummies

Com os algoritmos de classificação, você toma um conjunto de dados existente e use o que você sabe sobre isso para gerar um modelo preditivo para uso na classificação de pontos de dados futuros. Se o seu objetivo é usar seu conjunto de dados e seus subconjuntos conhecidos para construir um modelo para prever a categorização de pontos de dados futuros, você deseja usar algoritmos de classificação.

Ao implementar a classificação supervisionada, você já deve conhecer os subconjuntos de seus dados - esses subconjuntos são chamados categorias . Classificação ajuda você a ver o quão bem seus dados se enquadram nas categorias predefinidas do conjunto de dados para que você possa então construir um modelo preditivo para uso na classificação de pontos de dados futuros.

A figura ilustra como parece classificar os conjuntos de dados de renda e educação do Banco Mundial de acordo com a categoria Continente.

Você pode ver que, em alguns casos, os subconjuntos que você pode identificar com uma técnica de agrupamento correspondem à categoria de continentes, mas em outros casos, eles não. Por exemplo, olhe para o país asiático no meio dos pontos de dados africanos. Isso é o Butão. Você pode usar os dados neste conjunto de dados para construir um modelo que preveja uma categoria de continente para pontos de dados recebidos.

Agora imagine uma situação em que seus dados originais não incluam o Butão, e você usa o modelo para prever o continente do Butão como um novo ponto de dados. Nesse cenário, o modelo previria erroneamente que Bhutan faz parte do continente africano.

Este é um exemplo de

modelo de sobreposição - situações em que um modelo é tão ajustado ao seu conjunto de dados subjacente, bem como o ruído ou erro aleatório inerente a esse conjunto de dados, que o modelo funciona mal como um preditor para novos pontos de dados. Para evitar a superação de seus modelos, divida seus dados em um conjunto de treinamento e um conjunto de testes. Uma proporção típica é atribuir 80% dos dados ao conjunto de treinamento e os restantes 20% no conjunto de teste. Crie seu modelo com o conjunto de treinamento e use o conjunto de teste para avaliar o modelo, fingindo que os pontos de dados do conjunto de testes são desconhecidos. Você pode avaliar a precisão do seu modelo comparando as categorias atribuídas a esses pontos de dados de conjunto de teste pelo modelo às categorias verdadeiras.

A sobregeneralização do modelo também pode ser um problema.

Overgeneralization é o oposto da superposição: acontece quando um cientista de dados tenta evitar -seclassificação devido à superposição, tornando um modelo extremamente geral. Modelos que são muito gerais acabam atribuindo a cada categoria um baixo grau de confiança. Para ilustrar a sobregeneralização do modelo, considere novamente os conjuntos de dados de renda e educação do Banco Mundial. Se o modelo usasse a presença do Butão para lançar dúvidas sobre cada novo ponto de dados em sua vizinhança próxima, você acabará com um modelo bem lustroso que trata todos os pontos próximos como africanos, mas com baixa probabilidade. Este modelo seria um executor preditivo precário.

Uma boa metáfora para superação e excesso de generalização pode ser ilustrada através da frase bem conhecida, "Se ele caminha como um pato e fala como um pato, então é um pato. "A superposição transformaria esta frase em" É um pato se, e só se, ele caminha e curra exatamente as maneiras que eu pessoalmente observei um pato para andar e curtir. Como eu nunca observei a maneira como um pato manchado australiano caminha e charlatões, um pato australiano não deve ser realmente um pato. "

Em contraste, a sobregeneralização diria:" Se ele se move em duas pernas e emite qualquer som nasal agudo, é um pato. Portanto, Fran Fine, personagem de Fran Drescher na sitcom americana dos anos 90

The Nanny deve ser um pato. " Aprendizagem de máquina supervisionada

- o termo extravagante para classificação - é apropriado em situações em que as seguintes características são verdadeiras: Você conhece e entende o conjunto de dados que você está analisando.

Os subconjuntos (categorias) do seu conjunto de dados são definidos com antecedência e não são determinados pelos dados.
Você quer construir um modelo que correlacione os dados dentro de suas categorias predefinidas para que o modelo possa ajudar a prever a categorização de pontos de dados futuros.
Ao realizar a classificação, tenha em mente os seguintes pontos:

As previsões do modelo são tão boas quanto os dados subjacentes do modelo.

No exemplo de dados do Banco Mundial, pode ser que, se outros fatores como a expectativa de vida ou o uso de energia per capita fossem adicionados ao modelo, sua força preditiva poderia aumentar. As previsões do modelo são tão boas quanto a categorização do conjunto de dados subjacente.
Por exemplo, o que você faz com países como a Rússia que ocupam dois continentes? Você distingue a África do Norte da África subsaariana? Você alarga a América do Norte com a Europa porque eles tendem a compartilhar atributos semelhantes? Você considera a América Central como parte da América do Norte ou América do Sul? Existe um perigo constante de superposição e excesso de generalização. Um meio feliz deve ser encontrado entre os dois.