Lar Finanças Pessoais Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Vídeo: 4 problemas que Machine Learning resolve. 2025

Vídeo: 4 problemas que Machine Learning resolve. 2025
Anonim

Com os algoritmos de classificação, você toma um conjunto de dados existente e use o que você sabe sobre isso para gerar um modelo preditivo para uso na classificação de pontos de dados futuros. Se o seu objetivo é usar seu conjunto de dados e seus subconjuntos conhecidos para construir um modelo para prever a categorização de pontos de dados futuros, você deseja usar algoritmos de classificação.

Ao implementar a classificação supervisionada, você já deve conhecer os subconjuntos de seus dados - esses subconjuntos são chamados categorias . Classificação ajuda você a ver o quão bem seus dados se enquadram nas categorias predefinidas do conjunto de dados para que você possa então construir um modelo preditivo para uso na classificação de pontos de dados futuros.

A figura ilustra como parece classificar os conjuntos de dados de renda e educação do Banco Mundial de acordo com a categoria Continente.

Você pode ver que, em alguns casos, os subconjuntos que você pode identificar com uma técnica de agrupamento correspondem à categoria de continentes, mas em outros casos, eles não. Por exemplo, olhe para o país asiático no meio dos pontos de dados africanos. Isso é o Butão. Você pode usar os dados neste conjunto de dados para construir um modelo que preveja uma categoria de continente para pontos de dados recebidos.

Agora imagine uma situação em que seus dados originais não incluam o Butão, e você usa o modelo para prever o continente do Butão como um novo ponto de dados. Nesse cenário, o modelo previria erroneamente que Bhutan faz parte do continente africano.

Este é um exemplo de

modelo de sobreposição - situações em que um modelo é tão ajustado ao seu conjunto de dados subjacente, bem como o ruído ou erro aleatório inerente a esse conjunto de dados, que o modelo funciona mal como um preditor para novos pontos de dados. Para evitar a superação de seus modelos, divida seus dados em um conjunto de treinamento e um conjunto de testes. Uma proporção típica é atribuir 80% dos dados ao conjunto de treinamento e os restantes 20% no conjunto de teste. Crie seu modelo com o conjunto de treinamento e use o conjunto de teste para avaliar o modelo, fingindo que os pontos de dados do conjunto de testes são desconhecidos. Você pode avaliar a precisão do seu modelo comparando as categorias atribuídas a esses pontos de dados de conjunto de teste pelo modelo às categorias verdadeiras.

A sobregeneralização do modelo também pode ser um problema.

Overgeneralization é o oposto da superposição: acontece quando um cientista de dados tenta evitar -seclassificação devido à superposição, tornando um modelo extremamente geral. Modelos que são muito gerais acabam atribuindo a cada categoria um baixo grau de confiança. Para ilustrar a sobregeneralização do modelo, considere novamente os conjuntos de dados de renda e educação do Banco Mundial. Se o modelo usasse a presença do Butão para lançar dúvidas sobre cada novo ponto de dados em sua vizinhança próxima, você acabará com um modelo bem lustroso que trata todos os pontos próximos como africanos, mas com baixa probabilidade. Este modelo seria um executor preditivo precário.

Uma boa metáfora para superação e excesso de generalização pode ser ilustrada através da frase bem conhecida, "Se ele caminha como um pato e fala como um pato, então é um pato. "A superposição transformaria esta frase em" É um pato se, e só se, ele caminha e curra exatamente as maneiras que eu pessoalmente observei um pato para andar e curtir. Como eu nunca observei a maneira como um pato manchado australiano caminha e charlatões, um pato australiano não deve ser realmente um pato. "

Em contraste, a sobregeneralização diria:" Se ele se move em duas pernas e emite qualquer som nasal agudo, é um pato. Portanto, Fran Fine, personagem de Fran Drescher na sitcom americana dos anos 90

The Nanny deve ser um pato. " Aprendizagem de máquina supervisionada

- o termo extravagante para classificação - é apropriado em situações em que as seguintes características são verdadeiras: Você conhece e entende o conjunto de dados que você está analisando.

  • Os subconjuntos (categorias) do seu conjunto de dados são definidos com antecedência e não são determinados pelos dados.

  • Você quer construir um modelo que correlacione os dados dentro de suas categorias predefinidas para que o modelo possa ajudar a prever a categorização de pontos de dados futuros.

  • Ao realizar a classificação, tenha em mente os seguintes pontos:

As previsões do modelo são tão boas quanto os dados subjacentes do modelo.

  • No exemplo de dados do Banco Mundial, pode ser que, se outros fatores como a expectativa de vida ou o uso de energia per capita fossem adicionados ao modelo, sua força preditiva poderia aumentar. As previsões do modelo são tão boas quanto a categorização do conjunto de dados subjacente.

  • Por exemplo, o que você faz com países como a Rússia que ocupam dois continentes? Você distingue a África do Norte da África subsaariana? Você alarga a América do Norte com a Europa porque eles tendem a compartilhar atributos semelhantes? Você considera a América Central como parte da América do Norte ou América do Sul? Existe um perigo constante de superposição e excesso de generalização. Um meio feliz deve ser encontrado entre os dois.

Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Escolha dos editores

Fatos de plantas e animais para lembrar para o exame de biologia AP - dummies

Fatos de plantas e animais para lembrar para o exame de biologia AP - dummies

A seguinte lista contém algumas das informações mais desafiadoras sobre plantas e animais que você pode encontrar no exame de biologia AP. Estude esta lista, desde que você precise - se você se lembrar dessa informação durante o teste, você fará tudo bem. As plantas vasculares têm raízes, rebentos e caules, cada um dos quais ...

Física Tópicos para estudar para o teste Miller Analogies (MAT) - dummies

Física Tópicos para estudar para o teste Miller Analogies (MAT) - dummies

Massa , velocidade, aceleração - sim, é hora de rever toda a física que você aprendeu no ensino médio e se preparar para o MAT (Miller Analogies Test). Para o MAT, familiarizar-se com a física não implica aprender equações complicadas. Você só precisa se lembrar de alguns termos de física e aprender sobre alguns físicos famosos. Essas listas ajudam ...

Médico Assistente de Exame para Dummies Cheat Sheet - dummies

Médico Assistente de Exame para Dummies Cheat Sheet - dummies

Quando você está se preparando para tomar a PANCE ou PANRE , você pode sentir que precisa conhecer uma quantidade infinita de informações. Como você vai se lembrar de todos os detalhes de tantas doenças e condições? Aqui, você pode revisar alguns mnemônicos úteis que não só ajudarão seu recall como você se prepara para o seu ...

Escolha dos editores

Como criar uma ordem de compra no QuickBooks 2010 - dummies

Como criar uma ordem de compra no QuickBooks 2010 - dummies

Você pode usar o QuickBooks para criar uma compra Ordem para o seu negócio. Uma ordem de compra informa um fornecedor que deseja comprar algum item. Na verdade, um pedido de compra é um contrato para compra.

Como personalizar os formulários de verificação no QuickBooks 2011 - dummies

Como personalizar os formulários de verificação no QuickBooks 2011 - dummies

Antes de escrever suas verificações no QuickBooks, você pode decida que deseja personalizá-los um pouco. Você pode querer que seus cheques reflitam a aparência do seu negócio. Por exemplo, o QuickBooks oferece a oportunidade de alterar as fontes em seus cheques. Se você clicar na aba Fontes na caixa de diálogo Verificar impressão ...

Como personalizar os formulários on-line do QuickBooks para lidar com os subtotais - manequins

Como personalizar os formulários on-line do QuickBooks para lidar com os subtotais - manequins

Se precisar subtotar informações sobre o seu formulários de vendas, configure formulários de vendas no QuickBooks Online para que você possa incluir subtotais neles. Você pode subtotar linhas em uma fatura, uma estimativa ou um recibo de venda. Primeiro, ative o recurso; Para este exemplo, ative o recurso para o formulário de fatura. Siga ...

Escolha dos editores

Como converter imagens em modo escala de cinza em Photoshop Elements 11 - dummies

Como converter imagens em modo escala de cinza em Photoshop Elements 11 - dummies

Imagens em escala de cinza têm preto e pixels brancos e qualquer um dos 256 níveis de cinza. Ao converter uma imagem RGB em escala de cinza no Photoshop Elements 11, você pode fazer com que pareça uma foto em preto e branco. Evite converter em escala de cinza escolhendo Image → Mode → Grayscale. Quando os elementos executam essa conversão, ele remove toda a cor dos pixels, ...

Como converter imagens em modo escala de cinza em Photoshop Elements 9 - dummies

Como converter imagens em modo escala de cinza em Photoshop Elements 9 - dummies

Em Photoshop Elements, você pode converter uma imagem RGB em escala de cinza, fazendo com que pareça uma foto em preto e branco. As imagens de tons de cinza têm pixels em preto e branco e qualquer um dos 256 níveis de cinza. No entanto, você não precisa desistir de seus dados de cores. Como alternativa ao uso do comando de menu para converter imagens para ...

Como corrigir imagens com curvas de cores - dummies

Como corrigir imagens com curvas de cores - dummies

Photoshop Elements 10 emprestou um recurso muito usado do Photoshop chamado Curves. No entanto, adicionou a palavra Cor e tirou parte de sua sofisticação. No entanto, o ajuste Color Curves tenta melhorar o alcance tonal em imagens a cores fazendo ajustes em destaques, sombras e tons médios em cada canal de cores. Tente usar este comando em ...