Lar Finanças Pessoais Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Vídeo: 4 problemas que Machine Learning resolve. 2025

Vídeo: 4 problemas que Machine Learning resolve. 2025
Anonim

Com os algoritmos de classificação, você toma um conjunto de dados existente e use o que você sabe sobre isso para gerar um modelo preditivo para uso na classificação de pontos de dados futuros. Se o seu objetivo é usar seu conjunto de dados e seus subconjuntos conhecidos para construir um modelo para prever a categorização de pontos de dados futuros, você deseja usar algoritmos de classificação.

Ao implementar a classificação supervisionada, você já deve conhecer os subconjuntos de seus dados - esses subconjuntos são chamados categorias . Classificação ajuda você a ver o quão bem seus dados se enquadram nas categorias predefinidas do conjunto de dados para que você possa então construir um modelo preditivo para uso na classificação de pontos de dados futuros.

A figura ilustra como parece classificar os conjuntos de dados de renda e educação do Banco Mundial de acordo com a categoria Continente.

Você pode ver que, em alguns casos, os subconjuntos que você pode identificar com uma técnica de agrupamento correspondem à categoria de continentes, mas em outros casos, eles não. Por exemplo, olhe para o país asiático no meio dos pontos de dados africanos. Isso é o Butão. Você pode usar os dados neste conjunto de dados para construir um modelo que preveja uma categoria de continente para pontos de dados recebidos.

Agora imagine uma situação em que seus dados originais não incluam o Butão, e você usa o modelo para prever o continente do Butão como um novo ponto de dados. Nesse cenário, o modelo previria erroneamente que Bhutan faz parte do continente africano.

Este é um exemplo de

modelo de sobreposição - situações em que um modelo é tão ajustado ao seu conjunto de dados subjacente, bem como o ruído ou erro aleatório inerente a esse conjunto de dados, que o modelo funciona mal como um preditor para novos pontos de dados. Para evitar a superação de seus modelos, divida seus dados em um conjunto de treinamento e um conjunto de testes. Uma proporção típica é atribuir 80% dos dados ao conjunto de treinamento e os restantes 20% no conjunto de teste. Crie seu modelo com o conjunto de treinamento e use o conjunto de teste para avaliar o modelo, fingindo que os pontos de dados do conjunto de testes são desconhecidos. Você pode avaliar a precisão do seu modelo comparando as categorias atribuídas a esses pontos de dados de conjunto de teste pelo modelo às categorias verdadeiras.

A sobregeneralização do modelo também pode ser um problema.

Overgeneralization é o oposto da superposição: acontece quando um cientista de dados tenta evitar -seclassificação devido à superposição, tornando um modelo extremamente geral. Modelos que são muito gerais acabam atribuindo a cada categoria um baixo grau de confiança. Para ilustrar a sobregeneralização do modelo, considere novamente os conjuntos de dados de renda e educação do Banco Mundial. Se o modelo usasse a presença do Butão para lançar dúvidas sobre cada novo ponto de dados em sua vizinhança próxima, você acabará com um modelo bem lustroso que trata todos os pontos próximos como africanos, mas com baixa probabilidade. Este modelo seria um executor preditivo precário.

Uma boa metáfora para superação e excesso de generalização pode ser ilustrada através da frase bem conhecida, "Se ele caminha como um pato e fala como um pato, então é um pato. "A superposição transformaria esta frase em" É um pato se, e só se, ele caminha e curra exatamente as maneiras que eu pessoalmente observei um pato para andar e curtir. Como eu nunca observei a maneira como um pato manchado australiano caminha e charlatões, um pato australiano não deve ser realmente um pato. "

Em contraste, a sobregeneralização diria:" Se ele se move em duas pernas e emite qualquer som nasal agudo, é um pato. Portanto, Fran Fine, personagem de Fran Drescher na sitcom americana dos anos 90

The Nanny deve ser um pato. " Aprendizagem de máquina supervisionada

- o termo extravagante para classificação - é apropriado em situações em que as seguintes características são verdadeiras: Você conhece e entende o conjunto de dados que você está analisando.

  • Os subconjuntos (categorias) do seu conjunto de dados são definidos com antecedência e não são determinados pelos dados.

  • Você quer construir um modelo que correlacione os dados dentro de suas categorias predefinidas para que o modelo possa ajudar a prever a categorização de pontos de dados futuros.

  • Ao realizar a classificação, tenha em mente os seguintes pontos:

As previsões do modelo são tão boas quanto os dados subjacentes do modelo.

  • No exemplo de dados do Banco Mundial, pode ser que, se outros fatores como a expectativa de vida ou o uso de energia per capita fossem adicionados ao modelo, sua força preditiva poderia aumentar. As previsões do modelo são tão boas quanto a categorização do conjunto de dados subjacente.

  • Por exemplo, o que você faz com países como a Rússia que ocupam dois continentes? Você distingue a África do Norte da África subsaariana? Você alarga a América do Norte com a Europa porque eles tendem a compartilhar atributos semelhantes? Você considera a América Central como parte da América do Norte ou América do Sul? Existe um perigo constante de superposição e excesso de generalização. Um meio feliz deve ser encontrado entre os dois.

Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Escolha dos editores

Dicas para direcionar seu filme digital - manequins

Dicas para direcionar seu filme digital - manequins

Como diretor, é seu trabalho levar o filme a vida através de da maneira como seus atores interpretam os personagens e como a equipe filme cada tiro. O diretor trabalha com os atores e a equipe para obter o melhor deles e certifique-se de que a história seja contada através do que eles fazem. Dirigindo seu ...

Dez Wedding DSLR Filmmaking Techniques - dummies

Dez Wedding DSLR Filmmaking Techniques - dummies

Usando sua DSLR para filmar um casamento geralmente reside no final oposto da peça criativa espectro de fazer seu filme de autor. Aqui estão os dez melhores aspectos que você precisa considerar para mantê-lo vivo ao capturar esse evento único na vida. Tenha o equipamento de vídeo certo Você não poderá fazer um casamento até ...

Dez dicas para filmes documentários DSLR - dummies

Dez dicas para filmes documentários DSLR - dummies

Um documentário é uma conta de filme de não ficção de um tópico. Para fazer seu documentário DSLR de qualquer comprimento e assunto em algo que as pessoas acham interessante, considere estas dez dicas. Conheça o tópico que pretende filmar Se você está fazendo um filme de duração de duas horas ou um vídeo on-line de dois minutos, você precisa ...

Escolha dos editores

Como lucrar com a mamãe Blogando sem vender - manequins

Como lucrar com a mamãe Blogando sem vender - manequins

Vender é um termo usado para comprometendo sua integridade, princípios ou moral para ganhar dinheiro ou sucesso. O problema é que, se todos tivessem os mesmos princípios e a definição de integridade, não haveria muita necessidade de diferentes partidos políticos ou religiões. As pessoas podem ser acusadas de vender se eles simplesmente fazem coisas como ...

Como usar corretamente palavras-chave para sua comunidade online - manequins

Como usar corretamente palavras-chave para sua comunidade online - manequins

Quando você tem uma boa idéia de os tipos de palavras-chave para usar em sua comunidade online, é hora de escrever o conteúdo para que pareça natural. Muitas pessoas pimenta palavras-chave liberalmente em torno de suas postagens de blog, artigos da web, sobre páginas e outros conteúdos, o que parece bobo e errado. Embora o uso de palavras-chave seja bom ...

Como colocar anúncios no seu blog - manequins

Como colocar anúncios no seu blog - manequins

Para obter anúncios no site do seu blog, os programas que você Inscreva-se para fornecer-lhe geralmente um pouco de código que você insere em seus modelos de site. Alguns programas têm instruções passo-a-passo para pacotes populares de software de blog, mas esteja ciente de que você também precisará consultar a documentação do seu blog para obter ajuda com ...

Escolha dos editores

Exibindo Números como palavras no Excel - manequins

Exibindo Números como palavras no Excel - manequins

Se você já precisou exibir um número escrito como texto , você provavelmente descobriu que o Excel não oferece essa função. Quando o Excel não entrega, muitas vezes é possível corrigir a deficiência usando o VBA. Aqui está uma função VBA, denominada SPELLDOLLARS, que você pode usar nas fórmulas da planilha. Exemplos de Excel Aqui estão ...

Determinando a audiência para seu modelo financeiro - manequins

Determinando a audiência para seu modelo financeiro - manequins

Que estará visualizando ou usando seu modelo financeiro no futuro ? Se for apenas para seu próprio uso, você ainda deve seguir um bom modelo de design, mas não há necessidade de passar muito tempo na formatação para que pareça legal. Você ainda deve adicionar suposições e documentação de origem para o seu próprio ...

Eliminando células e dados no Excel 2007 - dummies

Eliminando células e dados no Excel 2007 - dummies

No Microsoft Office Excel 2007, quando você precisa excluir dados , remova a formatação em uma seleção de célula ou remova células inteiras, linhas ou colunas, você tem muitas opções dependendo do seu objetivo. O Excel pode executar dois tipos de exclusões de células em uma planilha: limpar dados de células e excluir a célula. Limpar o conteúdo da célula Limpar apenas ...