Lar Finanças Pessoais Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Vídeo: 4 problemas que Machine Learning resolve. 2024

Vídeo: 4 problemas que Machine Learning resolve. 2024
Anonim

Com os algoritmos de classificação, você toma um conjunto de dados existente e use o que você sabe sobre isso para gerar um modelo preditivo para uso na classificação de pontos de dados futuros. Se o seu objetivo é usar seu conjunto de dados e seus subconjuntos conhecidos para construir um modelo para prever a categorização de pontos de dados futuros, você deseja usar algoritmos de classificação.

Ao implementar a classificação supervisionada, você já deve conhecer os subconjuntos de seus dados - esses subconjuntos são chamados categorias . Classificação ajuda você a ver o quão bem seus dados se enquadram nas categorias predefinidas do conjunto de dados para que você possa então construir um modelo preditivo para uso na classificação de pontos de dados futuros.

A figura ilustra como parece classificar os conjuntos de dados de renda e educação do Banco Mundial de acordo com a categoria Continente.

Você pode ver que, em alguns casos, os subconjuntos que você pode identificar com uma técnica de agrupamento correspondem à categoria de continentes, mas em outros casos, eles não. Por exemplo, olhe para o país asiático no meio dos pontos de dados africanos. Isso é o Butão. Você pode usar os dados neste conjunto de dados para construir um modelo que preveja uma categoria de continente para pontos de dados recebidos.

Agora imagine uma situação em que seus dados originais não incluam o Butão, e você usa o modelo para prever o continente do Butão como um novo ponto de dados. Nesse cenário, o modelo previria erroneamente que Bhutan faz parte do continente africano.

Este é um exemplo de

modelo de sobreposição - situações em que um modelo é tão ajustado ao seu conjunto de dados subjacente, bem como o ruído ou erro aleatório inerente a esse conjunto de dados, que o modelo funciona mal como um preditor para novos pontos de dados. Para evitar a superação de seus modelos, divida seus dados em um conjunto de treinamento e um conjunto de testes. Uma proporção típica é atribuir 80% dos dados ao conjunto de treinamento e os restantes 20% no conjunto de teste. Crie seu modelo com o conjunto de treinamento e use o conjunto de teste para avaliar o modelo, fingindo que os pontos de dados do conjunto de testes são desconhecidos. Você pode avaliar a precisão do seu modelo comparando as categorias atribuídas a esses pontos de dados de conjunto de teste pelo modelo às categorias verdadeiras.

A sobregeneralização do modelo também pode ser um problema.

Overgeneralization é o oposto da superposição: acontece quando um cientista de dados tenta evitar -seclassificação devido à superposição, tornando um modelo extremamente geral. Modelos que são muito gerais acabam atribuindo a cada categoria um baixo grau de confiança. Para ilustrar a sobregeneralização do modelo, considere novamente os conjuntos de dados de renda e educação do Banco Mundial. Se o modelo usasse a presença do Butão para lançar dúvidas sobre cada novo ponto de dados em sua vizinhança próxima, você acabará com um modelo bem lustroso que trata todos os pontos próximos como africanos, mas com baixa probabilidade. Este modelo seria um executor preditivo precário.

Uma boa metáfora para superação e excesso de generalização pode ser ilustrada através da frase bem conhecida, "Se ele caminha como um pato e fala como um pato, então é um pato. "A superposição transformaria esta frase em" É um pato se, e só se, ele caminha e curra exatamente as maneiras que eu pessoalmente observei um pato para andar e curtir. Como eu nunca observei a maneira como um pato manchado australiano caminha e charlatões, um pato australiano não deve ser realmente um pato. "

Em contraste, a sobregeneralização diria:" Se ele se move em duas pernas e emite qualquer som nasal agudo, é um pato. Portanto, Fran Fine, personagem de Fran Drescher na sitcom americana dos anos 90

The Nanny deve ser um pato. " Aprendizagem de máquina supervisionada

- o termo extravagante para classificação - é apropriado em situações em que as seguintes características são verdadeiras: Você conhece e entende o conjunto de dados que você está analisando.

  • Os subconjuntos (categorias) do seu conjunto de dados são definidos com antecedência e não são determinados pelos dados.

  • Você quer construir um modelo que correlacione os dados dentro de suas categorias predefinidas para que o modelo possa ajudar a prever a categorização de pontos de dados futuros.

  • Ao realizar a classificação, tenha em mente os seguintes pontos:

As previsões do modelo são tão boas quanto os dados subjacentes do modelo.

  • No exemplo de dados do Banco Mundial, pode ser que, se outros fatores como a expectativa de vida ou o uso de energia per capita fossem adicionados ao modelo, sua força preditiva poderia aumentar. As previsões do modelo são tão boas quanto a categorização do conjunto de dados subjacente.

  • Por exemplo, o que você faz com países como a Rússia que ocupam dois continentes? Você distingue a África do Norte da África subsaariana? Você alarga a América do Norte com a Europa porque eles tendem a compartilhar atributos semelhantes? Você considera a América Central como parte da América do Norte ou América do Sul? Existe um perigo constante de superposição e excesso de generalização. Um meio feliz deve ser encontrado entre os dois.

Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...