Lar Finanças Pessoais Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Vídeo: 4 problemas que Machine Learning resolve. 2025

Vídeo: 4 problemas que Machine Learning resolve. 2025
Anonim

Com os algoritmos de classificação, você toma um conjunto de dados existente e use o que você sabe sobre isso para gerar um modelo preditivo para uso na classificação de pontos de dados futuros. Se o seu objetivo é usar seu conjunto de dados e seus subconjuntos conhecidos para construir um modelo para prever a categorização de pontos de dados futuros, você deseja usar algoritmos de classificação.

Ao implementar a classificação supervisionada, você já deve conhecer os subconjuntos de seus dados - esses subconjuntos são chamados categorias . Classificação ajuda você a ver o quão bem seus dados se enquadram nas categorias predefinidas do conjunto de dados para que você possa então construir um modelo preditivo para uso na classificação de pontos de dados futuros.

A figura ilustra como parece classificar os conjuntos de dados de renda e educação do Banco Mundial de acordo com a categoria Continente.

Você pode ver que, em alguns casos, os subconjuntos que você pode identificar com uma técnica de agrupamento correspondem à categoria de continentes, mas em outros casos, eles não. Por exemplo, olhe para o país asiático no meio dos pontos de dados africanos. Isso é o Butão. Você pode usar os dados neste conjunto de dados para construir um modelo que preveja uma categoria de continente para pontos de dados recebidos.

Agora imagine uma situação em que seus dados originais não incluam o Butão, e você usa o modelo para prever o continente do Butão como um novo ponto de dados. Nesse cenário, o modelo previria erroneamente que Bhutan faz parte do continente africano.

Este é um exemplo de

modelo de sobreposição - situações em que um modelo é tão ajustado ao seu conjunto de dados subjacente, bem como o ruído ou erro aleatório inerente a esse conjunto de dados, que o modelo funciona mal como um preditor para novos pontos de dados. Para evitar a superação de seus modelos, divida seus dados em um conjunto de treinamento e um conjunto de testes. Uma proporção típica é atribuir 80% dos dados ao conjunto de treinamento e os restantes 20% no conjunto de teste. Crie seu modelo com o conjunto de treinamento e use o conjunto de teste para avaliar o modelo, fingindo que os pontos de dados do conjunto de testes são desconhecidos. Você pode avaliar a precisão do seu modelo comparando as categorias atribuídas a esses pontos de dados de conjunto de teste pelo modelo às categorias verdadeiras.

A sobregeneralização do modelo também pode ser um problema.

Overgeneralization é o oposto da superposição: acontece quando um cientista de dados tenta evitar -seclassificação devido à superposição, tornando um modelo extremamente geral. Modelos que são muito gerais acabam atribuindo a cada categoria um baixo grau de confiança. Para ilustrar a sobregeneralização do modelo, considere novamente os conjuntos de dados de renda e educação do Banco Mundial. Se o modelo usasse a presença do Butão para lançar dúvidas sobre cada novo ponto de dados em sua vizinhança próxima, você acabará com um modelo bem lustroso que trata todos os pontos próximos como africanos, mas com baixa probabilidade. Este modelo seria um executor preditivo precário.

Uma boa metáfora para superação e excesso de generalização pode ser ilustrada através da frase bem conhecida, "Se ele caminha como um pato e fala como um pato, então é um pato. "A superposição transformaria esta frase em" É um pato se, e só se, ele caminha e curra exatamente as maneiras que eu pessoalmente observei um pato para andar e curtir. Como eu nunca observei a maneira como um pato manchado australiano caminha e charlatões, um pato australiano não deve ser realmente um pato. "

Em contraste, a sobregeneralização diria:" Se ele se move em duas pernas e emite qualquer som nasal agudo, é um pato. Portanto, Fran Fine, personagem de Fran Drescher na sitcom americana dos anos 90

The Nanny deve ser um pato. " Aprendizagem de máquina supervisionada

- o termo extravagante para classificação - é apropriado em situações em que as seguintes características são verdadeiras: Você conhece e entende o conjunto de dados que você está analisando.

  • Os subconjuntos (categorias) do seu conjunto de dados são definidos com antecedência e não são determinados pelos dados.

  • Você quer construir um modelo que correlacione os dados dentro de suas categorias predefinidas para que o modelo possa ajudar a prever a categorização de pontos de dados futuros.

  • Ao realizar a classificação, tenha em mente os seguintes pontos:

As previsões do modelo são tão boas quanto os dados subjacentes do modelo.

  • No exemplo de dados do Banco Mundial, pode ser que, se outros fatores como a expectativa de vida ou o uso de energia per capita fossem adicionados ao modelo, sua força preditiva poderia aumentar. As previsões do modelo são tão boas quanto a categorização do conjunto de dados subjacente.

  • Por exemplo, o que você faz com países como a Rússia que ocupam dois continentes? Você distingue a África do Norte da África subsaariana? Você alarga a América do Norte com a Europa porque eles tendem a compartilhar atributos semelhantes? Você considera a América Central como parte da América do Norte ou América do Sul? Existe um perigo constante de superposição e excesso de generalização. Um meio feliz deve ser encontrado entre os dois.

Classificação Algoritmos Usados ​​na Ciência dos Dados - dummies

Escolha dos editores

Como criar um módulo HTML personalizado no Joomla - dummies

Como criar um módulo HTML personalizado no Joomla - dummies

Uma das grandes coisas sobre o Joomla é o quão incrivelmente flexível é. A instalação padrão do CMS inclui 23 módulos diferentes para ajudá-lo a fazer seu site funcionar sem problemas. Às vezes, no entanto, você pode querer adicionar uma função ao seu site que esses 23 módulos simplesmente não vão cobrir. Sob tais circunstâncias, você pode querer considerar ...

Como criar um item de menu no Joomla Content Management - manequins

Como criar um item de menu no Joomla Content Management - manequins

Um item de menu determina o layout dos artigos, que é um dos aspectos do Joomla para o qual você precisa se acostumar. As páginas da Web não existem fisicamente no Joomla - elas são apenas itens no seu banco de dados - até que a página seja acessada. Quando você abre um artigo, o Joomla tira os dados necessários do ...

Como criar um novo item de menu com o Joomla! 1. 6 - dummies

Como criar um novo item de menu com o Joomla! 1. 6 - dummies

Não estresse se você precisa criar um item de menu em sua página da Web interativa - é fácil ao usar o Joomla! Gerenciador de menu. Para adicionar itens de menu a um site existente, basta usar estas etapas: Escolha Menus → Gerenciador de menus para abrir o Gerenciador de menus. Clique no nome do menu que deseja adicionar um novo ...

Escolha dos editores

Obtendo Ajuda do Eclipse - dummies

Obtendo Ajuda do Eclipse - dummies

Com a complexidade do Java e a nuance do Eclipse, você não pode esperar para lembrar de tudo. Às vezes, você precisa de um pouco mais de ajuda do Eclipse para começar sua programação. Felizmente, o Eclipse oferece ajuda geral e sensível ao contexto: para ajuda sensível ao contexto: no Windows, pressione F1. No Linux, pressione Ctrl + F1. Em um Mac, pressione ...

Software gratuito: preenchimento automático de células no OpenOffice. org Calc - dummies

Software gratuito: preenchimento automático de células no OpenOffice. org Calc - dummies

OpenOffice. org - uma alternativa gratuita para o Microsoft Office - inclui Calc, uma planilha eletrônica semelhante ao Excel. O Calc fornece uma maneira fácil de criar automaticamente uma coluna ou linha de números em qualquer sequência que você especificar. Esse recurso de preenchimento automático é útil para criar listas numeradas ou preencher os cabeçalhos de colunas e linhas de tabelas, como ...

Acessos acessíveis no modo de exibição do Prezi - dummies

Acessos acessíveis no modo de exibição do Prezi - dummies

O prezi possui dois modos de operação diferentes: Modo de edição, no qual você crie sua apresentação e Show Mode, no qual você apresenta suas criações. No modo Show, use esses atalhos úteis para tornar sua apresentação ainda mais suave. Use esta como uma lista de verificação de prática antes de começar: Use esta função: Para fazer isso: Completo ...

Escolha dos editores

Elementos HTML básicos - dummies

Elementos HTML básicos - dummies

HyperText Markup Language (HTML) é o idioma da web, onde os elementos ditaram a formatação e o estilo do seu conteúdo. Os elementos HTML compõem a codificação baixada que você vê quando você acessa uma página da Web em seu navegador da Web (como Internet Explorer, Firefox ou Safari). Aqui estão alguns elementos básicos para você ...

Usando AutoCAD DesignCenter - dummies

Usando AutoCAD DesignCenter - dummies

DesignCenter é um nome tolo para uma paleta útil, se um pouco ocupada. A paleta DesignCenter é útil para dados de mineração de todos os tipos de desenhos. Enquanto a paleta Propriedades está preocupada com as propriedades do objeto, a paleta DesignCenter lida principalmente com objetos nomeados: camadas, tipos de linha, definições de bloco (isto é, símbolo), estilos de texto e outros objetos organizacionais ...

Zoom e Panning no AutoCAD - dummies

Zoom e Panning no AutoCAD - dummies

O AutoCAD facilita a panorâmica, oferecendo barras de rolagem e panning em tempo real. Na panorâmica em tempo real (em oposição à panorâmica de finalização), você pode ver objetos movendo-se na tela enquanto você arrasta o mouse para cima e para baixo ou para frente e para trás. Claro, o ponto de vista está em movimento, não os objetos. Tanto a panorâmica quanto o zoom mudam a visualização ...