Algoritmos de agrupamento usados em Data Science - dummies

Vídeo: Lecture 16 - Radial Basis Functions 2024

Você usa algoritmos de agrupamento para subdividir seus conjuntos de dados em clusters de pontos de dados mais parecidos para um atributo predefinido. Se você tem um conjunto de dados que descreve vários atributos sobre um recurso específico e deseja agrupar seus pontos de dados de acordo com suas similaridades de atributo, use algoritmos de agrupamento.

Um gráfico de dispersão simples de conjuntos de dados de rendimentos e educação do país produz o gráfico que você vê aqui.

No agrupamento não supervisionado, você começa com esses dados e, em seguida, divida-o em subconjuntos. Esses subconjuntos são chamados clusters e são compostos de pontos de dados que são mais parecidos um com o outro. Parece que existem pelo menos dois grupos, provavelmente três - um na parte inferior com baixa renda e educação, e então os países de alta educação parecem estar divididos entre renda baixa e alta.

A figura a seguir mostra o resultado de eyeball - fazendo uma estimativa visual de - clusters neste conjunto de dados.

Embora você possa gerar estimativas visuais de agrupamento, você pode obter resultados muito mais precisos ao lidar com conjuntos de dados muito maiores usando algoritmos para gerar clusters para você. A estimativa visual é um método aproximado que só é útil em conjuntos de dados menores de complexidade mínima. Algoritmos - produza resultados exatos e repetitivos e você pode usar algoritmos para gerar agrupamento para múltiplas dimensões de dados dentro do seu conjunto de dados.

Os algoritmos de agrupamento são um tipo de abordagem na aprendizagem automática sem supervisão - outras abordagens incluem métodos de Markov e métodos para redução de dimensão. Os algoritmos de agrupamento são apropriados em situações em que as seguintes características são verdadeiras:

Você conhece e entende o conjunto de dados que você está analisando.
Antes de executar o algoritmo de agrupamento, você não tem uma idéia exata quanto à natureza dos subconjuntos (clusters). Muitas vezes, você nem saberá quantos subconjuntos existem no conjunto de dados antes de executar o algoritmo.
Os subconjuntos (clusters) são determinados pelo único conjunto de dados que você está analisando.
Seu objetivo é determinar um modelo que descreva os subconjuntos em um único conjunto de dados e apenas este conjunto de dados.

Se você adicionar mais dados, você deve executar novamente a análise a partir do zero para obter resultados de modelo completos e precisos.