A Importância do Clustering e da Classificação na Ciência dos Dados - dummies

Vídeo: Entrevista com Jordan Belisle BCBA sobre PEAK 2024

O objetivo dos algoritmos de agrupamento e classificação é fazer sentido e extrair o valor de grandes conjuntos de dados estruturados e não estruturados. Se você está trabalhando com enormes volumes de dados não estruturados, faz sentido tentar dividir os dados em algum tipo de agrupamentos lógicos antes de tentar analisá-lo.

O agrupamento e a classificação permitem que você espere amplamente seus dados em massa e, em seguida, forme algumas estruturas lógicas com base no que você encontra lá antes de aprofundar a análise das nozes e dos parafusos.

Na sua forma mais simples, clusters são conjuntos de pontos de dados que compartilham atributos semelhantes e algoritmos de agrupamento são os métodos que agrupam esses pontos de dados em diferentes clusters com base em suas semelhanças. Você verá os algoritmos de agrupamento usados para a classificação da doença na ciência médica, mas você também os verá usado para a classificação do cliente na pesquisa de marketing e para a avaliação do risco de saúde ambiental na engenharia ambiental.

Existem diferentes métodos de cluster, dependendo de como você deseja que seu conjunto de dados seja dividido. Os dois principais tipos de algoritmos de agrupamento são

Hierárquico: Algoritmos criam conjuntos separados de clusters aninhados, cada um em seu próprio nível hierárquico.
Parcial: Algoritmos criam apenas um conjunto único de clusters.

Você pode usar algoritmos de agrupamento hierárquico somente se você já conhece a distância de separação entre os pontos de dados em seu conjunto de dados. O algoritmo vizinho mais próximo que é descrito neste capítulo pertence à classe hierárquica de algoritmos de agrupamento.

Você pode ter ouvido falar da classificação e pensou que a classificação é a mesma coisa que o agrupamento. Muitas pessoas fazem, mas este não é o caso. Na classificação, antes de começar, você já conhece o número de classes nas quais seus dados devem ser agrupados e você já sabe qual a classe que deseja que cada ponto de dados seja atribuído. Na classificação, os dados no conjunto de dados que está sendo aprendido são rotulados.

Quando você usa algoritmos de cluster, por outro lado, você não possui um conceito predefinido para quantos clusters são apropriados para seus dados e você confia nos algoritmos de agrupamento para classificar e agrupar os dados da maneira mais apropriada. Com as técnicas de agrupamento, você está aprendendo com dados não gravados.

Para melhor ilustrar a natureza da classificação, no entanto, veja o Twitter e seu sistema de marcação hash.Diga que você acabou de tomar sua bebida favorita em todo o mundo: um latte de caramelo gelado da Starbucks. Você está tão feliz por ter sua bebida que você decide tweet sobre isso com uma foto e a frase "Este é o melhor latte NUNCA! #StarbucksRocks. "Bem, é claro, você inclui" #StarbucksRocks "em seu tweet para que o tweet entre no fluxo #StarbucksRocks e seja classificado em conjunto com todos os outros tweets que foram rotulados como #StarbucksRocks. O seu uso do rótulo hashtag em seu tweet disse ao Twitter como classificar seus dados em um grupo reconhecível e acessível, ou cluster .