Vídeo: Cap09 - 60 Algoritmos de Machine Learning 2024
K é uma entrada para o algoritmo para análise preditiva; Define o número de agrupamentos que o algoritmo deve extrair de um conjunto de dados, expresso algébricamente como k . Um algoritmo K-means divide um determinado conjunto de dados em clusters k . O algoritmo executa as seguintes operações:
-
Escolha k itens aleatórios do conjunto de dados e rotulá-los como representantes de cluster.
-
Associe cada item restante no conjunto de dados com o representante de cluster mais próximo, usando uma distância euclidiana calculada por uma função de similaridade.
-
Recalcular os representantes dos novos clusters.
-
Repita as etapas 2 e 3 até que os clusters não mudem.
Um representante de um cluster é o significante (média) matemático de todos os itens pertencentes ao mesmo cluster. Este representante também é chamado de centroide de cluster . Por exemplo, considere três itens do conjunto de dados de frutas onde
O tipo 1 corresponde a bananas.
O tipo 2 corresponde a maçãs.
A cor 2 corresponde ao amarelo.
A cor 3 corresponde ao verde.
Supondo que esses itens sejam atribuídos ao mesmo cluster, o centróide desses três itens é calculado.
Item | Recurso # 1 Tipo | Recurso # 2 Cor | Recurso # 3 Peso (Onças) |
---|---|---|---|
1 | 1 | 2 | 5. 33 |
2 | 2 | 3 | 9. 33 |
3 | 1 | 2 | 2. 1 |
Aqui estão os cálculos de um cluster representativo de três itens que pertencem ao mesmo cluster. O representante do cluster é um vetor de três atributos. Seus atributos são a média dos atributos dos itens no cluster em questão.
Item | Recurso # 1 Tipo | Recurso # 2 Cor | Recurso # 3 Peso (Onças) |
---|---|---|---|
1 | 1 | 2 | 5. 33 |
2 | 2 | 3 | 9. 33 |
3 | 1 | 2 | 2. 1 |
Representante de Cluster (Centroid Vector) | (1 + 2 + 1) / 3 = 1. 33 | (2 + 3 + 2) / 3 = 2. 33 | (5. 33 + 9. 33 +32. 1) / 3 = 3 |
O conjunto de dados mostrado a seguir consiste na classificação de sete clientes de dois produtos, A e B. O ranking representa o número de pontos (entre 0 e 10) que cada cliente deu a um produto - quanto mais pontos, maior será o produto classificado.
Usando um algoritmo K-means e assumindo que k é igual a 2, o conjunto de dados será dividido em dois grupos. O resto do procedimento se parece com isto:
-
Escolha dois itens aleatórios do conjunto de dados e rotulá-los como representantes de cluster.
O seguinte mostra o passo inicial da seleção de centroides aleatórios a partir dos quais o processo de agrupamento K-means começa.Os centróides iniciais são selecionados aleatoriamente a partir dos dados que você está prestes a analisar. Neste caso, você está procurando dois clusters, então dois itens de dados são selecionados aleatoriamente: Clientes 1 e 5.
No início, o processo de cluster cria dois clusters em torno desses dois representantes de cluster iniciais (selecionados aleatoriamente). Em seguida, os representantes do cluster são recalculados; O cálculo é baseado nos itens de cada cluster.
ID do cliente Classificações do cliente do Produto A Classificações do cliente do Produto B 1 2 2 2 3 4 3 < 6 8 4 7 10 5 10 14 6 9 10 7 7 9 Inspecione todos os outros itens (cliente) e atribua-o ao representante do cluster ao qual é mais parecido. -
Use a
distância Euclidiana para calcular como um item é semelhante a um grupo de itens: Similaridade do Item I ao Cluster X = sqrt {{{left {{f_1} - {x_1 }}}}}}}} {} {} {} {} {} {} {} {} {} {} }
Os valores {f_1},; {f_2},; ldots; {f_n} são os valores numéricos dos recursos que descrevem o item em questão. Os valores {x_1},; {x_2},; ldots; {x_n} são os recursos (valores médios) do grupo representativo (centróide), assumindo que cada item possui
n recursos. Por exemplo, considere o item chamado Cliente 2 (3, 4): A classificação do cliente para o Produto A foi 3 e a classificação para o Produto B foi 4. O recurso representativo do cluster é (2, 2). A semelhança do Cliente 2 com o Cluster 1 é calculada da seguinte forma:
Similaridade do Item 2 ao Cluster 1 = sqrt {{{à esquerda ({3 - 2} à direita)} ^ 2} + {{à esquerda ({4 - 2 } à direita)} ^ 2}} = 2. 23
Veja o mesmo processo com o Cluster 2:
Similaridade do Item 2 ao Cluster 2 = sqrt {{{à esquerda ({3 - 10} à direita) } ^ 2} + {{à esquerda ({4 - 14} à direita)} ^ 2}} = 12. 20
Comparando esses resultados, você atribui o Item 2 (isto é, Cliente 2) ao Cluster 1 porque os números dizem O item 2 é mais parecido com o Cluster 1.
Aplica a mesma análise de similaridade a cada outro item no conjunto de dados.
-
Sempre que um novo membro se juntar a um cluster, você deve recalcular o representante do cluster.
Isso retrata os resultados da primeira iteração do algoritmo de K-média. Observe que
k é igual a 2, então você está procurando dois clusters, que dividem um conjunto de clientes em dois grupos significativos. Todo cliente é analisado separadamente e é atribuído a um dos clusters com base na similaridade do cliente com cada um dos representantes atuais do cluster. Iterate o conjunto de dados novamente, passando por cada elemento; calcular a semelhança entre cada elemento e seu atual representante do cluster.
-
Observe que o Cliente 3 mudou do Cluster 1 para o Cluster 2. Isso ocorre porque a distância do Cliente 3 ao cluster representativo do Cluster 2 é mais próxima do cluster representativo do Cluster 1.
Representante de Cluster (Centroid Vector) < Cluster 1
ID do cliente # 1 (2, 2) Cluster 2 ID do cliente # 5 (10, 14) Iteração # 1 Cluster de clientes 1 Cluster de clientes 2 Cliente a ser examinado IDs de clientes pertencentes ao Cluster 1 Representante de cluster Identificações de clientes pertencentes ao Cluster 1 Representante de cluster 1 (2, 2) > 5 (10, 14) 2 1, 2 (2.4, 3) 5 (10, 14) 3 1, 2, 3 (3, 6, 4 6) 5 (10, 14) 4 1, 2, 3 (3, 6, 4 6) 4, 5 (8, 4, 12) 6 1, 2, 3 (3, 6, 4 6) 4, 5, 6 (8, 6, 11 4) 7 1, 2, 3 > (3, 6, 4. 6) 4, 5, 6, 7 (8. 2, 10. 8) Aqui está uma segunda iteração do algoritmo K-means em dados do cliente. Cada cliente está sendo reanalisado. O Cliente 2 está sendo atribuído ao Cluster 1 porque o Cliente 2 está mais próximo do representante do Cluster 1 do que o Cluster 2. O mesmo cenário aplica-se ao Cliente 4. Observe que um representante do cluster está sendo recalculado cada vez que um novo membro é atribuído a um cluster. Iteração # 2 Cluster do cliente 1 Cliente Cluster 2
Cliente a ser examinado
IDs de clientes pertencentes ao Cluster 1 | Representante de cluster | Identificações de clientes pertencentes ao Cluster 2 > Representante de cluster | ||
---|---|---|---|---|
1 | 1 | (3. 6, 4. 6) | 5 | (8. 2, 10. 8) |
2 | 1, 2 < (5, 2, 3) | 5 | (8, 2, 10 8) | 3 |
1, 2 | (5, 2, 3) | 5, 3 | (7, 8, 10. 2) | 4 |
1, 2 | (5. 2, 3) | 4, 5. 3 | (7, 8, 10 2) | 6 |
1, 2 | (5, 2, 3) | 4, 5, 6. 3 | (7, 8, 10. 2) | 7 < 1, 2 |
(5, 2, 3) | 3, 4, 5, 6, 7 | (7, 8, 10 2) |