Vídeo: AGRUPANDO DADOS NO POWER BI USANDO POWER QUERY E DAX 2024
As pessoas tendem a formar comunidades - grupos de outras pessoas que têm idéias e sentimentos semelhantes. Ao estudar esses clusters, atribuir certos comportamentos ao grupo como um todo torna-se mais fácil (embora atribuir o comportamento a um indivíduo seja perigoso e não confiável).
A idéia por trás do estudo de clusters é que, se existe uma conexão entre as pessoas, muitas vezes eles têm um conjunto comum de idéias e objetivos. Ao encontrar agrupamentos, você pode determinar essas idéias inspecionando a associação do grupo. Por exemplo, é comum tentar encontrar cachos de pessoas na detecção de fraudes de seguro e inspeção fiscal. Grupos inesperados de pessoas podem suscitar suspeitas de que fazem parte de um grupo de fraudadores ou evasores de impostos, porque eles não têm as razões comuns para as pessoas se reunirem em tais circunstâncias.
Os gráficos de amizade podem representar a forma como as pessoas se conectam entre si. Os vértices representam indivíduos e as bordas representam suas conexões, como relações familiares, contatos comerciais ou vínculos de amizade. Normalmente, os gráficos de amizade não são direcionados porque representam relações mútuas, e às vezes são ponderados para representar a força do vínculo entre duas pessoas.
Muitos estudos se concentram em gráficos não direcionados que se concentram exclusivamente em associações. Você também pode usar gráficos direcionados para mostrar que a Pessoa A conhece a Pessoa B, mas a Pessoa B nem sabe que a Pessoa A existe. Neste caso, você realmente tem 16 diferentes tipos de tríades a considerar.
Ao procurar por clusters em um gráfico de amizade, as conexões entre nós desses clusters dependem de tríades - essencialmente, tipos especiais de triângulos. As conexões entre três pessoas podem cair nessas categorias:
- Fechado: As três pessoas se conhecem. Pense em uma configuração familiar neste caso, em que todos conhecem todos os outros.
- Abrir: Uma pessoa conhece outras duas pessoas, mas as outras duas pessoas não se conhecem. Pense em uma pessoa que conheça um indivíduo no trabalho e outro indivíduo em casa, mas o indivíduo no trabalho não sabe nada sobre o indivíduo em casa.
- Par de conexão: Uma pessoa conhece uma das outras pessoas em uma tríade, mas não conhece a terceira pessoa. Esta situação envolve duas pessoas que sabem algo sobre si mesmo que conhecem alguém novo - alguém que potencialmente quer fazer parte do grupo.
- Desconectado: A tríade forma um grupo, mas ninguém no grupo se conhece. Este último pode parecer um pouco estranho, mas pense em uma convenção ou seminário.As pessoas nesses eventos formam um grupo, mas eles podem não saber nada sobre o outro. No entanto, porque eles têm interesses semelhantes, você pode usar o cluster para entender o comportamento do grupo.
As tríades ocorrem naturalmente nos relacionamentos, e muitas redes sociais da Internet alavancaram essa idéia para acelerar as conexões entre os participantes. A densidade de conexões é importante para qualquer tipo de rede social porque uma rede conectada pode espalhar informações e compartilhar conteúdos com mais facilidade. Por exemplo, quando LinkedIn, a rede social profissional, decidiu aumentar a densidade de conexão de sua rede, começou por procurar tríades abertas e tentando fechá-las convidando as pessoas a se conectar. As tríades de fechamento estão na base do algoritmo Sugestão de conexão do LinkedIn. Você pode descobrir mais sobre como funciona lendo a resposta do Quora.
O exemplo aqui depende do gráfico de amostra do Zachary's Karate Club. É um pequeno gráfico que permite que você veja como as redes funcionam sem gastar muito tempo carregando um grande conjunto de dados. Felizmente, este conjunto de dados aparece como parte do pacote
networkx
. A rede do clube de karaté de Zachary representa as relações de amizade entre 34 membros de um clube de karatê de 1970 a 1972. O sociólogo Wayne W. Zachary usou isso como tema de estudo. Ele escreveu um artigo intitulado "Um modelo de fluxo de informação para conflitos e fissão em pequenos grupos. "O fato interessante sobre este gráfico e seu artigo é que, nesses anos, surgiu um conflito no clube entre um dos instrutores de karatê (nó número 0) e o presidente do clube (nó número 33). Ao agrupar o gráfico, você pode quase perfeitamente prever a divisão do clube em dois grupos logo após a ocorrência.
Como este exemplo também desenha um gráfico que mostra os grupos (para que você possa visualizá-los mais facilmente), você também precisa usar o pacote
matplotlib
. O código a seguir mostra como graficar os nós e bordas do conjunto de dados.
importar networkx como nx
importar matplotlib. pyplot como plt
% matplotlib inline
graph = nx. karate_club_graph ()
pos = nx. spring_layout (gráfico)
nx. desenhar (gráfico, pos, with_labels = True)
plt. show ()
Para exibir o gráfico na tela, você também precisa fornecer um layout que determina como posicionar os nós na tela. Este exemplo usa o algoritmo dirigido por força de Fruchterman-Reingold (a chamada para
nx. Spring_layout
). A figura mostra o resultado do exemplo. (Sua saída pode parecer um pouco diferente.)
O algoritmo dirigido por força Fruchterman-Reingold para gerar layouts automáticos de gráficos cria layouts compreensíveis com nós separados e bordas que tendem a não cruzar imitando o que acontece na física entre partículas carregadas eletricamente ou ímãs com o mesmo sinal. Ao olhar para a saída do gráfico, você pode ver que alguns nós têm apenas uma conexão, algumas duas e algumas mais do que duas.As bordas formam tríades, conforme mencionado anteriormente. No entanto, a consideração mais importante é que a figura mostra claramente o agrupamento que ocorre em uma rede social.