Índice:
- Como usar visualizações tabulares para análise preditiva
- Uso de gráficos de barras na análise preditiva
- Noções básicas de gráficos de torta para análise preditiva
- Como usar gráficos gráficos para análise preditiva
- Noções básicas de nuvens de palavras para análise preditiva
- Como usar a representação de pássaros flocantes para análise preditiva
Vídeo: Estatística (Média, Mediana, Moda, Variância e Desvio Padrão) - Prof. Gui 2024
Uma imagem vale mais que mil palavras - especialmente quando você está tentando obter um bom controle sobre seus dados de análise preditiva. No passo de pré-processamento, enquanto você está preparando seus dados, é uma prática comum visualizar o que você tem na mão antes de continuar para o próximo passo.
Você começa usando uma planilha como o Microsoft Excel para criar uma matriz de dados - que consiste em dados do candidato características (também denominados atributos ). Vários pacotes de software de Business Intelligence (como o Tableau) podem fornecer uma visão preliminar dos dados aos quais você está prestes a aplicar análises.
Como usar visualizações tabulares para análise preditiva
As tabelas são a representação pictórica mais simples e básica dos dados. As tabelas (também conhecidas como planilhas ) consistem em linhas e colunas - que correspondem, respectivamente, aos objetos e aos atributos mencionados anteriormente como constituindo seus dados. Por exemplo, considere os dados da rede social online. Um objeto de dados pode representar um usuário. Os atributos de um usuário (objeto de dados) podem ser títulos de colunas: gênero, código postal ou data de nascimento.
As células em uma tabela representam valores. A visualização em tabelas pode ajudá-lo a detectar facilmente valores de atributos ausentes de objetos de dados.
As tabelas também podem fornecer a flexibilidade de adicionar novos atributos que são combinações de outros atributos. Por exemplo, em dados de rede social, você pode adicionar outra coluna chamada Idade, que pode ser facilmente calculada - como um atributo derivado - do atributo Data de Nascimento existente. Os dados da rede social tabular mostram uma nova coluna, Idade, criada a partir de outra coluna existente (Data de nascimento).
Uso de gráficos de barras na análise preditiva
Os gráficos de barras podem ser usados para detectar pontos ou anomalias em seus dados. Você pode usá-lo para cada atributo para visualizar rapidamente valores mínimos e máximos. Os gráficos de barras também podem ser usados para iniciar uma discussão sobre como normalizar seus dados.
Normalização é o ajuste de alguns ou todos os valores de atributo em uma escala que torna os dados mais utilizáveis. Por exemplo, você pode ver facilmente que há um erro nos dados: A barra de idade em um registro é negativa. Essa anomalia é mais facilmente retratada por um gráfico de barras do que por uma tabela de dados.
Noções básicas de gráficos de torta para análise preditiva
Os gráficos de torta são usados principalmente para mostrar porcentagens. Eles podem facilmente ilustrar a distribuição de vários itens e destacar os mais dominantes. Os dados brutos da rede social são representados de acordo com o atributo Age.Observe que o gráfico mostra não apenas uma clara distribuição de machos versus fêmeas, mas também um erro provável: R como um valor para gênero possivelmente criado quando os dados foram coletados.
Como usar gráficos gráficos para análise preditiva
A teoria do gráfico fornece um conjunto de algoritmos poderosos que podem analisar dados estruturados e representados como um gráfico. Na ciência da computação, um gráfico é uma estrutura de dados, uma forma de organizar dados que representem relações entre pares de objetos de dados. Um gráfico consiste em duas partes principais:
-
Vertices, também conhecidos como nós
-
Bordas, que conectam pares de nós
As bordas podem ser direcionadas (desenhadas como setas) e podem ter pesos. Você pode decidir colocar uma ponta (flecha) entre dois nós (círculos) - neste caso, os membros da rede social que estão conectados a outros membros como amigos:
A direção da flecha indica quem "amigos" quem primeiro, ou que inicie interações na maioria das vezes.
Noções básicas de nuvens de palavras para análise preditiva
Considere uma lista de palavras ou conceitos organizados como uma nuvem de palavras - uma representação gráfica de todas as palavras na lista, mostrando o tamanho de cada palavra como proporcional para uma métrica que você especifica. Por exemplo, se você tiver uma planilha de palavras e ocorrências e você quiser identificar as palavras mais importantes, tente uma nuvem de palavras.
As nuvens do Word funcionam porque a maioria dos dados das organizações é texto; um exemplo comum é o uso do Twitter de termos de tendências. Cada termo nesta representação tem um peso que afeta seu tamanho como um indicador de sua importância relativa.
Uma maneira de definir esse peso pode ser pelo número de vezes que uma palavra aparece na coleta de dados. Quanto mais freqüentemente uma palavra aparece, o "mais pesado" é o peso - e quanto maior aparece na nuvem.
Como usar a representação de pássaros flocantes para análise preditiva
O comportamento de flocagem natural em geral é um sistema auto-organizado no qual objetos (em particular, seres vivos) tendem a se comportar de acordo com (a) o ambiente ao qual pertencem e (b) suas respostas a outros objetos existentes. O comportamento de flocagem de sociedades naturais, como as abelhas, as moscas, os pássaros, os peixes e as formigas - ou, aliás, pessoas - também é conhecido como inteligência de enxame .
As aves seguem regras naturais quando se comportam como um bando. Os bandos são pássaros localizados a uma certa distância um do outro; Esses pássaros são considerados semelhantes. Cada pássaro se move de acordo com as três regras principais que organizam o comportamento de flocagem.
-
Separação: Os companheiros de flocos não devem colidir uns com os outros.
-
Alinhamento: Amigas para mover-se na mesma direção média que os vizinhos.
-
Coesão: Os companheiros de flocos se movem de acordo com a posição ou localização média de seus companheiros de rebanho.
Modelar essas três regras pode permitir que um sistema analítico simule comportamentos flocantes. Usando o comportamento natural auto-organizado de pássaros reunidos, você pode converter uma planilha direta em uma visualização.A chave é definir a noção de similaridade como parte de seus dados. Comece com algumas perguntas:
-
O que faz com que dois objetos de dados em seus dados sejam semelhantes?
-
Quais os atributos que melhor podem gerar a semelhança entre dois registros de dados?
Por exemplo, em dados de rede social, os registros de dados representam usuários individuais; os atributos que os descrevem podem incluir idade, código postal, estado do relacionamento, lista de amigos, número de amigos, hábitos, eventos