Como converter dados brutos em uma matriz de análise preditiva - dummies

Vídeo: Agrupar Dados em Tabela Dinâmica no Excel 2024

Antes de poder extrair grupos de itens de dados similares do seu conjunto de dados para seu projeto de análise preditiva, você precisará representar seus dados em um quadro formato conhecido como matriz de dados . Esta é uma etapa de pré-processamento que vem antes do agrupamento de dados.

Como criar uma matriz de análise preditiva de termos em documentos

Suponha que o conjunto de dados que você está prestes a analisar esteja contido em um conjunto de documentos do Microsoft Word. A primeira coisa que você precisa fazer é converter o conjunto de documentos em uma matriz de dados. Várias ferramentas comerciais e de código aberto podem lidar com essa tarefa, produzindo uma matriz, em que cada linha corresponde a um documento no conjunto de dados. Exemplos dessas ferramentas incluem pacotes de mineração de texto RapidMiner e R.

A documento é, em essência, um conjunto de palavras. Um termo é um conjunto de uma ou várias palavras.

Cada termo que um documento contém é mencionado uma ou várias vezes no mesmo documento. O número de vezes que um termo é mencionado em um documento pode ser representado por freqüência de termo (TF), um valor numérico.

Construímos a matriz de termos no documento da seguinte maneira:

Os termos que aparecem em todos os documentos estão listados na linha superior.
Os títulos do documento estão listados abaixo da coluna mais à esquerda
Os números que aparecem dentro das células da matriz correspondem à freqüência de cada termo.

Por exemplo, o Documento A é representado como conjunto de números (5, 16, 0, 19, 0, 0.) onde 5 corresponde ao número de vezes que o termo analise preditiva é repetido, 16 corresponde ao número a vezes ciência da computação é repetida, e assim por diante. Esta é a maneira mais simples de converter um conjunto de documentos em uma matriz.

Análise Preditiva	Ciência da Computação	Aprendizagem	Clustering	2013	Antropologia
Documento A	5	16	0 < 19	0	0	Documento B
8	6	2	3	0	0	Documento C
0 < 5	2	3	3	9	Documento D	1
9	13	4	6	7 > Documento E	2	16
16	0	2	13	Documento F	13	0
19	16 > 4	2	Noções básicas de seleção de termos de análise preditiva	Um desafio no agrupamento de documentos de texto é determinar como selecionar os melhores termos para representar todos os documentos na coleção. Quão importante é um termo em uma coleção de documentos pode ser calculado de diferentes maneiras.	Se, por exemplo, você contar o número de vezes que um termo é repetido em um documento e comparar esse total com a frequência com que ele se repete na coleção inteira, você tem uma sensação da importância do termo em relação a outros termos.	Basar a importância relativa de um termo em sua freqüência em uma coleção é muitas vezes conhecido como

ponderação

. O peso que você atribui pode basear-se em dois princípios:

Os termos que aparecem várias vezes em um documento são favorecidos em termos que aparecem apenas uma vez.

Os termos que são usados em relativamente poucos documentos são favorecidos em termos que são mencionados em todos os documentos. Se (por exemplo) o termo século

for mencionado em todos os documentos em seu conjunto de dados, então você não pode considerar atribuir peso suficiente para ter uma coluna própria na matriz.
Da mesma forma, se você estiver lidando com um conjunto de dados de usuários de uma rede social online, você pode facilmente converter esse conjunto de dados em uma matriz. IDs ou nomes de usuários ocuparão as linhas; as colunas listarão os recursos que melhor descrevem esses usuários.