Organizando dados para mineração - dummies

Vídeo: CURSO DE DATA MINING (MINERAÇÃO DE DADOS) AULA 04 2025

A mineração de dados tem requisitos muito rígidos para a organização de dados. Não são exigências exóticas, complexas ou difíceis de cumprir, mas são rigorosas. A figura mostra uma amostra de dados vistos como uma tabela no software de mineração de dados.

Cada linha representa uma parcela de imóveis. A informação sobre as parcelas de imóveis é organizada em colunas. A primeira coluna contém o número de identificação fiscal (TAXKEY), a segunda coluna contém o valor avaliado do terreno de uma avaliação prévia (P_A_LAND), e assim por diante.

Cada entrada em qualquer linha pertence a uma parcela específica de terra. Cada entrada em qualquer coluna é o mesmo tipo de informação. Nenhuma linha ou colunas são deixadas em branco por motivos relacionados ao estilo e legibilidade. Estes dados são adequadamente organizados para investigar diferenças entre as parcelas de imóveis.

Se, em vez de imobiliário, você investigar pessoas, cada pessoa seria representada por uma linha nos dados, e todos os detalhes sobre as pessoas seriam organizados em colunas. Se você investigar as radiografias de tórax, cada radiografia de tórax seria representada por uma linha nos dados, e todos os detalhes sobre as radiografias de tórax seriam organizados em colunas.

Na terminologia de análise de dados, as coisas que você está estudando - as coisas nas linhas - são chamadas casos ou registros. E os detalhes sobre eles, que estão nas colunas, são chamados variáveis . Você também ouvirá as colunas chamadas campos, especialmente no contexto de bancos de dados.

Assim, a mineração de dados requer dados organizados com uma única linha para cada caso e uma única coluna para cada variável. Muitas fontes de dados já estão organizadas dessa maneira. Os estatísticos organizam os dados dessa maneira pelo hábito. Os profissionais de banco de dados não podem usar essa abordagem durante grande parte do trabalho, mas geralmente entenderão o que você quer se você chamar uma mesa plana .

Você encontrará variações sutis na estrutura de dados. Alguns tipos de software usam informações descritivas em um cabeçalho antes dos dados, como determinados formatos especializados associados às aplicações de mineração de dados da Orange e Weka. Alguns procedimentos analíticos complexos têm requisitos adicionais ou ligeiramente variados (estes são bastante incomuns). Mas o núcleo dos dados ainda tem os casos em linhas e variáveis em colunas.