Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Vídeo: Lecture 09 - The Linear Model II 2025

Nesta fase de exploração da análise preditiva, você obterá conhecimento íntimo de seus dados, o que, por sua vez, irá ajudá-lo a escolher as variáveis relevantes a serem analisadas. Esse entendimento também o ajudará a avaliar os resultados do seu modelo. Mas primeiro você precisa identificar e limpar os dados para análise.

Como gerar dados derivados

Atributos derivados são registros inteiramente novos construídos a partir de um ou mais atributos existentes. Um exemplo seria a criação de registros que identificassem livros que são best-sellers em feiras de livros. Os dados brutos podem não capturar esses registros - mas, para fins de modelagem, esses registros derivados podem ser importantes. O índice de preço por lucro e a média móvel de 200 dias são dois exemplos de dados derivados que são fortemente utilizados em aplicações financeiras.

Os atributos derivados podem ser obtidos a partir do cálculo simples, como a dedução da idade a partir da data de nascimento. Os atributos derivados também podem ser computados ao resumir informações de vários registros.

Por exemplo, converter uma tabela de clientes e seus livros comprados em uma tabela pode permitir que você acompanhe o número de livros vendidos através de um sistema de recomendação, através de marketing direcionado e em uma feira de livros - e identificar o perfil demográfico de clientes que comprou esses livros.

Gerando tais atributos adicionais trazem poder preditivo adicional para a análise. De fato, muitos desses atributos são criados de modo a sondar seu poder preditivo potencial. Alguns modelos preditivos podem usar mais atributos derivados do que os atributos em seu estado bruto. Se alguns atributos derivados forem especialmente preditivos e seu poder provado ser relevante, então faz sentido automatizar o processo que os gera.

Os registros derivados são novos registros que trazem novas informações e fornecem novas maneiras de apresentar dados brutos; eles podem ter um enorme valor para a modelagem preditiva.

Como reduzir a dimensionalidade de seus dados

Os dados usados em modelos preditivos geralmente são agrupados em fontes múltiplas. Sua análise pode extrair dados dispersos em vários formatos de dados, arquivos e bancos de dados, ou várias tabelas dentro do mesmo banco de dados. Agrupar os dados juntos e combiná-lo em um formato integrado para que os modeladores de dados sejam usados é essencial.

Se seus dados contiverem qualquer conteúdo hierárquico, talvez seja necessário achatado . Alguns dados possuem algumas características hierárquicas, como relações pai-filho, ou um registro que é composto por outros registros.Por exemplo, um produto como um carro pode ter vários fabricantes; Aplanar dados, neste caso, significa incluir cada fabricante como uma característica adicional do registro que você está analisando.

Aplanar dados é essencial quando se fundiu de vários registros relacionados para formar uma imagem melhor.

Por exemplo, a análise de eventos adversos para vários medicamentos feitos por várias empresas pode exigir que os dados sejam achatados no nível da substância. Ao fazê-lo, você acaba removendo as relações de um para muitos (neste caso, muitos fabricantes e muitas substâncias para um produto) que podem causar muita duplicação de dados, repetindo várias entradas de substâncias que repetem informações de produtos e fabricantes em cada entrada.

Aplanamento reduz a dimensionalidade dos dados, que é representada pelo número de recursos que um registro ou uma observação tem.

Por exemplo, um cliente pode ter os seguintes recursos: nome, idade, endereço, itens comprados. Quando você inicia sua análise, você pode encontrar-se avaliando registros com muitos recursos, apenas alguns dos quais são importantes para a análise. Então, você deve eliminar todos, exceto os poucos recursos que possuem o poder mais preditivo para seu projeto específico.

Reduzir a dimensionalidade dos dados pode ser obtida colocando todos os dados em uma única tabela que usa várias colunas para representar atributos de interesse. No início da análise, é claro, a análise tem que avaliar um grande número de colunas - mas esse número pode ser reduzido à medida que a análise avança.

Este processo pode ser auxiliado pela reconstituição dos campos - por exemplo, agrupando os dados em categorias que possuem características semelhantes.

O conjunto de dados resultante - o conjunto de dados limpo - geralmente é colocado em um banco de dados separado para que os analistas usem. Durante o processo de modelagem, esses dados devem ser acessados, gerenciados e atualizados com facilidade.