Lar Finanças Pessoais Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Índice:

Vídeo: Lecture 09 - The Linear Model II 2025

Vídeo: Lecture 09 - The Linear Model II 2025
Anonim

Nesta fase de exploração da análise preditiva, você obterá conhecimento íntimo de seus dados, o que, por sua vez, irá ajudá-lo a escolher as variáveis ​​relevantes a serem analisadas. Esse entendimento também o ajudará a avaliar os resultados do seu modelo. Mas primeiro você precisa identificar e limpar os dados para análise.

Como gerar dados derivados

Atributos derivados são registros inteiramente novos construídos a partir de um ou mais atributos existentes. Um exemplo seria a criação de registros que identificassem livros que são best-sellers em feiras de livros. Os dados brutos podem não capturar esses registros - mas, para fins de modelagem, esses registros derivados podem ser importantes. O índice de preço por lucro e a média móvel de 200 dias são dois exemplos de dados derivados que são fortemente utilizados em aplicações financeiras.

Os atributos derivados podem ser obtidos a partir do cálculo simples, como a dedução da idade a partir da data de nascimento. Os atributos derivados também podem ser computados ao resumir informações de vários registros.

Por exemplo, converter uma tabela de clientes e seus livros comprados em uma tabela pode permitir que você acompanhe o número de livros vendidos através de um sistema de recomendação, através de marketing direcionado e em uma feira de livros - e identificar o perfil demográfico de clientes que comprou esses livros.

Gerando tais atributos adicionais trazem poder preditivo adicional para a análise. De fato, muitos desses atributos são criados de modo a sondar seu poder preditivo potencial. Alguns modelos preditivos podem usar mais atributos derivados do que os atributos em seu estado bruto. Se alguns atributos derivados forem especialmente preditivos e seu poder provado ser relevante, então faz sentido automatizar o processo que os gera.

Os registros derivados são novos registros que trazem novas informações e fornecem novas maneiras de apresentar dados brutos; eles podem ter um enorme valor para a modelagem preditiva.

Como reduzir a dimensionalidade de seus dados

Os dados usados ​​em modelos preditivos geralmente são agrupados em fontes múltiplas. Sua análise pode extrair dados dispersos em vários formatos de dados, arquivos e bancos de dados, ou várias tabelas dentro do mesmo banco de dados. Agrupar os dados juntos e combiná-lo em um formato integrado para que os modeladores de dados sejam usados ​​é essencial.

Se seus dados contiverem qualquer conteúdo hierárquico, talvez seja necessário achatado . Alguns dados possuem algumas características hierárquicas, como relações pai-filho, ou um registro que é composto por outros registros.Por exemplo, um produto como um carro pode ter vários fabricantes; Aplanar dados, neste caso, significa incluir cada fabricante como uma característica adicional do registro que você está analisando.

Aplanar dados é essencial quando se fundiu de vários registros relacionados para formar uma imagem melhor.

Por exemplo, a análise de eventos adversos para vários medicamentos feitos por várias empresas pode exigir que os dados sejam achatados no nível da substância. Ao fazê-lo, você acaba removendo as relações de um para muitos (neste caso, muitos fabricantes e muitas substâncias para um produto) que podem causar muita duplicação de dados, repetindo várias entradas de substâncias que repetem informações de produtos e fabricantes em cada entrada.

Aplanamento reduz a dimensionalidade dos dados, que é representada pelo número de recursos que um registro ou uma observação tem.

Por exemplo, um cliente pode ter os seguintes recursos: nome, idade, endereço, itens comprados. Quando você inicia sua análise, você pode encontrar-se avaliando registros com muitos recursos, apenas alguns dos quais são importantes para a análise. Então, você deve eliminar todos, exceto os poucos recursos que possuem o poder mais preditivo para seu projeto específico.

Reduzir a dimensionalidade dos dados pode ser obtida colocando todos os dados em uma única tabela que usa várias colunas para representar atributos de interesse. No início da análise, é claro, a análise tem que avaliar um grande número de colunas - mas esse número pode ser reduzido à medida que a análise avança.

Este processo pode ser auxiliado pela reconstituição dos campos - por exemplo, agrupando os dados em categorias que possuem características semelhantes.

O conjunto de dados resultante - o conjunto de dados limpo - geralmente é colocado em um banco de dados separado para que os analistas usem. Durante o processo de modelagem, esses dados devem ser acessados, gerenciados e atualizados com facilidade.

Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Escolha dos editores

Fatos de plantas e animais para lembrar para o exame de biologia AP - dummies

Fatos de plantas e animais para lembrar para o exame de biologia AP - dummies

A seguinte lista contém algumas das informações mais desafiadoras sobre plantas e animais que você pode encontrar no exame de biologia AP. Estude esta lista, desde que você precise - se você se lembrar dessa informação durante o teste, você fará tudo bem. As plantas vasculares têm raízes, rebentos e caules, cada um dos quais ...

Física Tópicos para estudar para o teste Miller Analogies (MAT) - dummies

Física Tópicos para estudar para o teste Miller Analogies (MAT) - dummies

Massa , velocidade, aceleração - sim, é hora de rever toda a física que você aprendeu no ensino médio e se preparar para o MAT (Miller Analogies Test). Para o MAT, familiarizar-se com a física não implica aprender equações complicadas. Você só precisa se lembrar de alguns termos de física e aprender sobre alguns físicos famosos. Essas listas ajudam ...

Médico Assistente de Exame para Dummies Cheat Sheet - dummies

Médico Assistente de Exame para Dummies Cheat Sheet - dummies

Quando você está se preparando para tomar a PANCE ou PANRE , você pode sentir que precisa conhecer uma quantidade infinita de informações. Como você vai se lembrar de todos os detalhes de tantas doenças e condições? Aqui, você pode revisar alguns mnemônicos úteis que não só ajudarão seu recall como você se prepara para o seu ...

Escolha dos editores

Como criar uma ordem de compra no QuickBooks 2010 - dummies

Como criar uma ordem de compra no QuickBooks 2010 - dummies

Você pode usar o QuickBooks para criar uma compra Ordem para o seu negócio. Uma ordem de compra informa um fornecedor que deseja comprar algum item. Na verdade, um pedido de compra é um contrato para compra.

Como personalizar os formulários de verificação no QuickBooks 2011 - dummies

Como personalizar os formulários de verificação no QuickBooks 2011 - dummies

Antes de escrever suas verificações no QuickBooks, você pode decida que deseja personalizá-los um pouco. Você pode querer que seus cheques reflitam a aparência do seu negócio. Por exemplo, o QuickBooks oferece a oportunidade de alterar as fontes em seus cheques. Se você clicar na aba Fontes na caixa de diálogo Verificar impressão ...

Como personalizar os formulários on-line do QuickBooks para lidar com os subtotais - manequins

Como personalizar os formulários on-line do QuickBooks para lidar com os subtotais - manequins

Se precisar subtotar informações sobre o seu formulários de vendas, configure formulários de vendas no QuickBooks Online para que você possa incluir subtotais neles. Você pode subtotar linhas em uma fatura, uma estimativa ou um recibo de venda. Primeiro, ative o recurso; Para este exemplo, ative o recurso para o formulário de fatura. Siga ...

Escolha dos editores

Como converter imagens em modo escala de cinza em Photoshop Elements 11 - dummies

Como converter imagens em modo escala de cinza em Photoshop Elements 11 - dummies

Imagens em escala de cinza têm preto e pixels brancos e qualquer um dos 256 níveis de cinza. Ao converter uma imagem RGB em escala de cinza no Photoshop Elements 11, você pode fazer com que pareça uma foto em preto e branco. Evite converter em escala de cinza escolhendo Image → Mode → Grayscale. Quando os elementos executam essa conversão, ele remove toda a cor dos pixels, ...

Como converter imagens em modo escala de cinza em Photoshop Elements 9 - dummies

Como converter imagens em modo escala de cinza em Photoshop Elements 9 - dummies

Em Photoshop Elements, você pode converter uma imagem RGB em escala de cinza, fazendo com que pareça uma foto em preto e branco. As imagens de tons de cinza têm pixels em preto e branco e qualquer um dos 256 níveis de cinza. No entanto, você não precisa desistir de seus dados de cores. Como alternativa ao uso do comando de menu para converter imagens para ...

Como corrigir imagens com curvas de cores - dummies

Como corrigir imagens com curvas de cores - dummies

Photoshop Elements 10 emprestou um recurso muito usado do Photoshop chamado Curves. No entanto, adicionou a palavra Cor e tirou parte de sua sofisticação. No entanto, o ajuste Color Curves tenta melhorar o alcance tonal em imagens a cores fazendo ajustes em destaques, sombras e tons médios em cada canal de cores. Tente usar este comando em ...