Lar Finanças Pessoais Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Índice:

Vídeo: Lecture 09 - The Linear Model II 2024

Vídeo: Lecture 09 - The Linear Model II 2024
Anonim

Nesta fase de exploração da análise preditiva, você obterá conhecimento íntimo de seus dados, o que, por sua vez, irá ajudá-lo a escolher as variáveis ​​relevantes a serem analisadas. Esse entendimento também o ajudará a avaliar os resultados do seu modelo. Mas primeiro você precisa identificar e limpar os dados para análise.

Como gerar dados derivados

Atributos derivados são registros inteiramente novos construídos a partir de um ou mais atributos existentes. Um exemplo seria a criação de registros que identificassem livros que são best-sellers em feiras de livros. Os dados brutos podem não capturar esses registros - mas, para fins de modelagem, esses registros derivados podem ser importantes. O índice de preço por lucro e a média móvel de 200 dias são dois exemplos de dados derivados que são fortemente utilizados em aplicações financeiras.

Os atributos derivados podem ser obtidos a partir do cálculo simples, como a dedução da idade a partir da data de nascimento. Os atributos derivados também podem ser computados ao resumir informações de vários registros.

Por exemplo, converter uma tabela de clientes e seus livros comprados em uma tabela pode permitir que você acompanhe o número de livros vendidos através de um sistema de recomendação, através de marketing direcionado e em uma feira de livros - e identificar o perfil demográfico de clientes que comprou esses livros.

Gerando tais atributos adicionais trazem poder preditivo adicional para a análise. De fato, muitos desses atributos são criados de modo a sondar seu poder preditivo potencial. Alguns modelos preditivos podem usar mais atributos derivados do que os atributos em seu estado bruto. Se alguns atributos derivados forem especialmente preditivos e seu poder provado ser relevante, então faz sentido automatizar o processo que os gera.

Os registros derivados são novos registros que trazem novas informações e fornecem novas maneiras de apresentar dados brutos; eles podem ter um enorme valor para a modelagem preditiva.

Como reduzir a dimensionalidade de seus dados

Os dados usados ​​em modelos preditivos geralmente são agrupados em fontes múltiplas. Sua análise pode extrair dados dispersos em vários formatos de dados, arquivos e bancos de dados, ou várias tabelas dentro do mesmo banco de dados. Agrupar os dados juntos e combiná-lo em um formato integrado para que os modeladores de dados sejam usados ​​é essencial.

Se seus dados contiverem qualquer conteúdo hierárquico, talvez seja necessário achatado . Alguns dados possuem algumas características hierárquicas, como relações pai-filho, ou um registro que é composto por outros registros.Por exemplo, um produto como um carro pode ter vários fabricantes; Aplanar dados, neste caso, significa incluir cada fabricante como uma característica adicional do registro que você está analisando.

Aplanar dados é essencial quando se fundiu de vários registros relacionados para formar uma imagem melhor.

Por exemplo, a análise de eventos adversos para vários medicamentos feitos por várias empresas pode exigir que os dados sejam achatados no nível da substância. Ao fazê-lo, você acaba removendo as relações de um para muitos (neste caso, muitos fabricantes e muitas substâncias para um produto) que podem causar muita duplicação de dados, repetindo várias entradas de substâncias que repetem informações de produtos e fabricantes em cada entrada.

Aplanamento reduz a dimensionalidade dos dados, que é representada pelo número de recursos que um registro ou uma observação tem.

Por exemplo, um cliente pode ter os seguintes recursos: nome, idade, endereço, itens comprados. Quando você inicia sua análise, você pode encontrar-se avaliando registros com muitos recursos, apenas alguns dos quais são importantes para a análise. Então, você deve eliminar todos, exceto os poucos recursos que possuem o poder mais preditivo para seu projeto específico.

Reduzir a dimensionalidade dos dados pode ser obtida colocando todos os dados em uma única tabela que usa várias colunas para representar atributos de interesse. No início da análise, é claro, a análise tem que avaliar um grande número de colunas - mas esse número pode ser reduzido à medida que a análise avança.

Este processo pode ser auxiliado pela reconstituição dos campos - por exemplo, agrupando os dados em categorias que possuem características semelhantes.

O conjunto de dados resultante - o conjunto de dados limpo - geralmente é colocado em um banco de dados separado para que os analistas usem. Durante o processo de modelagem, esses dados devem ser acessados, gerenciados e atualizados com facilidade.

Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...