Lar Finanças Pessoais Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Índice:

Vídeo: Lecture 09 - The Linear Model II 2025

Vídeo: Lecture 09 - The Linear Model II 2025
Anonim

Nesta fase de exploração da análise preditiva, você obterá conhecimento íntimo de seus dados, o que, por sua vez, irá ajudá-lo a escolher as variáveis ​​relevantes a serem analisadas. Esse entendimento também o ajudará a avaliar os resultados do seu modelo. Mas primeiro você precisa identificar e limpar os dados para análise.

Como gerar dados derivados

Atributos derivados são registros inteiramente novos construídos a partir de um ou mais atributos existentes. Um exemplo seria a criação de registros que identificassem livros que são best-sellers em feiras de livros. Os dados brutos podem não capturar esses registros - mas, para fins de modelagem, esses registros derivados podem ser importantes. O índice de preço por lucro e a média móvel de 200 dias são dois exemplos de dados derivados que são fortemente utilizados em aplicações financeiras.

Os atributos derivados podem ser obtidos a partir do cálculo simples, como a dedução da idade a partir da data de nascimento. Os atributos derivados também podem ser computados ao resumir informações de vários registros.

Por exemplo, converter uma tabela de clientes e seus livros comprados em uma tabela pode permitir que você acompanhe o número de livros vendidos através de um sistema de recomendação, através de marketing direcionado e em uma feira de livros - e identificar o perfil demográfico de clientes que comprou esses livros.

Gerando tais atributos adicionais trazem poder preditivo adicional para a análise. De fato, muitos desses atributos são criados de modo a sondar seu poder preditivo potencial. Alguns modelos preditivos podem usar mais atributos derivados do que os atributos em seu estado bruto. Se alguns atributos derivados forem especialmente preditivos e seu poder provado ser relevante, então faz sentido automatizar o processo que os gera.

Os registros derivados são novos registros que trazem novas informações e fornecem novas maneiras de apresentar dados brutos; eles podem ter um enorme valor para a modelagem preditiva.

Como reduzir a dimensionalidade de seus dados

Os dados usados ​​em modelos preditivos geralmente são agrupados em fontes múltiplas. Sua análise pode extrair dados dispersos em vários formatos de dados, arquivos e bancos de dados, ou várias tabelas dentro do mesmo banco de dados. Agrupar os dados juntos e combiná-lo em um formato integrado para que os modeladores de dados sejam usados ​​é essencial.

Se seus dados contiverem qualquer conteúdo hierárquico, talvez seja necessário achatado . Alguns dados possuem algumas características hierárquicas, como relações pai-filho, ou um registro que é composto por outros registros.Por exemplo, um produto como um carro pode ter vários fabricantes; Aplanar dados, neste caso, significa incluir cada fabricante como uma característica adicional do registro que você está analisando.

Aplanar dados é essencial quando se fundiu de vários registros relacionados para formar uma imagem melhor.

Por exemplo, a análise de eventos adversos para vários medicamentos feitos por várias empresas pode exigir que os dados sejam achatados no nível da substância. Ao fazê-lo, você acaba removendo as relações de um para muitos (neste caso, muitos fabricantes e muitas substâncias para um produto) que podem causar muita duplicação de dados, repetindo várias entradas de substâncias que repetem informações de produtos e fabricantes em cada entrada.

Aplanamento reduz a dimensionalidade dos dados, que é representada pelo número de recursos que um registro ou uma observação tem.

Por exemplo, um cliente pode ter os seguintes recursos: nome, idade, endereço, itens comprados. Quando você inicia sua análise, você pode encontrar-se avaliando registros com muitos recursos, apenas alguns dos quais são importantes para a análise. Então, você deve eliminar todos, exceto os poucos recursos que possuem o poder mais preditivo para seu projeto específico.

Reduzir a dimensionalidade dos dados pode ser obtida colocando todos os dados em uma única tabela que usa várias colunas para representar atributos de interesse. No início da análise, é claro, a análise tem que avaliar um grande número de colunas - mas esse número pode ser reduzido à medida que a análise avança.

Este processo pode ser auxiliado pela reconstituição dos campos - por exemplo, agrupando os dados em categorias que possuem características semelhantes.

O conjunto de dados resultante - o conjunto de dados limpo - geralmente é colocado em um banco de dados separado para que os analistas usem. Durante o processo de modelagem, esses dados devem ser acessados, gerenciados e atualizados com facilidade.

Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Escolha dos editores

Dicas para direcionar seu filme digital - manequins

Dicas para direcionar seu filme digital - manequins

Como diretor, é seu trabalho levar o filme a vida através de da maneira como seus atores interpretam os personagens e como a equipe filme cada tiro. O diretor trabalha com os atores e a equipe para obter o melhor deles e certifique-se de que a história seja contada através do que eles fazem. Dirigindo seu ...

Dez Wedding DSLR Filmmaking Techniques - dummies

Dez Wedding DSLR Filmmaking Techniques - dummies

Usando sua DSLR para filmar um casamento geralmente reside no final oposto da peça criativa espectro de fazer seu filme de autor. Aqui estão os dez melhores aspectos que você precisa considerar para mantê-lo vivo ao capturar esse evento único na vida. Tenha o equipamento de vídeo certo Você não poderá fazer um casamento até ...

Dez dicas para filmes documentários DSLR - dummies

Dez dicas para filmes documentários DSLR - dummies

Um documentário é uma conta de filme de não ficção de um tópico. Para fazer seu documentário DSLR de qualquer comprimento e assunto em algo que as pessoas acham interessante, considere estas dez dicas. Conheça o tópico que pretende filmar Se você está fazendo um filme de duração de duas horas ou um vídeo on-line de dois minutos, você precisa ...

Escolha dos editores

Como lucrar com a mamãe Blogando sem vender - manequins

Como lucrar com a mamãe Blogando sem vender - manequins

Vender é um termo usado para comprometendo sua integridade, princípios ou moral para ganhar dinheiro ou sucesso. O problema é que, se todos tivessem os mesmos princípios e a definição de integridade, não haveria muita necessidade de diferentes partidos políticos ou religiões. As pessoas podem ser acusadas de vender se eles simplesmente fazem coisas como ...

Como usar corretamente palavras-chave para sua comunidade online - manequins

Como usar corretamente palavras-chave para sua comunidade online - manequins

Quando você tem uma boa idéia de os tipos de palavras-chave para usar em sua comunidade online, é hora de escrever o conteúdo para que pareça natural. Muitas pessoas pimenta palavras-chave liberalmente em torno de suas postagens de blog, artigos da web, sobre páginas e outros conteúdos, o que parece bobo e errado. Embora o uso de palavras-chave seja bom ...

Como colocar anúncios no seu blog - manequins

Como colocar anúncios no seu blog - manequins

Para obter anúncios no site do seu blog, os programas que você Inscreva-se para fornecer-lhe geralmente um pouco de código que você insere em seus modelos de site. Alguns programas têm instruções passo-a-passo para pacotes populares de software de blog, mas esteja ciente de que você também precisará consultar a documentação do seu blog para obter ajuda com ...

Escolha dos editores

Exibindo Números como palavras no Excel - manequins

Exibindo Números como palavras no Excel - manequins

Se você já precisou exibir um número escrito como texto , você provavelmente descobriu que o Excel não oferece essa função. Quando o Excel não entrega, muitas vezes é possível corrigir a deficiência usando o VBA. Aqui está uma função VBA, denominada SPELLDOLLARS, que você pode usar nas fórmulas da planilha. Exemplos de Excel Aqui estão ...

Determinando a audiência para seu modelo financeiro - manequins

Determinando a audiência para seu modelo financeiro - manequins

Que estará visualizando ou usando seu modelo financeiro no futuro ? Se for apenas para seu próprio uso, você ainda deve seguir um bom modelo de design, mas não há necessidade de passar muito tempo na formatação para que pareça legal. Você ainda deve adicionar suposições e documentação de origem para o seu próprio ...

Eliminando células e dados no Excel 2007 - dummies

Eliminando células e dados no Excel 2007 - dummies

No Microsoft Office Excel 2007, quando você precisa excluir dados , remova a formatação em uma seleção de célula ou remova células inteiras, linhas ou colunas, você tem muitas opções dependendo do seu objetivo. O Excel pode executar dois tipos de exclusões de células em uma planilha: limpar dados de células e excluir a célula. Limpar o conteúdo da célula Limpar apenas ...