Lar Finanças Pessoais Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Índice:

Vídeo: Lecture 09 - The Linear Model II 2025

Vídeo: Lecture 09 - The Linear Model II 2025
Anonim

Nesta fase de exploração da análise preditiva, você obterá conhecimento íntimo de seus dados, o que, por sua vez, irá ajudá-lo a escolher as variáveis ​​relevantes a serem analisadas. Esse entendimento também o ajudará a avaliar os resultados do seu modelo. Mas primeiro você precisa identificar e limpar os dados para análise.

Como gerar dados derivados

Atributos derivados são registros inteiramente novos construídos a partir de um ou mais atributos existentes. Um exemplo seria a criação de registros que identificassem livros que são best-sellers em feiras de livros. Os dados brutos podem não capturar esses registros - mas, para fins de modelagem, esses registros derivados podem ser importantes. O índice de preço por lucro e a média móvel de 200 dias são dois exemplos de dados derivados que são fortemente utilizados em aplicações financeiras.

Os atributos derivados podem ser obtidos a partir do cálculo simples, como a dedução da idade a partir da data de nascimento. Os atributos derivados também podem ser computados ao resumir informações de vários registros.

Por exemplo, converter uma tabela de clientes e seus livros comprados em uma tabela pode permitir que você acompanhe o número de livros vendidos através de um sistema de recomendação, através de marketing direcionado e em uma feira de livros - e identificar o perfil demográfico de clientes que comprou esses livros.

Gerando tais atributos adicionais trazem poder preditivo adicional para a análise. De fato, muitos desses atributos são criados de modo a sondar seu poder preditivo potencial. Alguns modelos preditivos podem usar mais atributos derivados do que os atributos em seu estado bruto. Se alguns atributos derivados forem especialmente preditivos e seu poder provado ser relevante, então faz sentido automatizar o processo que os gera.

Os registros derivados são novos registros que trazem novas informações e fornecem novas maneiras de apresentar dados brutos; eles podem ter um enorme valor para a modelagem preditiva.

Como reduzir a dimensionalidade de seus dados

Os dados usados ​​em modelos preditivos geralmente são agrupados em fontes múltiplas. Sua análise pode extrair dados dispersos em vários formatos de dados, arquivos e bancos de dados, ou várias tabelas dentro do mesmo banco de dados. Agrupar os dados juntos e combiná-lo em um formato integrado para que os modeladores de dados sejam usados ​​é essencial.

Se seus dados contiverem qualquer conteúdo hierárquico, talvez seja necessário achatado . Alguns dados possuem algumas características hierárquicas, como relações pai-filho, ou um registro que é composto por outros registros.Por exemplo, um produto como um carro pode ter vários fabricantes; Aplanar dados, neste caso, significa incluir cada fabricante como uma característica adicional do registro que você está analisando.

Aplanar dados é essencial quando se fundiu de vários registros relacionados para formar uma imagem melhor.

Por exemplo, a análise de eventos adversos para vários medicamentos feitos por várias empresas pode exigir que os dados sejam achatados no nível da substância. Ao fazê-lo, você acaba removendo as relações de um para muitos (neste caso, muitos fabricantes e muitas substâncias para um produto) que podem causar muita duplicação de dados, repetindo várias entradas de substâncias que repetem informações de produtos e fabricantes em cada entrada.

Aplanamento reduz a dimensionalidade dos dados, que é representada pelo número de recursos que um registro ou uma observação tem.

Por exemplo, um cliente pode ter os seguintes recursos: nome, idade, endereço, itens comprados. Quando você inicia sua análise, você pode encontrar-se avaliando registros com muitos recursos, apenas alguns dos quais são importantes para a análise. Então, você deve eliminar todos, exceto os poucos recursos que possuem o poder mais preditivo para seu projeto específico.

Reduzir a dimensionalidade dos dados pode ser obtida colocando todos os dados em uma única tabela que usa várias colunas para representar atributos de interesse. No início da análise, é claro, a análise tem que avaliar um grande número de colunas - mas esse número pode ser reduzido à medida que a análise avança.

Este processo pode ser auxiliado pela reconstituição dos campos - por exemplo, agrupando os dados em categorias que possuem características semelhantes.

O conjunto de dados resultante - o conjunto de dados limpo - geralmente é colocado em um banco de dados separado para que os analistas usem. Durante o processo de modelagem, esses dados devem ser acessados, gerenciados e atualizados com facilidade.

Como gerar dados derivados e reduzir a sua dimensão para análises preditivas - manequins

Escolha dos editores

Como criar um módulo HTML personalizado no Joomla - dummies

Como criar um módulo HTML personalizado no Joomla - dummies

Uma das grandes coisas sobre o Joomla é o quão incrivelmente flexível é. A instalação padrão do CMS inclui 23 módulos diferentes para ajudá-lo a fazer seu site funcionar sem problemas. Às vezes, no entanto, você pode querer adicionar uma função ao seu site que esses 23 módulos simplesmente não vão cobrir. Sob tais circunstâncias, você pode querer considerar ...

Como criar um item de menu no Joomla Content Management - manequins

Como criar um item de menu no Joomla Content Management - manequins

Um item de menu determina o layout dos artigos, que é um dos aspectos do Joomla para o qual você precisa se acostumar. As páginas da Web não existem fisicamente no Joomla - elas são apenas itens no seu banco de dados - até que a página seja acessada. Quando você abre um artigo, o Joomla tira os dados necessários do ...

Como criar um novo item de menu com o Joomla! 1. 6 - dummies

Como criar um novo item de menu com o Joomla! 1. 6 - dummies

Não estresse se você precisa criar um item de menu em sua página da Web interativa - é fácil ao usar o Joomla! Gerenciador de menu. Para adicionar itens de menu a um site existente, basta usar estas etapas: Escolha Menus → Gerenciador de menus para abrir o Gerenciador de menus. Clique no nome do menu que deseja adicionar um novo ...

Escolha dos editores

Obtendo Ajuda do Eclipse - dummies

Obtendo Ajuda do Eclipse - dummies

Com a complexidade do Java e a nuance do Eclipse, você não pode esperar para lembrar de tudo. Às vezes, você precisa de um pouco mais de ajuda do Eclipse para começar sua programação. Felizmente, o Eclipse oferece ajuda geral e sensível ao contexto: para ajuda sensível ao contexto: no Windows, pressione F1. No Linux, pressione Ctrl + F1. Em um Mac, pressione ...

Software gratuito: preenchimento automático de células no OpenOffice. org Calc - dummies

Software gratuito: preenchimento automático de células no OpenOffice. org Calc - dummies

OpenOffice. org - uma alternativa gratuita para o Microsoft Office - inclui Calc, uma planilha eletrônica semelhante ao Excel. O Calc fornece uma maneira fácil de criar automaticamente uma coluna ou linha de números em qualquer sequência que você especificar. Esse recurso de preenchimento automático é útil para criar listas numeradas ou preencher os cabeçalhos de colunas e linhas de tabelas, como ...

Acessos acessíveis no modo de exibição do Prezi - dummies

Acessos acessíveis no modo de exibição do Prezi - dummies

O prezi possui dois modos de operação diferentes: Modo de edição, no qual você crie sua apresentação e Show Mode, no qual você apresenta suas criações. No modo Show, use esses atalhos úteis para tornar sua apresentação ainda mais suave. Use esta como uma lista de verificação de prática antes de começar: Use esta função: Para fazer isso: Completo ...

Escolha dos editores

Elementos HTML básicos - dummies

Elementos HTML básicos - dummies

HyperText Markup Language (HTML) é o idioma da web, onde os elementos ditaram a formatação e o estilo do seu conteúdo. Os elementos HTML compõem a codificação baixada que você vê quando você acessa uma página da Web em seu navegador da Web (como Internet Explorer, Firefox ou Safari). Aqui estão alguns elementos básicos para você ...

Usando AutoCAD DesignCenter - dummies

Usando AutoCAD DesignCenter - dummies

DesignCenter é um nome tolo para uma paleta útil, se um pouco ocupada. A paleta DesignCenter é útil para dados de mineração de todos os tipos de desenhos. Enquanto a paleta Propriedades está preocupada com as propriedades do objeto, a paleta DesignCenter lida principalmente com objetos nomeados: camadas, tipos de linha, definições de bloco (isto é, símbolo), estilos de texto e outros objetos organizacionais ...

Zoom e Panning no AutoCAD - dummies

Zoom e Panning no AutoCAD - dummies

O AutoCAD facilita a panorâmica, oferecendo barras de rolagem e panning em tempo real. Na panorâmica em tempo real (em oposição à panorâmica de finalização), você pode ver objetos movendo-se na tela enquanto você arrasta o mouse para cima e para baixo ou para frente e para trás. Claro, o ponto de vista está em movimento, não os objetos. Tanto a panorâmica quanto o zoom mudam a visualização ...