Lar Finanças Pessoais Aplicando Análise de Componentes Principais a Analisadores Preditivos - dummies

Aplicando Análise de Componentes Principais a Analisadores Preditivos - dummies

Vídeo: O que é FMEA - Análise dos Modos e efeitos de Falha! 2024

Vídeo: O que é FMEA - Análise dos Modos e efeitos de Falha! 2024
Anonim

A análise de componentes principais (PCA) é uma técnica valiosa que é amplamente utilizada em análises preditivas e ciência dos dados. Estuda um conjunto de dados para aprender as variáveis ​​mais relevantes responsáveis ​​pela maior variação nesse conjunto de dados. O PCA é usado principalmente como técnica de redução de dados.

Ao construir modelos preditivos, talvez seja necessário reduzir o número de recursos que descrevem seu conjunto de dados. É muito útil reduzir esta alta dimensionalidade dos dados através de técnicas de aproximação, nas quais o PCA se destaca. Os dados aproximados resumem todas as variações importantes dos dados originais.

Por exemplo, o conjunto de dados de ações sobre estoques pode incluir preços de ações, máximos diários e baixos, volumes de negociação, médias móveis de 200 dias, rácios de preço a ganho, força relativa para outros mercados, taxas de juros e força das moedas.

Encontrar as variáveis ​​preditivas mais importantes é o núcleo da construção de um modelo preditivo. A maneira como muitos o fizeram é usando uma abordagem de força bruta. A idéia é começar com tantas variáveis ​​relevantes como você pode, e então usar uma abordagem de funil para eliminar recursos que não têm impacto ou nenhum valor preditivo.

A inteligência e a visão são trazidas a este método, envolvendo os interessados ​​das empresas, porque eles têm algumas dúvidas sobre quais variáveis ​​terão o maior impacto na análise. A experiência dos cientistas de dados envolvidos no projeto também é importante para saber quais variáveis ​​e quais algoritmos usar para um tipo específico de dados ou um problema específico do domínio.

Para ajudar com o processo, os cientistas de dados empregam muitas ferramentas de análise preditiva que tornam mais fácil e rápido executar múltiplas permutações e análises em um conjunto de dados para medir o impacto de cada variável nesse conjunto de dados.

Sabendo que há uma grande quantidade de dados para trabalhar, você pode usar a PCA para obter ajuda.

Reduzir o número de variáveis ​​que você vê é um motivo suficiente para usar PCA. Além disso, ao usar o PCA, você se protege automaticamente de superar o modelo.

Certamente, você poderia encontrar correlação entre dados meteorológicos em um determinado país e o desempenho de seu mercado de ações. Ou com a cor dos sapatos de uma pessoa e a rota que ele leva para o escritório e a performance de seu portfólio para esse dia. Entretanto, incluir essas variáveis ​​em um modelo preditivo é mais do que apenas uma superposição, é enganosa e leva a falsas previsões.

PCA usa uma abordagem matematicamente válida para determinar o subconjunto do seu conjunto de dados que inclui os recursos mais importantes; Ao construir seu modelo nesse conjunto de dados menores, você terá um modelo que tenha valor preditivo para o conjunto de dados geral, maior que você está trabalhando. Em suma, a PCA deve ajudá-lo a entender suas variáveis ​​identificando o subconjunto de variáveis ​​responsáveis ​​pela maior variação com seu conjunto de dados original. Isso ajuda você a detectar a redundância. Isso ajuda você a descobrir que dois (ou mais variáveis) estão dizendo o mesmo.

Além disso, a análise de componentes principais leva seu conjunto de dados multidimensional e produz um novo conjunto de dados cujas variáveis ​​são representativas da linearidade das variáveis ​​no conjunto de dados original. Além disso, o conjunto de dados emitido tem variáveis ​​individualmente não correlacionadas e sua variação é ordenada pelos principais componentes, onde o primeiro é o maior, e assim por diante. Nesse sentido, a PCA também pode ser considerada como uma técnica para a construção de recursos.

Ao empregar PCA ou outras técnicas similares que ajudam a reduzir a dimensionalidade do conjunto de dados que você está lidando, você sempre deve ter cuidado para não afetar o desempenho do modelo negativamente. Reduzir o tamanho dos dados não deve ocorrer à custa de impactar negativamente o desempenho (a precisão do modelo preditivo). Pegue com segurança e gerencie seu conjunto de dados com cuidado.

A crescente complexidade de um modelo não se traduz em maior qualidade no resultado.

Para preservar o desempenho do modelo, você precisará avaliar cuidadosamente a eficácia de cada variável, medindo sua utilidade na modelagem do modelo final.

Sabendo que o PCA pode ser especialmente útil quando as variáveis ​​estão altamente correlacionadas dentro de um dado conjunto de dados, então ter um conjunto de dados com variáveis ​​preditivas não correlacionadas só pode complicar a tarefa de reduzir a dimensionalidade de dados multivariados. Muitas outras técnicas podem ser usadas aqui, além do PCA, como seleção de recurso direto e eliminação de recursos para trás.

PCA não é uma bala mágica que irá resolver todos os problemas com dados multidimensionais. Seu sucesso é altamente dependente dos dados com os quais você está trabalhando. A variação estatística pode não se alinhar com variáveis ​​com os valores mais preditivos, embora seja seguro trabalhar com essas aproximações.

Aplicando Análise de Componentes Principais a Analisadores Preditivos - dummies

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...