Vídeo: O que é FMEA - Análise dos Modos e efeitos de Falha! 2024
A análise de componentes principais (PCA) é uma técnica valiosa que é amplamente utilizada em análises preditivas e ciência dos dados. Estuda um conjunto de dados para aprender as variáveis mais relevantes responsáveis pela maior variação nesse conjunto de dados. O PCA é usado principalmente como técnica de redução de dados.
Ao construir modelos preditivos, talvez seja necessário reduzir o número de recursos que descrevem seu conjunto de dados. É muito útil reduzir esta alta dimensionalidade dos dados através de técnicas de aproximação, nas quais o PCA se destaca. Os dados aproximados resumem todas as variações importantes dos dados originais.
Por exemplo, o conjunto de dados de ações sobre estoques pode incluir preços de ações, máximos diários e baixos, volumes de negociação, médias móveis de 200 dias, rácios de preço a ganho, força relativa para outros mercados, taxas de juros e força das moedas.
Encontrar as variáveis preditivas mais importantes é o núcleo da construção de um modelo preditivo. A maneira como muitos o fizeram é usando uma abordagem de força bruta. A idéia é começar com tantas variáveis relevantes como você pode, e então usar uma abordagem de funil para eliminar recursos que não têm impacto ou nenhum valor preditivo.
A inteligência e a visão são trazidas a este método, envolvendo os interessados das empresas, porque eles têm algumas dúvidas sobre quais variáveis terão o maior impacto na análise. A experiência dos cientistas de dados envolvidos no projeto também é importante para saber quais variáveis e quais algoritmos usar para um tipo específico de dados ou um problema específico do domínio.
Para ajudar com o processo, os cientistas de dados empregam muitas ferramentas de análise preditiva que tornam mais fácil e rápido executar múltiplas permutações e análises em um conjunto de dados para medir o impacto de cada variável nesse conjunto de dados.
Sabendo que há uma grande quantidade de dados para trabalhar, você pode usar a PCA para obter ajuda.
Reduzir o número de variáveis que você vê é um motivo suficiente para usar PCA. Além disso, ao usar o PCA, você se protege automaticamente de superar o modelo.
Certamente, você poderia encontrar correlação entre dados meteorológicos em um determinado país e o desempenho de seu mercado de ações. Ou com a cor dos sapatos de uma pessoa e a rota que ele leva para o escritório e a performance de seu portfólio para esse dia. Entretanto, incluir essas variáveis em um modelo preditivo é mais do que apenas uma superposição, é enganosa e leva a falsas previsões.
PCA usa uma abordagem matematicamente válida para determinar o subconjunto do seu conjunto de dados que inclui os recursos mais importantes; Ao construir seu modelo nesse conjunto de dados menores, você terá um modelo que tenha valor preditivo para o conjunto de dados geral, maior que você está trabalhando. Em suma, a PCA deve ajudá-lo a entender suas variáveis identificando o subconjunto de variáveis responsáveis pela maior variação com seu conjunto de dados original. Isso ajuda você a detectar a redundância. Isso ajuda você a descobrir que dois (ou mais variáveis) estão dizendo o mesmo.
Além disso, a análise de componentes principais leva seu conjunto de dados multidimensional e produz um novo conjunto de dados cujas variáveis são representativas da linearidade das variáveis no conjunto de dados original. Além disso, o conjunto de dados emitido tem variáveis individualmente não correlacionadas e sua variação é ordenada pelos principais componentes, onde o primeiro é o maior, e assim por diante. Nesse sentido, a PCA também pode ser considerada como uma técnica para a construção de recursos.
Ao empregar PCA ou outras técnicas similares que ajudam a reduzir a dimensionalidade do conjunto de dados que você está lidando, você sempre deve ter cuidado para não afetar o desempenho do modelo negativamente. Reduzir o tamanho dos dados não deve ocorrer à custa de impactar negativamente o desempenho (a precisão do modelo preditivo). Pegue com segurança e gerencie seu conjunto de dados com cuidado.
A crescente complexidade de um modelo não se traduz em maior qualidade no resultado.
Para preservar o desempenho do modelo, você precisará avaliar cuidadosamente a eficácia de cada variável, medindo sua utilidade na modelagem do modelo final.
Sabendo que o PCA pode ser especialmente útil quando as variáveis estão altamente correlacionadas dentro de um dado conjunto de dados, então ter um conjunto de dados com variáveis preditivas não correlacionadas só pode complicar a tarefa de reduzir a dimensionalidade de dados multivariados. Muitas outras técnicas podem ser usadas aqui, além do PCA, como seleção de recurso direto e eliminação de recursos para trás.
PCA não é uma bala mágica que irá resolver todos os problemas com dados multidimensionais. Seu sucesso é altamente dependente dos dados com os quais você está trabalhando. A variação estatística pode não se alinhar com variáveis com os valores mais preditivos, embora seja seguro trabalhar com essas aproximações.