Índice:
Vídeo: Roger Stein: A bold new way to fund drug research 2024
O alinhamento de dados na análise preditiva é, essencialmente, tentando encontrar o "sinal" no "ruído" por descartando pontos de dados que são considerados "ruidosos". A idéia é afiar os padrões nos dados e destacar as tendências às quais os dados estão apontando.
A implicação por trás do suavização de dados é que os dados consistem em duas partes: uma parte (consistindo nos pontos de dados centrais ) que significa tendências gerais ou tendências reais e outra parte que consiste principalmente em desvios ( ruído ) - alguns pontos flutuantes que resultam de alguma volatilidade nos dados. Suavização de dados procura eliminar essa segunda parte.
Como reduzir o ruído
O suavização de dados opera em vários pressupostos:
-
Essa flutuação nos dados é mais provável de ser ruim.
-
Que a parte ruidosa dos dados é de curta duração.
-
Que a flutuação dos dados, independentemente de quão variada possa ser, não afetará as tendências subjacentes representadas pelos pontos de dados principais.
O ruído nos dados tende a ser aleatório; suas flutuações não devem afetar as tendências gerais decorrentes da análise do resto dos dados. Assim, reduzir ou eliminar pontos de dados ruidosos pode esclarecer tendências e padrões reais nos dados - efetivamente, melhorando a relação sinal / ruído dos dados. "
Desde que você identificou o ruído corretamente e depois reduziu, o alisamento de dados pode ajudá-lo a prever o próximo ponto de dados observado simplesmente seguindo as principais tendências detectadas nos dados.
O alisamento de dados se preocupa com a maioria dos pontos de dados, suas posições em um gráfico e o que os padrões resultantes prevêem sobre a tendência geral de (digamos) um preço de estoque, seja sua direção geral para cima, para baixo ou para os lados.
Esta técnica não irá prever com precisão o preço exato do próximo comércio para um estoque dado - mas prever uma tendência geral pode produzir insights mais poderosos do que saber o preço real ou suas flutuações.
Uma previsão baseada em uma tendência geral deduzida dos dados suavizados pressupõe que qualquer direção que os dados tenham seguido até agora continuará no futuro de forma consistente com a tendência. No mercado de ações, por exemplo, o desempenho passado não é uma indicação definitiva sobre o desempenho futuro, mas certamente pode ser um guia geral para o movimento futuro do preço das ações.
Métodos, vantagens e desvantagens do alisamento de dados
O alisamento de dados não é confundido com ajustando um modelo, , que faz parte da análise de dados consistindo de duas etapas:
-
Encontre um adequado modelo que representa os dados.
-
Certifique-se de que o modelo se adapta aos dados de forma eficaz.
O alisamento de dados concentra-se no estabelecimento de uma direção fundamental para os pontos de dados do núcleo por meio de (1) ignorar pontos de dados ruidosos e (2) desenhar uma curva mais suave através dos pontos de dados que salteiam os que se torciam e enfatiza padrões primários - tendências Os dados, não importa o quão lento seu surgimento. Conseqüentemente, em uma série de tempo numérico, o suavização de dados serve como uma forma de filtragem.
O alisamento de dados pode usar qualquer um dos seguintes métodos:
-
Random walk baseia-se na idéia de que o próximo resultado, ou ponto de dados futuro, é um desvio aleatório do último ponto de dados conhecido ou atual.
-
A média móvel é uma média em execução de períodos consecutivos e igualmente espaçados. Um exemplo seria o cálculo de uma média móvel de 200 dias de um preço de ações.
-
Suavização exponencial atribui exponencialmente mais peso ou importância aos pontos de dados recentes do que aos pontos de dados mais antigos.
-
Simples: Este método deve ser usado quando os dados da série temporal não apresentam tendências e sem sazonalidade.
-
Linear: Este método deve ser usado quando os dados da série temporal têm uma linha de tendência.
-
Sazonal: Este método deve ser usado quando os dados da série temporal não têm nenhuma tendência, mas a sazonalidade.
-
O que esses métodos de suavização têm em comum é que eles realizam algum tipo de processo de média em vários pontos de dados. Essa média de pontos de dados adjacentes é a maneira essencial para zero em tendências ou padrões subjacentes.
As vantagens do alisamento de dados são
-
É fácil de implementar.
-
Ajuda a identificar tendências.
-
Ajuda a expor os padrões nos dados.
-
Ele elimina os pontos de dados que você decidiu que não são de interesse.
-
Ajuda a prever a direção geral dos próximos pontos de dados observados.
-
Ele gera bons gráficos suaves.
Mas tudo tem uma desvantagem. As desvantagens do alisamento de dados são
-
Pode eliminar pontos de dados válidos resultantes de eventos extremos.
-
Pode levar a predições imprecisas se os dados do teste são apenas sazonais e não totalmente representativos da realidade que gerou os pontos de dados.
-
Pode mudar ou distorcer os dados, especialmente os picos, resultando em uma imagem distorcida do que está acontecendo.
-
Pode ser vulnerável a interrupções significativas dos valores atípicos dentro dos dados.
-
Pode resultar em um grande desvio dos dados originais.
Se o alisamento de dados não for mais do que dar aos dados uma simples facelift, ele pode criar um erro fundamental nas seguintes formas:
-
Ele pode introduzir erros através de distorções que tratam os dados suavizados como se fossem idênticos ao original dados.
-
Pode desviar a interpretação ao ignorar - e ocultar - os riscos incorporados nos dados.
-
Pode levar a uma perda de detalhes dentro de seus dados - o que é uma maneira de uma curva suavizada se desviar muito da dos dados originais.
Quão sério o alisamento de dados pode afetar seus dados depende da natureza dos dados em mãos e qual técnica de suavização foi implementada nesses dados.Por exemplo, se os dados originais tiverem mais picos nele, o alisamento de dados levará a grandes deslocamentos desses picos nos gráficos suavizados - provavelmente uma distorção.
Aqui estão alguns pontos de precaução a ter em mente ao abordar o alisamento de dados:
-
É uma boa idéia comparar gráficos suavizados com gráficos intocados que traçam os dados originais.
-
Os pontos de dados removidos durante o alisamento de dados podem não ser ruídos; eles podem ser válidos, pontos de dados reais que resultam de eventos raros, mas reais.
-
O alisamento de dados pode ser útil com moderação, mas o uso excessivo pode levar a uma falsa representação de seus dados.
Ao aplicar seu julgamento profissional e sua experiência em conhecimento de negócios, você pode usar o alisamento de dados efetivamente. A remoção de ruídos de seus dados - sem afetar negativamente a precisão e utilidade dos dados originais - é pelo menos tanto uma arte como uma ciência.