Vídeo: Estatística 1º, 2º e 3º Quartil e Distância Interquartil Exercício 2024
Ao analisar dados para sua infografia, você deve estar ciente de que alguns pontos de dados - conhecidos como outliers - estão tão longe da norma quanto a chamar a atenção para si mesmos. Nos casos mais graves, eles podem até distorcer os dados e criar uma imagem enganosa do assunto. Você precisa reconhecer quando você tem um outlier e depois decidir o que fazer sobre isso.
Esta tabela contém um exemplo simples para demonstrar essa idéia. Os dois conjuntos de dados representam as notas de um aluno, durante oito semanas, em dois exames semanais; Os números são a porcentagem correta no exame. O conjunto de dados à esquerda (o primeiro exame) não contém um outlier, mas o conjunto de dados à direita (o segundo exame) faz. O outlier é mostrado em negrito.
Semana | Graus (sem outlier) | Graus (um outlier) |
---|---|---|
1 | 90% | 90% |
2 | 88% | 88% |
3 | 90% | 90% |
4 | 85% | 50% |
5 | 86% | 86% |
6 | 87% | 87% |
7 | 85% | 85% |
8 | 84% | 84% |
Média > 87% | 83% |
|
O que um jornalista de dados faz nesse caso? Aqui estão algumas opções:
Jogue o outlier.
-
Se você estiver usando apenas a média no seu gráfico e está preocupado com o fato de ser enganador, elimine o outlier como uma aberração e, em seguida, calcule a média sem essa semana, conforme mostrado na figura.
Se você acompanhar esta opção, certifique-se de adicionar uma nota de rodapé explicando tudo: neste caso, a exclusão de um ponto de dados. Sempre seja o mais transparente possível.
Mostra os dados como está.
-
Se você está usando apenas a média em seu gráfico ou traçando todos os dados em um gráfico, você sempre pode apresentar os dados exatamente como veio para você, conforme mostrado na figura a seguir. Neste caso, você deve adicionar uma nota de rodapé chamando o outlier para que seu leitor esteja totalmente ciente disso.
Construa uma "linha de melhor ajuste". "
-
Esta opção aplica-se apenas se você estiver criando um gráfico com todos os dados. Uma linha de melhor ajuste - também chamada de regressão linear - é uma média visual de seus dados: literalmente, a linha que representa melhor os seus pontos de dados dispersos.