Índice:
Vídeo: COMO PASSAR EM UMA PENEIRA DE FUTEBOL?? ft TÉCNICO SPFC 2024
Quando você é minerador de dados, às vezes você terá mais dados do que você precisa para um determinado projeto. Veja como reduzir o que você precisa.
Limitando os campos
Quando você tem muitas variáveis em um conjunto de dados, pode ser difícil encontrar ou ver as que lhe interessam. E se seus conjuntos de dados são amplos e você não precisa de todas as variáveis, mantendo os extras absorvendo recursos desnecessariamente. Então, você às vezes precisa manter algumas variáveis e soltar outras. A figura mostra um exemplo no KNIME, onde a ferramenta certa é chamada de Filtro de Colunas.
Uma configuração de exemplo para esta ferramenta é mostrada na figura a seguir.
Para restringir os campos, procure uma ferramenta de seleção de variáveis em seu aplicativo de mineração de dados; Estes são encontrados com outras ferramentas para manipulação de dados. Tal como acontece com outras ferramentas de mineração de dados, os nomes variam de produto para produto. Procure por variações na coluna coluna, variável, ou , e seleção ou .
Selecionando casos relevantes
Os casos com dados incompletos podem ser filtrados antes de construir o modelo. A remoção de casos incompletos é um exemplo comum de seleção de dados ou filtragem.
Mas como você selecionaria somente os casos relevantes para cada segmento que lhe interessasse? Você usaria uma ferramenta de seleção de dados.
A figura a seguir mostra uma ferramenta de seleção de dados em outro aplicativo de mineração de dados.
A próxima figura mostra como você configuraria essa ferramenta para outro tipo de seleção, esta baseada no valor de uma variável.
É comum usar esse tipo de seleção de dados e algumas aplicações oferecem todo o tipo de funções internas para ajudá-lo a definir exatamente os casos que você deseja. Este tem algumas características excepcionais; Ele exibe estatísticas de resumo da variável e indica exatamente quantos casos atendem os critérios de seleção.
A maioria dos aplicativos de mineração de dados tem ferramentas para selecionar apenas os casos que você precisa. Procure nos menus (ou procure) para o filtro selecione ou .
Amostragem
Atualmente, uma noção popular é que mais dados são melhores dados. Esta não é uma ideia nova. As aplicações de mineração de dados sempre foram desenvolvidas para funcionar com grandes quantidades de dados. Mesmo o nome "mineração de dados" sugere grandes quantidades. Mas, muitas vezes, trabalhar com uma amostra de seus dados lhe dará informações que são tão úteis, facilitam seu trabalho e economizam seu tempo e recursos.
A amostragem desempenha papéis importantes na mineração de dados. Se os dados forem equilibrados, significa que o modelo usou números iguais de casos em cada um dos grupos sendo comparados (nesse exemplo, os grupos eram propriedades que mudaram de mãos e propriedades que não), mesmo que um grupo tivesse muitos outros casos do que o outros nos dados originais.
Mais tarde, os dados foram divididos, separados em um subconjunto para usar para treinar um modelo e outro para testar. Usar apenas uma amostra de dados em um gráfico de coordenadas paralelas pode facilitar a visualização e a interpretação. (Scatterplots com milhares de pontos podem ser impossivelmente difíceis de ler!) Talvez o mais importante de tudo, a amostragem apenas reduz a quantidade de dados, então as coisas correm mais rápido.