Vídeo: As Regras Secretas da Vida Moderna - Algoritmos 2024
Parte da Aprendizagem de Máquinas para Dummies Cheat Sheet < O aprendizado da máquina envolve o uso de vários algoritmos diferentes. Esta tabela fornece um resumo rápido dos pontos fortes e fracos de vários algoritmos.
Algoritmo
Melhor em | Prós | Contras | Floresta aleatória |
Apt em quase qualquer problema de aprendizado de máquina | Bioinformática
Pode funcionar em paralelo |
Excessos raros > Manipula automaticamente os valores faltantes
Não é necessário transformar qualquer variável Não é necessário ajustar parâmetros Pode ser usado por quase qualquer pessoa com excelentes resultados Difícil de interpretar Mais fraco na regressão ao estimar valores em as extremidades da distribuição de valores de resposta |
tendenciosa em problemas de multiclass para classes mais frequentes
Gradient Boosting Apt em quase qualquer problema de aprendizado de máquina |
Motores de busca (resolvendo o problema de aprender a classificar) > Pode aproximar a maioria das funções não-lineares | Melhor preditor de classe
Manipula automaticamente os valores faltantes |
Não é necessário transformar qualquer variável
Pode superar se executado para muitas iterações Sensível a dados ruidosos e outliers Não funciona bem sem sintonização de parâmetros |
Regressão linear
Previsão de linha de base Predições econométricas |
Modelagem de respostas de marketing | Simples de entender e explicar
Pouco ultrapassa Usar a regularização L1 e L2 é efetivo na seleção de recursos |
Rápido para treinar
Fácil de usar Treinar em dados grandes graças à sua versão estocástica Você precisa trabalhar duro para ajustá-lo às funções não-lineares Pode sofrer de outliers Suporte de máquinas vetoriais |
Reconhecimento de caracteres
Reconhecimento de imagem |
Texto classificação | Criação automática de recurso não-linear
Pode aproximar funções não-lineares complexas Difícil de interpretar ao aplicar os kernels não-lineares |
Sufres de muitos exemplos, após 10 000 exemplos, ele começa a demorar muito para treinar
Vizinhos mais próximos |
Visão computacional
Etiquetagem Multilabel |
Sistemas recomendados | Problemas de verificação ortográfica
Treinamento rápido e preguiçoso Pode lidar com problemas extremos de multiclass (como o texto de marcação) Lento e pesado na fase de previsão |
Pode deixar de prever corr Ectly devido à maldição da dimensionalidade
Adaboost |
Detecção de rosto
Manipula automaticamente os valores faltantes |
Não é necessário transformar qualquer variável | Não se supera facilmente | Poucos parâmetros para ajustar > Pode alavancar muitos alunos fracos diferentes
Dados sensíveis a ruidosos e outliers Nunca as melhores previsões de classe Naive Bayes Reconhecimento de rosto |
Análise de sentimento
Detecção de spam |
Classificação de texto | Fácil e rápido de implementar, não requer muita memória e pode ser usado para aprender on-line
Fácil de entender Toma em consideração conhecimento prévio Suposições fortes e irrealistas de independência de recursos > Falha na estimativa de ocorrências raras |
Sufres de características irrelevantes
Redes Neurais Reconhecimento de imagem |
Reconhecimento e tradução de linguagem
Reconhecimento de voz Reconhecimento de visão |
Pode aproximar qualquer função não linear | Robusto para outliers
Funciona apenas com uma porção dos exemplos (o vetor de suporte s Muito difícil de configurar Difícil de sintonizar devido a muitos parâmetros e você também tem que decidir a arquitetura da rede |
Difícil de interpretar
Fácil de superar Regressão logística < Ordem de resultados por probabilidade |
Modelagem de respostas de marketing
Simples de entender e explicar Pouco excede Usar a regularização L1 e L2 é efetivo na seleção de recursos |
O melhor algoritmo para prever probabilidades de um Evento | Rápido para treinar
Fácil de treinar em dados grandes graças à sua versão estocástica |
Você precisa trabalhar arduamente para que ele se encaixe em funções não-lineares
Pode sofrer de outliers SVD Recomendador sistemas Pode reestruturar os dados de forma significativa Difícil de entender por que os dados foram reestruturados de uma certa maneira |
PCA
Removendo colinearidade |
Reduzindo as dimensões do conjunto de dados | Pode reduzir a dimensionalidade dos dados | Implanta suposições lineares fortes (os componentes são uma pontuação ponderada de recursos) K-means | Segmentação |
Rápido na busca de clusters | Pode detectar outliers em múltiplas dimensões
Suffers de multicolinearidade |
Os agrupamentos são esféricos, não podem detectar grupos de outras formas | Instável soluções, depende da inicialização |
|