Vídeo: Aula 07 - Curso de R - pacote dplyr e a função near( ) 2024
A disciplina de aprendizagem de máquinas possui um extenso e extenso catálogo de técnicas. O Mahout traz uma variedade de ferramentas estatísticas e algoritmos para a tabela, mas apenas captura uma fração dessas técnicas e algoritmos, pois a tarefa de converter esses modelos em um quadro MapReduce é desafiadora.
Ao longo do tempo, a Mahout certamente continuará expandindo sua caixa de ferramentas estatística, mas até então todos os cientistas de dados e estatísticos lá fora precisam estar cientes de software de modelagem estatística alternativa - onde é onde R vem.
O idioma R é um idioma e ambiente de desenvolvimento estatístico de código aberto poderoso e popular. Oferece um rico ecossistema de análise que pode auxiliar cientistas de dados com exploração de dados, visualização, análise estatística e computação, modelagem, aprendizado automático e simulação. A linguagem R é comumente usada por estatísticos, mineradores de dados, analistas de dados e cientistas de dados (hoje em dia).
Os programadores de linguagem R têm acesso às bibliotecas de Abrangentes R Archive Network (CRAN) que, a partir do momento da escrita, contém mais de 3000 pacotes de análise estatística. Esses complementos podem ser removidos em qualquer projeto R, fornecendo ferramentas analíticas ricas para executar classificação, regressão, agrupamento, modelagem linear e algoritmos de aprendizado de máquina mais especializados.
O idioma é acessível para aqueles familiarizados com tipos simples de estrutura de dados - vetores, escalares, quadros de dados (matrizes) e similares - comumente usados por estatísticos e programadores.
Fora da caixa, uma das principais dificuldades com o uso do idioma R é a falta de suporte que oferece para executar tarefas concorrentes. Ferramentas de linguagem estatística, como R excel, em análises rigorosas, mas faltam escalabilidade e suporte nativo para cálculos paralelos.
Esses sistemas não são distribuíveis e não foram desenvolvidos para serem escaláveis para o moderno petabyte-world of big data. As propostas para superar essas limitações precisam estender o alcance da R além do carregamento em memória e ambientes de execução de um único computador, ao mesmo tempo que mantém o flanco de R para algoritmos estatísticos facilmente implantáveis.