Lar Finanças Pessoais Como preparar os dados na regressão R para análises preditivas - dummies

Como preparar os dados na regressão R para análises preditivas - dummies

Vídeo: GRINGS - Correlação e Regressão linear - aula 22 2024

Vídeo: GRINGS - Correlação e Regressão linear - aula 22 2024
Anonim

Você precisa obter os dados em um formulário que o algoritmo pode usar para construir um modelo analítico preditivo. Para fazer isso, você precisa levar algum tempo para entender os dados e conhecer a estrutura dos dados. Digite a função para descobrir a estrutura dos dados. O comando e a saída são assim: >> str (autos) 'dados. quadro ': 398 obs. de 9 variáveis: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 … $ V8: int 1 1 1 1 1 1 1 1 1 … $ V9: Factor w / 305 níveis "amc ambassador brougham" …:

50 37 232 15 162 142 55 224 242 2 … 

Ao olhar para a estrutura, você pode dizer que há preparação e limpeza de dados para fazer. Aqui está uma lista das tarefas necessárias:

Renomeie os nomes das colunas.
  • Isso não é estritamente necessário, mas para os propósitos deste exemplo, é melhor usar nomes de colunas que você possa entender e lembrar.

    Altere o tipo de dados de V4 (

  • cavalo-vapor ) para um tipo de dados numérico . Neste exemplo, o cavalo-força é um valor numérico contínuo e não um tipo de dados de caracteres.

    Manipular valores faltantes.

  • Aqui a potência possui seis valores faltantes.

    Mude os atributos que possuem valores discretos para fatores.

  • Aqui os cilindros, o ano do modelo e a origem possuem valores discretos.

    Descarte o atributo V9 (

  • nome do carro ). Aqui o nome do carro não adiciona valor ao modelo que você está criando. Se o atributo de origem não fosse dado, você poderia ter derivado a origem do atributo do nome do carro.

    Para renomear as colunas digite o seguinte código: >> colnames (autos) <-

c ("mpg", "cilindros", "deslocamento", "cavalo-vapor", "peso", "aceleração", "modelYear", "origem",

"carName") 

Em seguida, altere o tipo de dados de potência para numérico com o seguinte código: >> autos $ horsepower <- Como. numérico (autos $ cavalo-vapor)

O programa irá reclamar porque nem todos os valores em potência foram representações de seqüência de números. Havia alguns valores faltantes que foram representados como "? " personagem. Isso está bem agora porque R converte cada instância de? em NA.

Uma maneira comum de lidar com os valores em falta de variáveis ​​contínuas é substituir cada valor faltante pela média da coluna inteira. A seguinte linha de código faz isso: >> autos $ horsepower [is.na (autos $ horsepower)] <- significa (autos $ horsepower, na.rm = TRUE)

É importante ter na. rm-TRUE na função média. Ele informa a função de não usar colunas com valores nulos em sua computação. Sem ele, a função retornará.

Em seguida, altere os atributos com valores discretos para fatores. Três atributos foram identificados como discretos. As três linhas de código a seguir alteram os atributos. >> autos $ origin autos $ modelYear autos $ cylinders <- factor (autos $ cylinders)

Finalmente, remova o atributo do quadro de dados com esta linha de código: >> autos $ carName <- nULL < Neste ponto, você terminou de preparar os dados para o processo de modelagem. O seguinte é uma visão da estrutura após o processo de preparação de dados: >> str (autos) 'dados. quadro ': 398 obs. de 8 variáveis: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ cilindros: fator w / 5 níveis "3", "4", "5", "6", …:

5 5 5 5 5 5 5 5 5 5 … $ deslocamento: num 307 350 318 304 302 429 454 440 455 390 … $ cavalo-vapor: num 130 165 150 150 140 198 220 215 225 190 … $ peso: num 3504 3693 3436 3433 3449 … $ aceleração: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear: Factor w / 13 níveis "70", "71", "72", …:

1 1 1 1 1 1 1 1 1 1 … $ origin: Factor w / 3 levels "1", "2", "3":

1 1 1 1 1 1 1 1 1 1 …

Como preparar os dados na regressão R para análises preditivas - dummies

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...