Lar Finanças Pessoais Como preparar os dados na regressão R para análises preditivas - dummies

Como preparar os dados na regressão R para análises preditivas - dummies

Vídeo: GRINGS - Correlação e Regressão linear - aula 22 2025

Vídeo: GRINGS - Correlação e Regressão linear - aula 22 2025
Anonim

Você precisa obter os dados em um formulário que o algoritmo pode usar para construir um modelo analítico preditivo. Para fazer isso, você precisa levar algum tempo para entender os dados e conhecer a estrutura dos dados. Digite a função para descobrir a estrutura dos dados. O comando e a saída são assim: >> str (autos) 'dados. quadro ': 398 obs. de 9 variáveis: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 … $ V8: int 1 1 1 1 1 1 1 1 1 … $ V9: Factor w / 305 níveis "amc ambassador brougham" …:

50 37 232 15 162 142 55 224 242 2 … 

Ao olhar para a estrutura, você pode dizer que há preparação e limpeza de dados para fazer. Aqui está uma lista das tarefas necessárias:

Renomeie os nomes das colunas.
  • Isso não é estritamente necessário, mas para os propósitos deste exemplo, é melhor usar nomes de colunas que você possa entender e lembrar.

    Altere o tipo de dados de V4 (

  • cavalo-vapor ) para um tipo de dados numérico . Neste exemplo, o cavalo-força é um valor numérico contínuo e não um tipo de dados de caracteres.

    Manipular valores faltantes.

  • Aqui a potência possui seis valores faltantes.

    Mude os atributos que possuem valores discretos para fatores.

  • Aqui os cilindros, o ano do modelo e a origem possuem valores discretos.

    Descarte o atributo V9 (

  • nome do carro ). Aqui o nome do carro não adiciona valor ao modelo que você está criando. Se o atributo de origem não fosse dado, você poderia ter derivado a origem do atributo do nome do carro.

    Para renomear as colunas digite o seguinte código: >> colnames (autos) <-

c ("mpg", "cilindros", "deslocamento", "cavalo-vapor", "peso", "aceleração", "modelYear", "origem",

"carName") 

Em seguida, altere o tipo de dados de potência para numérico com o seguinte código: >> autos $ horsepower <- Como. numérico (autos $ cavalo-vapor)

O programa irá reclamar porque nem todos os valores em potência foram representações de seqüência de números. Havia alguns valores faltantes que foram representados como "? " personagem. Isso está bem agora porque R converte cada instância de? em NA.

Uma maneira comum de lidar com os valores em falta de variáveis ​​contínuas é substituir cada valor faltante pela média da coluna inteira. A seguinte linha de código faz isso: >> autos $ horsepower [is.na (autos $ horsepower)] <- significa (autos $ horsepower, na.rm = TRUE)

É importante ter na. rm-TRUE na função média. Ele informa a função de não usar colunas com valores nulos em sua computação. Sem ele, a função retornará.

Em seguida, altere os atributos com valores discretos para fatores. Três atributos foram identificados como discretos. As três linhas de código a seguir alteram os atributos. >> autos $ origin autos $ modelYear autos $ cylinders <- factor (autos $ cylinders)

Finalmente, remova o atributo do quadro de dados com esta linha de código: >> autos $ carName <- nULL < Neste ponto, você terminou de preparar os dados para o processo de modelagem. O seguinte é uma visão da estrutura após o processo de preparação de dados: >> str (autos) 'dados. quadro ': 398 obs. de 8 variáveis: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ cilindros: fator w / 5 níveis "3", "4", "5", "6", …:

5 5 5 5 5 5 5 5 5 5 … $ deslocamento: num 307 350 318 304 302 429 454 440 455 390 … $ cavalo-vapor: num 130 165 150 150 140 198 220 215 225 190 … $ peso: num 3504 3693 3436 3433 3449 … $ aceleração: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear: Factor w / 13 níveis "70", "71", "72", …:

1 1 1 1 1 1 1 1 1 1 … $ origin: Factor w / 3 levels "1", "2", "3":

1 1 1 1 1 1 1 1 1 1 …

Como preparar os dados na regressão R para análises preditivas - dummies

Escolha dos editores

Noções básicas do arquivo de dados Flashback da Oracle 12c - dummies

Noções básicas do arquivo de dados Flashback da Oracle 12c - dummies

O Flashback Data Archive do oracle 12c é um mecanismo de banco de dados que permite que você para armazenar periodicamente ou indefinidamente todas as versões de linha em uma tabela ao longo da sua vida útil. Você pode então escolher uma hora para ver os dados como existia em um ponto específico. Esteja ciente de que o Flashback Data Archive é um recurso licenciado. ...

Noções básicas de clusters de aplicativos reais do Oracle 12c - manequins

Noções básicas de clusters de aplicativos reais do Oracle 12c - manequins

Se você visitou os sites da Oracle nos últimos 12 anos , você viu o byline de marketing: "Inquebrável. "Essa linha de tag refere-se ao recurso Real Application Clusters (RAC). Claro, muitos elementos estão envolvidos, mas o RAC tem o destaque. O RAC é a solução de clustering de banco de dados Oracle. Em certo sentido, funciona na teoria de que ...

Noções básicas de Redo Log Files no Oracle 12c - dummies

Noções básicas de Redo Log Files no Oracle 12c - dummies

Redo os arquivos de log armazenam as informações do buffer de log no banco de dados Oracle 12c. Eles são escritos pelo Log Writer (LGWR). Mais uma vez, você não pode ler esses arquivos binários sem a ajuda do software de banco de dados. Normalmente, os arquivos de reto de log são nomeados com a extensão. LOG ou. RDO. Pode ser qualquer coisa que você queira, ...

Escolha dos editores

São orgasmos ok durante a gravidez? - Dummies

São orgasmos ok durante a gravidez? - Dummies

As mulheres grávidas não só têm permissão para fazer sexo, mas muitas vezes o desejam. Mas é bom aproveitar a relação sexual com o ponto do orgasmo? Afinal, os orgasmos são nada mais do que contrações - e as pessoas sugeriram que isso poderia desencadear mão-de-obra. Isso é apenas um mito. De fato, grávida ...

Alimentando a Multidão em uma Reunião Familiar - manequins

Alimentando a Multidão em uma Reunião Familiar - manequins

Cozinhando uma refeição para um grande grupo (reunião familiar ou de outra forma ) requer planejamento e resistência. Aqui está um guia útil para quantidades de alimentos e segurança alimentar, e conselhos sobre a organização de uma festa de potluck. Planejando para potlucks A forma mais comum de comestibles de grupo é uma festa de potluck - qual é a maneira mais barata e fácil de ...

Anatomia do Penis humano - dummies

Anatomia do Penis humano - dummies

Sabendo como as funções de um pénis podem fornecer uma visão útil do sexo e do corpo humano - se você quer entender o pénis e a anatomia masculina melhor ou aprender sobre isso pela primeira vez. Basicamente, um pênis é composto de três estruturas, que são feitas de um material esponjoso que pode preencher com sangue: ...

Escolha dos editores

Como lidar com outliers causados ​​por Forças externas - manequins

Como lidar com outliers causados ​​por Forças externas - manequins

Certifique-se de verificar atentamente os outliers antes eles influenciam sua análise preditiva. Os outliers podem distorcer a análise de dados e dados. Por exemplo, qualquer análise estatística feita com dados que deixa outliers no lugar acaba por desviar os meios e variâncias. Os outliers não controlados ou mal interpretados podem levar a conclusões falsas. Diga os seus dados que ...

Como criar um modelo de análise preditiva com regressão R - manequins

Como criar um modelo de análise preditiva com regressão R - manequins

Você deseja criar um preditivo modelo de análise que você pode avaliar usando resultados conhecidos. Para fazer isso, vamos dividir nosso conjunto de dados em dois conjuntos: um para treinar o modelo e outro para testar o modelo. Uma divisão 70/30 entre treinamento e testes de conjuntos de dados será suficiente. As próximas duas linhas de código ...

Como definir objetivos de negócios para um modelo de análise preditiva - dummies

Como definir objetivos de negócios para um modelo de análise preditiva - dummies

Um modelo de análise preditiva visa resolvendo um problema comercial ou realizando um resultado comercial desejado. Esses objetivos comerciais se tornam os objetivos do modelo. Conhecer aqueles garante o valor comercial do modelo que você constrói - o que não deve ser confundido com a precisão do modelo. Hipotéticamente, você pode construir um modelo preciso para ...