Vídeo: GRINGS - Correlação e Regressão linear - aula 22 2024
Você precisa obter os dados em um formulário que o algoritmo pode usar para construir um modelo analítico preditivo. Para fazer isso, você precisa levar algum tempo para entender os dados e conhecer a estrutura dos dados. Digite a função para descobrir a estrutura dos dados. O comando e a saída são assim: >> str (autos) 'dados. quadro ': 398 obs. de 9 variáveis: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 … $ V8: int 1 1 1 1 1 1 1 1 1 … $ V9: Factor w / 305 níveis "amc ambassador brougham" …:
50 37 232 15 162 142 55 224 242 2 …Ao olhar para a estrutura, você pode dizer que há preparação e limpeza de dados para fazer. Aqui está uma lista das tarefas necessárias:
-
Isso não é estritamente necessário, mas para os propósitos deste exemplo, é melhor usar nomes de colunas que você possa entender e lembrar.
Altere o tipo de dados de V4 (
-
cavalo-vapor ) para um tipo de dados numérico . Neste exemplo, o cavalo-força é um valor numérico contínuo e não um tipo de dados de caracteres.
Manipular valores faltantes.
-
Mude os atributos que possuem valores discretos para fatores.
-
Aqui os cilindros, o ano do modelo e a origem possuem valores discretos.
Descarte o atributo V9 (
-
nome do carro ). Aqui o nome do carro não adiciona valor ao modelo que você está criando. Se o atributo de origem não fosse dado, você poderia ter derivado a origem do atributo do nome do carro.
c ("mpg", "cilindros", "deslocamento", "cavalo-vapor", "peso", "aceleração", "modelYear", "origem",
"carName")Em seguida, altere o tipo de dados de potência para numérico com o seguinte código: >> autos $ horsepower <- Como. numérico (autos $ cavalo-vapor)
O programa irá reclamar porque nem todos os valores em potência foram representações de seqüência de números. Havia alguns valores faltantes que foram representados como "? " personagem. Isso está bem agora porque R converte cada instância de? em NA.
Uma maneira comum de lidar com os valores em falta de variáveis contínuas é substituir cada valor faltante pela média da coluna inteira. A seguinte linha de código faz isso: >> autos $ horsepower [is.na (autos $ horsepower)] <- significa (autos $ horsepower, na.rm = TRUE)
É importante ter na. rm-TRUE na função média. Ele informa a função de não usar colunas com valores nulos em sua computação. Sem ele, a função retornará.
Em seguida, altere os atributos com valores discretos para fatores. Três atributos foram identificados como discretos. As três linhas de código a seguir alteram os atributos. >> autos $ origin autos $ modelYear autos $ cylinders <- factor (autos $ cylinders)
Finalmente, remova o atributo do quadro de dados com esta linha de código: >> autos $ carName <- nULL < Neste ponto, você terminou de preparar os dados para o processo de modelagem. O seguinte é uma visão da estrutura após o processo de preparação de dados: >> str (autos) 'dados. quadro ': 398 obs. de 8 variáveis: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ cilindros: fator w / 5 níveis "3", "4", "5", "6", …:
5 5 5 5 5 5 5 5 5 5 … $ deslocamento: num 307 350 318 304 302 429 454 440 455 390 … $ cavalo-vapor: num 130 165 150 150 140 198 220 215 225 190 … $ peso: num 3504 3693 3436 3433 3449 … $ aceleração: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear: Factor w / 13 níveis "70", "71", "72", …:
1 1 1 1 1 1 1 1 1 1 … $ origin: Factor w / 3 levels "1", "2", "3":
1 1 1 1 1 1 1 1 1 1 …