Lar Finanças Pessoais Aprendendo máquina: criando seus próprios recursos em dados - manequins

Aprendendo máquina: criando seus próprios recursos em dados - manequins

Índice:

Vídeo: GOOGLE CLOUD PLATFORM COMO USAR O QUE É WINDOWS SERVER LINUX UBUNTU DEBIAN COMPUTADOR VIRTUAL 2024

Vídeo: GOOGLE CLOUD PLATFORM COMO USAR O QUE É WINDOWS SERVER LINUX UBUNTU DEBIAN COMPUTADOR VIRTUAL 2024
Anonim

Às vezes, os dados brutos que você obteve de várias fontes não terão os recursos necessários para executar tarefas de aprendizagem de máquinas. Quando isso acontece, você deve criar seus próprios recursos para obter o resultado desejado. Criar um recurso não significa criar dados do ar. Você cria novos recursos a partir de dados existentes.

Compreendendo a necessidade de criar recursos

Uma grande limitação de algoritmos de aprendizado de máquina é que pode ser impossível adivinhar uma fórmula que possa vincular sua resposta aos recursos que você está usando. Às vezes, essa incapacidade de adivinhar acontece porque você não pode mapear a resposta usando as informações que você possui (o que significa que você não tem a informação certa). Em outros casos, as informações fornecidas não ajudam o algoritmo a aprender corretamente.

Por exemplo, se você estiver modelando o preço das propriedades imobiliárias, a superfície da terra é bastante preditiva porque as propriedades maiores tendem a custar mais. Mas se em vez da superfície, você fornece seu algoritmo de aprendizagem de máquina com o comprimento dos lados da terra (as coordenadas de latitude e longitude de seus cantos), seu algoritmo pode não descobrir o que fazer com as informações fornecidas. Alguns algoritmos conseguem encontrar a relação entre os recursos, mas a maioria dos algoritmos não será.

A resposta a este problema é a criação de recursos. A criação de recursos é aquela parte do aprendizado de máquina que é considerada mais uma arte do que uma ciência porque implica a intervenção humana na combinação criativa dos recursos existentes. Você executa essa tarefa por meio de adição, subtração, multiplicação e proporção para gerar novos recursos derivados com maior poder de previsão do que os originais.

Conhecer bem o problema e descobrir como um ser humano o resolveria é parte da criação de recursos. Então, conectando-se ao exemplo anterior, o fato de a superfície terrestre se conectar ao preço da propriedade é de conhecimento comum. Se a superfície estiver ausente de seus recursos ao tentar adivinhar o valor de uma propriedade, você pode recuperar essas informações dos dados existentes - e, assim, aumenta o desempenho das previsões.

Independentemente de confiar no senso comum, conhecimentos comuns ou conhecimentos especializados, você pode fazer muito pelo algoritmo da sua máquina se descobrir primeiro quais informações devem funcionar melhor para o problema e, em seguida, tente mantê-lo disponível ou obtenha-o de entre seus recursos.

Criando recursos automaticamente

Você pode criar alguns novos recursos automaticamente.Uma maneira de conseguir a criação automática de recursos é usar a expansão polinomial. Maneiras específicas estão disponíveis para alcançar a expansão polinomial para que você crie recursos automaticamente em R e Python. Por enquanto, você precisa entender os conceitos por trás da expansão polinomial.

Na expansão polinomial, você cria automaticamente interações entre recursos e também cria poderes (por exemplo, computa o quadrado de um recurso). As interações dependem da multiplicação dos recursos. Criar um novo recurso usando a multiplicação ajuda a acompanhar a forma como os recursos tendem a comportar-se como um todo. Portanto, ele ajuda a mapear relacionamentos complexos entre seus recursos que podem sugerir situações especiais.

Um excelente exemplo de uma interação é o ruído emitido por um carro e o preço do carro. Os consumidores não apreciam carros ruidosos, a menos que compram um carro esportivo, caso em que o ruído do motor é uma vantagem que lembra o proprietário do poder do carro. Ele também faz notar os transeuntes do carro legal, de modo que o ruído desempenha um papel excelente na exibição, porque o ruído certamente atrairá a atenção dos outros. Por outro lado, o ruído ao dirigir um carro familiar não é tão legal.

Em uma aplicação de aprendizagem de máquina, ao tentar prever a taxa de preferência para um determinado carro, características como o ruído e o preço do carro são preditivas por si mesmas. No entanto, multiplicar os dois valores e adicioná-los ao conjunto de recursos pode induzir inequivocamente a um algoritmo de aprendizagem que o alvo é um carro esportivo (quando você multiplica altos níveis de ruído por um preço alto).

Powers help, criando relações não-lineares entre a resposta e os recursos, sugerindo situações específicas.

Como outro exemplo, imagine que você precisa prever as despesas anuais de uma pessoa. A idade é um bom preditor porque, à medida que as pessoas envelhecem e amadurecem, sua vida e mudança de situação familiar também. Os alunos começam pobres, mas depois encontram trabalho e podem construir uma família. Do ponto de vista geral, as despesas tendem a crescer, assim como a idade até certo ponto. A aposentadoria geralmente marca um ponto em que as despesas tendem a diminuir. A idade contém essa informação, mas é uma característica que tende a crescer, e relacionar as despesas com seu crescimento não ajuda a descrever a inversão que ocorre em uma certa idade.

Adicionar o recurso quadrado ajuda a criar um contra-efeito para envelhecer, o que é pequeno no início, mas cresce rapidamente com a idade. O efeito final é uma parábola, com um crescimento inicial caracterizado por um pico de despesas em uma certa idade, e depois uma diminuição.

Como mencionado inicialmente, sabendo com antecedência, tais dinâmicas (ruído e automóveis esportivos, consumo e idade avançada) podem ajudá-lo a criar os recursos certos. Mas se você não conhece essas dinâmicas de antemão, a expansão polinomial as criará automaticamente para você porque, dada uma determinada ordem, ela criará interações e poderes dessa ordem. A ordem indicará o número de multiplicações e a potência máxima a ser aplicada aos recursos existentes.

Então, uma expansão polinomial da ordem 2 aumenta todos os recursos para a segunda potência e multiplica cada recurso por todos os outros. (Você obtém a multiplicação de todas as combinações de dois recursos). Claramente, quanto maior o número, mais novos recursos serão criados, mas muitos deles serão redundantes e apenas contribuem para tornar o algoritmo de aprendizado da máquina superado nos dados.

Ao usar expansão polinomial, você deve prestar atenção à explosão de recursos que você está criando. Os poderes aumentam linearmente, então, se você tiver cinco recursos e você precisa de uma expansão da ordem 2, cada recurso é aumentado até a segunda potência. Aumentar a ordem de um apenas adiciona um novo recurso de energia para cada característica original. Em vez disso, as interações aumentam com base nas combinações dos recursos até essa ordem.

De fato, com cinco recursos e uma expansão polinomial da ordem 2, são criadas as dez combinações únicas de acoplamento dos recursos. Aumentar a ordem para 3 exigirá a criação de todas as combinações únicas de duas variáveis, mais as combinações únicas de três variáveis, ou seja, 20 recursos.

Aprendendo máquina: criando seus próprios recursos em dados - manequins

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...