Medindo semelhança entre vetores para aprendizado de máquina - dummies

Você pode comparar facilmente exemplos de seus dados usando cálculos se você pensa em cada um deles como um vetor. A seguinte informação descreve como medir a semelhança entre vetores para executar tarefas, como calcular a distância entre vetores para fins de aprendizagem.

Compreendendo a semelhança

Em uma forma vetorial, você pode ver cada variável em seus exemplos como uma série de coordenadas, cada uma apontando para uma posição em uma dimensão espacial diferente. Se um vetor tem dois elementos, isto é, ele tem apenas duas variáveis, trabalhar com ele é como verificar a posição de um item em um mapa usando o primeiro número para a posição no eixo Oriente-Oeste e o segundo no Norte- Eixo sul.

Exemplos de valores traçados como pontos em um gráfico.

Por exemplo, os números entre parênteses (1, 2) (3, 2) e (3, 3) são exemplos de pontos. Cada exemplo é uma lista ordenada de valores (chamada uma tupla) que pode ser facilmente localizada e impressa em um mapa usando o primeiro valor da lista para x (o eixo horizontal) e o segundo para y (o eixo vertical). O resultado é um diagrama de dispersão.

Se o seu conjunto de dados, na matriz, possui muitos recursos numéricos (as colunas), idealmente o número dos recursos representa as dimensões do espaço de dados, enquanto as linhas (os exemplos) representam cada um ponto, que matematicamente é um vetor. Quando seu vetor tem mais de dois elementos, a visualização torna-se problemática porque representar dimensões acima do terceiro não é fácil (afinal, vivemos em um mundo tridimensional).

No entanto, você pode se esforçar para transmitir mais dimensões por algum expediente, como usando o tamanho, a forma ou a cor para outras dimensões. Claramente, essa não é uma tarefa fácil, e muitas vezes o resultado está longe de ser intuitivo. No entanto, você pode entender a idéia de onde os pontos estarão em seu espaço de dados, ao imprimir sistematicamente muitos gráficos, considerando as dimensões dois a dois. Essas parcelas são chamadas de matrizes de placas de dispersão.

Não se preocupe com a multidimensionalidade. Você amplia as regras que você aprendeu em duas ou três dimensões para várias dimensões, portanto, se uma regra funciona em um espaço bidimensional, ela também funciona em uma múltipla. Portanto, todos os exemplos primeiro se referem a exemplos bidimensionais.

Distâncias de computação para aprender

Um algoritmo pode aprender usando vetores de números que usam medições de distância. Muitas vezes, o espaço implícito em seus vetores é uma métrica que é um espaço cujas distâncias respeitam certas condições específicas:

Não existem distâncias negativas e sua distância é zero somente quando o ponto de partida e o ponto final coincidem (chamado nongatividade).
A distância é a mesma que vai de um ponto para outro e vice-versa (chamada simetria).
A distância entre um ponto inicial e um final é sempre maior ou, no pior, a mesma distância, a distância que vai do ponto inicial para um terceiro e do final para o final (chamado desigualdade do triângulo < - o que significa que não há atalhos). As distâncias que medem um espaço métrico são a distância euclidiana, a distância de Manhattan e a distância de Chebyshev. Estas são todas as distâncias que podem se aplicar a vetores numéricos.

Distância euclidiana

A mais comum é a distância euclidiana, também descrita como a norma l2 de dois vetores (leia esta discussão sobre as normas l1, l2 e linfinity). Em um plano bidimensional, a distância euclidiana se refira como a linha recta que liga dois pontos, e você calcula como a raiz quadrada da soma da diferença quadrática entre os elementos de dois vetores. No traçado anterior, a distância euclidiana entre os pontos (1, 2) e (3, 3) pode ser calculada em R como sqrt ((1-3) ^ 2 + (2-3) ^ 2), o que resulta em um distância de aproximadamente 2. 236.

distância de Manhattan

Outra medida útil é a distância de Manhattan (também descrita como a norma l1 de dois vetores). Você calcula a distância de Manhattan, somando o valor absoluto da diferença entre os elementos dos vetores. Se a distância euclidiana marca a rota mais curta, a distância de Manhattan marca o percurso mais longo, parecido com as direções de um táxi movendo-se em uma cidade. (A distância também é conhecida como taxicab ou city-block distance.)

Por exemplo, a distância de Manhattan entre os pontos (1, 2) e (3, 3) é abs (1-3) e abs (2-3), o que resulta em 3.

distância Chebyshev

A distância Chebyshev ou a métrica máxima leva o máximo da diferença absoluta entre os elementos dos vetores. É uma medida de distância que pode representar como um rei se move no jogo de xadrez ou, na logística do armazém, as operações exigidas por um guindaste para mover uma caixa de um lugar para outro.

Na aprendizagem mecânica, a distância Chebyshev pode ser útil quando você tem muitas dimensões a considerar e a maioria deles é irrelevante ou redundante (em Chebyshev, você simplesmente escolhe aquele cuja diferença absoluta é a maior). No exemplo usado acima, a distância é simplesmente 2, o máximo entre (1-3) e abs (2-3).