Semelhança Métricas Usadas na Ciência dos Dados - manequins

Vídeo: A Revolução da Inteligência Artificial - Tim Urban, 2015 (Áudio TTS) 2024

O agrupamento e a classificação baseiam-se no cálculo da semelhança ou diferença entre dois pontos de dados. Se o seu conjunto de dados for numérico - composto de apenas campos e valores do número - e pode ser retratado em um gráfico n -dimensional, então existem várias métricas geométricas que você pode usar para dimensionar seu multidimensional dados.

Um gráfico n-dimensional é um gráfico de gráfico de dispersão multidimensional que você pode usar para plotar n número de dimensões de dados.

Algumas métricas geométricas populares usadas para calcular distâncias entre pontos de dados incluem métricas de distância Euclidiana, Manhattan ou Minkowski. Essas métricas são apenas funções geométricas diferentes que são úteis para modelar distâncias entre pontos. A métrica euclidiana é uma medida da distância entre os pontos traçados em um plano euclidiano.

A métrica de Manhattan é uma medida da distância entre os pontos onde a distância é calculada como a soma do valor absoluto das diferenças entre as coordenadas cartesianas de dois pontos. A métrica de distância Minkowski é uma generalização das métricas de distância euclidiana e Manhattan. Muitas vezes, essas métricas podem ser usadas de forma intercambiável.

Se os seus dados forem numéricos, mas não plotáveis (como curvas em vez de pontos), você pode gerar pontuações de similaridade com base em diferenças entre dados, em vez dos valores reais de os dados em si.

Por fim, para dados não numéricos, você pode usar métricas como a métrica de distância Jaccard, que é um índice que compara o número de recursos que dois pontos de dados têm em comum. Por exemplo, para ilustrar uma distância de Jaccard, pense nas duas seguintes cordas de texto: Saint Louis de Ha-ha, Quebec e St-Louis de Ha! Ha!, QC.

Que recursos essas cordas de texto têm em comum? E quais recursos são diferentes entre eles? A métrica Jaccard gera um valor de índice numérico que quantifica a semelhança entre as cadeias de texto.