Índice:
- Noções básicas de tags para descrever itens
- Como medir a eficácia das recomendações do sistema
- precisão
Vídeo: Filtros no Weka 2024
Os sistemas de recomendação de análise preditiva baseados em conteúdo correspondem em grande parte a recursos (palavras-chave etiquetadas) entre itens similares e o perfil do usuário para fazer recomendações. Quando um usuário adquire um item que tenha marcado os recursos, os itens com recursos que correspondem aos do item original serão recomendados. Quanto mais características combinarem, maior será a probabilidade de o usuário desejar a recomendação. Este grau de probabilidade é chamado precisão.
Noções básicas de tags para descrever itens
Em geral, a empresa que faz a venda (ou o fabricante) geralmente marca seus itens com palavras-chave. No site da Amazon, no entanto, é bastante típico nunca ver as tags para qualquer item comprado ou visualizado - nem mesmo ser solicitado a marcar um item. Os clientes podem rever os itens que compraram, mas isso não é o mesmo que marcar.
Os itens de marcação podem representar um desafio de escala para uma loja como a Amazon que tem tantos itens. Além disso, alguns atributos podem ser subjetivos e podem ser rotulados incorretamente, dependendo de quem o marca. Uma solução que resolve o problema de escala é permitir que os clientes ou o público em geral rotulem os itens.
Para manter as tags gerenciáveis e precisas, um site aceitável pode fornecer um conjunto aceitável de tags. Somente quando um número adequado de usuários concorda (ou seja, use a mesma etiqueta para descrever um item), a etiqueta acordada será usada para descrever o item.
Aferição baseada em usuários, no entanto, apresenta outros problemas para um sistema de filtragem baseado em conteúdo (e filtragem colaborativa):
-
Credibilidade: Nem todos os clientes dizem a verdade (especialmente on-line) e os usuários que têm apenas um pequeno histórico de classificação pode distorcer os dados. Além disso, alguns fornecedores podem dar (ou encorajar outros a dar) classificações positivas aos seus próprios produtos, ao mesmo tempo em que dão avaliações negativas aos produtos de seus concorrentes.
-
Sparsity: Nem todos os itens serão classificados ou terão classificações suficientes para produzir dados úteis.
-
Inconsistência: Nem todos os usuários usam as mesmas palavras-chave para marcar um item, mesmo que o significado possa ser o mesmo. Além disso, alguns atributos podem ser subjetivos. Por exemplo, um visualizador de um filme pode considerá-lo curto enquanto outro diz que é muito longo.
Os atributos precisam de definições claras. Um atributo com limites muito poucos é difícil de avaliar; impondo muitas regras sobre um atributo pode estar pedindo aos usuários que façam muito trabalho, o que irá desencorajá-los de marcar itens.
A marcação da maioria dos itens em um catálogo de produtos pode ajudar a resolver o problema de início a frio que afeta a filtragem colaborativa.Por um tempo, no entanto, a precisão das recomendações do sistema será baixa até criar ou obter um perfil de usuário.
Aqui está uma matriz de amostra de clientes e seus itens comprados, mostra um exemplo de filtragem baseada em conteúdo.
Itens | Característica 1 | Característica 2 | Característica 3 | Característica 4 | Característica 5 |
---|---|---|---|---|---|
Item 1 | X | X | |||
Item 2 | X | X | |||
Item 3 | X | X | X | ||
Item 4 | X | X | X | ||
Item 5 | X > X | X | Aqui, se um usuário gosta do recurso 2 - e isso é gravado em seu perfil - o sistema recomendará todos os itens que possuem o recurso 2 neles: Item 1, Item 2 e Item 4. > Esta abordagem funciona mesmo se o usuário nunca comprou ou revisou um item. O sistema apenas procurará no banco de dados do produto para qualquer item que tenha sido marcado com o recurso 2. Se (por exemplo) um usuário que procura filmes com Audrey Hepburn - e essa preferência aparece no perfil do usuário - o sistema irá recomendar todos os filmes que apresentam Audrey Hepburn para este usuário. |
Este exemplo, no entanto, expõe rapidamente uma limitação da técnica de filtragem baseada em conteúdo: o usuário provavelmente já conhece todos os filmes em que Audrey Hepburn esteve ou pode facilmente descobrir - por isso, do ponto de vista desse usuário, o sistema não recomendou nada de novo ou de valor.
Como melhorar a precisão com feedback constante
Uma maneira de melhorar a precisão das recomendações do sistema é pedir aos clientes feedback sempre que possível. A coleta de comentários dos clientes pode ser feita de muitas maneiras diferentes, através de múltiplos canais. Algumas empresas pedem ao cliente que avalie um item ou serviço após a compra. Outros sistemas fornecem links de estilo de mídia social para que os clientes possam "curtir" ou "não gostar" de um produto. Interação constante entre
Como medir a eficácia das recomendações do sistema
O sucesso das recomendações de um sistema depende de quão bem ele atende a dois critérios:
precisão
(pense nisso como um conjunto de correspondências perfeitas - geralmente um pequeno conjunto) e recorde (pense nisso como um conjunto de possíveis correspondências - geralmente um conjunto maior). Aqui está um olhar mais atento: Precisão mede a precisão da recomendação do sistema. A precisão é difícil de medir porque pode ser subjetiva e difícil de quantificar. Por exemplo, quando um usuário primeiro visita o site Amazon, a Amazon pode saber com certeza se suas recomendações estão no alvo?
-
Algumas recomendações podem se conectar com os interesses do cliente, mas o cliente ainda não pode comprar. A maior confiança de que uma recomendação é precisa vem de provas claras: o cliente compra o item. Alternativamente, o sistema pode solicitar explicitamente ao usuário avaliar suas recomendações. Recall
mede o conjunto de possíveis recomendações boas que seu sistema apresenta. Pense em recordar como um inventário de possíveis recomendações, mas nem todas elas são recomendações perfeitas. Geralmente, existe uma relação inversa com a precisão e o recall. Ou seja, à medida que o relatorio aumenta, a precisão diminui e vice-versa.
-
O sistema ideal teria alta precisão e alta recordação. Mas, de forma realista, o melhor resultado é encontrar um equilíbrio delicado entre os dois. Enfatizar a precisão ou o recall realmente depende do problema que você está tentando resolver.