Detecção de fraude com Hadoop - dummies

O grande volume de transações torna mais difícil detectar fraude devido ao volume de dados, ironicamente, esse mesmo desafio pode ajudar a criar melhores modelos preditivos de fraude - uma área onde Hadoop brilha.

No mundo interconectado de hoje, o volume e a complexidade das transações tornam mais difícil do que nunca encontrar fraude. O que costumava ser chamado de "encontrar uma agulha em um palheiro" tornou-se tarefa de "encontrar uma agulha específica em pilhas de agulhas". "

As abordagens tradicionais para prevenção de fraudes não são particularmente eficientes. Por exemplo, o gerenciamento de pagamentos inadequados geralmente é gerenciado por analistas que auditam o que equivale a uma amostra muito pequena de reclamações emparelhadas com a solicitação de documentação médica de autores direcionados. O termo da indústria para este modelo é o pagamento e a perseguição: os pedidos são aceitos e pagos e os processos procuram pagamentos excessivos intencionais ou não intencionais, mediante revisão pós-pagamento desses créditos.

Então, como é feita a detecção de fraudes agora? Devido às limitações das tecnologias tradicionais, os modelos de fraude são construídos por meio de dados de amostragem e usando a amostra para construir um conjunto de modelos de previsão de fraude e de detecção. Quando você contrasta este modelo com um departamento de fraude Hadoop-anchored que usa o conjunto de dados completo - sem amostragem - para construir os modelos, você pode ver a diferença.

O tema recorrente mais comum que você vê na maioria dos casos de uso da Hadoop é que ele ajuda o negócio a superar o teto de vidro sobre o volume e variedade de dados que podem ser incorporados na análise de decisões. Quanto mais dados você tiver (e quanto mais você estiver armazenando), melhor será o seu modelo.

A mistura de formas não tradicionais de dados com seu conjunto de transações históricas pode tornar seus modelos de fraude ainda mais robustos. Por exemplo, se um trabalhador fizer um pedido de indemnização do trabalhador por uma parte traseira ruim de um incidente de deslizamento e queda, ter um pool de milhões de casos de resultados do paciente que detalha o tratamento eo tempo de recuperação ajuda a criar um padrão de detecção de fraude.

Como um exemplo de como esse modelo pode funcionar, imagine tentar descobrir se os pacientes em áreas rurais recuperam mais lentamente do que aqueles em áreas urbanas. Você pode começar examinando a proximidade com os serviços de fisioterapia. Existe uma correlação padrão entre tempos de recuperação e localização geográfica?

Se seu departamento de fraude determinar que uma certa lesão demora três semanas de recuperação, mas que um agricultor com o mesmo diagnóstico vive uma hora de um fisioterapeuta e o trabalhador de escritório tem um profissional em seu escritório, essa é outra variável para aumentar a fraude - padrão de detecção.

Quando você colhe dados da rede social para os requerentes e encontrar um paciente que afirma estar sofrendo de chicotadas se orgulha de completar a robusta série de eventos de resistência conhecido como Tough Mudder, é um exemplo de misturar novos tipos de dados com formas de dados tradicionais para detectar fraudes.

Se você quiser chutar seus esforços de detecção de fraude em uma engrenagem mais alta, sua organização pode trabalhar para se afastar da modelagem de segmento de mercado e se mover para a modelagem em nível de transação ou na pessoa.

Simplesmente, fazer uma previsão com base em um segmento é útil, mas tomar uma decisão com base em informações específicas sobre uma transação individual é (obviamente) melhor. Para fazer isso, você trabalha um conjunto maior de dados do que é convencionalmente possível na abordagem tradicional. Somente (um máximo de) 30% da informação disponível que pode ser útil para modelagem de fraude está sendo usada.

Para criar modelos de detecção de fraude, o Hadoop é adequado para

Volume de controle: Isso significa processar o conjunto de dados completo - sem amostragem de dados.
Gerenciar novas variedades de dados: Exemplos são a inclusão de serviços de proximidade-atendimento e círculos sociais para decorar o modelo de fraude.
Manter um ambiente ágil: Permitir diferentes tipos de análise e alterações em modelos existentes.

Os modeladores de fraude podem adicionar e testar novas variáveis para o modelo sem ter que fazer uma proposta para a equipe de administrador do banco de dados e aguarde um par de semanas para aprovar uma alteração de esquema e colocá-la em seu ambiente.

Este processo é crítico para a detecção de fraude porque os ambientes dinâmicos comumente apresentam padrões de fraude cíclica que ocorrem em horas, dias ou semanas. Se os dados utilizados para identificar ou reforçar novos modelos de detecção de fraude não estão disponíveis em momento prévio, no momento em que você descobre esses novos padrões, pode ser muito tarde para evitar danos.

Avalie o benefício ao seu negócio, não só construindo modelos mais abrangentes com mais tipos de dados, mas também atualizando e aprimorando esses modelos mais rapidamente do que nunca. A empresa que pode atualizar e aprimorar modelos diariamente será melhor do que aqueles que fazem isso trimestralmente.

Você pode acreditar que este problema tem uma resposta simples: apenas pergunte ao seu CIO as despesas operacionais (OPEX) e as aprovações de investimento (CAPEX) para acomodar mais dados para criar melhores modelos e carregar os outros 70% dos dados em seu modelos de decisão.

Você pode até acreditar que este investimento pagará por si mesmo com melhor detecção de fraude; no entanto, o problema com esta abordagem é o alto custo inicial que precisa ser afundado em dados desconhecidos , onde você não sabe se contém alguma visão verdadeiramente valiosa.

Claro, triplicar o tamanho do seu data warehouse, por exemplo, lhe dará mais acesso a dados históricos estruturados para afinar seus modelos, mas eles não podem acomodar rajadas de redes sociais. As tecnologias tradicionais também não são tão ágeis. O Hadoop facilita a introdução de novas variáveis no modelo, e se eles acabam por não produzir melhorias no modelo, você pode simplesmente descartar os dados e seguir em frente.