Vídeo: Vídeo 1 - Da Série Dicas de Machine Learning - Classificação de Times por Imagens 2024
A classificação da imagem requer uma quantidade significativa de recursos de processamento de dados, no entanto, que limitou a escala de implantações. A classificação da imagem é um tópico quente no mundo Hadoop porque nenhuma tecnologia convencional era capaz - até Hadoop surgir - de abrir portas para esse tipo de processamento caro em escala tão grande e eficiente.
A classificação da imagem começa com a noção de que você constrói um conjunto de treinamento e que os computadores aprendem a identificar e classificar o que eles estão procurando. Da mesma forma que ter mais dados ajuda a construir melhor detecção de fraude e modelos de risco, também ajuda os sistemas a classificar melhor as imagens.
Neste caso de uso, os dados são referidos como o conjunto de treinamento, bem como os modelos são classificadores. Classificadores reconhecem recursos ou padrões dentro de som, imagem ou vídeo e classificá-los adequadamente. Os classificadores são construídos e refinados iterativamente a partir de conjuntos de treinamento para que suas pontuações de precisão (uma medida de exatidão) e pontuação de recall (uma medida de cobertura) sejam altas.
O Hadoop é adequado para a classificação da imagem porque fornece um ambiente de processamento massivamente paralelo para não apenas criar modelos classificadores (iterando sobre conjuntos de treinamento), mas também fornecer uma escalabilidade quase ilimitada para processar e executar esses classificadores em conjuntos maciços de volumes de dados não estruturados.
Considere fontes multimídia como YouTube, Facebook, Instagram e Flickr - todas são fontes de dados binários não estruturados. A figura mostra uma maneira de usar o Hadoop para dimensionar o processamento de grandes volumes de imagens armazenadas e de vídeo para classificação semântica de multimídia.
Você pode ver como todos os conceitos relacionados ao framework de processamento Hadoop são aplicados a esses dados. Observe como as imagens são carregadas no HDFS. Os modelos de classificador, construídos ao longo do tempo, agora são aplicados aos componentes de recursos de imagem adicionais na fase de Mapa desta solução. Como você pode ver no canto inferior direito, a saída deste processamento consiste em classificações de imagem que variam de desenhos animados a esportes e locais, entre outros.
Hadoop também pode ser usado para análise de áudio ou voz. Um cliente da indústria de segurança com quem trabalhamos cria um sistema de classificação de áudio para classificar os sons que são ouvidos através de cabos de fibra óptica enriquecidos acústicamente colocados ao redor do perímetro de reatores nucleares.
Por exemplo, este sistema sabe classificar quase instantaneamente o sussurro do vento em comparação com o sussurro de uma voz humana ou distinguir o som de passos humanos que correm nos parques perimétricos do que da vida selvagem.
Esta descrição pode ter uma forma de Star Trek sentir, mas agora você pode ver exemplos ao vivo. Na verdade, a IBM torna público um dos maiores sistemas de classificação de imagens do mundo, através do IBM Multimedia Analysis and Retrieval System (IMARS).
Aqui estão o resultado de uma pesquisa IMARS para o termo esqui alpino. Na parte superior da figura, você pode ver os resultados dos classificadores mapeados para o conjunto de imagens que foi processado pelo Hadoop, juntamente com uma nuvem de tag associada.
Observe o classificador pai mais grosseiramente definido, em oposição ao mais granular. Na verdade, observe as várias camadas de classificação: rola para dentro, o qual rola em - tudo gerado automaticamente pelo modelo classificador, construído e marcado usando o Hadoop.
Nenhuma dessas imagens possui metadados adicionados. Ninguém abriu o iPhoto e marcou uma imagem como esporte de inverno para que apareça nesta classificação. É o classificador do desporto de inverno que foi construído para reconhecer atributos de imagem e características de esportes que são jogados em uma configuração de inverno.
A classificação da imagem tem muitas aplicações, e ser capaz de realizar essa classificação em grande escala usando Hadoop abre mais possibilidades de análise, pois outras aplicações podem usar as informações de classificação geradas para as imagens.
Veja este exemplo da indústria da saúde. Uma grande agência de saúde na Ásia estava focada na entrega de cuidados de saúde através de clínicas móveis a uma população rural distribuída em uma grande massa terrestre. Um problema significativo que a agência enfrentou foi o desafio logístico de analisar os dados de imagens médicas que foram gerados em suas clínicas móveis.
Um radiologista é um recurso escasso nesta parte do mundo, então fazia sentido transmitir eletronicamente as imagens médicas para um ponto central e ter um exército de médicos para examiná-las. Os médicos examinando as imagens foram rapidamente sobrecarregados, no entanto.
A agência está trabalhando agora em um sistema de classificação para ajudar a identificar possíveis condições para fornecer efetivamente sugestões para que os médicos verifiquem. O teste precoce mostrou esta estratégia para ajudar a reduzir o número de diagnósticos perdidos ou imprecisos, economizando tempo, dinheiro e, acima de tudo, vidas.