Vídeo: ECVideoBiz 003 - Como tratar dados não estruturados? 2024
Parte dos dados grandes para manequins Cheat Sheet
Os dados não estruturados são diferentes dos dados estruturados na medida em que é A estrutura é imprevisível. Exemplos de dados não estruturados incluem documentos, e-mails, blogs, imagens digitais, vídeos e imagens de satélite. Também inclui alguns dados gerados por máquinas ou sensores. Na verdade, os dados não estruturados representam a maioria dos dados que estão nas instalações da sua empresa, bem como externos à sua empresa em fontes públicas privadas e públicas, como Twitter e Facebook.
No passado, a maioria das empresas não conseguiu capturar ou armazenar essa grande quantidade de dados. Era simplesmente muito caro ou muito esmagador. Mesmo que as empresas pudessem capturar os dados, eles não tinham as ferramentas para analisar facilmente os dados e usar os resultados para tomar decisões. Muito poucas ferramentas podem ter sentido essas vastas quantidades de dados. As ferramentas que existiam eram complexas de usar e não produziram resultados em um prazo razoável.
No final, aqueles que realmente queriam ir ao enorme esforço de analisar esses dados foram forçados a trabalhar com instantâneos de dados. Isso tem o efeito indesejável de perder eventos importantes porque eles não estavam em um instantâneo particular.
Uma abordagem que está sendo cada vez mais valorizada como forma de obter valor comercial a partir de dados não estruturados é análise de texto, o processo de análise de texto não estruturado, extraindo informações relevantes e transformando-a em informações estruturadas que podem então ser alavancado de várias maneiras. Os processos de análise e extração aproveitam as técnicas que se originaram em linguística computacional, estatística e outras disciplinas de ciência da computação.