Vídeo: Como é ser data scientist no Nubank 2024
Uma consideração primária ao empreender um grande projeto de dados é a quantidade projetada de tempo real e não real necessário para levar a cabo sua iniciativa. Dados importantes são muitas vezes sobre fazer coisas que não eram possíveis porque a tecnologia não estava suficientemente avançada ou o custo era proibitivo. A grande mudança acontecendo com grandes dados é a capacidade de alavancar enormes quantidades de dados sem toda a programação complexa exigida no passado.
Muitas organizações estão em um ponto de inflexão em termos de gerenciamento de grandes volumes de dados complexos. Grandes abordagens de dados ajudarão a manter as coisas em equilíbrio, de modo que as empresas não ultrapassem a margem à medida que o volume, a variedade e a velocidade dos dados mudam. As empresas tiveram dificuldade em gerenciar quantidades crescentes de dados que precisam ser gerenciados em altas velocidades.
As organizações tiveram que se contentar em analisar pequenos subconjuntos de dados, que muitas vezes não possuíam informações críticas para obter uma imagem completa que os dados poderiam revelar. À medida que as grandes tecnologias de dados evoluem e se implantam, as empresas poderão analisar os dados com maior facilidade e usá-lo para tomar decisões ou tomar medidas.
Os aspectos em tempo real dos grandes dados podem ser revolucionários quando as empresas precisam resolver problemas significativos. Qual é o impacto quando uma organização pode lidar com dados que são transmitidos em tempo real? Em geral, essa abordagem em tempo real é mais relevante quando a resposta a um problema é sensível ao tempo e crítica de negócios. Isso pode estar relacionado a uma ameaça a algo importante, como detectar o desempenho do equipamento hospitalar ou antecipar um potencial risco de intrusão.
A seguinte lista mostra exemplos de quando uma empresa deseja aproveitar esses dados em tempo real para obter uma vantagem rápida:
-
Monitoramento de uma exceção com uma nova informação, como fraude / inteligência
-
Monitorando feeds de notícias e mídias sociais para determinar eventos que podem afetar os mercados financeiros, como a reação de um cliente ao anúncio de um novo produto
-
Alterar o posicionamento do anúncio durante um grande evento esportivo baseado em fluxos de Twitter em tempo real
-
Fornecer um cupom para um cliente com base no que ele comprou no ponto de venda
Às vezes, a transmissão de dados está chegando de forma muito rápida e não inclui uma grande variedade de fontes, às vezes existe uma grande variedade, e às vezes é uma combinação de os dois.
A questão que você precisa perguntar a si mesmo se você está mudando para o tempo real é esta: esse problema (problema) pode ser resolvido com os recursos tradicionais de gerenciamento de informações ou você precisa de recursos mais novos?Será que o volume ou a velocidade vão sobrecarregar nossos sistemas? Muitas vezes, é uma combinação dos dois.
Então, se você precisa de recursos em tempo real, quais os requisitos da infra-estrutura para suportar isso? A lista a seguir destaca algumas coisas que você precisa considerar quanto a capacidade de um sistema para ingerir dados, processá-lo e analisá-lo em tempo real:
-
Latência baixa: A latência é a quantidade de intervalo de tempo que permite que um serviço executar em um ambiente. Algumas aplicações requerem menos latência, o que significa que elas precisam responder em tempo real. Um fluxo em tempo real exigirá baixa latência. Então, você precisa estar pensando em poder de computação, bem como em restrições de rede.
-
Escalabilidade: A escalabilidade é a capacidade de manter um certo nível de desempenho, mesmo sob cargas crescentes.
-
Versatilidade: O sistema deve suportar fluxos de dados estruturados e não estruturados.
-
Formato nativo: Use os dados em sua forma nativa. A transformação leva tempo e dinheiro. A capacidade de usar a idéia de processar interações complexas nos dados que desencadeiam eventos pode ser transformacional.
A necessidade de processar quantidades cada vez maiores de dados diferentes é um dos principais fatores que impulsionam a adoção de serviços na nuvem. O modelo da nuvem é de grande escala e distribuído.