Índice:
Vídeo: FIA | Origem e Aplicação do Big Data 2024
O termo dados estruturados geralmente se refere a dados que possuem um comprimento definido e um formato para grandes dados. Exemplos de dados estruturados incluem números, datas e grupos de palavras e números chamados strings . A maioria dos especialistas concorda que este tipo de dados representa cerca de 20% dos dados que estão lá fora. Os dados estruturados são os dados que você provavelmente usa para lidar. Geralmente é armazenado em um banco de dados.
Fontes de dados grandes estruturados
Embora isso possa parecer comercial como de costume, na realidade, os dados estruturados estão assumindo um novo papel no mundo dos grandes dados. A evolução da tecnologia fornece fontes mais recentes de dados estruturados que estão sendo produzidos - muitas vezes em tempo real e em grandes volumes. As fontes de dados são divididas em duas categorias:
-
Computador ou gerado por máquina: Os dados gerados por máquina geralmente se referem a dados criados por uma máquina sem intervenção humana.
-
Gerados por humanos: Este é um dado que os seres humanos, em interação com computadores, fornecem.
Alguns especialistas argumentam que existe uma terceira categoria que é um híbrido entre a máquina e o humano. No entanto, estamos preocupados com as duas primeiras categorias.
Os dados estruturados gerados por máquina podem incluir o seguinte:
-
Dados do sensor: Os exemplos incluem tags de ID de radiofrequência, medidores inteligentes, dispositivos médicos e dados do Sistema de Posicionamento Global. As empresas estão interessadas nisso para gerenciamento de cadeia de suprimentos e controle de estoque.
-
dados de log da web: Quando servidores, aplicativos, redes e assim por diante operam, capturam todos os tipos de dados sobre sua atividade. Isso pode representar enormes volumes de dados que podem ser úteis, por exemplo, para lidar com acordos de nível de serviço ou para prever brechas de segurança.
-
Dados do ponto de venda: Quando o caixa roda o código de barras de qualquer produto que você está comprando, todos os dados associados ao produto são gerados.
-
Dados financeiros: Muitos sistemas financeiros são agora programáticos; Eles são operados com base em regras predefinidas que automatizam os processos. Os dados de estoque de negociação são um bom exemplo disso. Contém dados estruturados, como o símbolo da empresa e o valor do dólar. Alguns desses dados são gerados por máquina, e alguns são gerados por humanos.
Exemplos de dados gerados por humanos estruturados podem incluir o seguinte:
-
Dados de entrada: Este é qualquer dado que um ser humano pode inserir em um computador, como nome, idade, renda, não-livre - responde as respostas da pesquisa, e assim por diante. Esses dados podem ser úteis para entender o comportamento básico do cliente.
-
Dados do clique: Os dados são gerados toda vez que você clica em um link em um site. Estes dados podem ser analisados para determinar o comportamento do cliente e os padrões de compra.
-
Dados relacionados ao jogo: Cada movimento que você faz em um jogo pode ser gravado. Isso pode ser útil para entender como os usuários finais se movem através de um portfólio de jogos.
Quando tomado em conjunto com milhões de outros usuários que enviam a mesma informação, o tamanho é astronômico. Além disso, grande parte desses dados tem um componente em tempo real que pode ser útil para entender os padrões que têm o potencial de prever resultados.
A linha inferior é que esse tipo de informação pode ser poderosa e pode ser utilizada para muitas finalidades.
O papel dos bancos de dados relacionais em dados grandes
A persistência de dados refere-se a como um banco de dados retém versões de si mesmo quando modificado. O grande avô de lojas de dados persistentes é o sistema de gerenciamento de banco de dados relacional . Em sua infância, a indústria de computação usou o que agora são considerados técnicas primitivas para a persistência de dados.
O modelo relacional foi inventado por Edgar Codd, um cientista da IBM, na década de 1970 e utilizado pela IBM, Oracle, Microsoft e outros. Ainda está em grande uso hoje e desempenha um papel importante na evolução dos grandes dados. Compreender o banco de dados relacional é importante porque outros tipos de bancos de dados são usados com grandes dados.
Em um modelo relacional, os dados são armazenados em uma tabela. Esta base de dados conteria um esquema - ou seja, uma representação estrutural do que está no banco de dados. Por exemplo, em um banco de dados relacional, o esquema define as tabelas, os campos nas tabelas e as relações entre os dois.
Os dados são armazenados em colunas, um cada para cada atributo específico. Os dados também são armazenados na linha. A primeira tabela armazena informações do produto; o segundo armazena informação demográfica. Cada um tem vários atributos. Cada tabela pode ser atualizada com novos dados, e os dados podem ser excluídos, lidos e atualizados. Isso geralmente é realizado em um modelo relacional usando uma linguagem de consulta estruturada (SQL).
Outro aspecto do modelo relacional usando SQL é que as tabelas podem ser consultadas usando uma chave comum. A chave comum nas tabelas é CustomerID.
Você pode enviar uma consulta, por exemplo, para determinar o gênero dos clientes que compraram um produto específico. Pode parecer algo assim:
Selecione CustomerID, State, Gender, Product from "demographic table", "product table" onde Product = XXYY