Vídeo: Curso Access 2013, Propiedades de los Campos: Tamaño de un Campo de Texto y Título de un Campo. 2024
Várias empresas estão investindo pesadamente para gerar projetos de código aberto e soluções proprietárias para acesso SQL aos dados Hadoop. Quando você ouve o termo acesso SQL, , você deve saber que está confiando em alguns pressupostos básicos:
-
Padrões de idioma: O padrão mais importante, é claro, implica o próprio idioma. Existem muitas soluções "semelhantes a SQL", embora geralmente não estejam de acordo com determinadas formas fundamentais - maneiras que evitariam que as típicas instruções SQL funcionassem.
O American National Standards Institute (ANSI) estabeleceu o SQL como um padrão técnico oficial e a indústria de TI aceita o padrão ANSI SQL-92 como representando o benchmark para conformidade SQL básica. A ANSI lançou uma série de versões progressivamente mais avançadas ao longo dos anos à medida que as tecnologias de banco de dados evoluíram.
-
Drivers: Outro componente-chave de uma solução de acesso SQL é o driver - a interface para que as aplicações se conectem e troquem dados com o armazenamento de dados. Sem um driver, não há nenhuma interface SQL para qualquer aplicativo cliente ou ferramentas para se conectar para a submissão de consultas SQL.
Como tal, qualquer solução SQL on Hadoop deve ter controladores JDBC e ODBC pelo menos, porque são as tecnologias de interface de banco de dados mais usadas.
-
Acesso em tempo real: Até o Hadoop 2, a execução baseada em MapReduce foi a única opção disponível para análise contra dados armazenados no Hadoop. Para consultas relativamente simples envolvendo uma verificação completa de dados em uma tabela, o Hadoop foi bastante rápido em comparação com um banco de dados tradicional relacional.
Tenha em mente que este é um caso de uso de análise de lote, onde rápido pode significar horas, dependendo da quantidade de dados envolvidos. Mas quando se tratava de consultas mais complexas, envolvendo subconjuntos de dados, Hadoop não fez bem. MapReduce é uma estrutura de processamento em lote, portanto, alcançar alto desempenho para consultas em tempo real antes do Hadoop 2 ser arquitetonicamente impossível.
Um motivador inicial para o YARN, o novo sistema de gerenciamento e agendamento de recursos no bloco, era essa necessidade de suportar outras estruturas de processamento para permitir cargas de trabalho em tempo real, como consultas SQL interativas. Na verdade, uma solução SQL adequada não deve deixar as pessoas à espera de consultas razoáveis.
-
Dados mutáveis: Uma questão comum em muitas discussões em torno do suporte SQL no Hadoop é "Podemos usar, e declarações, como seríamos capazes de fazer em um banco de dados relacional típico? "Por enquanto, a resposta é não, que reflete a natureza do HDFS - está focada em arquivos grandes e imutáveis.Tecnologias como o Hive oferecem acesso somente leitura a esses arquivos. Independentemente disso, o trabalho está em andamento no projeto Hive Apache.