Vídeo: CURSO DO MÉTODO DA INTEGRAÇÃO 2024
Os elementos fundamentais da grande plataforma de dados gerem dados de novas maneiras, em comparação com o banco de dados relacional tradicional. Isso é devido à necessidade de ter a escalabilidade e o alto desempenho necessários para gerenciar dados estruturados e desestruturados.
Os componentes do grande ecossistema de dados que variam de Hadoop a NoSQL DB, MongoDB, Cassandra e HBase têm sua própria abordagem para extrair e carregar dados. Como resultado, suas equipes podem precisar desenvolver novas habilidades para gerenciar o processo de integração nessas plataformas. No entanto, muitas das melhores práticas de gerenciamento de dados da sua empresa se tornarão ainda mais importantes à medida que você se mude para o mundo dos grandes dados.
Enquanto os grandes dados introduzem um novo nível de complexidade de integração, os princípios fundamentais básicos ainda se aplicam. Seu objetivo de negócios deve ser focado na entrega de qualidade e dados confiáveis para a organização no momento certo e no contexto certo.
Para garantir essa confiança, você precisa estabelecer regras comuns para a qualidade dos dados com ênfase na precisão e na integridade dos dados. Além disso, você precisa de uma abordagem abrangente para o desenvolvimento de metadados corporativos, acompanhando a linhagem de dados e a governança para apoiar a integração de seus dados.
Ao mesmo tempo, as ferramentas tradicionais para a integração de dados estão evoluindo para lidar com a crescente variedade de dados não estruturados e o crescente volume e velocidade dos grandes dados. Enquanto as formas tradicionais de integração assumem novos significados em um grande mundo de dados, suas tecnologias de integração precisam de uma plataforma comum que suporte a qualidade e o perfil dos dados.
Para tomar decisões comerciais sólidas com base em grandes análises de dados, essa informação precisa ser confiável e compreendida em todos os níveis da organização. Embora provavelmente não seja custo ou tempo efetivo estar excessivamente preocupado com a qualidade dos dados no estágio exploratório de uma grande análise de dados, eventualmente a qualidade e a confiança devem desempenhar um papel se os resultados forem incorporados no processo de negócios.
As informações devem ser entregues ao negócio de forma confiável, controlada, consistente e flexível em toda a empresa, independentemente dos requisitos específicos de sistemas ou aplicativos individuais. Para atingir este objetivo, aplicam-se três princípios básicos:
-
Você deve criar uma compreensão comum das definições de dados. Nos estágios iniciais da sua grande análise de dados, você provavelmente não terá o mesmo nível de controle sobre as definições de dados do que você faz com seus dados operacionais.No entanto, uma vez que você identificou os padrões que são mais relevantes para o seu negócio, você precisa da capacidade de mapear elementos de dados para uma definição comum.
-
Você deve desenvolver um conjunto de serviços de dados para qualificar os dados e torná-lo consistente e, em última análise, confiável. Quando suas fontes de dados não estruturadas e grandes são integradas com dados operacionais estruturados, você precisa ter certeza de que os resultados serão significativos.
-
Você precisa de uma maneira simplificada de integrar suas grandes fontes de dados e sistemas de registro. Para tomar boas decisões com base nos resultados da sua grande análise de dados, você precisa fornecer informações no momento certo e com o contexto certo. Seu grande processo de integração de dados deve garantir consistência e confiabilidade.
Para integrar dados em ambientes de aplicativos mistos, obtenha dados de um ambiente de dados (fonte) para outro ambiente de dados (destino). As tecnologias Extract, transform e load (ETL) têm sido usadas para realizar isso em ambientes tradicionais de data warehouse. O papel do ETL está evoluindo para lidar com novos ambientes de gerenciamento de dados como o Hadoop.
Em um grande ambiente de dados, talvez seja necessário combinar ferramentas que suportem processos de integração em lote (usando ETL) com integração e federação em tempo real em várias fontes. Por exemplo, uma empresa farmacêutica pode precisar misturar dados armazenados em seu sistema de gerenciamento de dados mestre (MDM) com grandes fontes de dados sobre os resultados médicos do uso de drogas nos clientes.
As empresas usam o MDM para facilitar a coleta, agregação, consolidação e entrega de dados consistentes e confiáveis de forma controlada em toda a empresa. Além disso, novas ferramentas como Sqoop e Scribe são usadas para suportar a integração de grandes ambientes de dados. Você também encontra uma ênfase cada vez maior no uso de tecnologias de extração, carga e transformação (ELT). Essas tecnologias são descritas a seguir.