Middleware Services: Data Quality Assurance - dummies

Você deve estabelecer dois serviços diferentes de garantia de qualidade (QA) no fluxo de serviços de middleware. Você deve executar as primeiras tarefas de QA contra o extrato da fonte de dados antes de executar mais serviços de middleware.

Garantia de qualidade de dados: parte I

Tente capturar (e corrigir) erros e problemas tão cedo quanto possível no processo. A transferência de dados para baixo do encanamento em direção ao data warehouse é inútil se os problemas forem tão significativos que eles exigem muito mais esforços para corrigir mais tarde no processo ou simplesmente não podem ser corrigidos.

Então, quais tipos de problemas você deve procurar? Aqui estão alguns:

Valores em elementos de dados que excedem um alcance razoável: Um cliente enviou 150 milhões de pedidos no mês passado, por exemplo, ou um funcionário trabalhou com a empresa por 4, 297 anos, de acordo com o banco de dados de funcionários e a data de contratação armazenada.
Valores em elementos de dados que não correspondem à lista oficial e completa de valores permitidos: Um valor pode ter um código A, por exemplo, quando os únicos valores permitidos para esse campo são M e F. (Se esse campo foi rotulado como GÉNERO, A pode significar andrógino!)
Inconsistências entre tabelas: Para entradas na tabela CUSTOMER_ORDER, nenhuma entrada correspondente (conforme identificado por CUSTOMER_ID) existe no CUSTOMER_MASTER_TABLE.
Incoerências entre campos: Registros que têm um estado ou código postal incorreto para a cidade indicada.
Valores faltantes: Registros que têm valores em falta em certos campos onde devem ter conteúdo.
Lacunas de dados: Por exemplo, uma tabela de origem deve conter uma linha de dados que inclui o total de unidades vendidas e os dólares de vendas para cada mês nos últimos dois anos. Para um grande número de clientes, no entanto, não existem linhas por pelo menos um desses meses.
Dados incompletos: Se a informação sobre cada produto que a empresa vende é suposto estar disponível, por exemplo, todos os produtos estão incluídos no extrato?
Violações das regras de negócios: Se uma regra comercial declara que apenas um atacadista pode vender produtos a qualquer um dos clientes da empresa, você deve verificar se os registros de clientes indicam vendas feitas através de mais de um atacadista, o que pode indicar dados incorretos na fonte.
Corrupção de dados desde o último extracto: Se a extração ocorrer mensalmente, por exemplo, você deve acompanhar os valores de dados ou somas que devem ser constantes, como VENDAS POR CLIENTE POR MÊS.Se, num mês subseqüente, o valor de VENDAS POR CLIENTE POR MÊS muda para um determinado cliente por um mês anterior, os dados subjacentes podem ter sido corrompidos.
inconsistências de ortografia: O nome de um cliente é escrito de várias maneiras diferentes, por exemplo.

O que você faz quando você encontra problemas? Você pode tentar uma das seguintes técnicas:

Aplicar uma regra de correção automática. Quando você encontra uma ortografia inconsistente, por exemplo, faça uma pesquisa em uma tabela principal de correções ortográficas anteriores e faça automaticamente a alteração nos dados.
Deixar de lado o registro de um membro da equipe para analisar e corrigir mais tarde. Neste caso, você pode fazer a parte humana do QA em conjunto com a correção automática.

Por exemplo, correções automáticas são feitas, se possível, e um relatório sobre outros problemas é colocado em um arquivo separado e enviado para a pessoa de QA. Quando a pessoa QA faz todas as correções manuais, você mescla as correções de volta aos dados que passaram pelo processo de QA automático.
Refrigere seus jatos. Se você descobrir problemas suficientes que são sérios ou requerem uma quantidade indeterminada de pesquisa, considere interromper todo o processo até depois de encontrar e solucionar o problema.

Você pode tornar o processo de QA muito mais eficiente, e muito menos problemático, se você executar uma análise completa de sistemas de origem. Se você tem uma boa idéia sobre os tipos de problemas de dados que você pode encontrar em cada fonte de dados, você pode reprogramar seu processo de controle de qualidade para detectar e (espero) corrigir esses problemas antes de continuar.

Historicamente, as organizações trataram o processo de QA do data warehouse como um fluxo unidirecional. Os problemas são corrigidos antes que os dados sejam movidos para o fluxo de processos de middleware, mas nunca são corrigidos nas fontes de dados. A maioria dos novos armazéns de dados tem um loop de feedback incorporado do processo de QA que corrige os problemas de qualidade de dados nos dados de origem.

Garantia da qualidade dos dados: parte II

Após a conclusão dos processos de transformação, os dados devem ser QA'd - novamente. Você nunca sabe que tipo de erros ou discrepâncias o processo de transformação pode ter introduzido nos dados. Após a ocorrência de alterações, qualquer processo de QA anterior não é mais válido.

Execute os dados consolidados e transformados através do mesmo tipo de etapas de QA discutidas aqui. Embora você provavelmente não encontre tantos erros rudimentares (como erros ortográficos ou valores que estão fora do alcance), se você fez um trabalho minucioso em seu QA de primeiro nível, você ainda quer se certificar. Além disso, assegure-se de que o código ou os scripts utilizados para a transformação de dados não causaram acidentalmente novos erros.

O objetivo desse QA de segundo nível é garantir que seus dados consolidados e transformados estejam prontos para carregar no data warehouse - assim que ocorra mais um passo, se necessário.