Vídeo: Curso Python #01 - Seja um Programador 2024
A interação com dados de uma única fonte é um problema; interagindo com dados de várias fontes é bastante outro. No entanto, os conjuntos de dados hoje em dia geralmente vêm de mais de uma fonte, então você precisa entender as complicações que o uso de múltiplas fontes de dados pode causar. Ao trabalhar com várias fontes de dados, você deve fazer o seguinte:
- Determine se ambos os conjuntos de dados contêm todos os dados necessários. É improvável que dois designers criem conjuntos de dados que contenham precisamente os mesmos dados, no mesmo formato, do mesmo tipo e na mesma ordem. Consequentemente, você precisa considerar se os conjuntos de dados fornecem os dados que você precisa ou se você precisa corrigir os dados de alguma forma para obter o resultado desejado.
- Verifique os dois conjuntos de dados para problemas de tipo de dados. Um conjunto de dados poderia ter entradas de datas como strings, e outro poderia ter as datas inseridas como objetos de data real. As inconsistências entre os tipos de dados causarão problemas para um algoritmo que espera dados de uma forma e o recebe em outro.
- Certifique-se de que todos os conjuntos de dados tenham o mesmo significado em elementos de dados. Os dados criados por uma fonte podem ter um significado diferente dos dados criados por outra fonte. Por exemplo, o tamanho de um inteiro pode variar entre fontes, então você pode ver um inteiro de 16 bits de uma fonte e um inteiro de 32 bits de outro. Os valores inferiores têm o mesmo significado, mas o inteiro de 32 bits pode conter valores maiores, o que pode causar problemas com o algoritmo. As datas também podem causar problemas porque muitas vezes dependem de armazenar tantos milissegundos desde uma determinada data (como o JavaScript, que armazena o número de milissegundos desde 01 de janeiro de 1970 UTC). O computador vê apenas números; Os humanos adicionam significado a esses números para que os aplicativos os interpretem de maneira específica.
- Verifique os atributos de dados. Os itens de dados possuem atributos específicos. Essa interpretação pode mudar ao usar
numpy
. Na verdade, você acha que os atributos de dados mudam entre ambientes, e os desenvolvedores podem alterá-los ainda mais criando tipos de dados personalizados. Para combinar dados de várias fontes, você deve entender esses atributos para garantir que você interprete os dados corretamente.
Quanto mais tempo você passar, verificando a compatibilidade de dados de cada uma das fontes que deseja usar para um conjunto de dados, menor será a chance de encontrar problemas ao trabalhar com um algoritmo. Problemas de incompatibilidade de dados nem sempre aparecem como erros absurdos. Em alguns casos, uma incompatibilidade pode causar outros problemas, como resultados errados que parecem corretos, mas fornecem informações enganosas.
A combinação de dados de várias fontes pode nem sempre significar a criação de um novo conjunto de dados que se pareça exatamente com os conjuntos de dados de origem. Em alguns casos, você cria agregados de dados ou executa outras formas de manipulação para criar novos dados a partir dos dados existentes. A análise leva todos os tipos de formas, e algumas das formas mais exóticas podem produzir erros terríveis quando usadas incorretamente. Por exemplo, uma fonte de dados poderia fornecer informações gerais sobre o cliente e uma segunda fonte de dados poderia fornecer hábitos de compra de clientes. Distúrbios entre as duas fontes podem combinar clientes com informações de hábito de compra incorretas e causar problemas quando você tenta comercializar novos produtos para esses clientes. Como um exemplo extremo, considere o que aconteceria ao combinar informações do paciente de várias fontes e criar entradas combinadas de pacientes em uma nova fonte de dados com todos os tipos de desajustes. Um paciente sem história de uma determinada doença pode acabar com registros que mostram diagnóstico e cuidados com a doença.