Usando o Python Ecosystem for Data Science - dummies

Vídeo: What REALLY is Data Science? Told by a Data Scientist 2025

Você precisa carregar bibliotecas para executar tarefas de ciência de dados no Python. Aqui está uma visão geral das bibliotecas que você pode usar para ciência de dados. Essas bibliotecas podem desempenhar múltiplas funções para o cientista de dados.

Acessando ferramentas científicas usando SciPy

A pilha SciPy contém uma série de outras bibliotecas que você também pode baixar separadamente. Essas bibliotecas oferecem suporte para matemática, ciência e engenharia. Quando você obtém SciPy, você obtém um conjunto de bibliotecas projetadas para trabalhar juntas para criar aplicativos de vários tipos. Essas bibliotecas são

NumPy
SciPy
matplotlib
IPython
Sympy
pandas

A própria biblioteca SciPy concentra-se em rotinas numéricas, como rotinas para integração numérica e otimização. SciPy é uma biblioteca de uso geral que fornece funcionalidade para múltiplos domínios de problemas. Ele também oferece suporte para bibliotecas específicas de domínio, como Scikit-learn, Scikit-image e statsmodels.

Realizando computação científica fundamental usando NumPy

A biblioteca NumPy fornece os meios para executar manipulação de matriz n-dimensional, o que é crítico para o trabalho de ciência da informação. Você não pode acessar facilmente matrizes n-dimensionais sem funções NumPy que incluem suporte para álgebra linear, transformada de Fourier e geração de números aleatórios.

Executando análise de dados usando pandas

A biblioteca de pandas oferece suporte para estruturas de dados e ferramentas de análise de dados. A biblioteca é otimizada para executar tarefas de ciência de dados especialmente rápido e eficiente. O princípio básico por trás dos pandas é fornecer suporte de modelagem e análise de dados para o Python, que é semelhante a outros idiomas, como R.

Implementando o aprendizado da máquina usando Scikit-learn

A biblioteca Scikit-learning é uma das várias Bibliotecas Scikit que desenvolvem as capacidades fornecidas pelo NumPy e SciPy para permitir que os desenvolvedores do Python executem tarefas específicas do domínio. Nesse caso, a biblioteca se concentra na mineração de dados e na análise de dados. Ele fornece acesso aos seguintes tipos de funcionalidade:

Classificação
Regressão
Clustering
Redução de dimensão
Seleção de modelo
Pré-processamento

Traçando os dados usando matplotlib

A biblioteca matplotlib fornece-lhe uma interface semelhante a MATLAB para criar apresentações de dados da análise que você executa. Atualmente, a biblioteca está limitada à saída 2D, mas ainda fornece os meios para expressar graficamente os padrões de dados que você vê nos dados que você analisa.Sem esta biblioteca, você não conseguiu criar resultados que as pessoas que não pertençam à comunidade de ciência de dados possam entender facilmente.

Analisando documentos HTML usando Beautiful Soup

O download da biblioteca Beautiful Soup é realmente encontrado no site Python. Esta biblioteca fornece os meios para analisar dados HTML ou XML de uma maneira que a Python entende. Ele permite que você trabalhe com dados baseados em árvore.

Além de fornecer um meio para trabalhar com dados baseados em árvores, a Beautiful Soup tira muito do trabalho de trabalhar com documentos HTML. Por exemplo, ele converte automaticamente a codificação (a maneira como os caracteres são armazenados em um documento) de documentos HTML da UTF-8 para Unicode. Um desenvolvedor de Python normalmente precisa se preocupar com coisas como codificação, mas com Beautiful Soup, você pode se concentrar em seu código.