As 9 Leis da Mineração de Dados: um Guia de Referência - dummies
Mineiro de dados pioneiro Thomas Khabaza desenvolvido suas "Nove Leis da Mineração de Dados" para guiar novos mineiros de dados à medida que começam a trabalhar. Este guia de referência mostra o que cada uma dessas leis significa para o seu trabalho diário. 1ª Lei de Mineração de Dados, ou "Lei de Objetivos de Negócios": os objetivos de negócios são a origem de todos os dados ...
Dispersão Gráficos: Técnica Gráfica para Dados Estatísticos - manequins
Ao contrário de um plano de haste e folha, um O gráfico de dispersão pretende mostrar a relação entre duas variáveis. Pode ser difícil ver se há uma relação entre duas variáveis apenas olhando os dados brutos, mas com um gráfico de dispersão, todos os padrões que existem nos dados tornam-se muito mais fáceis de ver. Uma dispersão ...
O Paradox de dados grandes - dummies
Você encontrará uma nuance sobre a grande análise de dados. É realmente sobre dados pequenos. Embora isso possa parecer confuso e contrariar toda a premissa, pequenos dados são o produto da grande análise de dados. Este não é um conceito novo, nem é estranho às pessoas que fizeram análises de dados por qualquer período de ...
Executando em Python Paralelo para Ciência de Dados - dummies
A maioria dos computadores hoje são multicore (dois ou mais processadores em um pacote único), alguns com várias CPUs físicas. Uma das limitações mais importantes do Python é que ele usa um único núcleo por padrão. (Foi criado em um momento em que os núcleos únicos eram a norma). Os projetos de ciência de dados exigem bastante ...
O D3. js Library for Data Visualization - dummies
D3. js é uma biblioteca de JavaScript de código aberto que levou o mundo da visualização de dados pela tempestade desde o seu primeiro lançamento em 2011. Foi criado (e é mantido) por Mike Bostock - famoso guru de visualização de dados e Editor de Gráficos para o New York Times. Você pode usar esta biblioteca para criar documentos de dados orientados de alta qualidade (D3) em um ...
Raspagem, coleta e manipulação de ferramentas de ciência de dados - manequins
Se você precisa de dados para suportar uma empresa análise ou uma próxima peça de jornalismo, a raspagem na web pode ajudá-lo a rastrear fontes de dados interessantes e únicas. Na correção da web, você configura programas automatizados e, em seguida, deixa-os navegar na web para os dados que você precisa. Aqui estão ferramentas gratuitas do szome que você pode usar para raspar ...
Tramas de caule e folha: técnica gráfica para dados estatísticos - manequins
Um caule O gráfico de folha e folha é um dispositivo gráfico no qual a distribuição de um conjunto de dados é organizada pelo valor numérico das observações no conjunto de dados. O diagrama consiste em um "caule", que mostra as diferentes categorias nos dados, e uma "folha", que mostra os valores das observações individuais no conjunto de dados. Por exemplo, ...
Previsão e monitoramento do crime espacial - dummies
Você pode usar tecnologias GIS, modelagem de dados e estatísticas espaciais avançadas para criar informações produtos para a previsão e monitoramento de atividades criminosas. Os dados espaciais são dados tabulares que são usados com informações de coordenadas espaciais para cada registro no conjunto de dados. Muitas vezes, os conjuntos de dados espaciais também têm um campo que indica um atributo de data / hora para cada ...
Solucionando Problemas do Mundo Real com Algoritmos de Vizinho Próximos - dummies
Algoritmos de agrupamento hierárquico - e métodos de vizinhança mais próximos , em particular - são amplamente utilizados para entender e criar valor a partir de padrões em dados comerciais de varejo. Nos parágrafos seguintes estão dois casos poderosos em que esses algoritmos simples são usados para simplificar o gerenciamento e a segurança nas operações diárias de varejo. Vendo algoritmos vizinhos mais próximos em ...
O impacto de dados de transmissão e CEP em dados grandes - manequins
Dados de transmissão e evento complexo O processamento tem um enorme impacto sobre como as empresas podem fazer uso estratégico de grandes dados. Com a transmissão de dados, as empresas são capazes de processar e analisar esses dados em tempo real para obter uma visão imediata. Muitas vezes, requer um processo em duas etapas para continuar a analisar as principais descobertas que ...
Texto Ferramentas de análise para dados grandes - manequins
Aqui está uma visão geral de alguns dos jogadores na análise de texto grande mercado de dados. Alguns são pequenos, enquanto outros são nomes familiares. Alguns chamam o que fazem grandes analises de texto de dados, enquanto alguns apenas se referem a ele como análise de texto. Attensity for big data Attensity é uma das empresas de análise de texto originais ...
O problema com base em apenas uma análise preditiva - dummies
Como você provavelmente adivinhou, a análise preditiva é não é uma atividade de tamanho único - nem são seus resultados uma vez e tudo. Para que a técnica funcione corretamente, você deve aplicá-la novamente e novamente ao longo do tempo - então você precisará de uma abordagem geral que se ajuste bem ao seu negócio. O sucesso do seu projeto de análise preditiva depende de vários ...
O que no jornalismo de dados - dummies
O que, no jornalismo de dados, se refere à essência da história. Em todas as formas de jornalismo, um jornalista absolutamente deve poder chegar direto ao ponto. Mantenha-o claro, conciso e fácil de entender. Ao criar visualizações de dados para acompanhar sua peça de jornalismo de dados, certifique-se de que a história visual é fácil ...
As Limitações dos Dados em Analisadores Preditivos - dummies
Como com muitos aspectos de qualquer sistema de negócios, dados é uma criação humana - por isso é provável ter alguns limites em sua usabilidade quando você a obtém pela primeira vez. Aqui está uma visão geral de algumas limitações que você provavelmente encontrará: os dados podem estar incompletos. Valores faltantes, mesmo a falta de uma seção ou substancial ...
A Importância do Clustering e da Classificação na Ciência dos Dados - dummies
O propósito dos algoritmos de agrupamento e classificação é para fazer sentido e extrair valor de grandes conjuntos de dados estruturados e não estruturados. Se você está trabalhando com enormes volumes de dados não estruturados, faz sentido tentar dividir os dados em algum tipo de agrupamentos lógicos antes de tentar analisá-lo. Clustering e ...
Análise de séries de tempo na análise estatística de dados grandes - manequins
Uma série de tempo é um conjunto de observações de uma única variável coletada ao longo do tempo. Com a análise de séries temporais, você pode usar as propriedades estatísticas de uma série temporal para prever os valores futuros de uma variável. Existem vários tipos de modelos que podem ser desenvolvidos para explicar e prever o comportamento de um ...
MapReduce Programming Paradigm - dummies
MapReduce é um paradigma de programação que foi projetado para permitir o processamento distribuído em paralelo de grandes conjuntos de dados , convertendo-os em conjuntos de tuplas e, em seguida, combinando e reduzindo essas tuplas em conjuntos menores de tuplas. Em termos leigos, o MapReduce foi projetado para tirar dados importantes e usar computação distribuída paralela para transformar dados grandes ...
Os Tipos de visualizações de dados - manequins
Uma visualização de dados é uma representação visual projetada com o objetivo de transmitir o significado e significado das informações sobre dados e dados. Uma vez que as visualizações de dados são projetadas para um espectro completo de públicos diferentes, propósitos diferentes e diferentes níveis de habilidades, o primeiro passo para projetar uma ótima visualização de dados é conhecer seu público. ...
Dicas para Construir Modelos Implantativos para Análise Preditiva - manequins
Para garantir uma implantação bem-sucedida do preditivo modelo que você está construindo, você precisará pensar sobre a implantação muito cedo. Os interessados de negócios devem ter uma palavra a dizer sobre como o modelo final se parece. Assim, no início do projeto, certifique-se de que sua equipe discuta a precisão necessária do modelo pretendido ...
O papel do ETL tradicional em Big Data - dummies
As ferramentas eTL combinam três funções importantes (extrair, transformar , carga) necessária para obter dados de um grande ambiente de dados e colocá-lo em outro ambiente de dados. Tradicionalmente, o ETL tem sido usado com o processamento em lote em ambientes de data warehouse. Os armazéns de dados fornecem aos usuários de negócios uma maneira de consolidar informações para analisar e informar sobre dados relevantes ...
O When in Data Journalism - dummies
Como o adágio antigo, o tempo é tudo. É uma habilidade valiosa para saber como restaurar dados antigos para que seja interessante para um público moderno. Da mesma forma, no jornalismo de dados, é imperativo manter a atenção para a relevância contextual e saber quando é o momento ideal para elaborar e publicar uma história específica. Quando ...
Analítica tradicional e avançada para dados grandes - manequins
O que o seu negócio agora faz com todos os dados em todos suas formas? Dados importantes exigem muitas abordagens diferentes para análises, tradicionais ou avançadas, dependendo do problema que está sendo resolvido. Algumas análises usarão um data warehouse tradicional, enquanto outras análises irão tirar proveito das análises preditivas avançadas. Gerenciar grandes dados de forma holística requer muitos ...
Treinamento, validação e teste na aprendizagem de máquina - manequins
Em um mundo perfeito, você poderia executar um teste em dados que seu algoritmo de aprendizado de máquina nunca aprendeu de antes. No entanto, a espera de novos dados nem sempre é viável em termos de tempo e custos. Como um primeiro remédio simples, você pode dividir aleatoriamente seus dados em conjuntos de treinamento e teste. A divisão comum é ...
A Competência de Mineração de Dados Mais Importantes - dummies
As descobertas de um mineiro de dados têm valor somente se um tomador de decisão estiver disposto a agir sobre eles. Como um mineiro de dados, seu impacto será tão grande quanto sua capacidade de persuadir alguém - um cliente, um executivo, um burocrata do governo - da verdade e relevância da informação que você tem para compartilhar. ...
Quais são as principais propriedades de um conjunto de dados? - dummies
Antes de realizar qualquer tipo de análise estatística, é essencial compreender a natureza dos dados em análise. Você pode usar EDA para identificar as propriedades de um conjunto de dados para determinar os métodos estatísticos mais adequados para se aplicar aos dados. Você pode investigar vários tipos de propriedades com técnicas EDA, incluindo o seguinte:
Visualizando com Knime e RapidMiner para Aprendizagem de Máquina - dummies
Os humanos têm um tempo terrível visualizando dados abstratos e Às vezes, a saída da máquina de aprendizagem torna-se extremamente abstrata. Você pode usar uma ferramenta de saída gráfica para que você visualize como os dados realmente aparecem. Knime e RapidMiner se destacam na tarefa, ajudando você a produzir facilmente gráficos de alta qualidade. Seu uso para vários tipos de dados ...
Usando o Python Ecosystem for Data Science - dummies
Você precisa carregar bibliotecas para executar tarefas de ciência de dados em Python. Aqui está uma visão geral das bibliotecas que você pode usar para ciência de dados. Essas bibliotecas podem desempenhar múltiplas funções para o cientista de dados. Acessando ferramentas científicas usando SciPy A pilha SciPy contém uma série de outras bibliotecas que você também pode baixar ...
Usando estatísticas espaciais para prever para variação ambiental em todo o espaço - manequins
Por sua própria natureza, ambiental As variáveis dependem da localização: elas mudam com mudanças na localização geoespacial. O objetivo da modelagem de variáveis ambientais com estatísticas espaciais é permitir previsões espaciais precisas para que você possa usar essas previsões para resolver problemas relacionados ao meio ambiente. As estatísticas espaciais são distinguidas da modelagem de recursos naturais porque se concentra em ...
Usando Técnicas de Visualização para Comunicar Dados Science Insights - dummies
Toda a informação e visão do mundo é inútil se não puder ser comunicado. Se os cientistas de dados não puderem comunicar claramente suas descobertas para outros, informações de dados potencialmente valiosas podem permanecer inexploradas. Seguir práticas recomendadas claras e específicas no design de visualização de dados podem ajudá-lo a desenvolver visualizações que se comuniquem de uma maneira que é altamente ...
O que é o Centro dos Dados? - dummies
Você identifica o centro de um conjunto de dados com várias medidas de resumo diferentes. Estes incluem os três grandes: média, mediana e modo. Você calcula a média de um conjunto de dados, somando os valores de todos os elementos e dividindo pelo número total de elementos. Por exemplo, suponha que um pequeno conjunto de dados consiste no número ...
Ferramentas de visualização baseadas na web - manequins
Essas duas ferramentas de visualização de dados valem o seu tempo para conferir. Essas ferramentas são um pouco mais sofisticadas do que muitas das outras disponíveis, mas com essa sofisticação vem mais saídas personalizáveis e adaptáveis. Obtendo um pouco de tecer a sua manga Análise de análise baseada na web e ambiente de visualização, ou Weave, é criada pelo Dr. Georges ...
O que é Hadoop? - dummies
O hadoop é uma ferramenta de processamento de dados de código aberto que foi desenvolvida pela Apache Software Foundation. O Hadoop atualmente é o programa go-to para lidar com enormes volumes e variedades de dados porque foi projetado para tornar a computação em grande escala mais acessível e flexível. Com a chegada do Hadoop, o processamento de dados em massa foi introduzido significativamente mais ...
O que é ciência de dados centrada no negócio? - dummies
Dentro da empresa, a ciência dos dados tem o mesmo propósito que a inteligência de negócios - converter dados brutos em informações comerciais que os líderes empresariais e os gerentes podem usar para tomar decisões informadas. Se você tem grandes conjuntos de fontes de dados estruturadas e não estruturadas que podem ou não estar completas e você quer ...
Por que as empresas precisam de dados em movimento para grandes dados - manequins
Você precisa de dados em movimento para reagir rapidamente com o estado atual dos grandes dados. Para completar uma transação de cartão de crédito ou enviar um e-mail, os dados precisam ser transportados de um local para outro. Os dados estão em repouso quando são armazenados em um banco de dados em seu centro de dados ou na nuvem. Em contraste, ...
Fontes de dados de governos em todo o mundo - manequins
Os Estados Unidos são apenas um dos muitos governos que compartilham dados com o público. Embora você não encontre exatamente o mesmo intervalo ou tipos de dados de todos os países, você achará que a maioria das nações tem alguns dados para compartilhar. Existem também organizações intergovernamentais e sem fins lucrativos que oferecem recursos internacionais de dados. OFFSTATS. ...
Por que o Visualization importa para o Predictive Analytics - manequins
Linhas de leitura de planilhas, páginas de varredura e páginas de relatórios e indo através de pilhas de resultados analíticos gerados por modelos preditivos podem ser laboriosos, demorados, e - vamos enfrentá-lo - aborrecido. Olhar para alguns gráficos que representam esses mesmos dados é mais rápido e fácil, ao mesmo tempo que transmite o mesmo significado. Os gráficos podem trazer mais ...
Visualizando os resultados analíticos do seu modelo preditivo - dummies
Muitas vezes, você precisa mostrar os resultados do seu previsão analítica para aqueles que importam. Aqui estão algumas maneiras de usar técnicas de visualização para reportar os resultados dos seus modelos às partes interessadas. Visualizando agrupamentos ocultos em seus dados O agrupamento de dados é o processo de descobrir grupos ocultos de itens relacionados em ...
Definindo dados grandes: volume, velocidade e variedade - dummies
Dados grandes permitem que as organizações armazenem , gerenciar e manipular grandes quantidades de dados diferentes à velocidade certa e na hora certa. Para obter os pontos de vista certos, os dados grandes geralmente são divididos por três características: Volume: quanto de dados Velocidade: dados rápidos processados Variedade: os vários tipos de dados Embora seja ...
Trabalhando com Dados Gráficos em Python para Ciência de Dados - dummies
A maioria dos cientistas de dados deve trabalhar com dados gráficos em algum ponto. O Python oferece essa funcionalidade. Imagine pontos de dados que estejam conectados a outros pontos de dados, como por exemplo, como uma página da Web está conectada a outra página da Web através de hiperlinks. Cada um desses pontos de dados é um nó. Os nós se conectam entre si usando ...
Algoritmos de diferenciação de outras estruturas de matemática - manequins
Se você é como a maioria das pessoas, muitas vezes você se encontra arranhando seu Quando se trata de estruturas matemáticas, porque ninguém parece saber como usar os termos corretamente. É como se as pessoas tentassem deliberadamente tornar as coisas difíceis! Afinal, o que é uma equação e por que é diferente de um algoritmo? ...