Lar Finanças Pessoais Análise e técnicas de extração para dados grandes - manequins

Análise e técnicas de extração para dados grandes - manequins

Índice:

Vídeo: Análise Direta - "Tragédia em Brumadinho - extração de minério e seus riscos" - Dr. Paulo Boggiani 2025

Vídeo: Análise Direta - "Tragédia em Brumadinho - extração de minério e seus riscos" - Dr. Paulo Boggiani 2025
Anonim

Em geral, as soluções de análise de texto para grandes dados usam uma combinação de técnicas estatísticas e de processamento de linguagem natural (PNL) para extrair informações de dados não estruturados. A PNL é um campo amplo e complexo que se desenvolveu nos últimos 20 anos.

Um objetivo primário da PNL é derivar o significado do texto. O processamento da linguagem natural geralmente faz uso de conceitos linguísticos, como estruturas gramaticais e partes da fala. Muitas vezes, a idéia por trás desse tipo de análise é determinar quem fez o que a quem, quando, onde, como e por quê.

A PNL realiza análise em texto em diferentes níveis:

  • Análise hexadêmica / morfológica examina as características de uma palavra individual - incluindo prefixos, sufixos, raízes e partes do discurso (substantivo, verbo, adjetivo e assim por diante) - informações que contribuirão para entender o que a palavra significa no contexto do texto fornecido. A análise lexicológica depende de um dicionário, um dicionário de sinônimos ou qualquer lista de palavras que forneça informações sobre essas palavras.

  • Análise sintática usa estrutura gramatical para dissecar o texto e colocar as palavras individuais no contexto. Aqui você está ampliando seu olhar de uma única palavra para a frase ou a frase completa. Esta etapa pode diagramar a relação entre palavras (a gramática) ou procurar seqüências de palavras que formem frases corretas ou para seqüências de números que representem datas ou valores monetários.

  • Análise semântica determina os possíveis significados de uma frase. Isso pode incluir examinar a ordem das palavras e a estrutura das sentenças e as palavras de desambiguação, relacionando a sintaxe encontrada nas frases, orações e parágrafos.

  • Análise do nível do discurso tenta determinar o significado do texto além do nível da sentença.

Compreender as informações extraídas dos grandes dados

Certas técnicas, combinadas com outras técnicas estatísticas ou linguísticas para automatizar a marcação e marcação de documentos de texto, podem extrair os seguintes tipos de informações:

  • Termos: Outro nome para palavras-chave.

  • Entidades: Muitas vezes chamado entidades nomeadas , são exemplos específicos de abstrações. Exemplos são nomes de pessoas, nomes de empresas, locais geográficos, informações de contato, datas, horários, moedas, títulos e posições, e assim por diante. Por exemplo, o software analítico de texto pode extrair a entidade Jane Doe como uma pessoa referida no texto que está sendo analisado. A entidade 3 de março de 2007 pode ser extraída como uma data, e assim por diante.

  • Fatos: Também chamados relacionamentos , os fatos indicam quem / o que / onde as relações entre duas entidades. John Smith é o CEO da empresa Y e Aspirina reduz a febre são exemplos de fatos.

  • Eventos: Enquanto alguns especialistas utilizam os termos fato , relacionamento , e evento de forma intercambiável, outros distinguem entre eventos e fatos, afirmando que os eventos geralmente contêm uma dimensão de tempo e muitas vezes fazem com que os fatos mudem. Os exemplos incluem uma mudança no gerenciamento dentro de uma empresa ou o status de um processo de vendas.

  • Conceitos: Estes são conjuntos de palavras e frases que indicam uma idéia ou tópico específico com o qual o usuário está preocupado. Por exemplo, o conceito cliente infeliz pode incluir as palavras irritado, desapontado, e confundido e as frases desconectar o serviço, não ligou de volta, e desperdício de dinheiro - entre muitos outros. Assim, o conceito cliente infeliz pode ser extraído sem as palavras infelizes ou cliente aparecendo no texto.

  • Sentimentos: A análise do sentimento é usada para identificar pontos de vista ou emoções no texto subjacente. Algumas técnicas fazem isso classificando o texto como, por exemplo, subjetivo (opinião) ou objetivo (fato), usando técnicas de aprendizagem mecânica ou PNL. A análise do sentimento tornou-se muito popular nos tipos de aplicativos "voz do cliente".

Taxonomias de dados grandes

As taxonomias são muitas vezes críticas para a análise de texto. A taxonomy é um método para organizar a informação em relacionamentos hierárquicos. Às vezes, é referido como uma forma de organizar categorias. Como uma taxonomia define as relações entre os termos que uma empresa usa, torna mais fácil encontrar e depois analisar texto.

Por exemplo, um provedor de serviços de telecomunicações oferece serviços com e sem fio. Dentro do serviço sem fio, a empresa pode apoiar telefones celulares e acesso à Internet. A empresa pode então ter duas ou mais maneiras de categorizar o serviço de celular, como planos e tipos de telefone. A taxonomia poderia atingir todo o caminho até as partes de um telefone em si.

As taxonomias também podem usar sinônimos e expressões alternativas, reconhecendo que o celular, celular e celular são todos iguais. Essas taxonomias podem ser bastante complexas e podem demorar muito para se desenvolver.

Análise e técnicas de extração para dados grandes - manequins

Escolha dos editores

Taxas de câmbio de bitcoin - dummies

Taxas de câmbio de bitcoin - dummies

As taxas de câmbio de bitcoin de e para a moeda física de um país podem variar muito. Não só as taxas dependem da hora do dia em que você está procurando fazer um comércio, mas há uma enorme diferença entre várias plataformas de troca. O negócio de intercâmbio bitcoin é de natureza muito competitiva, e cada plataforma é ...

Os principais recursos nas versões recentes do QuarkXPress - dummies

Os principais recursos nas versões recentes do QuarkXPress - dummies

Se você ignorou uma versão ou três do QuarkXPress anterior até 2016, você não está sozinho - mas perdeu algumas melhorias que melhoram a eficiência. Convenientemente, a Quark forneceu um gráfico de novos recursos que se estende até a versão 7. Aqui estão alguns dos novos recursos mais interessantes e úteis introduzidos desde a versão 7: paletas inteligentes que ...

Bézier Shapes em QuarkXPress - dummies

Bézier Shapes em QuarkXPress - dummies

Antes de poder trabalhar com formas Bézier no QuarkXPress, você deve entender algumas coisas sobre elas. A forma de Bézier (ou caminho) consiste em segmentos de linha, pontos e alças de curva. Os segmentos de linha se conectam em pontos. As alças são anexadas aos pontos e controlam a forma dos segmentos de linha entrando e saindo dos pontos. Este ...

Escolha dos editores

Filmes do goPro: mantenha a continuidade entre os tiros - dummies

Filmes do goPro: mantenha a continuidade entre os tiros - dummies

O tamanho da câmera é a primeira coisa que permite que você saiba que Fazer um filme com um GoPro é muito diferente de usar qualquer outra câmera. Esta formidável câmera mantém a sua própria, apesar da aparência diminuta. A maioria dos filmes é lançada fora da sequência e juntou-se na pós-produção como um enigma gigante. Às vezes, quando o ...

Câmeras goPro: Hero4 e Hero3 + Editions - dummies

Câmeras goPro: Hero4 e Hero3 + Editions - dummies

A última linha GoPro - Hero4 - possui três câmeras com diferentes características e níveis de qualidade. Cada modelo oferece capacidade Wi-Fi. Aqui, você pode ler sobre as diferentes versões do GoPro e escolher o seu próprio. Hero4 Black Edition A grande kahuna da linha Hero oferece a tecnologia mais recente e melhor em um GoPro. Com avanços ...

Câmeras goPro: Compreenda as Limitações da Câmera - manequins

Câmeras goPro: Compreenda as Limitações da Câmera - manequins

Ao contrário da câmera de vídeo ou DSLR (câmera digital de reflexão de lente única) você pode estar confortável usando, o GoPro oferece muito menos controles. Ele lida com a maioria das configurações técnicas automaticamente, e a distância focal é limitada a um único ângulo de visão (embora muito grande). A Black Edition oferece algumas variações, fornecendo um ...

Escolha dos editores

Como escolher um modo de flash na Nikon D3300 - dummies

Como escolher um modo de flash na Nikon D3300 - dummies

O modo de flash na Nikon D3300 determina como e quando o flash dispara. A próxima seção apresenta as várias opções; Depois disso, você pode encontrar detalhes sobre como ajustar a configuração. Sua câmera oferece os seguintes modos de flash, representados nos visualizadores de Informações e Exibição ao vivo pelos símbolos que você vê no ...

Como escolher uma lente para a sua Nikon D7100 - dummies

Como escolher uma lente para a sua Nikon D7100 - dummies

Uma das maiores diferenças entre um digital câmera de apontar e disparar e uma câmera dSLR (reflex digital de lente única) é a lente. Para decidir qual lente é o melhor parceiro da sua câmera Nikon D7100, comece considerando estes fatores: Compatibilidade com lente: você pode montar uma ampla gama de lentes no seu D7100, mas algumas lentes não são ...

Como conectar a Nikon D7100 e computador - manequins

Como conectar a Nikon D7100 e computador - manequins

Com o cabo USB fornecido com a Nikon D7100 câmera, você pode conectar a câmera ao seu computador e, em seguida, transferir imagens para o disco rígido do computador. Verifique o nível da bateria da câmera. A falta de energia da bateria durante o download pode causar problemas, incluindo dados de imagem perdidos. Se você comprou a CA opcional ...