Lar Finanças Pessoais Análise e técnicas de extração para dados grandes - manequins

Análise e técnicas de extração para dados grandes - manequins

Índice:

Vídeo: Análise Direta - "Tragédia em Brumadinho - extração de minério e seus riscos" - Dr. Paulo Boggiani 2024

Vídeo: Análise Direta - "Tragédia em Brumadinho - extração de minério e seus riscos" - Dr. Paulo Boggiani 2024
Anonim

Em geral, as soluções de análise de texto para grandes dados usam uma combinação de técnicas estatísticas e de processamento de linguagem natural (PNL) para extrair informações de dados não estruturados. A PNL é um campo amplo e complexo que se desenvolveu nos últimos 20 anos.

Um objetivo primário da PNL é derivar o significado do texto. O processamento da linguagem natural geralmente faz uso de conceitos linguísticos, como estruturas gramaticais e partes da fala. Muitas vezes, a idéia por trás desse tipo de análise é determinar quem fez o que a quem, quando, onde, como e por quê.

A PNL realiza análise em texto em diferentes níveis:

  • Análise hexadêmica / morfológica examina as características de uma palavra individual - incluindo prefixos, sufixos, raízes e partes do discurso (substantivo, verbo, adjetivo e assim por diante) - informações que contribuirão para entender o que a palavra significa no contexto do texto fornecido. A análise lexicológica depende de um dicionário, um dicionário de sinônimos ou qualquer lista de palavras que forneça informações sobre essas palavras.

  • Análise sintática usa estrutura gramatical para dissecar o texto e colocar as palavras individuais no contexto. Aqui você está ampliando seu olhar de uma única palavra para a frase ou a frase completa. Esta etapa pode diagramar a relação entre palavras (a gramática) ou procurar seqüências de palavras que formem frases corretas ou para seqüências de números que representem datas ou valores monetários.

  • Análise semântica determina os possíveis significados de uma frase. Isso pode incluir examinar a ordem das palavras e a estrutura das sentenças e as palavras de desambiguação, relacionando a sintaxe encontrada nas frases, orações e parágrafos.

  • Análise do nível do discurso tenta determinar o significado do texto além do nível da sentença.

Compreender as informações extraídas dos grandes dados

Certas técnicas, combinadas com outras técnicas estatísticas ou linguísticas para automatizar a marcação e marcação de documentos de texto, podem extrair os seguintes tipos de informações:

  • Termos: Outro nome para palavras-chave.

  • Entidades: Muitas vezes chamado entidades nomeadas , são exemplos específicos de abstrações. Exemplos são nomes de pessoas, nomes de empresas, locais geográficos, informações de contato, datas, horários, moedas, títulos e posições, e assim por diante. Por exemplo, o software analítico de texto pode extrair a entidade Jane Doe como uma pessoa referida no texto que está sendo analisado. A entidade 3 de março de 2007 pode ser extraída como uma data, e assim por diante.

  • Fatos: Também chamados relacionamentos , os fatos indicam quem / o que / onde as relações entre duas entidades. John Smith é o CEO da empresa Y e Aspirina reduz a febre são exemplos de fatos.

  • Eventos: Enquanto alguns especialistas utilizam os termos fato , relacionamento , e evento de forma intercambiável, outros distinguem entre eventos e fatos, afirmando que os eventos geralmente contêm uma dimensão de tempo e muitas vezes fazem com que os fatos mudem. Os exemplos incluem uma mudança no gerenciamento dentro de uma empresa ou o status de um processo de vendas.

  • Conceitos: Estes são conjuntos de palavras e frases que indicam uma idéia ou tópico específico com o qual o usuário está preocupado. Por exemplo, o conceito cliente infeliz pode incluir as palavras irritado, desapontado, e confundido e as frases desconectar o serviço, não ligou de volta, e desperdício de dinheiro - entre muitos outros. Assim, o conceito cliente infeliz pode ser extraído sem as palavras infelizes ou cliente aparecendo no texto.

  • Sentimentos: A análise do sentimento é usada para identificar pontos de vista ou emoções no texto subjacente. Algumas técnicas fazem isso classificando o texto como, por exemplo, subjetivo (opinião) ou objetivo (fato), usando técnicas de aprendizagem mecânica ou PNL. A análise do sentimento tornou-se muito popular nos tipos de aplicativos "voz do cliente".

Taxonomias de dados grandes

As taxonomias são muitas vezes críticas para a análise de texto. A taxonomy é um método para organizar a informação em relacionamentos hierárquicos. Às vezes, é referido como uma forma de organizar categorias. Como uma taxonomia define as relações entre os termos que uma empresa usa, torna mais fácil encontrar e depois analisar texto.

Por exemplo, um provedor de serviços de telecomunicações oferece serviços com e sem fio. Dentro do serviço sem fio, a empresa pode apoiar telefones celulares e acesso à Internet. A empresa pode então ter duas ou mais maneiras de categorizar o serviço de celular, como planos e tipos de telefone. A taxonomia poderia atingir todo o caminho até as partes de um telefone em si.

As taxonomias também podem usar sinônimos e expressões alternativas, reconhecendo que o celular, celular e celular são todos iguais. Essas taxonomias podem ser bastante complexas e podem demorar muito para se desenvolver.

Análise e técnicas de extração para dados grandes - manequins

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...