Índice:
Vídeo: Análise Direta - "Tragédia em Brumadinho - extração de minério e seus riscos" - Dr. Paulo Boggiani 2024
Em geral, as soluções de análise de texto para grandes dados usam uma combinação de técnicas estatísticas e de processamento de linguagem natural (PNL) para extrair informações de dados não estruturados. A PNL é um campo amplo e complexo que se desenvolveu nos últimos 20 anos.
Um objetivo primário da PNL é derivar o significado do texto. O processamento da linguagem natural geralmente faz uso de conceitos linguísticos, como estruturas gramaticais e partes da fala. Muitas vezes, a idéia por trás desse tipo de análise é determinar quem fez o que a quem, quando, onde, como e por quê.
A PNL realiza análise em texto em diferentes níveis:
-
Análise hexadêmica / morfológica examina as características de uma palavra individual - incluindo prefixos, sufixos, raízes e partes do discurso (substantivo, verbo, adjetivo e assim por diante) - informações que contribuirão para entender o que a palavra significa no contexto do texto fornecido. A análise lexicológica depende de um dicionário, um dicionário de sinônimos ou qualquer lista de palavras que forneça informações sobre essas palavras.
-
Análise sintática usa estrutura gramatical para dissecar o texto e colocar as palavras individuais no contexto. Aqui você está ampliando seu olhar de uma única palavra para a frase ou a frase completa. Esta etapa pode diagramar a relação entre palavras (a gramática) ou procurar seqüências de palavras que formem frases corretas ou para seqüências de números que representem datas ou valores monetários.
-
Análise semântica determina os possíveis significados de uma frase. Isso pode incluir examinar a ordem das palavras e a estrutura das sentenças e as palavras de desambiguação, relacionando a sintaxe encontrada nas frases, orações e parágrafos.
-
Análise do nível do discurso tenta determinar o significado do texto além do nível da sentença.
Compreender as informações extraídas dos grandes dados
Certas técnicas, combinadas com outras técnicas estatísticas ou linguísticas para automatizar a marcação e marcação de documentos de texto, podem extrair os seguintes tipos de informações:
-
Termos: Outro nome para palavras-chave.
-
Entidades: Muitas vezes chamado entidades nomeadas , são exemplos específicos de abstrações. Exemplos são nomes de pessoas, nomes de empresas, locais geográficos, informações de contato, datas, horários, moedas, títulos e posições, e assim por diante. Por exemplo, o software analítico de texto pode extrair a entidade Jane Doe como uma pessoa referida no texto que está sendo analisado. A entidade 3 de março de 2007 pode ser extraída como uma data, e assim por diante.
-
Fatos: Também chamados relacionamentos , os fatos indicam quem / o que / onde as relações entre duas entidades. John Smith é o CEO da empresa Y e Aspirina reduz a febre são exemplos de fatos.
-
Eventos: Enquanto alguns especialistas utilizam os termos fato , relacionamento , e evento de forma intercambiável, outros distinguem entre eventos e fatos, afirmando que os eventos geralmente contêm uma dimensão de tempo e muitas vezes fazem com que os fatos mudem. Os exemplos incluem uma mudança no gerenciamento dentro de uma empresa ou o status de um processo de vendas.
-
Conceitos: Estes são conjuntos de palavras e frases que indicam uma idéia ou tópico específico com o qual o usuário está preocupado. Por exemplo, o conceito cliente infeliz pode incluir as palavras irritado, desapontado, e confundido e as frases desconectar o serviço, não ligou de volta, e desperdício de dinheiro - entre muitos outros. Assim, o conceito cliente infeliz pode ser extraído sem as palavras infelizes ou cliente aparecendo no texto.
-
Sentimentos: A análise do sentimento é usada para identificar pontos de vista ou emoções no texto subjacente. Algumas técnicas fazem isso classificando o texto como, por exemplo, subjetivo (opinião) ou objetivo (fato), usando técnicas de aprendizagem mecânica ou PNL. A análise do sentimento tornou-se muito popular nos tipos de aplicativos "voz do cliente".
Taxonomias de dados grandes
As taxonomias são muitas vezes críticas para a análise de texto. A taxonomy é um método para organizar a informação em relacionamentos hierárquicos. Às vezes, é referido como uma forma de organizar categorias. Como uma taxonomia define as relações entre os termos que uma empresa usa, torna mais fácil encontrar e depois analisar texto.
Por exemplo, um provedor de serviços de telecomunicações oferece serviços com e sem fio. Dentro do serviço sem fio, a empresa pode apoiar telefones celulares e acesso à Internet. A empresa pode então ter duas ou mais maneiras de categorizar o serviço de celular, como planos e tipos de telefone. A taxonomia poderia atingir todo o caminho até as partes de um telefone em si.
As taxonomias também podem usar sinônimos e expressões alternativas, reconhecendo que o celular, celular e celular são todos iguais. Essas taxonomias podem ser bastante complexas e podem demorar muito para se desenvolver.