Vídeo: Windows Speech Recognition - Reconhecimento de voz do Windows 7 2024
Os computadores são muito inteligentes quando se trata de coisas que exercem o cérebro como jogar xadrez e preencher Retornos fiscais, para que você possa pensar que eles seriam whizzes em atividades "simples" como reconhecer rostos ou entender a fala.
Mas depois de cerca de 50 anos de tentar fazer os computadores fazer essas coisas simples, os programadores chegaram à conclusão de que uma habilidade não é simples, só porque os humanos dominam isso facilmente. Na verdade, nossos cérebros e olhos e ouvidos estão cheios de equipamentos sofisticados de detecção e processamento que ainda correm em torno de qualquer coisa que possamos projetar em silício e metal.
Nós, humanos, pensamos que é simples entender o discurso porque todo o trabalho realmente árduo é feito antes de nos tornar conscientes disso. Para nós, parece que as palavras inglesas apenas se estaltam em nossas cabeças assim que as pessoas abrem a boca. A natureza inconsciente (ou pré-consciente) do processo torna-se duplamente difícil para os programadores de computadores imitarem.
Para ter uma idéia de por que os computadores têm tantos problemas com a fala, pense em algo que são muito bons em reconhecer e entender: números de telefone de toque. Esses blips e bloops nas linhas telefônicas são muito mais significativos para os computadores do que para as pessoas. Várias características importantes tornam o telefone um idioma fácil para os computadores, listados abaixo. O inglês, por outro lado, é completamente diferente.
-
O "vocabulário" do tom de toque tem apenas 12 "palavras" nele. Depois de conhecer os tons dos dez dígitos mais * e #, você está dentro. O inglês, por outro lado, tem centenas de milhares de palavras.
-
Nenhuma das palavras soa igual. No telefone com toque, o tom "1" é distintamente diferente do tom "7". Mas o inglês tem homônimos, como o novo e o gnu, e homônimos próximos, como melhor e casar com ela. Às vezes, as frases inteiras são semelhantes: "Os filhos levantam carne" e "Os raios do sol se encontram", por exemplo.
-
Todos os "alto-falantes" do idioma dizem as palavras da mesma maneira. Pressione o botão 5 em qualquer telefone, e você recebe exatamente o mesmo tom. Mas um homem idoso e uma menina de 10 anos usam tons muito diferentes quando falam; e as pessoas da Grã-Bretanha, do Canadá e dos Estados Unidos pronunciam as mesmas palavras inglesas de maneiras muito diferentes.
-
Contexto não tem sentido. Para o telefone, um 1 é um 1 é um 1. Como você interpreta o tom não depende do número anterior ou do próximo número. Mas em inglês escrito, o contexto é tudo. Faz sentido "ir a Nova York."Mas faz muito menos sentido" ir dois Nova York "ou" ir também Nova York ". "