ActiveDelphi

guibomfim · Enviada: Qui Set 01, 2011 1:29 pm Assunto: Componente para Reconhecimento de Voz

Boa tarde a todos!

Gostaria de saber se alguém conhece algum componente confiável de Reconhecimento de Voz.

Obrigado!

Guilherme

ivanzin2010 · Enviada: Sáb Set 03, 2011 1:44 am Assunto: Dor de Cabeça

Cara, tu vai ter uma dor de cabeça daquelas com esse assunto...
1. Veja tudo sobre SAPI (Microsoft).
2. Pesquise no google, sobre voice recognition.
3. Procure sobre, nuance, IBM Via Voice (Este eu gostei mais no caso do delphi).
4. Lembrando que se vc for reconhecer somente a sua voz.. blz.. é mais facil, mas for reconhecer vozes diferentes... é roça..

Pelo menos para mim não obtive nenhum resultado satisfatorio, devido ao fato de ter "treinar", o software para que ele reconheça a sua voz, mas se mudar quem esta falando "dançou".

No meu caso, preferi mudar a minha solução e fui para o C#.
Hoje desenvolvi um aplicativo, que trabalha junto com o Julius.
Dá um trabalho do cão.

aaahhhh.. lembrei veja tambem o Sox.
Não sei se eh o seu caso....mas..... pessoal costuma confundir TTS (Text to Speech) com VSR (VOice Speech recognition).

Pra se aprofundar mais mesmo, tem varios livros na internet que dao dicas, sobre trinomes, fonemas e assim por diante..

E pra variar por ultimo, todos (Sem excessao), funcionam muito bem no Linux.

Olha soh que trampo que eu tive que fazer...

O meu aplicativo principal, pega a voz do cidadao, gera o arquivo .wav envia para o Julius, que roda, em uma maquina virtual. Este por sua vez, reconhece a frase, e devolve o texto falado, para o meu aplicativo...
Isso tudo porque a quantidade de gravação diarias (no meu caso), é de cerca de 3500 por dia.. kkkkkkk

Se vc preferir.. fiz um outro gato, em casos de clientes que tem pouco trafego, ou seja poucas vozes para reconhecer...

Baixei o google frame Plugin( o Novo) e coloquei o componente do frame na minha aplicação em delphi. O proprio google frame enviaa a sua voz para os servidores deles e devolve o texto.. é facim.. Isso o google, faz pois tem um banco de dados simples de mais de 13 Bilhoes de corpus..... kkkkk (muito da hora).....Detalhe... são corpus e não palavras OK ?!?!?

Tudo isso acontece, pois a nossa lingua portuguesa Brasil ou PT-BR, além de ter diversas particularidades, ainda temos regioes diferentes, e eh claro q com sotaques diferentes... ai ja viu neh, vira uma massaroca de fonemas ...

Eu fui obrigado a aprender, pois atualmente vivo disso, entaum tive que conversar com analistas, Eng. de software, cientistas de fala.. e por ai vai....

Se for soh pra brincar.. blz...
Mas se for pra levar a sério... meu.. sao varias noites sem dormir tentando entender o banco de dados de fonemas que existem...

Eu tenho 16 Bancos de dados com fonemas, que consigo obter de 70 a 82% de acertos e confiança no reconhecimento....
Os bancos vão de 63 a 127 MB.

Portanto, se for para um reconhecimento de voz em tempo real, e para reconhecimento de terceiros.. Vixi... é roça...

Bem.... de qquer forma se precisar de ajuda da um alow ai...

Um Abraço . Ivan

mauriciof · Enviada: Qua Nov 23, 2011 11:48 am Assunto: Contato

Ivan, tenho interesse neste tipo de solução.

Você tem um site com mais informações?

obrigado,