Uso de Reconhecimento Automático de Voz em Português Do Brasil Na Geração de Closed Caption

USO DE RECONHECIMENTO AUTOMTICO DE VOZ EM
PORTUGUS DO BRASIL NA GERAO DE CLOSED CAPTION

1
Luiz Fausto de Souza Brito , Edilberto Strauss , Flvio Luis de Mello
Rede Globo, Rio de Janeiro - RJ, Brasil, luiz.fausto@tvglobo.com.br

Universidade Federal do Rio de Janeiro, Rio de Janeiro - RJ, Brasil, {strauss,fmello}@poli.ufrj.br
Resumo: Este trabalho tem a finalidade de apresentar a

necessidade de utilizao de legenda oculta (closed
caption) na programao da televiso, tanto como recurso
de acessibilidade, quanto para cumprimento de legislao
especfica. Para viabilizar tal recurso durante a ocorrncia
de fala espontnea ao vivo, apresentada a tecnologia de
reconhecimento automtico de voz como uma alternativa
estenotipia com menor custo operacional. Em seguida,
so apresentados alguns exemplos de utilizao dessa
abordagem relatados por diversos autores ao redor do
mundo. Por fim, so apresentadas as dificuldades
especficas de implementao desse tipo de sistema
utilizando o idioma portugus do Brasil e alguns caminhos
possveis para a superao de tais dificuldades.
Palavras chave: Closed Caption, Reconhecimento
Automtico de Voz, Portugus do Brasil.
1. CLOSED CAPTION E ACESSIBILIDADE

De acordo com os resultados do Censo Demogrfico
2010 do IBGE [1], cerca de 5,1% da populao brasileira
(quase 10 milhes de pessoas) possuem deficincia
auditiva. Para que essa populao tenha acesso ao
contedo dos programas de televiso, necessrio que
tais programas disponham de legendas, contendo no
apenas a transcrio textual do que falado, como
tambm descries de msicas e efeitos sonoros que
sejam necessrios para a melhor compreenso do
contedo sendo exibido. Tais legendas, porm, no
devem estar visveis para todos os telespectadores,
apenas para aqueles que assim desejarem, ativando tal
recurso no receptor de TV. Isso possvel, tanto na
transmisso de TV analgica [2], quanto na transmisso
de TV digital [3], atravs de um recurso denominado
legenda oculta ou closed caption (CC).
Embora a maior motivao para utilizar legendas
ocultas na programao da televiso seja para garantir a
acessibilidade aos telespectadores com deficincia
auditiva, tal recurso tambm interessante para o pblico
em geral em algumas situaes especficas, a saber: em
ambientes nos quais a necessidade de silncio no
permite que o som da TV seja reproduzido ou pelo menos
no com volume suficiente para uma compreenso
adequada (e.g. hospitais); em ambientes muito
barulhentos em que no seria possvel compreender o
udio da televiso, ainda que reproduzido com volume
elevado (e.g. bares e restaurantes); em locais com
sonorizao musical ambiente (e.g. academia); para
permitir que diferentes televisores reproduzam programas
diferenciados em um mesmo ambiente para atender a um
pblico heterogneo; em ambiente residencial para
permitir que se assista TV noite sem incomodar os
demais moradores; para aprendizagem da lngua por
parte de estrangeiros ou pessoas em processo de
alfabetizao.
2. LEGISLAO
No Brasil, a lei n 10.098 de 2000 [4], criada para
estabelecer normas de acessibilidade, j previa que os
servios de radiodifuso de sons e imagens deveriam
adotar medidas tcnicas com o objetivo de permitir o uso
de subtitulao, para garantir o direito de acesso
informao s pessoas portadoras de deficincia auditiva.
Contudo, foi somente em 2006, que a Norma
Complementar 01, aprovada pela Portaria n 310 do
Ministrio das Comunicaes [5] estabeleceu prazos,
obrigando os radiodifusores a uma utilizao progressiva
de legendas ocultas nas suas programaes. De acordo
com o cronograma estabelecido, em 2017 a totalidade da
programao diria das emissoras e retransmissoras
dever dispor de legendas ocultas, como pode ser
verificado na Tabela 1.
Tabela 1. Prazos e cargas horrias mnimas
para disponibilizao de closed caption por faixa horria
Prazo
27/06/2008
27/06/2009
27/06/2010
27/06/2011
27/06/2012
27/04/2014
27/04/2015
27/06/2017
Faixa Horria
08:00 - 14:00
20:00 - 02:00
08:00 - 14:00
18:00 - 02:00
08:00 - 14:00
18:00 - 02:00
08:00 - 14:00
18:00 - 02:00
06:00 - 14:00
18:00 - 02:00
06:00 - 02:00
Dia Inteiro
Dia Inteiro
Carga Horria
1h
1h
2h
2h
3h
3h
4h
4h
6h
6h
16 h
20 h
Totalidade da Programao
As estaes transmissoras ou retransmissoras

analgicas que no suportarem a transmisso de closed
caption devem se adequar de acordo com um prazo
estabelecido conforme a populao da cidade onde a
estao estiver localizada, como pode ser observado na
Tabela 2. As estaes transmissoras ou retransmissoras
digitais devem suportar a transmisso de closed caption
desde o princpio da operao.
Tabela 2. Prazos de adequao da infraestrutura das estaes
analgicas para transmisso de closed caption, de acordo com a
populao da cidade onde a estao estiver localizada
Populao
> 1.000.000
> 500.000
> 200.000
> 100.000
Qualquer
Prazo
27/06/2008
27/06/2010
27/06/2012
27/06/2014
27/06/2016
Alm disso, a Norma Complementar 01 de 2006 do

Ministrio das Comunicaes estabelece que a produo
e veiculao de legendas ocultas deve atender os critrios
e requisitos tcnicos da ABNT NBR 15290:2005. Dentre
esses requisitos, consta que o texto das legendas deve ter

100% de acerto acompanhando o tempo exato da cena
para programas com legenda pr-gravada e deve ter no
mnimo 98% de acerto com no mximo 4 segundos de
atraso para programas com legenda ao vivo [6].
Tais exigncias afetam todas as emissoras de
televiso do Brasil, independente do porte. Mesmo as
retransmissoras ou afiliadas das redes de televiso,
devero veicular legendas ocultas para sua programao
e comercializao, inclusive local, atendendo os requisitos
tcnicos
especificados.
O
descumprimento
das
disposies da norma sujeita as emissoras ou
retransmissoras s penalidades prescritas no Cdigo
Brasileiro de Telecomunicaes.
Maximizar a taxa de acerto das legendas ocultas
importante no apenas para cumprir a legislao, como
tambm para viabilizar a compreenso das mensagens
sendo veiculadas. Por vezes, apenas uma palavra errada
suficiente para modificar profundamente o significado de
um texto.
O maior desafio est na produo de legendas ocultas
ao vivo, sobretudo quando h fala espontnea (sem que
haja um texto pr-definido em roteiro). Essa situao
ocorre com bastante frequncia na programao
televisiva: programas de entrevistas, de auditrio,
religiosos, de variedades, reality shows etc. Existem
atualmente duas formas de produzir as legendas ocultas
que se aplicam transcrio da fala espontnea ao vivo:
estenotipia e reconhecimento automtico de voz. Quando
a fala ao vivo utiliza a leitura de um teleprompt, o texto do
teleprompt pode ser utilizado como legenda oculta. Para a
parte da programao que no produzida ao vivo, a
legenda oculta pode ser inserida por digitadores durante o
processo de ps-produo.
3. ESTENOTIPIA
Trata-se do uso de um profissional especializado que
digita as palavras na velocidade em que as ouve,
utilizando smbolos fonticos em um equipamento com
teclado especial (estentipo), conectado a um
computador, que utilizando um dicionrio especfico
converte as sequncias de smbolos em palavras.
Um curso de formao profissional em estenotipia dura
de seis meses a um ano, mas normalmente necessrio
pelo menos dois anos de prtica para obter a velocidade
necessria para legendagem ao vivo (180 palavras por
minuto). uma mo-de-obra relativamente cara, escassa
e difcil de repor. De acordo com matria publicada na
revista Galileu de maio de 2012, existem apenas 400
profissionais desses no Brasil [7].
Erros no processo de estenotipia podem ocorrer tanto
por falha humana na digitao quanto pela ocorrncia de
palavras fora do dicionrio.
4. RECONHECIMENTO AUTOMTICO DE VOZ

O reconhecimento automtico de voz o processo de
converso do sinal acstico da voz em uma transcrio
textual correspondente. Um sistema que implemente tal
processo inclui a captao do sinal de voz, sua
digitalizao, processamento digital de sinais e modelos
estatsticos. Uma representao esquemtica de um
sistema de reconhecimento automtico de voz pode ser
visualizada na Figura 1.
Figura 1. Reconhecimento Automtico de Voz
A captao do sinal de voz realizada atravs de um

microfone e a digitalizao consiste em um processo de
amostragem no tempo e quantizao da amplitude do
sinal. O processamento digital de sinais empregado se
destina a extrair do sinal de udio correspondente voz
captada e digitalizada, parmetros que possam ser teis
no processo de reconhecimento de padres fonticos. Os
modelos estatsticos so treinados para cada idioma a
partir de uma base de dados que deve conter: um
dicionrio com o vocabulrio que o sistema deve utilizar
contendo a transcrio fontica de cada palavra, um
conjunto de gravaes de fala com transcrio textual e
um conjunto de textos.
Como palavras fora do dicionrio no sero
reconhecidas pelo sistema, comum a necessidade de
atualizao frequente do dicionrio, incorporando novas
palavras, sobretudo nomes prprios. Contudo, deve-se
destacar que quanto maior o vocabulrio considerado pelo
sistema, maior a probabilidade de confuso entre
palavras. Portanto, para maximizar a acurcia do sistema,
tambm pode ser interessante retirar do vocabulrio
palavras que no sejam mais utilizadas. Uma estratgia
comum extrair o vocabulrio a partir da anlise das
palavras mais comuns do conjunto de textos. Dessa
forma, tambm podem ser construdos dicionrios
especializados, segmentando o conjunto de textos por
assunto. A transcrio fontica das palavras do dicionrio
pode ser realizada de forma automtica, utilizando um
conjunto de regras de converso grafema-fonema.
Eventualmente, uma mesma palavra no dicionrio pode
conter mais de uma transcrio fontica, o que
particularmente til se o sistema precisar suportar
variaes regionais de pronncia.
As transcries textuais das gravaes de fala so
convertidas para uma sequncia de fonemas de acordo
com o dicionrio, para que sejam identificados nos
parmetros extrados do sinal de udio, pela etapa de
processamento digital de sinais, padres correspondentes
aos fonemas empregados no dicionrio. A modelagem
estatstica desses padres fonticos denominada
Modelo Acstico. Diferentemente do dicionrio, as

gravaes de fala utilizadas no treinamento no precisam
conter todas as palavras do vocabulrio do sistema, mas
devem conter exemplos suficientes de todos os fonemas,
preferencialmente em todos os contextos de vizinhana
fontica possveis (uma vez que cada fonema pode ter
suas caractersticas alteradas de acordo com o
antecessor e o sucessor). Os modelos acsticos, se
treinados com a voz de diferentes locutores, so ditos
independentes de locutor. Contudo, a acurcia mxima
quando o sistema pode ser treinado com a voz a ser
reconhecida, produzindo modelos acsticos dependentes
de locutor. Mas como, na prtica, difcil obter gravaes
suficientes para treinar adequadamente o modelo
acstico, uma soluo de compromisso comum o que se
denomina adaptao de locutor, em que h um
treinamento
independente
de
locutor,
que
posteriormente adaptado para a voz de um locutor

especfico utilizando uma base de treinamento
relativamente pequena. Se a base de treinamento
independente de locutor for suficientemente grande e
diversificada, tambm possvel segment-la, gerando
modelos acsticos independentes de locutor, mas
agrupados por sexo, idade, sotaque etc. A adaptao de
locutor tambm pode ser feita a partir dos modelos
acsticos desses agrupamentos.
O conjunto de textos utilizado na modelagem da
probabilidade de palavras e sequncias de palavras, no
que se denomina Modelo de Linguagem. Para maximizar
a acurcia, os textos devem possuir similaridade de
vocabulrio e estilo de linguagem com a fala a ser
reconhecida. Para um sistema com uso previsto em
situaes com assuntos (e, portanto, vocabulrios e
estilos de linguagem) muito distintos, comum segmentar
a base de dados de textos por assunto, produzindo
modelos de linguagem diferenciados, a serem
selecionados em cada situao. Assim como no caso do
dicionrio, h necessidade de atualizao frequente dos
modelos de linguagem, para incorporao de novos
assuntos e atualizao do vocabulrio.
Erros no processo de reconhecimento de voz podem
ser atribudos a problemas com a qualidade da captao e
digitalizao do sinal de voz, s limitaes dos algoritmos
de processamento de sinais e modelos estatsticos
empregados, restrio e/ou baixa qualidade da base de
dados empregada no treinamento do sistema, bem como
s diferenas entre a base de dados utilizada no
treinamento e a fala a ser reconhecida (diferenas
acsticas, de vocabulrio, de linguagem etc.) [8].
5. USO AO REDOR DO MUNDO

Na aplicao de reconhecimento automtico de voz
para a gerao de closed caption, normalmente utilizado
um relocutor, que ouve a fala espontnea atravs de um
fone de ouvido e a repete em um estdio [9] [10]. Com o
uso da relocuo, o modelo acstico do sistema pode ser
adaptado voz do relocutor, reduzindo a complexidade do
reconhecimento de voz, por no precisar considerar a
variabilidade fontica entre indivduos. Alm disso, como a
relocuo se d em um ambiente acusticamente
controlado, proporciona uma relao sinal/rudo melhor
para o sistema de reconhecimento. Outra vantagem de
utilizar a relocuo que o relocutor pode reformular a
fala, corrigindo as disfluncias comuns na linguagem oral,
tornando-a mais adequada a uma transcrio para a

linguagem escrita. Para facilitar o processo de
reconhecimento, o relocutor pode ainda falar os sinais de
pontuao que devem ser utilizados e acrescentar pausas
entre as palavras. Para realizar a relocuo no
necessrio um curso de formao profissional especfico,
sendo uma mo-de-obra mais barata, fcil e rpida de
repor do que um estenotipista.
No Japo, de acordo com Miyasaka [11], desde 2000 a
emissora NHK utiliza um software de reconhecimento
automtico de voz para gerao de legenda oculta ao vivo
em telejornais, por ela desenvolvido para atender os
requisitos tcnicos desejados por essa emissora (acurcia
mnima de 95% e latncia mxima de 2 segundos),
porque o software comercial disponvel (IBM ViaVoice em
japons) no atendia a tais requisitos. O sistema utilizava
modelos acsticos adaptados para cada apresentador de
telejornal, sem utilizar relocuo. Antes de cada telejornal,
o modelo de linguagem era atualizado utilizando os
rascunhos das matrias disponveis. Embora o software
desenvolvido atendesse o requisito de 95% de acurcia,
para que no houvesse erro algum na legenda oculta, o
sistema inclua quatro operadores: dois para revisar
frases alternadas marcando as palavras erradas e, para
cada revisor, um operador para corrigir as palavras
erradas marcadas. De acordo com Homma [12], desde
2001 a NHK passou a empregar, sobretudo em emissoras
afiliadas sua rede, um sistema com apenas um ou dois
operadores para realizar as correes, em que os as
palavras erradas so selecionadas em um monitor
sensvel ao toque e corrigidas pelo mesmo operador. Com
dois operadores, no reconhecimento automtico de voz de
telejornais com apenas um apresentador, o sistema
chegou a obter 99,9% de acurcia e 99,8% com apenas
um operador. A emissora passou tambm a utilizar
reconhecimento automtico de voz para gerao de
legenda oculta ao vivo em outros programas, alm de
telejornais, empregando relocuo. Sako e Ariki [13]
relatam em 2005 a implementao de um sistema de
reconhecimento automtico de voz para produzir closed
caption para a transmisso de jogos de beisebol ao vivo.
O sistema no emprega relocuo, porm os modelos
acsticos so adaptados para o locutor do jogo. Alm
disso, os modelos acsticos so segmentados de acordo
com alguns estados emocionais pr-definidos. Assim, o
sistema deve primeiro classificar o estado emocional da
fala, para a seguir escolher qual modelo acstico
empregar. Tambm foi incorporado ao modelo de
linguagem uma memria de estado, com significado
especfico para o jogo (ex: o placar no pode regredir,
mudanas no placar normalmente esto associadas a
uma mudana no estado emocional da voz do locutor
etc.). A melhoria de acurcia proporcionada pela anlise
de estado emocional e memria de estado do jogo foi de
cerca de 1%.
Em Portugal, Meinedo et alli [14] relatam em 2003 o
desenvolvimento de um software de reconhecimento
automtico de voz para telejornais. A acurcia obtida foi
de 85%, com modelo acstico independente de locutor.
Martins et alli [15] relatam em 2010 a implementao de
um sistema que atualiza diariamente o dicionrio e o
modelo de linguagem, de forma automtica, utilizando
textos de sites de notcias. Com essa abordagem,
conseguiram reduzir em 88% os erros ocasionados pela

ocorrncia de palavras fora do vocabulrio do sistema.
No Reino Unido, Evans [16] relata em 2003 o uso na
BBC de um sistema de reconhecimento automtico de voz
desenvolvido internamente utilizando o software IBM
ViaVoice e empregando relocuo, para a gerao de
closed caption em programas ao vivo. Lambourne et alli
[17] relatam em 2004 a adoo de um sistema semelhante
em trs outras grandes emissoras britnicas, tambm
utilizando o IBM ViaVoice, empregando relocuo e
modelos de linguagem diferenciados de acordo com o
assunto. A acurcia obtida foi de 95 a 98%.
No Canad, de acordo com Boulianne et alli [18],
desde 2004 utiliza-se regularmente na gerao de
legenda oculta ao vivo um software de reconhecimento
automtico de voz para a lngua francesa, desenvolvido
em conjunto por uma emissora e um instituto de pesquisa
canadenses. O sistema utiliza relocuo, com modelos
acsticos adaptados a partir de modelos independentes
de locutor agrupados por sexo. Utiliza ainda dicionrios e
modelos de linguagem diferenciados por assunto. Os
dicionrios, os modelos de linguagem e os modelos
acsticos so atualizados semi-automaticamente. O
sistema busca diariamente textos de sites de notcias
correspondentes aos assuntos modelados no sistema,
para atualizar os modelos de linguagem. Quando ocorrem
palavras novas, o relocutor precisa valid-las (juntamente
com suas pronncias e associao aos assuntos) na prproduo dos programas para que sejam inseridas nos
dicionrios. Palavras inativas por muito tempo tambm
so removidas do vocabulrio do sistema. Ainda na prproduo, o relocutor faz uma breve gravao para
atualizar seu modelo acstico. Durante a produo, o
relocutor pode comutar o assunto, indicar a mudana da
pessoa cuja fala est sendo transcrita e inserir pontuao
e outros smbolos utilizando um joystick. Aps a produo,
o relocutor pode corrigir os erros do reconhecimento para
que a transcrio corrigida seja utilizada na atualizao
dos modelos acstico e de linguagem. A acurcia obtida
pelo sistema variou entre 89 e 93%. Cardinal et alli [19]
relatam em 2007 o desenvolvimento de um sistema de
correo em tempo real de legendas ocultas para ser
usado em conjunto com um sistema de reconhecimento
automtico de voz. Alm de permitir a digitao das
palavras corrigidas, o sistema sugere, para cada palavra,
uma lista de alternativas baseada nos erros de
reconhecimento mais comuns observados.
Na Eslovnia, devido falta de gravaes de fala com
transcrio textual em quantidade suficiente para um
treinamento adequado dos modelos acsticos, Zgank [20]
props em 2010 uma metodologia para incorporar
gravaes sem transcrio na base de dados, treinando o
sistema inicialmente apenas com as gravaes com
transcrio disponveis, utilizando o sistema para fazer
uma transcrio automtica das gravaes sem
transcrio, associando a essas transcries um escore
de confiana, e aproveitando em um novo treinamento do
sistema as gravaes com transcrio automtica que
obtiveram escores de confiana suficientemente altos.
Pelos resultados experimentais que ele obteve, o
acrscimo dessas gravaes transcritas automaticamente
na base de treinamento do sistema melhorou
significativamente a acurcia do mesmo. A acurcia obtida
foi de 82%, mas trata-se de um modelo acstico
independente de locutor, e portanto, pode-se esperar

obter uma acurcia significativamente mais alta
empregando-se adaptao de locutor.
6. SITUAO BRASILEIRA
O nico software de reconhecimento automtico de
voz comercial existente para o portugus do Brasil e
empregado na gerao de closed caption o IBM
ViaVoice. Este produto foi desenvolvido e comercializado
pela IBM at 2003, quando foi vendido para a ScanSoft,
posteriormente adquirida pela Nuance [21]. Nem a
ScanSoft, nem a Nuance deram continuidade ou
desenvolveram produtos para substituir o ViaVoice em
Portugus do Brasil. Com isso, o software no dispe
mais de suporte corretivo ou evolutivo, podendo
eventualmente deixar de funcionar com sistemas
operacionais mais novos. Alm disso, a quantidade de
licenas existentes limitada.
Note-se que o IBM ViaVoice nem era um produto
otimizado para aplicao na gerao de legenda oculta:
tratava-se de um sistema de reconhecimento automtico
de voz para utilizao como interface homem/mquina.
Emissoras de televiso e outras empresas desenvolveram
interfaces para a gerao de legendas ocultas utilizado o
ViaVoice. Como j citado, parte dos erros do
reconhecimento de voz se devem s limitaes dos
algoritmos de processamento de sinais e modelos
estatsticos empregados. Pode-se imaginar que hoje seria
possvel utilizar algoritmos e modelos mais precisos e
complexos, uma vez que a tecnologia de reconhecimento
de voz evoluiu nesse perodo e que a capacidade
computacional aumentou desde a descontinuidade do
ViaVoice. Alm disso, no h necessidade de ficar restrito
a computadores de uso domstico, pode-se utilizar at
mesmo um conjunto de servidores realizando
processamento distribudo.
De fato, alguns dos sistemas de reconhecimento de
voz mais bem sucedidos atualmente utilizam o paradigma
de computao em nuvem (cloud computing), como, por
exemplo, a pesquisa por voz do Google [22] e o Apple Siri
[23]. Dessa forma, esto livres da limitao da capacidade
computacional dos usurios (o que especialmente til
para aplicaes embarcadas em dispositivos mveis).
Apesar da falta de softwares comerciais que possam
ser empregados no reconhecimento automtico de voz do
portugus do Brasil, existem diversas opes de software
livre que podem ser consideradas: HTK [24] da
Universidade de Cambridge, CMU Sphinx [25] da
Universidade Carnegie Mellon, Julius [26] da Universidade
de Kyoto, Simon [27] da Organizao Simon Listens,
RWTH ASR [28] da Universidade Tcnica de Aachen,
iATROS [29] da Universidade Politcnica de Valncia,
SHoUT [30] da Universidade de Twente, ISIP ASR [31] da
Universidade Estadual do Mississippi etc. Esses softwares
implementam os algoritmos de processamento de sinais e
modelos estatsticos utilizados no reconhecimento
automtico de voz, mas para serem aplicados ao
portugus do Brasil necessitam de treinamento com bases
de dados brasileiras. O treinamento desses sistemas
utiliza ferramentas distribudas juntamente com os
mesmos, alm de outras distribudas separadamente,
como o SRILM [32] da SRI International.
O treinamento um aspecto crtico para o bom
funcionamento de um sistema de reconhecimento
automtico de voz. Sendo o portugus, ao contrrio do

ingls, uma lngua altamente flexiva (em que as palavras
podem sofrer flexo de gnero, nmero, modo, tempo e
pessoa), o vocabulrio a ser considerado aumenta
substancialmente, o que tende a ter um impacto negativo
na acurcia do reconhecimento. A gramtica do
portugus, novamente ao contrrio do ingls, tambm
relativamente livre quanto ordem das palavras, o que
torna os modelos de linguagem mais complexos, o que
tambm tende a ter um impacto negativo na acurcia do
sistema. Essas duas diferenas entre os idiomas
portugus e ingls apontam para a necessidade de bases
de dados para o treinamento de um sistema de
reconhecimento automtico de voz em portugus maiores
do que seria necessrio em ingls, para obter-se a mesma
acurcia. Entretanto, o que ainda se observa a
disponibilidade de bases de dados significativamente
menores. Uma das iniciativas que buscam disponibilizar
as bases de dados necessrias para o portugus do Brasil
a do site VoxForge [33]. Outra iniciativa importante de
ser citada a do grupo FalaBrasil [34], da Universidade
Federal do Par. Alm de disponibilizar suas bases de
dados, esse grupo j possui uma experincia considervel
no treinamento de diversos softwares livres para o
portugus do Brasil e na integrao desses softwares para
algumas aplicaes especficas. Tambm pode-se
considerar que o acervo das prprias emissoras de
televiso interessadas em utilizar o sistema de
reconhecimento automtico de voz poderia contribuir
significativamente para o desenvolvimento das bases de
dados necessrias.
7. CONSIDERAES FINAIS
Uma opo para o desenvolvimento de alternativas
viveis falta de ferramentas comerciais de
reconhecimento automtico de voz para o portugus do
Brasil aplicveis na gerao de legenda oculta realizar
um levantamento das opes de software livre
disponveis. Em um levantamento criterioso de tais
softwares pode-se avaliar as opes dos parmetros de
configurao disponveis quanto aos impactos sobre a
acurcia e o custo computacional dos sistemas, podendo
ser adotadas opes tais que necessitem de
processamento distribudo para viabilizar a execuo em
tempo real, se isso resultar em uma melhoria significativa
da acurcia do sistema. necessrio ainda avaliar as
bases de dados disponveis publicamente para
treinamento dos sistemas de reconhecimento automtico
de voz em portugus do Brasil e, eventualmente,
aproveitar o acervo das emissoras para desenvolver e/ou
incrementar tais bases de dados, alm de melhor adequlas aplicao em questo. Por fim, algumas otimizaes
implementadas nesse tipo de sistema em emissoras de
televiso ao redor do mundo (e.g. sistema de atualizao
automtica ou semi-automtica de dicionrio, modelos de
linguagem e modelos acsticos, sistema de correo
manual em tempo real etc.) podem ser experimentadas no
Brasil.
Algumas dificuldades que podem surgir na tentativa de
desenvolver sistemas de reconhecimento automtico de
voz para o portugus do Brasil para a aplicao na
gerao de legenda oculta a partir de ferramentas
disponveis publicamente so as seguintes:
A licena de ferramentas livres pode no permitir a

aplicao desejada;
O desempenho dos softwares livres a serem testados
pode estar abaixo do desejado;
Os softwares podem no possuir documentao
suficiente;
As bases de dados disponveis publicamente podem
ser insuficientes para um treinamento adequado do
sistema.
A grande quantidade de softwares livres disponveis
para reconhecimento automtico de voz e a reputao das
instituies que os desenvolveram, sugere que sejam
obtidas algumas opes viveis. Adicionalmente, uma vez
que os cdigos-fonte so abertos, possvel desenvolver
otimizaes se necessrio, ou mesmo, possvel estudar
esses cdigos como subsdio para o desenvolvimento de
novos sistemas.
As bases de dados para treinamento dos sistemas
sero provavelmente o principal limitador da acurcia que
pode ser obtida. Porm, alm da opo de utilizar o
acervo das emissoras, pode-se considerar a realizao de
acordos com universidades para o desenvolvimento de
bases pblicas e a utilizao de bases comerciais, prexistentes ou desenvolvidas sob encomenda. A
abordagem de aproveitar udio sem transcrio na base
de dados para treinamento dos modelos acsticos
tambm pode ser til.
REFERNCIAS
[1] INSTITUTO BRASILEIRO DE GEOGRAFIA E
ESTATSTICA. Censo Demogrfico 2010:
Resultados gerais da amostra, Rio de Janeiro, 2012.
Disponvel em: <http:// www.ibge.gov.br/ home/
presidencia/ noticias/ imprensa/ ppts/
00000008473104122012315727483985.pdf>. Acesso
em: 12 maio 2012.
[2] CONSUMER ELECTRONICS ASSOCIATION.
ANSI/CEA-608-E: Line 21 Data Services. Arlington,
p. 127. 2008.
[3] ASSOCIAO BRASILEIRA DE NORMAS
TCNICAS. NBR 15610-1: Televiso digital
terrestre - Acessibilidade - Parte 1: Ferramentas
de texto. Rio de Janeiro, p. 23. 2011.
[4] BRASIL. Lei n 10.098, de 19 de dezembro de 2000.
Estabelece normas gerais e critrios bsicos para a
promoo da acessibilidade das pessoas portadoras
de deficincia ou com mobilidade reduzida, e d
outras providncias. Dirio Oficial [da] Repblica
Federativa do Brasil, Poder Legislativo, Braslia,
DF, p. 2-3, Seo 1, 20 dez. 2000.
[5] BRASIL. MINISTRIO DAS COMUNICAES.
Portaria n 310, 27 jun. 2006. Disponvel em: <http://
www.mc.gov.br/ images/ o-ministerio/ legislacao/
portarias/ portaria-310.pdf>. Acesso em: 12 maio
2012.
[6] ASSOCIAO BRASILEIRA DE NORMAS
TCNICAS. NBR 15290: Acessibilidade em
comunicao na televiso. Rio de Janeiro, p. 10.
2005.
[7] SANT'ANA, T. Eu sou: Estenotipista. Revista Galileu,

maio 2012. Disponvel em: <http://
revistagalileu.globo.com/ Revista/ Common/
0,EMI281040-17773,00EU+SOU+ESTENOTIPISTA.html>. Acesso em: 12
maio 2012.
[8] HUANG, X.; ACERO, A.; HON, H.-W. Spoken
Language Processing: A Guide to Theory,
Algorithm, and System Development. Upper Saddle
River: Prentice-Hall, 2001.
[9] AHMER, I. Automatic Speech Recognition for
Closed Captioning of Television: Data and Issues.
Thesis (Master of Engineering) - University of South
Australia. Adelaide, p. 244. 2002.
[10] INTERNATIONAL TELECOMMUNICATION UNION.
Report ITU-R BT.2207-1: Accessibility to
broadcasting services for persons with
disabilities. Geneva, p. 17. 2011.
[11] MIYASAKA, E. Development of information systems
in Japan Broadcasting Corporation. Journal of the
Center for Information Studies, n. 5, p. 52-57, 2004.
[12] HOMMA, S. et al. New Real-Time ClosedCaptioning System for Japanese Broadcast News
Programs. In: Proceedings of the 11th International
Conference on Computers Helping People with
Special Needs. Linz: Springer. 2008. p. 651-654.
[13] SAKO, A.; ARIKI, Y. Structuring baseball live
games based on speech recognition using task
dependent knowledge and emotion state
recognition. In: Proceedings of the International
Conference on Acoustics, Speech, and Signal
Processing. Philadelphia: IEEE. 2005. p. 1049-1052.
[14] MEINEDO, H. et al. AUDIMUS.media- A Broadcast
News Speech Recognition System for the
European Portuguese Language. In: PROPOR
2003: Proceedings of the 6th International Workshop
on Computational Processing of the Portuguese
Language. Faro: Springer. 2003. p. 9-17.
[15] MARTINS, C.; TEIXEIRA, A.; NETO, J. Dynamic
language modeling for European Portuguese.
Computer Speech and Language, v. 24, n. 4, p.
750-773, out. 2010.
[16] EVANS, M. J. BBC R&D White Paper 065. Speech
Recognition in Assisted and Live Subtitling for
Television, 2003. Disponvel em:
<http://downloads.bbc.co.uk/rd/pubs/whp/whp-pdffiles/WHP065.pdf>. Acesso em: 18 maio 2012.
[17] LAMBOURNE, A. et al. Speech-Based Real-Time
Subtitling Services. International Journal of Speech
Technology, v. 7, n. 4, p. 269-279, out. 2004.
[18] BOULIANNE, G. et al. Computer-Assisted ClosedCaptioning of Live TV Broadcasts in French. In:
Interspeech 2006: Proceedings of the International
Conference of Spoken Language Processing.
Pittsburgh: ISCA. 2006. p. 273-276.
[19] CARDINAL, P. et al. Real-Time Correction of
Closed-Captions. In: Proceedings of the ACL 2007
Demo and Poster Sessions. Prague: ACL. 2007. p.
113-116.
[20] ZGANK, A. Three-Stage Framework for Unsupervised

Acoustic Modeling Using Untranscribed Spoken
Content. ETRI Journal, v. 32, n. 5, p. 810-818, out.
2010.
[21] IBM. IBM Desktop ViaVoice. Disponvel em: <http://
www-01.ibm.com/ software/ pervasive/ viavoice.html>.
Acesso em: 13 maio 2012.
[22] GOOGLE. Introducing Voice Search: Now on your
computer. Disponvel em: <http:// www.google.com/
insidesearch/ features/ voicesearch/ index.html>.
[23] APPLE. Learn more about Siri. Disponvel em:
<http:// www.apple.com/ iphone/ features/ sirifaq.html>. Acesso em: 13 maio 2012.
[24] CAMBRIDGE UNIVERSITY. HTK. Disponvel em:
<http:// htk.eng.cam.ac.uk>. Acesso em: 14 maio
2012.
[25] CARNEGIE MELLON UNIVERSITY. CMU Sphinx.
Disponvel em: <http:// cmusphinx.sourceforge.net>.
[26] KYOTO UNIVERSITY. Julius. Disponvel em: <http://
julius.sourceforge.jp/ en_index.php>. Acesso em: 14
maio 2012.
[27] SIMON LISTENS. Simon. Disponvel em: <http://
simon-listens.org/ index.php?id=122&L=1>. Acesso
em: 14 maio 2012.
[28] RWTH AACHEN UNIVERSITY. RWTH ASR.
Disponvel em: <http:// www-i6.informatik.rwthaachen.de/ rwth-asr>. Acesso em: 14 maio 2012.
[29] UNIVERSIDAD POLITCNICA DE VALENCIA.
iATROS. Disponvel em: <https:// prhlt.iti.upv.es/
page/ projects/ multimodal/ idoc/ iatros>. Acesso em:
14 maio 2012.
[30] UNIVERSITY OF TWENTE. SHoUT. Disponvel em:
<http:// shout-toolkit.sourceforge.net>. Acesso em: 14
maio 2012.
[31] MISSISSIPPI STATE UNIVERSITY. ISIP ASR.
Disponvel em: <http:// www.isip.piconepress.com/
projects/ speech/ index.html>. Acesso em: 14 maio
2012.
[32] SRI INTERNATIONAL. SRILM. Disponvel em:
<http:// www.speech.sri.com/ projects/ srilm>. Acesso
em: 14 maio 2012.
[33] VOXFORGE. VoxForge. Disponvel em: <http://
www.voxforge.org/ pt_br>. Acesso em: 14 maio 2012.
[34] UNIVERSIDADE FEDERAL DO PAR. FalaBrasil.
Disponvel em: <http:// www.laps.ufpa.br/ falabrasil>.

Uso de Reconhecimento Automático de Voz em Português Do Brasil Na Geração de Closed Caption

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Uso de Reconhecimento Automático de Voz em Português Do Brasil Na Geração de Closed Caption

Uploaded by

Copyright:

Available Formats

USO DE RECONHECIMENTO AUTOMTICO DE VOZ EM

PORTUGUS DO BRASIL NA GERAO DE CLOSED CAPTION

Luiz Fausto de Souza Brito , Edilberto Strauss , Flvio Luis de Mello

Rede Globo, Rio de Janeiro - RJ, Brasil, luiz.fausto@tvglobo.com.br

Resumo: Este trabalho tem a finalidade de apresentar a

1. CLOSED CAPTION E ACESSIBILIDADE

As estaes transmissoras ou retransmissoras

Alm disso, a Norma Complementar 01 de 2006 do

esses requisitos, consta que o texto das legendas deve ter

4. RECONHECIMENTO AUTOMTICO DE VOZ

Figura 1. Reconhecimento Automtico de Voz

A captao do sinal de voz realizada atravs de um

Modelo Acstico. Diferentemente do dicionrio, as

posteriormente adaptado para a voz de um locutor

5. USO AO REDOR DO MUNDO

tornando-a mais adequada a uma transcrio para a

conseguiram reduzir em 88% os erros ocasionados pela

independente de locutor, e portanto, pode-se esperar

automtico de voz. Sendo o portugus, ao contrrio do

A licena de ferramentas livres pode no permitir a

[7] SANT'ANA, T. Eu sou: Estenotipista. Revista Galileu,

[20] ZGANK, A. Three-Stage Framework for Unsupervised

You might also like