Professional Documents
Culture Documents
2. LEGISLAO
No Brasil, a lei n 10.098 de 2000 [4], criada para
estabelecer normas de acessibilidade, j previa que os
servios de radiodifuso de sons e imagens deveriam
adotar medidas tcnicas com o objetivo de permitir o uso
de subtitulao, para garantir o direito de acesso
informao s pessoas portadoras de deficincia auditiva.
Contudo, foi somente em 2006, que a Norma
Complementar 01, aprovada pela Portaria n 310 do
Ministrio das Comunicaes [5] estabeleceu prazos,
obrigando os radiodifusores a uma utilizao progressiva
de legendas ocultas nas suas programaes. De acordo
com o cronograma estabelecido, em 2017 a totalidade da
programao diria das emissoras e retransmissoras
dever dispor de legendas ocultas, como pode ser
verificado na Tabela 1.
Tabela 1. Prazos e cargas horrias mnimas
para disponibilizao de closed caption por faixa horria
Prazo
27/06/2008
27/06/2009
27/06/2010
27/06/2011
27/06/2012
27/04/2014
27/04/2015
27/06/2017
Faixa Horria
08:00 - 14:00
20:00 - 02:00
08:00 - 14:00
18:00 - 02:00
08:00 - 14:00
18:00 - 02:00
08:00 - 14:00
18:00 - 02:00
06:00 - 14:00
18:00 - 02:00
06:00 - 02:00
Dia Inteiro
Dia Inteiro
Carga Horria
1h
1h
2h
2h
3h
3h
4h
4h
6h
6h
16 h
20 h
Totalidade da Programao
Populao
> 1.000.000
> 500.000
> 200.000
> 100.000
Qualquer
Prazo
27/06/2008
27/06/2010
27/06/2012
27/06/2014
27/06/2016
3. ESTENOTIPIA
Trata-se do uso de um profissional especializado que
digita as palavras na velocidade em que as ouve,
utilizando smbolos fonticos em um equipamento com
teclado especial (estentipo), conectado a um
computador, que utilizando um dicionrio especfico
converte as sequncias de smbolos em palavras.
Um curso de formao profissional em estenotipia dura
de seis meses a um ano, mas normalmente necessrio
pelo menos dois anos de prtica para obter a velocidade
necessria para legendagem ao vivo (180 palavras por
minuto). uma mo-de-obra relativamente cara, escassa
e difcil de repor. De acordo com matria publicada na
revista Galileu de maio de 2012, existem apenas 400
profissionais desses no Brasil [7].
Erros no processo de estenotipia podem ocorrer tanto
por falha humana na digitao quanto pela ocorrncia de
palavras fora do dicionrio.
6. SITUAO BRASILEIRA
O nico software de reconhecimento automtico de
voz comercial existente para o portugus do Brasil e
empregado na gerao de closed caption o IBM
ViaVoice. Este produto foi desenvolvido e comercializado
pela IBM at 2003, quando foi vendido para a ScanSoft,
posteriormente adquirida pela Nuance [21]. Nem a
ScanSoft, nem a Nuance deram continuidade ou
desenvolveram produtos para substituir o ViaVoice em
Portugus do Brasil. Com isso, o software no dispe
mais de suporte corretivo ou evolutivo, podendo
eventualmente deixar de funcionar com sistemas
operacionais mais novos. Alm disso, a quantidade de
licenas existentes limitada.
Note-se que o IBM ViaVoice nem era um produto
otimizado para aplicao na gerao de legenda oculta:
tratava-se de um sistema de reconhecimento automtico
de voz para utilizao como interface homem/mquina.
Emissoras de televiso e outras empresas desenvolveram
interfaces para a gerao de legendas ocultas utilizado o
ViaVoice. Como j citado, parte dos erros do
reconhecimento de voz se devem s limitaes dos
algoritmos de processamento de sinais e modelos
estatsticos empregados. Pode-se imaginar que hoje seria
possvel utilizar algoritmos e modelos mais precisos e
complexos, uma vez que a tecnologia de reconhecimento
de voz evoluiu nesse perodo e que a capacidade
computacional aumentou desde a descontinuidade do
ViaVoice. Alm disso, no h necessidade de ficar restrito
a computadores de uso domstico, pode-se utilizar at
mesmo um conjunto de servidores realizando
processamento distribudo.
De fato, alguns dos sistemas de reconhecimento de
voz mais bem sucedidos atualmente utilizam o paradigma
de computao em nuvem (cloud computing), como, por
exemplo, a pesquisa por voz do Google [22] e o Apple Siri
[23]. Dessa forma, esto livres da limitao da capacidade
computacional dos usurios (o que especialmente til
para aplicaes embarcadas em dispositivos mveis).
Apesar da falta de softwares comerciais que possam
ser empregados no reconhecimento automtico de voz do
portugus do Brasil, existem diversas opes de software
livre que podem ser consideradas: HTK [24] da
Universidade de Cambridge, CMU Sphinx [25] da
Universidade Carnegie Mellon, Julius [26] da Universidade
de Kyoto, Simon [27] da Organizao Simon Listens,
RWTH ASR [28] da Universidade Tcnica de Aachen,
iATROS [29] da Universidade Politcnica de Valncia,
SHoUT [30] da Universidade de Twente, ISIP ASR [31] da
Universidade Estadual do Mississippi etc. Esses softwares
implementam os algoritmos de processamento de sinais e
modelos estatsticos utilizados no reconhecimento
automtico de voz, mas para serem aplicados ao
portugus do Brasil necessitam de treinamento com bases
de dados brasileiras. O treinamento desses sistemas
utiliza ferramentas distribudas juntamente com os
mesmos, alm de outras distribudas separadamente,
como o SRILM [32] da SRI International.
O treinamento um aspecto crtico para o bom
funcionamento de um sistema de reconhecimento
7. CONSIDERAES FINAIS
Uma opo para o desenvolvimento de alternativas
viveis falta de ferramentas comerciais de
reconhecimento automtico de voz para o portugus do
Brasil aplicveis na gerao de legenda oculta realizar
um levantamento das opes de software livre
disponveis. Em um levantamento criterioso de tais
softwares pode-se avaliar as opes dos parmetros de
configurao disponveis quanto aos impactos sobre a
acurcia e o custo computacional dos sistemas, podendo
ser adotadas opes tais que necessitem de
processamento distribudo para viabilizar a execuo em
tempo real, se isso resultar em uma melhoria significativa
da acurcia do sistema. necessrio ainda avaliar as
bases de dados disponveis publicamente para
treinamento dos sistemas de reconhecimento automtico
de voz em portugus do Brasil e, eventualmente,
aproveitar o acervo das emissoras para desenvolver e/ou
incrementar tais bases de dados, alm de melhor adequlas aplicao em questo. Por fim, algumas otimizaes
implementadas nesse tipo de sistema em emissoras de
televiso ao redor do mundo (e.g. sistema de atualizao
automtica ou semi-automtica de dicionrio, modelos de
linguagem e modelos acsticos, sistema de correo
manual em tempo real etc.) podem ser experimentadas no
Brasil.
Algumas dificuldades que podem surgir na tentativa de
desenvolver sistemas de reconhecimento automtico de
voz para o portugus do Brasil para a aplicao na
gerao de legenda oculta a partir de ferramentas
disponveis publicamente so as seguintes:
REFERNCIAS
[1] INSTITUTO BRASILEIRO DE GEOGRAFIA E
ESTATSTICA. Censo Demogrfico 2010:
Resultados gerais da amostra, Rio de Janeiro, 2012.
Disponvel em: <http:// www.ibge.gov.br/ home/
presidencia/ noticias/ imprensa/ ppts/
00000008473104122012315727483985.pdf>. Acesso
em: 12 maio 2012.
[2] CONSUMER ELECTRONICS ASSOCIATION.
ANSI/CEA-608-E: Line 21 Data Services. Arlington,
p. 127. 2008.
[3] ASSOCIAO BRASILEIRA DE NORMAS
TCNICAS. NBR 15610-1: Televiso digital
terrestre - Acessibilidade - Parte 1: Ferramentas
de texto. Rio de Janeiro, p. 23. 2011.
[4] BRASIL. Lei n 10.098, de 19 de dezembro de 2000.
Estabelece normas gerais e critrios bsicos para a
promoo da acessibilidade das pessoas portadoras
de deficincia ou com mobilidade reduzida, e d
outras providncias. Dirio Oficial [da] Repblica
Federativa do Brasil, Poder Legislativo, Braslia,
DF, p. 2-3, Seo 1, 20 dez. 2000.
[5] BRASIL. MINISTRIO DAS COMUNICAES.
Portaria n 310, 27 jun. 2006. Disponvel em: <http://
www.mc.gov.br/ images/ o-ministerio/ legislacao/
portarias/ portaria-310.pdf>. Acesso em: 12 maio
2012.
[6] ASSOCIAO BRASILEIRA DE NORMAS
TCNICAS. NBR 15290: Acessibilidade em
comunicao na televiso. Rio de Janeiro, p. 10.
2005.