You are on page 1of 13

Walter Murch

CLAREZA DENSA – DENSIDADE CLARA
Simples e Complexo

Traduzido por Daniel Belquer

(Título original: Dense Clarity – Clear Density)
disponível em: <http://transom.org/?page_id=7006>

Uma das impressões mais profundas causadas em alguém que por acaso adentre
um estúdio de mixagem de filmes é a de não haver conexão entre fins e meios. Às vezes,
para criar a simplicidade natural de uma cena cotidiana entre duas pessoas, dezenas de
canais de áudio têm que ser criados e totalmente misturados em apenas um. Outras vezes
uma trilha sonora de “ação” aparentemente complexa pode ser resolvida com apenas alguns
elementos cuidadosamente selecionados. Em outras palavras, não é sempre óbvio o que foi
necessário para chegar ao resultado final: pode ser simples ser complexo, e pode ser
complexo ser simples.

O nível geral de complexidade, no entanto, tem crescido firmemente através de
sete décadas desde que o filme sonoro foi inventado. E começando com o Dolby Stereo1 nos
anos 1970, continuando com a mixagem computadorizada nos anos 1980 e vários formatos
digitais nos anos 1990, esse crescimento foi acelerado ainda mais. Há sessenta anos atrás,
por exemplo, não seria incomum para um filme inteiro necessitar apenas de quinze a vinte
efeitos sonoros. Hoje esse número poderia ser de centenas a milhares de vezes maior.

Bem, a indústria do cinema não é um caso isolado: comparem os discos de 78
rpm de take único e só um canal dos anos 1930 com os CD’s de takes múltiplos e vários
canais de hoje. Ou vejam o que aconteceu com os efeitos visuais: comparem o King Kong
dos anos 1930 com os dinossauros Jurássicos dos anos 1990. O nível geral de detalhe,
definição, e o que poderia ser chamado de “nível hormonal” de som e imagem cresceu
enormemente, mas ao custo de uma complexidade muito maior durante a preparação.

A conseqüência disso, para o som, é que durante a gravação final de quase todo
filme há momentos em que o equilíbrio entre diálogo, música, e efeitos sonoros irá
repentinamente (e algumas vezes imprevisivelmente) tornar-se um emaranhado tão
complicado que mesmo o mais experiente dos diretores, editores, e mixadores pode ficar
sobrecarregado pelas escolhas que tenha que fazer.

Então o que eu gostaria de focar esta noite são esses momentos “emaranhados”:
como aparecem, e como lidar com eles quando isso acontece. Como escolher que sons
devem predominar quando não podem ser todos incluídos? Que sons devem permanecer em
segundo plano? E que sons – se há algum – devem ser eliminados? Por mais difícil que
essas questões sejam, e por mais vulneráveis que sejam às políticas do processo de
realização dos filmes, gostaria de sugerir algumas linhas de orientação práticas e conceituais
para ajudá-los a atravessar esses nós, e talvez até desembaraçar estes emaranhados.

1
N. do T.: apesar do nome estéreo, o Dolby Stereo era produzido por 4 canais: centro, direita e esquerda atrás da tela mais o
surround.
Ou – melhor ainda – nem permitir que eles aconteçam.

Código e Corpo

Para começarmos a entender isso tudo, gostaria que pensássemos no som em
termos de luz.

A luz branca, por exemplo, que nos parece tão simples, na verdade é uma
sobreposição misturada de todos os comprimentos de onda (quer dizer, de todas as cores)
de luz simultaneamente. Vocês podem observar isso ao contrário quando vocês acendem
uma lanterna através de um prisma e vêem o raio de luz branca se espalhar nas cores
familiares do arco-íris, do violeta (o mais curto comprimento de onda da luz visível) –
passando pelo anil, azul, verde, amarelo, e laranja – até o vermelho (o comprimento de onda
mais longo).

Com isso em mente, gostaria que vocês agora imaginassem um som branco –
todos os sons imagináveis soando juntos ao mesmo tempo: o som de Nova Iorque, por
exemplo – gritos e sussurros, sirenes e rangidos, motores, metrôs, britadeiras, música de
rua, o Teatro Grand Opera e o Estádio Shea.

Agora imaginem que vocês pudessem “acender” este som branco através de
algum tipo de prisma mágico que nos revelaria seu espectro oculto.

Assim como o espectro de cores está compreendido entre o violeta e o vermelho,
esse espectro-sonoro também terá seus próprios limites. Normalmente, neste tipo de
discussão, nós agora começaríamos a falar sobre as freqüências de som mais graves (20
ciclos) e mais agudas (20.000 ciclos) audíveis. Mas para o propósito de nossa discussão
esta noite, vou pedir a vocês que imaginem os limites de uma ordem conceitual
completamente diferente – algo que chamo de som Codificado, que desenharei aqui do lado
esquerdo (onde nós tínhamos o violeta); e algo mais que chamarei de som Incorporado, que
colocarei à direita (vermelho).

O exemplo mais claro de som Codificado é a fala.

O exemplo mais claro de som Incorporado é a música.

Quando vocês pensam sobre isso, vêem que toda linguagem é basicamente um
código, com seu conjunto de regras próprias. Deve-se entender essas regras para poder
romper a superfície da linguagem e extrair quaisquer significados que ela contenha. Só
porque fazemos isso automaticamente, sem nos darmos conta, não quer dizer que não
esteja acontecendo. Está acontecendo agora mesmo, enquanto vocês escutam esta
palestra. O significado do que estou dizendo está “codificado” pelas palavras que estou
usando. O som, neste caso, está atuando simplesmente como um veículo através do qual se
envia o significado.

A música, no entanto, é completamente diferente: é o som experienciado
diretamente, sem nenhum código intervindo entre vocês e eu. Nu. Qualquer significado que
exista em uma música está “Incorporado” ao próprio som. É por isso que a música às vezes
é chamada de Língua Universal.

O que existe para além desses limites externos? Assim como todo som audível se
enquadra entre os limites graves e agudos de 20 e 20.000 ciclos, também todos os sons se
encontrarão em algum lugar nesse espectro conceitual da fala à música.
2
A maioria dos efeitos sonoros, por exemplo, se encontram no meio do caminho:
como “centauros-sonoros”, eles são metade língua, metade música. Já que um efeito sonoro
geralmente se refere a algo específico – ao motor de um trem a vapor, uma batida à porta, o
gorjeio dos pássaros, o tiro de uma arma – ele não é um som tão “puro” como a música. Por
outro lado, a linguagem dos efeitos sonoros, se eu puder usar esse termo, é mais universal e
imediatamente entendida do que qualquer língua falada.

Amarelo
Efeitos Sonoros
Codificados-Incorporados

Violeta Vermelho
Linguagem Música
Codificado Incorporado

Verde e Laranja

Agora vou desenhar uma curva (vocês esperaram por isso, tenho certeza) e
digamos que na prática as coisas não são tão simples como fiz parecer. Há alguns
elementos musicais que aparecem em quase todas as falas – pensem em como alguém diz
alguma coisa, como uma forma de música. Por exemplo, vocês podem dizer se alguém está
bravo ou feliz, mesmo se vocês não entendem o que é falado, só de ouvir o tom (a música)
da sua voz. Nós entendemos R2-D2 totalmente pela música de seus bips e bups, não por
suas “palavras” (só C-3PO e Luke Skywalker podem fazer isso). A fala computadorizada de
Stephen Hawking, por outro lado, é perfeitamente inteligível, mas monotonamente igual – ela
tem muito pouco conteúdo musical – então nós temos que escutar cuidadosamente o que ele
fala, e não como ele fala.

Conforme o grau de música que a fala contém, sua “cor” vai se deslocar em
direção à extremidade mais quente (musical) do espectro. Quanto a isso, R2-D2 é mais
quente que Stephen Hawking, e o sr. Spock é mais frio que Rambo.

Da mesma forma, há elementos de código implícitos em todas as músicas. Só
pensem na dificuldade de escutar ópera chinesa (a menos que vocês sejam chineses!). Se
lhes parece estranho, é porque vocês não entendem seu código, suas relações implícitas. Na
verdade, muito de seus gostos musicais são dependentes de quantas linguagens musicais
vocês se familiarizaram, e quão difíceis essas linguagens são. Rock and Roll tem um código
implícito simples (e uma imensa platéia); música européia erudita contemporânea tem um
código implícito complicado (e uma platéia menor).

Na medida em que esse código implícito é um elemento importante da música, a
“cor” da música irá se direcionar para o extremo mais frio (lingüístico) do espectro.
Schoenberg é mais frio que Santana.

E efeitos sonoros podem rapidamente escapar de sua base amarela em direção a
qualquer uma das extremidades, tingindo-se de cores mais quentes e “musicais”, ou mais
frias e lingüísticas durante o processo. Às vezes um efeito sonoro pode ser quase puramente
musical. Não se denomina abertamente música porque não é melódico, mas de qualquer
forma pode te afetar musicalmente: pense nos densos sons de fundo (“laranja”) em

3
Eraserhead. E outras vezes um efeito sonoro pode transmitir pacotes de sentido
discriminável que são quase como palavras. Batidas à porta, por exemplo, podem ser uma
micro-linguagem “azul” que diz: “Alguém está aqui!”. E certos tipos de passos podem estar
dizendo simplesmente: “Passo! Passo! Passo!”

Tais distinções têm uma função básica que é ajudá-los a classificar –
conceitualmente – os sons para os seus filmes. Assim como uma pintura bem equilibrada
tem uma distribuição de cores de áreas complementares do espectro, também a trilha
sonora2 de um filme nos parecerá equilibrada e interessante se for feita com uma distribuição
bem proporcionada de elementos de nosso espectro de “cores-sonoras”. Eu gostaria de
enfatizar, entretanto, que essas cores são completamente independentes de qualquer tom
emocional associado com “calor” ou “frieza”. Embora eu tenha colocado a música na
extremidade vermelha (quente) do espectro, uma música pode ser emocionalmente fria,
assim como um diálogo – na extremidade fria do espectro – pode ser emocionalmente
quente.

Além disso, há uma consideração prática sobre tudo isso quando falamos a
respeito da mixagem final: parece que a combinação de certos sons irá adquirir um caráter
correspondentemente diferente dependendo de qual região do espectro eles pertencem –
alguns sons irão se sobrepor transparente e efetivamente, enquanto outros tenderão a se
interferir destrutivamente e se “bloquear”, resultando numa mixagem embolada e confusa.

Antes de especificarmos isso melhor, no entanto, deixem-me dizer algumas
palavras sobre a diferença entre a sobreposição de imagens e sons.

Harmônicos e Não-Harmônicos

Quando vocês olham para uma pintura ou uma fotografia, ou para a vista da sua
janela, vocês vêem áreas distintas de cor – um vestido amarelo num varal, por exemplo,
contornado por um céu azul. O vestido e o céu ocupam áreas separadas da imagem. Se eles
não ocupassem – se o vestido da frente fosse transparente, os comprimentos de onda do
amarelo e do azul se somariam e criariam uma nova cor – verde, neste caso. Essa é a forma
natural de percebermos a luz.

Vocês podem sobrepor sons, porém, e eles ainda assim reterem suas identidades
originais. As notas dó, mi e sol criam algo novo: um harmonioso acorde de dó maior. Mas se
vocês escutarem cuidadosamente ainda podem perceber as notas individuais. Seria como
se, ao olhar para algo verde, ainda pudéssemos ver o azul e o amarelo que se juntaram para
formá-lo.

E é uma coisa boa que seja assim, porque a trilha sonora de um filme (assim
como a própria música) é totalmente dependente da habilidade de se sobrepor sons (“notas”)
transparentemente uns sobre os outros, criando novos “acordes”, sem transformá-los em
algo totalmente diferente.

Há limites para a quantidade de sons que pode ser sobreposta?

Bem, depende do que queremos dizer com sobreposição. Toda nota tocada por
todo instrumento é na verdade uma sobreposição de uma série de tons. 3 Um violoncelo

2
N. do T.: O conceito de trilha sonora é usado aqui no sentido amplo, sendo o conjunto de todos os sons de um filme.
3
N. do T.: Nesse trecho, Walter Murch fala, com algumas imprecisões, de Teoria Musical. Por se tratar de um
texto didático, o tradutor tomou a liberdade de corrigir o autor, enquadrando o texto do mestre Murch dentro da
mais rigorosa acuidade teórica. O texto então ficou assim:
4
tocando a nota “lá”, por exemplo, irá vibrar fortemente na freqüência fundamental daquela
corda, digamos 110 ciclos. Mas a corda também vibra em múltiplos exatos daquela
fundamental: 220, 330, 440, 550, 660, 770, 880, etc. Essas vibrações excedentes são
chamadas de harmônicos da freqüência fundamental.

Harmônicos, como o nome indica, são sons cujos formatos de onda estão
fortemente ligados – literalmente “aninhados” juntos. No exemplo acima, 220, 440, e 880 são
todas oitavas mais altas da fundamental “lá” (110). E os outros harmônicos – 330, 550, 660, e
770 – correspondem às notas mi, ré bemol, mi, e sol, os quais, junto com o lá, são as quatro
notas do acorde de lá maior (lá, ré bemol, mi, sol, lá). Então quando a nota lá é tocada no
violino (ou no piano, ou em qualquer outro instrumento) o que você ouve é na verdade um
acorde. Mas porque essa ligação harmônica é tão próxima, e porque a fundamental (110
neste caso) é quase duas vezes mais forte que todos os seus harmônicos soando juntos, nós
percebemos “lá” como uma nota única, apesar de uma nota com “identidade”. Essa
identidade – ou timbre – é ligeiramente diferente em cada instrumento, e esta diferença é o
que nos permite distinguir não apenas os diferentes tipos de instrumento – clarinetes de
violinos, por exemplo – mas algumas vezes também diferenciar instrumentos individuais do
mesmo tipo – um violino Stradivarius de um Guarnieri.∗

Este tipo de sobreposição harmônica não possui quaisquer limites objetivos que
possam ser comentados. Enquanto os sons estiverem harmonicamente vinculados, você
pode sobrepor quantos elementos quiserem. Imaginem uma orquestra, com todos os
instrumentos tocando oitavas da mesma nota. Acrescentem um órgão, tocando mais oitavas.
Agora um coro de 200 vozes, cantando ainda mais oitavas. Nós estamos sobrepondo mais e
mais instrumentos e vozes, mas ainda assim tudo soará unificado. Se todos começarem a
tocar e cantar o que bem entenderem, entretanto, essa unidade imediatamente se
transformará num caos.

Para dar um exemplo de sobreposição harmônica não-musical: em Apocalipse
Now nós queríamos criar o som de uma textura de grilos para uma das cenas iniciais (Willard
a sós em seu quarto de hotel à noite), mas por razões implícitas à história nós queríamos
que esses grilos tivessem um grau alucinatório de precisão e foco. Então, ao invés de sair e
simplesmente gravar uma textura de grilos, nós decidimos construir esse som camada por
camada, com grilos gravados individualmente. Nós trouxemos alguns deles para o nosso
estúdio no porão, gravamos um por um num gravador multipista, e então fomos adicionamos
canal por canal, depois recombinando esses canais e então gravando ainda mais até que
tivéssemos milhares de cricrilares sobrepostos. O resultado final soou unificado – uma cama
de grilos – mesmo tendo sido construído por gravações individuais, porque a unidade básica
(o cricrilar do grilo) era muito similar – cada um dos cricrilares soava bem parecido com o

“Um violoncelo tocando a nota “lá”, por exemplo, sua corda irá vibrar fortemente na freqüência fundamental
daquela nota, digamos 110 ciclos por segundo. Mas a corda também vibra em múltiplos daquela fundamental,
no caso: 220, 330, 440, 550, 660, 770, 880, etc. Essas vibrações excedentes são chamadas de harmônicos da
freqüência fundamental. Harmônicos, como o nome indica, são sons cujos formatos de onda estão fortemente
ligados – literalmente “aninhados” juntos. No exemplo acima, 220, 440, e 880 são todas oitavas mais altas da
fundamental “lá” (110).E os outros harmônicos – 330, 550, 660, e 770 – correspondem às notas mi, dó
sustenido, mi, e sol, os quais, junto com o lá, são as quatro notas do acorde de lá maior com sétima (lá, dó
sustenido, mi, sol). Então quando a nota lá é tocada no violoncelo (ou no piano, ou em qualquer outro
instrumento) o que você ouve é na verdade um acorde. Mas porque essa ligação harmônica é tão próxima, e
porque a fundamental (110 neste caso) é quase duas vezes mais forte que todos os seus harmônicos soando
juntos, nós percebemos “lá” como uma nota única, apesar de uma nota com “identidade”. Essa identidade – ou
timbre – é diferente em cada instrumento, e esta diferença é que nos permite distinguir não apenas os
diferentes tipos de instrumento – clarinetes de violinos, por exemplo – mas algumas vezes também diferenciar
instrumentos individuais do mesmo tipo – um violino Stradivarius de um Guarnieri.”

Fim do trecho corrigido.
5
anterior. Isso não é música, mas mesmo assim se qualificaria, no meu entender, como um
exemplo de sobreposição harmônica.

(Incidentalmente, vocês ficariam felizes em saber que os grilos escaparam e
viveram felizes atrás dos muros desse porão durante alguns anos, cricrilando nos momentos
mais inconvenientes.)

Dagwood e Blondie4

O que acontece, porém, quando a sobreposição não é harmônica?

Tecnicamente, é claro, vocês podem sobrepor à vontade: vocês podem criar
enormes “sanduíches do Dagwood” de som – uma camada de diálogo, duas camadas de
tráfego, uma camada de buzinas de automóveis, de gaivotas, de multidão, de passos, ondas
quebrando na praia, apitos de nevoeiro, motores externos, trovões distantes, fogos de
artifício e assim por diante. Tudo soando ao mesmo tempo. (Para fins desta discussão,
vamos definir uma camada como sendo uma série, conceitualmente unificada, de sons que
ocorrem mais ou menos continuamente, sem grandes espaços entre os sons individuais. Um
grito de uma única gaivota, por exemplo, não constitui uma camada).

O problema, é claro, é que mais cedo ou mais tarde (na maioria das vezes mais
cedo) esse tipo de colocação de camadas em excesso, acaba soando como a confusão de
sons entre as estações de rádio – ruído branco – que é por onde nós começamos nossa
discussão. O problema com o ruído branco é que, como luz branca, não há muita informação
para se extrair. Ou melhor, há tanta informação embaralhada, que é impossível para o
cérebro separar tudo de novo. É indigesto como um dos sanduíches do Dagwood. Você
ainda ouve tudo, tecnicamente falando, mas é impossível escutar o que quer que seja – para
apreciar ou até mesmo distinguir cada elemento individualmente. Então os cineastas teriam
feito todo aquele trabalho, posto todos aqueles sons juntos, para nada. Eles poderiam
simplesmente ter sintonizado entre as estações de rádio e obtido o mesmo resultado.

Tenho aqui um pequeno trecho de Apocalipse Now que, espero, vá mostrar-lhes o
que eu quero dizer. Vocês verão o mesmo minuto do filme seis vezes, mas estarão ouvindo
coisas diferentes a cada vez: uma camada separada de som de cada vez, que deve dar a
vocês um panorama quase geológico da paisagem sonora deste filme. Essa cena em
particular deve durar um minuto e pouco, dos helicópteros de Kilgore pousando na praia até
a explosão no helicóptero de Kilgore e ele dizendo “Eu quero meus homens fora!”. Mas ela é
parte de uma seqüência bem mais longa.

Originalmente, lá em 1978, nós organizamos o som desta forma porque não
tínhamos máquinas suficientes para tocar o material: havia mais de cento e setenta e cinco
pistas sonoras separadas só para essa parte do filme. Era minha própria versão do
sanduíche do Dagwood. Então eu tive que quebrar o som em pedaços menores, grupos mais
manipuláveis, chamados de pré-mix, de mais ou menos 30 canais cada. Mas faço a mesma
coisa ainda hoje, apesar de ter três vezes mais faders do que eu tinha naquele tempo.

As seis camadas de pré-mix são:

1. Diálogo
2. Helicópteros

4
N. do T.: personagens de histórias em quadrinhos.
6
3. Música (As Valquírias5)
4. Pequenas armas de fogo (AK47 e M16)
5. Explosões (Morteiros, Granadas, Artilharia Pesada)
6. Passos e outros tipos de foley

Estas camadas estão listadas em ordem de importância, mais ou menos da
mesma forma que você arranjaria os grupos instrumentais numa orquestra. Pintores de mural
fazem quase a mesma coisa quando dividem uma parede em quadrados e cuidam de um
quadrado de cada vez. O que murais e mixagem de música têm em comum é que em cada
um deles os detalhes têm que ser tão proporcionais à imensa escala do trabalho, que é fácil
errar – ou os detalhes sobrecarregarão o olho (ou ouvido) mas não nos darão sensação de
totalidade, ou o todo estará completo mas sem detalhes convincentes.

A voz humana deve ser entendida claramente em quase todas as circunstâncias,
seja cantando numa ópera ou no diálogo de um filme, então a primeira coisa que fiz foi mixar
os diálogos para esta cena, isolada de quaisquer elementos que pudessem competir com a
fala.

Então me perguntei; qual é o som mais dominante da cena? Nesse caso calhou
de serem os helicópteros, então eu mixei todos os canais de helicópteros juntos num outro
rolo de filme de 35mm, enquanto escutava o diálogo sendo tocado, para ter certeza de que
não faria nada com os helicópteros que obscurecesse o diálogo.

Então passei ao terceiro som mais dominante, que era a Cavalgada das Valquírias
como se tocada pelos amplificadores dos helicópteros de Kilgore. Eu mixei isso num terceiro
rolo de filme enquanto monitorava as duas pré-mix dos helicópteros e do diálogo.

E assim por diante, do #4 (pequenas armas de fogo) até #5 (explosões) até #6
(passos). No final, eu tinha seis pré-mix do filme, cada uma sendo uma master de seis canais
(três canais atrás da tela: esquerda, centro, direita; dois canais no fundo do teatro: esquerda
e direita; e um canal para reforço das freqüências graves). Cada pré-mix foi equilibrada com
as outras de forma que – pelo menos teoricamente – a mixagem final deveria ter sido
simplesmente uma questão de tocar tudo junto com um nível predeterminado.

O que eu descobri para minha consternação, contudo, foi que, no primeiro ensaio
da mixagem final, tudo pareceu desmoronar na grande avalanche de ruído que mencionei
antes. Cada um dos grupos sonoros que eu tinha pré-mixado estava justificado pelo que
estava acontecendo na tela, mas por causa de alguma alquimia demoníaca, fundiram-se
numa algazarra tosca quando foram tocados juntos.

O desafio parecia ser de alguma forma encontrar o ponto de equilíbrio em que
haveria sons interessantes o suficiente para adicionar sentido e ajudar a história, mas não
tantos que eles se prejudicassem mutuamente.

A questão era: onde estava o ponto de equilíbrio?

De repente me lembrei de minha experiência de dez anos antes com os Passos
de Robô, e meu primeiro encontro com a misteriosa Lei dos Dois-e-Meio.

Robôs e Uvas

5
N. do T.: “A Cavalgada das Valquírias”, composição de Richard Wagner de meados do século XIX.
7
Isso aconteceu em 1969, em um dos primeiros filmes em que trabalhei: THX-1138
de George Lucas. Era um filme de baixo orçamento, mas também era de ficção científica,
então meu trabalho era produzir uma trilha sonora mundialmente reconhecida por alguns
trocados. A parte dos trocados era fácil, porque era só assim que tinha trabalhado até então.
A parte do “mundialmente reconhecida”, entretanto, significava que a maioria dos sons que
vinham automaticamente “junto com” a imagem (o som sincado) tinha que ser refeita. Um
caso em especial: os passos dos policiais do filme, que eram supostamente robôs de
trezentos quilos de aço e cromo. Durante as filmagens, é claro, esses robôs foram feitos por
atores com figurino que faziam o som normal que todo mundo faz quando anda. Mas no filme
nós queríamos que os passos soassem gigantescos, então construí calçados especiais de
metal, presos com elásticos e placas de ferro, fui para o Museu de História Natural de São
Francisco às 2 da manhã, calcei-os e gravei vários tipos de caminhadas em diferentes tipos
de ambientes sonoros, andando e passeando como um tipo de monstro de Frankenstein.

Eles soaram otimamente, mas agora eu tinha que sincar todos esses passos. Nós
faríamos isso diferente hoje – os passos seriam gravados num chamado palco de Foley, em
sincronia com o filme logo desde o começo. Mas eu era um jovem idealista – Eu queria que
soassem bem! – e além disso nós não tínhamos dinheiro para ir a Los Angeles e alugar um
palco de Foley.

Então lá estava eu com minha cestinha entulhada de sons de passos, colocando-
os no filme um por um, como se fosse um bordado ou coisa do tipo. Eu estava indo bem,
mas muito devagar, e tinha medo que não acabasse a tempo para a mixagem. Por sorte,
numa madrugada às 2 da manhã, uma boa fada me apareceu para me salvar na forma de
uma percepção repentina e acidental que era: se havia um robô, seus passos tinham que
estar sincados; se havia dois robôs, também, seus passos tinham que estar sincados; mas
se havia três robôs, nada tinha que estar sincado. Ou ainda, qualquer ponto de sincronia era
tão bom quanto qualquer outro!

Essa descoberta desfez o emaranhado, e eu pude terminar a tempo para a
mixagem. Mas...

Por que algo assim acontece?

De algum jeito, parece que nossos cérebros podem seguir os passos de uma
pessoa, ou até os passos de duas pessoas, mas com três ou mais pessoas nossos cérebros
simplesmente desistem – há passos demais acontecendo muito rápido. Como resultado,
cada passo não é mais percebido individualmente, mas antes um conjunto de passos é
percebido como uma entidade única, como um acorde musical. Se o ritmo dos passos é
aproximado, e se temos a impressão de que eles estão na superfície correta parece que isto
nos é suficiente. , o cérebro diz “Sim, vejo um conjunto de pessoas andando por um corredor
e quero ouvir os sons de um conjunto de pessoas andando por um corredor.”

Em algum lugar em meados do século XIX, uma das estudantes de Edouard
Manet estava pintando algumas uvas, cuidadosamente contornando cada uma, e Manet de
repente arrancou o pincel da sua mão e gritou: “Assim não! Eu não me importo nem um
pouco com Cada Uma das Uvas! Quero que você capte a sensação
das uvas, qual o sabor delas, sua cor, como a poeira as contorna e ao
mesmo tempo as amacia.”

Do mesmo modo, se você sincou Cada Um dos Passos mas
não conseguiu captar a energia do conjunto, o espaço onde eles estão se
movendo, a superfície na qual eles estão pisando, e assim por diante, você cometeu o

8
mesmo tipo de erro que a estudante de Manet estava cometendo. Você prestou atenção
demais a algo que o cérebro é incapaz de assimilar, mesmo se quisesse.
Árvores e Florestas

De qualquer maneira, depois da minha experiência com os robôs, tornei-me
sensível à transformação que parece ocorrer sempre que se tem três de qualquer coisa. Na
prática, me poupou muito trabalho – descobri muitos lugares onde eu não tinha que contar as
uvas, por assim dizer – mas comecei a ver o mesmo padrão ocorrendo em outras áreas
também, e com implicações muito além dos passos.

O exemplo mais claro do que eu estou dizendo pode ser visto nos ideogramas
chineses para “árvore” e “floresta”. Em chinês, a palavra “árvore” se parece com uma árvore
mesmo – uma espécie de pinheiro com troncos inclinados. E a palavra chinesa para
“floresta” são três árvores. Agora, era obviamente os chineses quem deveriam decidir sobre
quantas árvores seriam necessárias para transmitir a idéia de “floresta”, mas
duas não pareciam suficientes, imagino, e dezesseis, digamos, seria muito além
do necessário – demoraria muito para escrever e estragaria a página toda. Mas
três árvores parece ser o exato. Então, no desenvolvimento do sistema de escrita
deles, os chineses antigos perceberam o fato com o qual esbarrei com os meus passos de
robô: que três é a fronteira na qual você transita de “coisas individuais” para “conjunto”.

Acontece que Bach também tinha algumas coisas para nos
ensinar a respeito desse fenômeno em música, com relação ao número
máximo de linhas melódicas que um ouvinte pode apreciar
simultaneamente, que ele acreditava serem três. E acho que esta é a
razão para os circos de Barnum terem três picadeiros, não cinco, ou dois. Até na religião
você pode notar sua influência quando se compara a Dualidade de Zoroastro à misteriosa
“singularidade múltipla” da Trindade Cristã. E os sistemas de contagem de várias tribos
primitivas (e alguns animais) acabam no três, além do que passa a ser simplesmente
“muitos”.

Então o que começou a me interessar sob o ponto de vista criativo era o ponto
onde eu pudesse ver a floresta e as árvores – onde houvesse, simultaneamente, Clareza,
que vem de uma discriminação dos elementos individuais (as notas), e Densidade, que vem
de uma sensação do todo (o acorde). E descobri que esse ponto de equilíbrio ocorre mais
freqüentemente quando há um pouco menos do que três camadas de alguma coisa. Eu
passei a apelidar isto de a minha “Lei dos Dois-e-Meio”.

Direito e Esquerdo

Agora, um resultado prático da nossa distinção anterior entre som Codificado e
Incorporado, parece ser que essa lei dos dois-e-meio se aplica somente para sons de
mesma “cor” – sons da mesma região do espectro conceitual. (Com sons de áreas diferentes
do espectro – sons de cores diferentes – parece haver exceções).

Os passos do robô, por exemplo, eram todos do mesmo “verde”, então no
momento em que havia três camadas, eles se cristalizavam numa nova singularidade: robôs
andando em conjunto. Similarmente, é possível seguir duas conversas “violeta” juntas, mas
não três. Escute mais uma vez a cena em “O Poderoso Chefão” onde a família está sentada
conversando sobre o que fazer quando o Poderoso Chefão (Marlon Brando) morrer. Sonny
está conversando com Tom, e Clemenza está falando com Tessio – você pode acompanhar
as duas conversas e também prestar atenção em Michael fazendo uma ligação telefônica
para Luca Brasi (Michael ao telefone é a “meia” parte dos dois-e-meio), mas somente porque
9
essa cena foi cuidadosamente escrita e executada e gravada. Ou pense sobre dois trechos
de música “vermelha” tocando simultaneamente: um rádio ao fundo e um música temática.
Pode dar certo, mas deve ser feito com cuidado.

Mas se vocês misturam sons de diferentes partes do espectro, ganham espaço
extra. Diálogo e Música podem conviver bem felizes juntos. Acrescente alguns Efeitos
Sonoros, também, e tudo ainda soa transparente: duas pessoas falando, com um
acompanhamento musical, e alguns passarinhos ao fundo, talvez um pouco de tráfego. Muito
legal, mesmo que já tenhamos quatro camadas.

Por que é assim? Bem, provavelmente tem algo a ver com as áreas do cérebro
nas quais essa informação é processada. Parece que o som Codificado (linguagem) é
controlado em sua maioria no lado esquerdo do cérebro, e o som Incorporado (música) é
cuidado pela parte do outro lado da sala, à direita. Há exceções, é claro: por exemplo, parece
que os elementos rítmicos da música são controlados pelo lado esquerdo, e as vogais da fala
pelo lado direito. Mas falando genericamente, os dois departamentos parecem ser capazes
de operar simultaneamente sem se atrapalhar um com o outro. O que quer dizer que
dividindo o trabalho eles podem lidar com um número total de camadas que seria impossível
para cada lado individualmente.

Densidade e Clareza

Na verdade, parece que o número total de camadas, se a carga é dividida
igualmente através do espectro de Codificado até Incorporado (do diálogo “violeta” até a
música “vermelha”) é o dobro do que seria se todas as camadas fossem empilhadas em
qualquer região única (cor) do espectro. Em outras palavras, você pode administrar cinco
camadas ao invés de duas-e-meia, graças à dualidade direita-esquerda do cérebro humano.

O que isso significa, na prática, é:
1. Uma camada de diálogo “violeta”;
2. Uma camada de música “vermelha”;
3. Uma camada “fria” (lingüística) de efeitos (ex.: passos);
4. Uma camada “quente” (musical) de efeitos (ex.: atmosferas climáticas);
5. Uma camada de efeitos “amarelos” (“centauros”, equilibrados por igual).
Amarelo

Codificados-Incorporados

Azul-Esverdeado Laranja
Efeitos “Lingüísticos Efeitos “Musicais”
(Passos, Batidas à Porta, etc. (Atmosferas,
Efeitos Rítmicos) Ambiências)

Violeta Vermelho
Linguagem Música
Codificado Incorporado
Hemisfério Esquerdo Hemisfério Direito

O que estou sugerindo é que, em qualquer momento (por uma questão de
praticidade, vamos dizer que um “momento” é qualquer seção de cinco segundos de um
filme), cinco camadas é o máximo que pode ser tolerado pelo público se você também quer
que se mantenha um senso de clareza dos elementos individuais que estão contribuindo

10
para a mixagem. Em outras palavras, se você quer que a experiência se torne
simultaneamente Densa e Clara.

Mas a precondição para se estar apto a manter cinco camadas, é que as camadas
estejam uniformemente distribuídas pelo espectro conceitual. Se os sons se amontoam em
uma região (uma cor), os limites encolhem para duas-e-meia. Se vocês querem ter duas
camadas e meia de diálogo, por exemplo, e querem que as pessoas entendam cada palavra,
é melhor que eliminem a competição com quaisquer outros sons que possam estar
ocorrendo ao mesmo tempo.

Para destacar as diferenças da nossa percepção do som Codificado vs.
Incorporado, é interessante notar o seguinte paradoxo: em quase todos os filmes estéreo
produzidos nos últimos vinte e cinco anos, o diálogo está sempre colocado no centro não
importando qual a posição real dos atores na tela; eles podem estar na extremidade
esquerda, mas suas vozes ainda assim saem pelo centro. E ainda assim, nós, (incluindo nós
mixadores) acreditamos que as vozes estejam “vindo” dos atores. Este é um tratamento
totalmente diferente daquele que é dado para os efeitos sonoros da variedade “amarela” –
carros passando, por exemplo – que são rotineiramente (e quase obrigatoriamente) movidos
ao longo da tela com a ação. E certamente diferente da música “vermelha”, que é
normalmente arranjada de forma a vir de todas as caixas de som da sala simultaneamente
(incluindo as surrounds). Efeitos sonoros incorporados “laranja” (atmosferas, ambiências)
também recebem tratamento estéreo completo. Efeitos sonoros “azul-esverdeados” como
passos, entretanto, são normalmente colocados no centro, como os diálogos, a menos que
os cineastas queiram chamar uma atenção especial para os passos, e então eles devem ser
colocados e movidos junto com a ação. Mas neste caso os atores quase sempre não têm
falas.

Como regra geral, então, quanto mais “quente” for o som, mais ele tenderá a ter
um tratamento estéreo (multicanal), e quanto mais “frio” for o som, mais ele tenderá a ser
colocado monofonicamente no centro. E ainda assim nós parecemos não ter nenhum
problema com essa incongruência – na verdade, é o contrário. Os experimentos iniciais (nos
anos 1950) que envolviam o diálogo se movendo pela tela foram eventualmente
abandonados como parecendo “artificiais”.

Os filmes monofônicos sempre foram assim – essa parte não é nova. O que é
novo e peculiar, entretanto, é que nós nos tornamos aptos a tolerar – até apreciar – essa
mistura entre mono e estéreo no mesmo filme.

Por que é assim? Acredito que tenha algo a ver com a maneira como deciframos a
linguagem, e porque enquanto nossos cérebros estão ocupados com o som Codificado, nós
descartamos de bom grado qualquer questão sobre a sua origem no visual, permitindo que a
imagem “gire” a fonte do som. Quando o som é incorporado, porém, e pouca decodificação
está ocorrendo, a localização do som no espaço torna-se cada vez mais importante, quanto
menos lingüístico ele seja. Nos termos desta palestra, quanto mais “quente” ele seja. O fato
de que podemos processar tanto o Codificado mono quanto o Incorporado estéreo
simultaneamente, parece demonstrar claramente algumas das diferenças na forma como
nossos dois hemisférios trabalham.

Voltando ao meu problema com Apocalipse: parecia ser causado por eu ter mais
de seis camadas de som, e seis camadas é essencialmente o mesmo que dezesseis, ou
sessenta: eu tinha passado por um limiar além do qual os sons se cristalizam numa nova
singularidade: ruído denso no qual um fragmento ou outro pode talvez ser distinguido, mas

11
não as linhas de desenvolvimento das camadas em si. Com seis camadas, eu tinha obtido
Densidade, mas em detrimento da Clareza.

O que eu fiz como conseqüência foi restringir as camadas daquela seção do filme
para um máximo de cinco camadas. Por sorte ou por design, pude fazer isso porque meus
sons estavam distribuídos uniformemente pelo espectro conceitual.

1. Diálogo (violeta)
2. Pequenas armas de fogo (palavras azul-esverdeadas que dizem “Tiro! Tiro! Tiro!”)
3. Explosões (“tímpanos” amarelos com conteúdo)
4. Passos e misturas (azul até o laranja)
5. Helicópteros (zumbido como música laranja)
6. Música das Valquírias (vermelha)
Se as camadas não tivessem sido distribuídas uniformemente, o limite seria
menos que cinco. Conforme mencionei antes, se todas tivessem sido concentradas em uma
“área de cor” do espectro, (todas em violeta ou todas em vermelho, por exemplo) o limite
encolheria para duas-e-meia. Parece, então, que quanto mais monocromática for a palheta,
menor é o número de camadas que podem ser sobrepostas; quanto mais policromática a
palheta, por outro lado, maior é o número de camadas que você pode utilizar.

Então nessa seção de Apocalipse, descobri que podia construir um “sanduíche” de
cinco camadas. Se eu quisesse acrescentar algo novo, eu teria que tirar alguma outra coisa.
Por exemplo, quando o garoto no helicóptero diz “Eu não vou, eu não vou!” escolhi remover
toda a música. De uma certa forma isso não é sensato, porque ele na verdade está dentro do
helicóptero que está produzindo a música, então ela deveria ser ouvida mais forte do que em
qualquer outro lugar. Mas por razões internas à história, nós precisávamos ouvir esse diálogo
é claro, e eu também queria enfatizar o caos exterior – os AK47 e os disparos dos morteiros
por causa dos quais o garoto estava resistindo a sair – e o som do helicóptero que
representava “segurança”, além das vozes dos outros membros daquela unidade. Então para
esta pequena seção, aqui estão as camadas:

1. Diálogo (“Eu não vou! Eu não vou!)
2. Outras vozes, gritos, etc.
3. Helicópteros
4. Os AK47 e as M16
5. Disparos dos morteiros

Nestas circunstâncias, a música foi a vítima sacrificada. Uma coisa incrível é que
você não a ouve indo embora – você acredita que ela ainda esteja tocando, embora, como
mencionei antes, ela devesse estar mais forte no helicóptero do que em qualquer lugar. E, na
verdade, logo que esse diálogo termina, nós trouxemos a música de volta e sacrificamos
outra coisa. Todos os momentos desta seção são igualmente fluidos, como se fosse um
truque de ilusionismo onde as camadas vão desaparecendo e reaparecendo conforme o foco
dramático do momento. Isso é um resultado da aplicação da lei das “cinco camadas”, mas é
também uma das coisas que fazem a escuta de uma trilha sonora ser tão excitante.

Mas gostaria de enfatizar que isso não quer dizer que sempre se deva ter cinco
camadas rolando. Densidade conceitual é algo que deve obedecer às mesmas regras de
intensidade dinâmica. A sua mixagem, momento a momento, deve ser tão densa (ou tão
forte) quanto a história e seus eventos pedirem. Uma trilha sonora densamente monótona é
tão cansativa quanto um filme monotonamente barulhento. Assim como uma sinfonia seria
insuportável se todos os instrumentos tocassem juntos o tempo todo. Mas meu ponto é que,
sob a mais favorável das circunstâncias, cinco camadas é um limiar que não deve ser

12
ultrapassado sem reflexão, da mesma maneira que não se deve ultrapassar certos limites de
intensidade. Os dois limiares parecem ter fundamento em nossa neurobiologia.

A conclusão é que o público está primariamente envolvido com a história: apesar
de tudo o que eu disse, a coisa certa a fazer no final das contas, é qualquer coisa que sirva à
sua narrativa no sentido mais amplo. Quando essa cena do helicóptero termina, contudo,
minha esperança é deixar a impressão duradoura de que tudo acontecia ao mesmo tempo –
Densidade – ainda que tudo pudesse ser ouvido discriminadamente – Clareza. Na verdade,
como vocês podem ver, Densidade e Clareza simultâneas só podem ser atingidas por este
tipo de subterfúgio.

Como disse no começo, pode ser complicado ser simples e simples ser
complicado.

Mas às vezes é simplesmente complicado ser complicado.

Boa noite, obrigado por me escutarem, e feliz mixagem!

13