You are on page 1of 13

Walter Murch CLAREZA DENSA – DENSIDADE CLARA

Simples e Complexo
Traduzido por Daniel Belquer

(Título original: Dense Clarity – Clear Density)
disponível em: <http://transom.org/?page_id=7006>

Uma das impressões mais profundas causadas em alguém que por acaso adentre um estúdio de mixagem de filmes é a de não haver conexão entre fins e meios. Às vezes, para criar a simplicidade natural de uma cena cotidiana entre duas pessoas, dezenas de canais de áudio têm que ser criados e totalmente misturados em apenas um. Outras vezes uma trilha sonora de “ação” aparentemente complexa pode ser resolvida com apenas alguns elementos cuidadosamente selecionados. Em outras palavras, não é sempre óbvio o que foi necessário para chegar ao resultado final: pode ser simples ser complexo, e pode ser complexo ser simples. O nível geral de complexidade, no entanto, tem crescido firmemente através de sete décadas desde que o filme sonoro foi inventado. E começando com o Dolby Stereo1 nos anos 1970, continuando com a mixagem computadorizada nos anos 1980 e vários formatos digitais nos anos 1990, esse crescimento foi acelerado ainda mais. Há sessenta anos atrás, por exemplo, não seria incomum para um filme inteiro necessitar apenas de quinze a vinte efeitos sonoros. Hoje esse número poderia ser de centenas a milhares de vezes maior. Bem, a indústria do cinema não é um caso isolado: comparem os discos de 78 rpm de take único e só um canal dos anos 1930 com os CD’s de takes múltiplos e vários canais de hoje. Ou vejam o que aconteceu com os efeitos visuais: comparem o King Kong dos anos 1930 com os dinossauros Jurássicos dos anos 1990. O nível geral de detalhe, definição, e o que poderia ser chamado de “nível hormonal” de som e imagem cresceu enormemente, mas ao custo de uma complexidade muito maior durante a preparação. A conseqüência disso, para o som, é que durante a gravação final de quase todo filme há momentos em que o equilíbrio entre diálogo, música, e efeitos sonoros irá repentinamente (e algumas vezes imprevisivelmente) tornar-se um emaranhado tão complicado que mesmo o mais experiente dos diretores, editores, e mixadores pode ficar sobrecarregado pelas escolhas que tenha que fazer. Então o que eu gostaria de focar esta noite são esses momentos “emaranhados”: como aparecem, e como lidar com eles quando isso acontece. Como escolher que sons devem predominar quando não podem ser todos incluídos? Que sons devem permanecer em segundo plano? E que sons – se há algum – devem ser eliminados? Por mais difícil que essas questões sejam, e por mais vulneráveis que sejam às políticas do processo de realização dos filmes, gostaria de sugerir algumas linhas de orientação práticas e conceituais para ajudá-los a atravessar esses nós, e talvez até desembaraçar estes emaranhados.
N. do T.: apesar do nome estéreo, o Dolby Stereo era produzido por 4 canais: centro, direita e esquerda atrás da tela mais o surround.
1

Ou – melhor ainda – nem permitir que eles aconteçam.

Código e Corpo
Para começarmos a entender isso tudo, gostaria que pensássemos no som em termos de luz. A luz branca, por exemplo, que nos parece tão simples, na verdade é uma sobreposição misturada de todos os comprimentos de onda (quer dizer, de todas as cores) de luz simultaneamente. Vocês podem observar isso ao contrário quando vocês acendem uma lanterna através de um prisma e vêem o raio de luz branca se espalhar nas cores familiares do arco-íris, do violeta (o mais curto comprimento de onda da luz visível) – passando pelo anil, azul, verde, amarelo, e laranja – até o vermelho (o comprimento de onda mais longo). Com isso em mente, gostaria que vocês agora imaginassem um som branco – todos os sons imagináveis soando juntos ao mesmo tempo: o som de Nova Iorque, por exemplo – gritos e sussurros, sirenes e rangidos, motores, metrôs, britadeiras, música de rua, o Teatro Grand Opera e o Estádio Shea. Agora imaginem que vocês pudessem “acender” este som branco através de algum tipo de prisma mágico que nos revelaria seu espectro oculto. Assim como o espectro de cores está compreendido entre o violeta e o vermelho, esse espectro-sonoro também terá seus próprios limites. Normalmente, neste tipo de discussão, nós agora começaríamos a falar sobre as freqüências de som mais graves (20 ciclos) e mais agudas (20.000 ciclos) audíveis. Mas para o propósito de nossa discussão esta noite, vou pedir a vocês que imaginem os limites de uma ordem conceitual completamente diferente – algo que chamo de som Codificado, que desenharei aqui do lado esquerdo (onde nós tínhamos o violeta); e algo mais que chamarei de som Incorporado, que colocarei à direita (vermelho). O exemplo mais claro de som Codificado é a fala. O exemplo mais claro de som Incorporado é a música. Quando vocês pensam sobre isso, vêem que toda linguagem é basicamente um código, com seu conjunto de regras próprias. Deve-se entender essas regras para poder romper a superfície da linguagem e extrair quaisquer significados que ela contenha. Só porque fazemos isso automaticamente, sem nos darmos conta, não quer dizer que não esteja acontecendo. Está acontecendo agora mesmo, enquanto vocês escutam esta palestra. O significado do que estou dizendo está “codificado” pelas palavras que estou usando. O som, neste caso, está atuando simplesmente como um veículo através do qual se envia o significado. A música, no entanto, é completamente diferente: é o som experienciado diretamente, sem nenhum código intervindo entre vocês e eu. Nu. Qualquer significado que exista em uma música está “Incorporado” ao próprio som. É por isso que a música às vezes é chamada de Língua Universal. O que existe para além desses limites externos? Assim como todo som audível se enquadra entre os limites graves e agudos de 20 e 20.000 ciclos, também todos os sons se encontrarão em algum lugar nesse espectro conceitual da fala à música. 2

A maioria dos efeitos sonoros, por exemplo, se encontram no meio do caminho: como “centauros-sonoros”, eles são metade língua, metade música. Já que um efeito sonoro geralmente se refere a algo específico – ao motor de um trem a vapor, uma batida à porta, o gorjeio dos pássaros, o tiro de uma arma – ele não é um som tão “puro” como a música. Por outro lado, a linguagem dos efeitos sonoros, se eu puder usar esse termo, é mais universal e imediatamente entendida do que qualquer língua falada. Amarelo Efeitos Sonoros Codificados-Incorporados Violeta Linguagem Codificado Vermelho Música Incorporado

Verde e Laranja
Agora vou desenhar uma curva (vocês esperaram por isso, tenho certeza) e digamos que na prática as coisas não são tão simples como fiz parecer. Há alguns elementos musicais que aparecem em quase todas as falas – pensem em como alguém diz alguma coisa, como uma forma de música. Por exemplo, vocês podem dizer se alguém está bravo ou feliz, mesmo se vocês não entendem o que é falado, só de ouvir o tom (a música) da sua voz. Nós entendemos R2-D2 totalmente pela música de seus bips e bups, não por suas “palavras” (só C-3PO e Luke Skywalker podem fazer isso). A fala computadorizada de Stephen Hawking, por outro lado, é perfeitamente inteligível, mas monotonamente igual – ela tem muito pouco conteúdo musical – então nós temos que escutar cuidadosamente o que ele fala, e não como ele fala. Conforme o grau de música que a fala contém, sua “cor” vai se deslocar em direção à extremidade mais quente (musical) do espectro. Quanto a isso, R2-D2 é mais quente que Stephen Hawking, e o sr. Spock é mais frio que Rambo. Da mesma forma, há elementos de código implícitos em todas as músicas. Só pensem na dificuldade de escutar ópera chinesa (a menos que vocês sejam chineses!). Se lhes parece estranho, é porque vocês não entendem seu código, suas relações implícitas. Na verdade, muito de seus gostos musicais são dependentes de quantas linguagens musicais vocês se familiarizaram, e quão difíceis essas linguagens são. Rock and Roll tem um código implícito simples (e uma imensa platéia); música européia erudita contemporânea tem um código implícito complicado (e uma platéia menor). Na medida em que esse código implícito é um elemento importante da música, a “cor” da música irá se direcionar para o extremo mais frio (lingüístico) do espectro. Schoenberg é mais frio que Santana. E efeitos sonoros podem rapidamente escapar de sua base amarela em direção a qualquer uma das extremidades, tingindo-se de cores mais quentes e “musicais”, ou mais frias e lingüísticas durante o processo. Às vezes um efeito sonoro pode ser quase puramente musical. Não se denomina abertamente música porque não é melódico, mas de qualquer forma pode te afetar musicalmente: pense nos densos sons de fundo (“laranja”) em 3

Eraserhead. E outras vezes um efeito sonoro pode transmitir pacotes de sentido discriminável que são quase como palavras. Batidas à porta, por exemplo, podem ser uma micro-linguagem “azul” que diz: “Alguém está aqui!”. E certos tipos de passos podem estar dizendo simplesmente: “Passo! Passo! Passo!” Tais distinções têm uma função básica que é ajudá-los a classificar – conceitualmente – os sons para os seus filmes. Assim como uma pintura bem equilibrada tem uma distribuição de cores de áreas complementares do espectro, também a trilha sonora2 de um filme nos parecerá equilibrada e interessante se for feita com uma distribuição bem proporcionada de elementos de nosso espectro de “cores-sonoras”. Eu gostaria de enfatizar, entretanto, que essas cores são completamente independentes de qualquer tom emocional associado com “calor” ou “frieza”. Embora eu tenha colocado a música na extremidade vermelha (quente) do espectro, uma música pode ser emocionalmente fria, assim como um diálogo – na extremidade fria do espectro – pode ser emocionalmente quente. Além disso, há uma consideração prática sobre tudo isso quando falamos a respeito da mixagem final: parece que a combinação de certos sons irá adquirir um caráter correspondentemente diferente dependendo de qual região do espectro eles pertencem – alguns sons irão se sobrepor transparente e efetivamente, enquanto outros tenderão a se interferir destrutivamente e se “bloquear”, resultando numa mixagem embolada e confusa. Antes de especificarmos isso melhor, no entanto, deixem-me dizer algumas palavras sobre a diferença entre a sobreposição de imagens e sons.

Harmônicos e Não-Harmônicos
Quando vocês olham para uma pintura ou uma fotografia, ou para a vista da sua janela, vocês vêem áreas distintas de cor – um vestido amarelo num varal, por exemplo, contornado por um céu azul. O vestido e o céu ocupam áreas separadas da imagem. Se eles não ocupassem – se o vestido da frente fosse transparente, os comprimentos de onda do amarelo e do azul se somariam e criariam uma nova cor – verde, neste caso. Essa é a forma natural de percebermos a luz. Vocês podem sobrepor sons, porém, e eles ainda assim reterem suas identidades originais. As notas dó, mi e sol criam algo novo: um harmonioso acorde de dó maior. Mas se vocês escutarem cuidadosamente ainda podem perceber as notas individuais. Seria como se, ao olhar para algo verde, ainda pudéssemos ver o azul e o amarelo que se juntaram para formá-lo. E é uma coisa boa que seja assim, porque a trilha sonora de um filme (assim como a própria música) é totalmente dependente da habilidade de se sobrepor sons (“notas”) transparentemente uns sobre os outros, criando novos “acordes”, sem transformá-los em algo totalmente diferente. Há limites para a quantidade de sons que pode ser sobreposta? Bem, depende do que queremos dizer com sobreposição. Toda nota tocada por todo instrumento é na verdade uma sobreposição de uma série de tons. 3 Um violoncelo
N. do T.: O conceito de trilha sonora é usado aqui no sentido amplo, sendo o conjunto de todos os sons de um filme. N. do T.: Nesse trecho, Walter Murch fala, com algumas imprecisões, de Teoria Musical. Por se tratar de um texto didático, o tradutor tomou a liberdade de corrigir o autor, enquadrando o texto do mestre Murch dentro da mais rigorosa acuidade teórica. O texto então ficou assim:
2 3

4

tocando a nota “lá”, por exemplo, irá vibrar fortemente na freqüência fundamental daquela corda, digamos 110 ciclos. Mas a corda também vibra em múltiplos exatos daquela fundamental: 220, 330, 440, 550, 660, 770, 880, etc. Essas vibrações excedentes são chamadas de harmônicos da freqüência fundamental. Harmônicos, como o nome indica, são sons cujos formatos de onda estão fortemente ligados – literalmente “aninhados” juntos. No exemplo acima, 220, 440, e 880 são todas oitavas mais altas da fundamental “lá” (110). E os outros harmônicos – 330, 550, 660, e 770 – correspondem às notas mi, ré bemol, mi, e sol, os quais, junto com o lá, são as quatro notas do acorde de lá maior (lá, ré bemol, mi, sol, lá). Então quando a nota lá é tocada no violino (ou no piano, ou em qualquer outro instrumento) o que você ouve é na verdade um acorde. Mas porque essa ligação harmônica é tão próxima, e porque a fundamental (110 neste caso) é quase duas vezes mais forte que todos os seus harmônicos soando juntos, nós percebemos “lá” como uma nota única, apesar de uma nota com “identidade”. Essa identidade – ou timbre – é ligeiramente diferente em cada instrumento, e esta diferença é o que nos permite distinguir não apenas os diferentes tipos de instrumento – clarinetes de violinos, por exemplo – mas algumas vezes também diferenciar instrumentos individuais do mesmo tipo – um violino Stradivarius de um Guarnieri.∗ Este tipo de sobreposição harmônica não possui quaisquer limites objetivos que possam ser comentados. Enquanto os sons estiverem harmonicamente vinculados, você pode sobrepor quantos elementos quiserem. Imaginem uma orquestra, com todos os instrumentos tocando oitavas da mesma nota. Acrescentem um órgão, tocando mais oitavas. Agora um coro de 200 vozes, cantando ainda mais oitavas. Nós estamos sobrepondo mais e mais instrumentos e vozes, mas ainda assim tudo soará unificado. Se todos começarem a tocar e cantar o que bem entenderem, entretanto, essa unidade imediatamente se transformará num caos. Para dar um exemplo de sobreposição harmônica não-musical: em Apocalipse Now nós queríamos criar o som de uma textura de grilos para uma das cenas iniciais (Willard a sós em seu quarto de hotel à noite), mas por razões implícitas à história nós queríamos que esses grilos tivessem um grau alucinatório de precisão e foco. Então, ao invés de sair e simplesmente gravar uma textura de grilos, nós decidimos construir esse som camada por camada, com grilos gravados individualmente. Nós trouxemos alguns deles para o nosso estúdio no porão, gravamos um por um num gravador multipista, e então fomos adicionamos canal por canal, depois recombinando esses canais e então gravando ainda mais até que tivéssemos milhares de cricrilares sobrepostos. O resultado final soou unificado – uma cama de grilos – mesmo tendo sido construído por gravações individuais, porque a unidade básica (o cricrilar do grilo) era muito similar – cada um dos cricrilares soava bem parecido com o

“Um violoncelo tocando a nota “lá”, por exemplo, sua corda irá vibrar fortemente na freqüência fundamental daquela nota, digamos 110 ciclos por segundo. Mas a corda também vibra em múltiplos daquela fundamental, no caso: 220, 330, 440, 550, 660, 770, 880, etc. Essas vibrações excedentes são chamadas de harmônicos da freqüência fundamental. Harmônicos, como o nome indica, são sons cujos formatos de onda estão fortemente ligados – literalmente “aninhados” juntos. No exemplo acima, 220, 440, e 880 são todas oitavas mais altas da fundamental “lá” (110).E os outros harmônicos – 330, 550, 660, e 770 – correspondem às notas mi, dó sustenido, mi, e sol, os quais, junto com o lá, são as quatro notas do acorde de lá maior com sétima (lá, dó sustenido, mi, sol). Então quando a nota lá é tocada no violoncelo (ou no piano, ou em qualquer outro instrumento) o que você ouve é na verdade um acorde. Mas porque essa ligação harmônica é tão próxima, e porque a fundamental (110 neste caso) é quase duas vezes mais forte que todos os seus harmônicos soando juntos, nós percebemos “lá” como uma nota única, apesar de uma nota com “identidade”. Essa identidade – ou timbre – é diferente em cada instrumento, e esta diferença é que nos permite distinguir não apenas os diferentes tipos de instrumento – clarinetes de violinos, por exemplo – mas algumas vezes também diferenciar instrumentos individuais do mesmo tipo – um violino Stradivarius de um Guarnieri.”  Fim do trecho corrigido.

5

anterior. Isso não é música, mas mesmo assim se qualificaria, no meu entender, como um exemplo de sobreposição harmônica. (Incidentalmente, vocês ficariam felizes em saber que os grilos escaparam e viveram felizes atrás dos muros desse porão durante alguns anos, cricrilando nos momentos mais inconvenientes.)

Dagwood e Blondie4
O que acontece, porém, quando a sobreposição não é harmônica? Tecnicamente, é claro, vocês podem sobrepor à vontade: vocês podem criar enormes “sanduíches do Dagwood” de som – uma camada de diálogo, duas camadas de tráfego, uma camada de buzinas de automóveis, de gaivotas, de multidão, de passos, ondas quebrando na praia, apitos de nevoeiro, motores externos, trovões distantes, fogos de artifício e assim por diante. Tudo soando ao mesmo tempo. (Para fins desta discussão, vamos definir uma camada como sendo uma série, conceitualmente unificada, de sons que ocorrem mais ou menos continuamente, sem grandes espaços entre os sons individuais. Um grito de uma única gaivota, por exemplo, não constitui uma camada). O problema, é claro, é que mais cedo ou mais tarde (na maioria das vezes mais cedo) esse tipo de colocação de camadas em excesso, acaba soando como a confusão de sons entre as estações de rádio – ruído branco – que é por onde nós começamos nossa discussão. O problema com o ruído branco é que, como luz branca, não há muita informação para se extrair. Ou melhor, há tanta informação embaralhada, que é impossível para o cérebro separar tudo de novo. É indigesto como um dos sanduíches do Dagwood. Você ainda ouve tudo, tecnicamente falando, mas é impossível escutar o que quer que seja – para apreciar ou até mesmo distinguir cada elemento individualmente. Então os cineastas teriam feito todo aquele trabalho, posto todos aqueles sons juntos, para nada. Eles poderiam simplesmente ter sintonizado entre as estações de rádio e obtido o mesmo resultado. Tenho aqui um pequeno trecho de Apocalipse Now que, espero, vá mostrar-lhes o que eu quero dizer. Vocês verão o mesmo minuto do filme seis vezes, mas estarão ouvindo coisas diferentes a cada vez: uma camada separada de som de cada vez, que deve dar a vocês um panorama quase geológico da paisagem sonora deste filme. Essa cena em particular deve durar um minuto e pouco, dos helicópteros de Kilgore pousando na praia até a explosão no helicóptero de Kilgore e ele dizendo “Eu quero meus homens fora!”. Mas ela é parte de uma seqüência bem mais longa. Originalmente, lá em 1978, nós organizamos o som desta forma porque não tínhamos máquinas suficientes para tocar o material: havia mais de cento e setenta e cinco pistas sonoras separadas só para essa parte do filme. Era minha própria versão do sanduíche do Dagwood. Então eu tive que quebrar o som em pedaços menores, grupos mais manipuláveis, chamados de pré-mix, de mais ou menos 30 canais cada. Mas faço a mesma coisa ainda hoje, apesar de ter três vezes mais faders do que eu tinha naquele tempo. As seis camadas de pré-mix são: 1. Diálogo 2. Helicópteros
4

N. do T.: personagens de histórias em quadrinhos.

6

3. 4. 5. 6.

Música (As Valquírias5) Pequenas armas de fogo (AK47 e M16) Explosões (Morteiros, Granadas, Artilharia Pesada) Passos e outros tipos de foley

Estas camadas estão listadas em ordem de importância, mais ou menos da mesma forma que você arranjaria os grupos instrumentais numa orquestra. Pintores de mural fazem quase a mesma coisa quando dividem uma parede em quadrados e cuidam de um quadrado de cada vez. O que murais e mixagem de música têm em comum é que em cada um deles os detalhes têm que ser tão proporcionais à imensa escala do trabalho, que é fácil errar – ou os detalhes sobrecarregarão o olho (ou ouvido) mas não nos darão sensação de totalidade, ou o todo estará completo mas sem detalhes convincentes. A voz humana deve ser entendida claramente em quase todas as circunstâncias, seja cantando numa ópera ou no diálogo de um filme, então a primeira coisa que fiz foi mixar os diálogos para esta cena, isolada de quaisquer elementos que pudessem competir com a fala. Então me perguntei; qual é o som mais dominante da cena? Nesse caso calhou de serem os helicópteros, então eu mixei todos os canais de helicópteros juntos num outro rolo de filme de 35mm, enquanto escutava o diálogo sendo tocado, para ter certeza de que não faria nada com os helicópteros que obscurecesse o diálogo. Então passei ao terceiro som mais dominante, que era a Cavalgada das Valquírias como se tocada pelos amplificadores dos helicópteros de Kilgore. Eu mixei isso num terceiro rolo de filme enquanto monitorava as duas pré-mix dos helicópteros e do diálogo. E assim por diante, do #4 (pequenas armas de fogo) até #5 (explosões) até #6 (passos). No final, eu tinha seis pré-mix do filme, cada uma sendo uma master de seis canais (três canais atrás da tela: esquerda, centro, direita; dois canais no fundo do teatro: esquerda e direita; e um canal para reforço das freqüências graves). Cada pré-mix foi equilibrada com as outras de forma que – pelo menos teoricamente – a mixagem final deveria ter sido simplesmente uma questão de tocar tudo junto com um nível predeterminado. O que eu descobri para minha consternação, contudo, foi que, no primeiro ensaio da mixagem final, tudo pareceu desmoronar na grande avalanche de ruído que mencionei antes. Cada um dos grupos sonoros que eu tinha pré-mixado estava justificado pelo que estava acontecendo na tela, mas por causa de alguma alquimia demoníaca, fundiram-se numa algazarra tosca quando foram tocados juntos. O desafio parecia ser de alguma forma encontrar o ponto de equilíbrio em que haveria sons interessantes o suficiente para adicionar sentido e ajudar a história, mas não tantos que eles se prejudicassem mutuamente. A questão era: onde estava o ponto de equilíbrio? De repente me lembrei de minha experiência de dez anos antes com os Passos de Robô, e meu primeiro encontro com a misteriosa Lei dos Dois-e-Meio.

Robôs e Uvas

5

N. do T.: “A Cavalgada das Valquírias”, composição de Richard Wagner de meados do século XIX.

7

Isso aconteceu em 1969, em um dos primeiros filmes em que trabalhei: THX-1138 de George Lucas. Era um filme de baixo orçamento, mas também era de ficção científica, então meu trabalho era produzir uma trilha sonora mundialmente reconhecida por alguns trocados. A parte dos trocados era fácil, porque era só assim que tinha trabalhado até então. A parte do “mundialmente reconhecida”, entretanto, significava que a maioria dos sons que vinham automaticamente “junto com” a imagem (o som sincado) tinha que ser refeita. Um caso em especial: os passos dos policiais do filme, que eram supostamente robôs de trezentos quilos de aço e cromo. Durante as filmagens, é claro, esses robôs foram feitos por atores com figurino que faziam o som normal que todo mundo faz quando anda. Mas no filme nós queríamos que os passos soassem gigantescos, então construí calçados especiais de metal, presos com elásticos e placas de ferro, fui para o Museu de História Natural de São Francisco às 2 da manhã, calcei-os e gravei vários tipos de caminhadas em diferentes tipos de ambientes sonoros, andando e passeando como um tipo de monstro de Frankenstein. Eles soaram otimamente, mas agora eu tinha que sincar todos esses passos. Nós faríamos isso diferente hoje – os passos seriam gravados num chamado palco de Foley, em sincronia com o filme logo desde o começo. Mas eu era um jovem idealista – Eu queria que soassem bem! – e além disso nós não tínhamos dinheiro para ir a Los Angeles e alugar um palco de Foley. Então lá estava eu com minha cestinha entulhada de sons de passos, colocandoos no filme um por um, como se fosse um bordado ou coisa do tipo. Eu estava indo bem, mas muito devagar, e tinha medo que não acabasse a tempo para a mixagem. Por sorte, numa madrugada às 2 da manhã, uma boa fada me apareceu para me salvar na forma de uma percepção repentina e acidental que era: se havia um robô, seus passos tinham que estar sincados; se havia dois robôs, também, seus passos tinham que estar sincados; mas se havia três robôs, nada tinha que estar sincado. Ou ainda, qualquer ponto de sincronia era tão bom quanto qualquer outro! Essa descoberta desfez o emaranhado, e eu pude terminar a tempo para a mixagem. Mas... Por que algo assim acontece? De algum jeito, parece que nossos cérebros podem seguir os passos de uma pessoa, ou até os passos de duas pessoas, mas com três ou mais pessoas nossos cérebros simplesmente desistem – há passos demais acontecendo muito rápido. Como resultado, cada passo não é mais percebido individualmente, mas antes um conjunto de passos é percebido como uma entidade única, como um acorde musical. Se o ritmo dos passos é aproximado, e se temos a impressão de que eles estão na superfície correta parece que isto nos é suficiente. , o cérebro diz “Sim, vejo um conjunto de pessoas andando por um corredor e quero ouvir os sons de um conjunto de pessoas andando por um corredor.” Em algum lugar em meados do século XIX, uma das estudantes de Edouard Manet estava pintando algumas uvas, cuidadosamente contornando cada uma, e Manet de repente arrancou o pincel da sua mão e gritou: “Assim não! Eu não me importo nem um pouco com Cada Uma das Uvas! Quero que você capte a sensação das uvas, qual o sabor delas, sua cor, como a poeira as contorna e ao mesmo tempo as amacia.” Do mesmo modo, se você sincou Cada Um dos Passos mas não conseguiu captar a energia do conjunto, o espaço onde eles estão se movendo, a superfície na qual eles estão pisando, e assim por diante, você cometeu o 8

mesmo tipo de erro que a estudante de Manet estava cometendo. Você prestou atenção demais a algo que o cérebro é incapaz de assimilar, mesmo se quisesse.

Árvores e Florestas
De qualquer maneira, depois da minha experiência com os robôs, tornei-me sensível à transformação que parece ocorrer sempre que se tem três de qualquer coisa. Na prática, me poupou muito trabalho – descobri muitos lugares onde eu não tinha que contar as uvas, por assim dizer – mas comecei a ver o mesmo padrão ocorrendo em outras áreas também, e com implicações muito além dos passos. O exemplo mais claro do que eu estou dizendo pode ser visto nos ideogramas chineses para “árvore” e “floresta”. Em chinês, a palavra “árvore” se parece com uma árvore mesmo – uma espécie de pinheiro com troncos inclinados. E a palavra chinesa para “floresta” são três árvores. Agora, era obviamente os chineses quem deveriam decidir sobre quantas árvores seriam necessárias para transmitir a idéia de “floresta”, mas duas não pareciam suficientes, imagino, e dezesseis, digamos, seria muito além do necessário – demoraria muito para escrever e estragaria a página toda. Mas três árvores parece ser o exato. Então, no desenvolvimento do sistema de escrita deles, os chineses antigos perceberam o fato com o qual esbarrei com os meus passos de robô: que três é a fronteira na qual você transita de “coisas individuais” para “conjunto”. Acontece que Bach também tinha algumas coisas para nos ensinar a respeito desse fenômeno em música, com relação ao número máximo de linhas melódicas que um ouvinte pode apreciar simultaneamente, que ele acreditava serem três. E acho que esta é a razão para os circos de Barnum terem três picadeiros, não cinco, ou dois. Até na religião você pode notar sua influência quando se compara a Dualidade de Zoroastro à misteriosa “singularidade múltipla” da Trindade Cristã. E os sistemas de contagem de várias tribos primitivas (e alguns animais) acabam no três, além do que passa a ser simplesmente “muitos”. Então o que começou a me interessar sob o ponto de vista criativo era o ponto onde eu pudesse ver a floresta e as árvores – onde houvesse, simultaneamente, Clareza, que vem de uma discriminação dos elementos individuais (as notas), e Densidade, que vem de uma sensação do todo (o acorde). E descobri que esse ponto de equilíbrio ocorre mais freqüentemente quando há um pouco menos do que três camadas de alguma coisa. Eu passei a apelidar isto de a minha “Lei dos Dois-e-Meio”.

Direito e Esquerdo
Agora, um resultado prático da nossa distinção anterior entre som Codificado e Incorporado, parece ser que essa lei dos dois-e-meio se aplica somente para sons de mesma “cor” – sons da mesma região do espectro conceitual. (Com sons de áreas diferentes do espectro – sons de cores diferentes – parece haver exceções). Os passos do robô, por exemplo, eram todos do mesmo “verde”, então no momento em que havia três camadas, eles se cristalizavam numa nova singularidade: robôs andando em conjunto. Similarmente, é possível seguir duas conversas “violeta” juntas, mas não três. Escute mais uma vez a cena em “O Poderoso Chefão” onde a família está sentada conversando sobre o que fazer quando o Poderoso Chefão (Marlon Brando) morrer. Sonny está conversando com Tom, e Clemenza está falando com Tessio – você pode acompanhar as duas conversas e também prestar atenção em Michael fazendo uma ligação telefônica para Luca Brasi (Michael ao telefone é a “meia” parte dos dois-e-meio), mas somente porque 9

essa cena foi cuidadosamente escrita e executada e gravada. Ou pense sobre dois trechos de música “vermelha” tocando simultaneamente: um rádio ao fundo e um música temática. Pode dar certo, mas deve ser feito com cuidado. Mas se vocês misturam sons de diferentes partes do espectro, ganham espaço extra. Diálogo e Música podem conviver bem felizes juntos. Acrescente alguns Efeitos Sonoros, também, e tudo ainda soa transparente: duas pessoas falando, com um acompanhamento musical, e alguns passarinhos ao fundo, talvez um pouco de tráfego. Muito legal, mesmo que já tenhamos quatro camadas. Por que é assim? Bem, provavelmente tem algo a ver com as áreas do cérebro nas quais essa informação é processada. Parece que o som Codificado (linguagem) é controlado em sua maioria no lado esquerdo do cérebro, e o som Incorporado (música) é cuidado pela parte do outro lado da sala, à direita. Há exceções, é claro: por exemplo, parece que os elementos rítmicos da música são controlados pelo lado esquerdo, e as vogais da fala pelo lado direito. Mas falando genericamente, os dois departamentos parecem ser capazes de operar simultaneamente sem se atrapalhar um com o outro. O que quer dizer que dividindo o trabalho eles podem lidar com um número total de camadas que seria impossível para cada lado individualmente.

Densidade e Clareza
Na verdade, parece que o número total de camadas, se a carga é dividida igualmente através do espectro de Codificado até Incorporado (do diálogo “violeta” até a música “vermelha”) é o dobro do que seria se todas as camadas fossem empilhadas em qualquer região única (cor) do espectro. Em outras palavras, você pode administrar cinco camadas ao invés de duas-e-meia, graças à dualidade direita-esquerda do cérebro humano. O que isso significa, na prática, é: 1. 2. 3. 4. 5. Uma camada de diálogo “violeta”; Uma camada de música “vermelha”; Uma camada “fria” (lingüística) de efeitos (ex.: passos); Uma camada “quente” (musical) de efeitos (ex.: atmosferas climáticas); Uma camada de efeitos “amarelos” (“centauros”, equilibrados por igual). Amarelo Codificados-Incorporados Azul-Esverdeado
Efeitos “Lingüísticos (Passos, Batidas à Porta, etc. Efeitos Rítmicos)

Laranja
Efeitos “Musicais” (Atmosferas, Ambiências)

Violeta Linguagem Codificado Hemisfério Esquerdo

Vermelho Música Incorporado Hemisfério Direito

O que estou sugerindo é que, em qualquer momento (por uma questão de praticidade, vamos dizer que um “momento” é qualquer seção de cinco segundos de um filme), cinco camadas é o máximo que pode ser tolerado pelo público se você também quer que se mantenha um senso de clareza dos elementos individuais que estão contribuindo 10

para a mixagem. Em outras palavras, se você quer que a experiência se torne simultaneamente Densa e Clara. Mas a precondição para se estar apto a manter cinco camadas, é que as camadas estejam uniformemente distribuídas pelo espectro conceitual. Se os sons se amontoam em uma região (uma cor), os limites encolhem para duas-e-meia. Se vocês querem ter duas camadas e meia de diálogo, por exemplo, e querem que as pessoas entendam cada palavra, é melhor que eliminem a competição com quaisquer outros sons que possam estar ocorrendo ao mesmo tempo. Para destacar as diferenças da nossa percepção do som Codificado vs. Incorporado, é interessante notar o seguinte paradoxo: em quase todos os filmes estéreo produzidos nos últimos vinte e cinco anos, o diálogo está sempre colocado no centro não importando qual a posição real dos atores na tela; eles podem estar na extremidade esquerda, mas suas vozes ainda assim saem pelo centro. E ainda assim, nós, (incluindo nós mixadores) acreditamos que as vozes estejam “vindo” dos atores. Este é um tratamento totalmente diferente daquele que é dado para os efeitos sonoros da variedade “amarela” – carros passando, por exemplo – que são rotineiramente (e quase obrigatoriamente) movidos ao longo da tela com a ação. E certamente diferente da música “vermelha”, que é normalmente arranjada de forma a vir de todas as caixas de som da sala simultaneamente (incluindo as surrounds). Efeitos sonoros incorporados “laranja” (atmosferas, ambiências) também recebem tratamento estéreo completo. Efeitos sonoros “azul-esverdeados” como passos, entretanto, são normalmente colocados no centro, como os diálogos, a menos que os cineastas queiram chamar uma atenção especial para os passos, e então eles devem ser colocados e movidos junto com a ação. Mas neste caso os atores quase sempre não têm falas. Como regra geral, então, quanto mais “quente” for o som, mais ele tenderá a ter um tratamento estéreo (multicanal), e quanto mais “frio” for o som, mais ele tenderá a ser colocado monofonicamente no centro. E ainda assim nós parecemos não ter nenhum problema com essa incongruência – na verdade, é o contrário. Os experimentos iniciais (nos anos 1950) que envolviam o diálogo se movendo pela tela foram eventualmente abandonados como parecendo “artificiais”. Os filmes monofônicos sempre foram assim – essa parte não é nova. O que é novo e peculiar, entretanto, é que nós nos tornamos aptos a tolerar – até apreciar – essa mistura entre mono e estéreo no mesmo filme. Por que é assim? Acredito que tenha algo a ver com a maneira como deciframos a linguagem, e porque enquanto nossos cérebros estão ocupados com o som Codificado, nós descartamos de bom grado qualquer questão sobre a sua origem no visual, permitindo que a imagem “gire” a fonte do som. Quando o som é incorporado, porém, e pouca decodificação está ocorrendo, a localização do som no espaço torna-se cada vez mais importante, quanto menos lingüístico ele seja. Nos termos desta palestra, quanto mais “quente” ele seja. O fato de que podemos processar tanto o Codificado mono quanto o Incorporado estéreo simultaneamente, parece demonstrar claramente algumas das diferenças na forma como nossos dois hemisférios trabalham. Voltando ao meu problema com Apocalipse: parecia ser causado por eu ter mais de seis camadas de som, e seis camadas é essencialmente o mesmo que dezesseis, ou sessenta: eu tinha passado por um limiar além do qual os sons se cristalizam numa nova singularidade: ruído denso no qual um fragmento ou outro pode talvez ser distinguido, mas 11

não as linhas de desenvolvimento das camadas em si. Com seis camadas, eu tinha obtido Densidade, mas em detrimento da Clareza. O que eu fiz como conseqüência foi restringir as camadas daquela seção do filme para um máximo de cinco camadas. Por sorte ou por design, pude fazer isso porque meus sons estavam distribuídos uniformemente pelo espectro conceitual. Diálogo (violeta) Pequenas armas de fogo (palavras azul-esverdeadas que dizem “Tiro! Tiro! Tiro!”) Explosões (“tímpanos” amarelos com conteúdo) Passos e misturas (azul até o laranja) Helicópteros (zumbido como música laranja) Música das Valquírias (vermelha) Se as camadas não tivessem sido distribuídas uniformemente, o limite seria menos que cinco. Conforme mencionei antes, se todas tivessem sido concentradas em uma “área de cor” do espectro, (todas em violeta ou todas em vermelho, por exemplo) o limite encolheria para duas-e-meia. Parece, então, que quanto mais monocromática for a palheta, menor é o número de camadas que podem ser sobrepostas; quanto mais policromática a palheta, por outro lado, maior é o número de camadas que você pode utilizar. Então nessa seção de Apocalipse, descobri que podia construir um “sanduíche” de cinco camadas. Se eu quisesse acrescentar algo novo, eu teria que tirar alguma outra coisa. Por exemplo, quando o garoto no helicóptero diz “Eu não vou, eu não vou!” escolhi remover toda a música. De uma certa forma isso não é sensato, porque ele na verdade está dentro do helicóptero que está produzindo a música, então ela deveria ser ouvida mais forte do que em qualquer outro lugar. Mas por razões internas à história, nós precisávamos ouvir esse diálogo é claro, e eu também queria enfatizar o caos exterior – os AK47 e os disparos dos morteiros por causa dos quais o garoto estava resistindo a sair – e o som do helicóptero que representava “segurança”, além das vozes dos outros membros daquela unidade. Então para esta pequena seção, aqui estão as camadas: 1. 2. 3. 4. 5. Diálogo (“Eu não vou! Eu não vou!) Outras vozes, gritos, etc. Helicópteros Os AK47 e as M16 Disparos dos morteiros 1. 2. 3. 4. 5. 6.

Nestas circunstâncias, a música foi a vítima sacrificada. Uma coisa incrível é que você não a ouve indo embora – você acredita que ela ainda esteja tocando, embora, como mencionei antes, ela devesse estar mais forte no helicóptero do que em qualquer lugar. E, na verdade, logo que esse diálogo termina, nós trouxemos a música de volta e sacrificamos outra coisa. Todos os momentos desta seção são igualmente fluidos, como se fosse um truque de ilusionismo onde as camadas vão desaparecendo e reaparecendo conforme o foco dramático do momento. Isso é um resultado da aplicação da lei das “cinco camadas”, mas é também uma das coisas que fazem a escuta de uma trilha sonora ser tão excitante. Mas gostaria de enfatizar que isso não quer dizer que sempre se deva ter cinco camadas rolando. Densidade conceitual é algo que deve obedecer às mesmas regras de intensidade dinâmica. A sua mixagem, momento a momento, deve ser tão densa (ou tão forte) quanto a história e seus eventos pedirem. Uma trilha sonora densamente monótona é tão cansativa quanto um filme monotonamente barulhento. Assim como uma sinfonia seria insuportável se todos os instrumentos tocassem juntos o tempo todo. Mas meu ponto é que, sob a mais favorável das circunstâncias, cinco camadas é um limiar que não deve ser 12

ultrapassado sem reflexão, da mesma maneira que não se deve ultrapassar certos limites de intensidade. Os dois limiares parecem ter fundamento em nossa neurobiologia. A conclusão é que o público está primariamente envolvido com a história: apesar de tudo o que eu disse, a coisa certa a fazer no final das contas, é qualquer coisa que sirva à sua narrativa no sentido mais amplo. Quando essa cena do helicóptero termina, contudo, minha esperança é deixar a impressão duradoura de que tudo acontecia ao mesmo tempo – Densidade – ainda que tudo pudesse ser ouvido discriminadamente – Clareza. Na verdade, como vocês podem ver, Densidade e Clareza simultâneas só podem ser atingidas por este tipo de subterfúgio. Como disse no começo, pode ser complicado ser simples e simples ser complicado. Mas às vezes é simplesmente complicado ser complicado. Boa noite, obrigado por me escutarem, e feliz mixagem!

13