Condicionament Instrumental

Condicionament
instrumental
PID_00224015
Joan Sansa i Aguilar

© FUOC • PID_00224015 Condicionament instrumental
Cap part d'aquesta publicació, incloent-hi el disseny general i la coberta, no pot ser copiada,
reproduïda, emmagatzemada o transmesa de cap manera ni per cap mitjà, tant si és elèctric com
químic, mecànic, òptic, de gravació, de fotocòpia o per altres mètodes, sense l'autorització
prèvia per escrit dels titulars del copyright.
Índex
Introducció.................................................................................................. 5
1. Definició de condicionament instrumental............................... 7

1.1. La conducta emergent o voluntària. L'hedonisme com a
mecanisme de la conducta voluntària ........................................ 7
1.2. Comparació entre condicionament clàssic i instrumental ......... 8
2. Preparacions experimentals: assajos discrets i conducta

operant.................................................................................................. 12
2.1. Assajos discrets ............................................................................ 12
2.2. Operant lliure .............................................................................. 13
2.3. L'emmotllament .......................................................................... 15
3. Procediments de condicionament instrumental....................... 18
4. Elements del condicionament operant........................................ 21

4.1. L'estímul discriminant ................................................................ 21
4.2. La resposta instrumental ............................................................. 23
4.3. L'estímul reforçador .................................................................... 27
4.4. La relació resposta-reforçador: contigüitat temporal i
contingència ................................................................................ 33
5. Programes de reforçament.............................................................. 39
5.1. Programes de reforçament continu ............................................ 39
5.2. Programes de raó ......................................................................... 40
5.3. Programes d'interval .................................................................... 42
5.4. Comparació dels programes de raó i d'interval .......................... 45
5.5. Conducta d'elecció: programa concurrent i programa
concurrent encadenat ................................................................. 46
5.5.1. Programa concurrent ..................................................... 47
5.5.2. Programa concurrent encadenat ................................... 53
6. Extinció de la resposta instrumental........................................... 56

6.1. Altres efectes de l'extinció sobre la resposta instrumental .......... 58
7. Condicionament aversiu.................................................................. 60
7.1. Evitació i escapada ...................................................................... 60
7.2. Càstig ........................................................................................... 65
8. Teories del condicionament instrumental.................................. 73

8.1. Estructura associativa del condicionament instrumental ........... 74
8.1.1. Associacions E-R ............................................................ 74

8.1.2. Associacions R-C ............................................................ 76
8.1.3. Associacions E-C ............................................................ 78
8.1.4. Associacions jeràrquiques .............................................. 79
8.2. Teories sobre la regulació de la conducta ................................... 80
9. Generalització i discriminació....................................................... 83
9.1. Generalització i discriminació .................................................... 84
9.2. Gradients de generalització ......................................................... 84
9.3. Discriminacions extradimensionals i intradimensionals ............ 86
9.4. La transposició i el desplaçament del vèrtex .............................. 87
9.5. Teoria d'Spence (1936) ................................................................ 89
9.6. Teoria de la discriminació basada en processos d'atenció ........... 95
9.7. Aprenentatge perceptiu ............................................................... 96
10. Aprenentatge per observació.......................................................... 104

10.1. Teories de la imitació .................................................................. 105
10.1.1. La imitació com a instint .............................................. 105
10.1.2. La imitació com una resposta instrumental .................. 107
10.1.3. La teoria de Bandura sobre l'aprenentatge per
imitació .......................................................................... 109
10.2. Factors que afecten la probabilitat de la imitació ....................... 111
10.2.1. Característiques del model ............................................ 111
10.2.2. Característiques de l'aprenent ....................................... 113
10.2.3. Característiques de la situació ....................................... 113
10.3. Influència de l'aprenentatge per observació en el
desenvolupament cognitiu ......................................................... 115
Exercicis d'autoavaluació........................................................................ 119
Solucionari.................................................................................................. 123
Glossari......................................................................................................... 124
Què hauríeu de saber?............................................................................. 127
Bibliografia................................................................................................. 128
© FUOC • PID_00224015 5 Condicionament instrumental
Introducció
L'objectiu d'aquest mòdul és proporcionar als estudiants coneixements so-

bre el condicionament instrumental, la generalització i la discriminació i
l'aprenentatge per observació.
Al llarg del mòdul es presentaran procediments, fenòmens i teories relacionats

amb la conducta instrumental o dirigida a una meta. Tota conducta que fem
té un efecte sobre l'entorn físic o social. El condicionament instrumental es-
tudia, doncs, com detectem els efectes que tenen les nostres conductes i com
aquests efectes o conseqüències influeixen, al seu torn, en el nostre compor-
tament. També es presenten nombrosos exemples de la vida quotidiana amb
l'objectiu de facilitar la comprensió i la transferència dels conceptes teòrics a
les situacions reals. En aquest sentit, és important que els estudiants facin un
esforç per tal de trobar exemples diferents dels proposats en el mòdul per a
poder assentar els coneixements assolits.
En l'apartat de generalització i discriminació, ens centrarem en aquells estí-

muls que arriben a controlar la conducta de les persones. És important per a
la nostra adaptació poder generalitzar i discriminar entre estímuls. La genera-
lització té avantatges evolutius clars. Al món real rarament trobem el mateix
estímul dues vegades. Un exemple molt característic n'és el reconeixement de
cares: aprenem a reconèixer una persona amb independència del seu pentinat,
el tipus d'ulleres o la roba que porta.
És crucial, per tant, que la resposta no es produeixi exclusivament en presèn-

cia de l'estímul concret que trobem al moment del condicionament. D'altra
banda, els organismes també podem discriminar estímuls molt diferents. I, de
vegades, estímuls molt semblants poden tenir conseqüències oposades, per la
qual cosa convindrà aprendre a discriminar-los. L'aprenentatge de discrimina-
ció es produeix quan ens exposem a dos estímuls o més que, tot i ser molt
similars, tenen com a conseqüència efectes radicalment oposats.
Finalment, el mòdul dedica un últim apartat a l'aprenentatge per observa-

ció. És important poder aprendre mitjançant la conducta dels altres. S'ha de-
mostrat que veure les conseqüències dels comportaments d'altres persones re-
gula el nostre propi comportament. Analitzarem, diverses característiques de
l'aprenentatge per observació, i també les variables que influeixen en aquest
aprenentatge. També estudiarem algunes de les teories que s'han proposat per
a explicar l'aprenentatge per observació.
1. Definició de condicionament instrumental
1.1. La conducta emergent o voluntària. L'hedonisme com a

mecanisme de la conducta voluntària
Fins ara hem estudiat diferents situacions en què els estímuls provocaven res-
postes en els organismes. En la resposta reflexa, la presència d'un estímul acti-
va automàticament una resposta. D'aquesta manera, un tros d'aliment intro-
duït dins la boca activarà la resposta de salivació.
També hem vist que la conducta reflexa pot ser modulada amb l'experiència:
l'habituació i la sensibilització modifiquen la intensitat de la resposta, i la re-
dueixen o la intensifiquen, respectivament. En el mòdul "Condicionament
clàssic pavlovià" hem analitzat el condicionament clàssic. Si un estímul inici-
alment neutre, per exemple l'olor de pa acabat de fer, s'aparella sistemàtica-
ment amb la introducció del pa a la boca, ambdós estímuls, olor i pa, queden
associats i l'estímul neutre és capaç de provocar una resposta que inicialment
no provocava. En l'exemple, l'olor de pa pot provocar respostes com la saliva-
ció, moviments de la boca i d'altres. L'estímul de l'olor serveix de senyal que
anticipa l'aliment i prepara l'organisme per a rebre'l. Des d'aquesta perspectiva,
la conducta és una conseqüència de l'estímul. Però hi ha altres situacions en
les quals la relació s'inverteix i són precisament els estímuls la conseqüència
de la nostra conducta.
Un exemple simple servirà per a il·lustrar aquesta situació:
Si entrem en una habitació que és a les fosques podem manipular l'interruptor i fer que
s'il·lumini. Aquí, doncs, primer executem una conducta i, després, apareix la conseqüèn-
cia.
Podem dir que la nostra conducta és l'instrument que ens permet mo-
dificar l'entorn, ja sigui físic com social. Per aquest motiu, aquesta con-
ducta rep el nom de conducta�instrumental.
Una anàlisi més detallada d'aquesta situació ens permet adonar-nos que hem
executat la conducta amb un objectiu: il·luminar la sala. Per això, sovint es
defineix la conducta instrumental com a dirigida�a�una�meta. Però, encara
més, podríem no haver encès el llum.
Per exemple, si sabem que a l'habitació hi ha un bebè que s'acaba d'adormir, podríem
decidir no encendre el llum per a no despertar-lo.
Per tant, la conducta instrumental pot encaixar perfectament en el que conei-

xem com a conducta�voluntària.
Descartes va diferenciar entre la conducta involuntària i la conducta voluntà-

ria. El primer cas seria la conducta reflexa, això és, tot comportament provo-
cat per un estímul i que estaria sotmès a uns principis mecanicistes com l'arc
reflex. D'altra banda, la conducta voluntària no seria controlada per cap me-
canisme, sinó que seria determinada pel lliure albir. Dit amb altres paraules, si
encenem el llum d'una habitació és perquè volem i així ho decidim.
No obstant això, hi ha una explicació alternativa de la conducta voluntària

que recorre a mecanismes deterministes. Hobbes va proposar que la conducta
voluntària seguiria el principi de l'hedonisme segons el qual, i en sentit estric-
te, el plaer és l'únic o principal bé de la vida. Aplicat al control de la conducta
voluntària, veurem que l'objectiu de la conducta és la cerca del plaer i la fugida
del dolor.
Tornem a l'exemple que ens ocupa. Si en entrar a l'habitació a les fosques

encenem el llum, aquest acte es pot explicar perquè amb la sala il·luminada
podem evitar ensopegar amb mobles o objectes que no veiem i el dolor que ens
podria causar. També, amb el llum podrem localitzar més ràpidament allò que
hi hem anat a buscar. D'altra banda, podem no encendre el llum si a l'habitació
hi dorm un nadó per a no despertar-lo i evitar les molèsties que podria causar.
Així, doncs, la conducta voluntària seria determinada per les conse-

qüències agradables i desagradables que origina.
De fet, i com veurem a continuació, els procediments de condicionament ins-

trumental se centren en les conseqüències que té el nostre comportament so-
bre estímuls apetitius (agradables) i estímuls aversius (desagradables).
1.2. Comparació entre condicionament clàssic i instrumental
Ja hem apuntat les diferències entre el condicionament clàssic i el condicio-

nament instrumental. Tots dos tipus de condicionament es basen en el meca-
nisme de l'associació i els seus principis.
La idea bàsica és que dos esdeveniments que es presenten contigus en el temps

queden associats. Malgrat aquesta generalitat, avui es coneixen moltes condi-
cions que modulen aquest mecanisme i moltes d'elles són aplicables als dos ti-
pus de condicionament. En tot cas, la diferència bàsica entre condicionament
clàssic i condicionament instrumental rau en la naturalesa dels elements que
s'associen.
• En el condicionament� clàssic, els esdeveniments que queden associats

són dos estímuls que l'organisme no�pot�manipular. Podem aprendre que
un cel ennuvolat pot significar una probabilitat alta de pluja. En conse-
qüència, podem no sortir de casa o, en cas de sortir, agafar el paraigües.
Aquestes conductes, però, en cap cas no alteraran la presentació dels estí-
muls.
• En canvi, en el condicionament�instrumental, els esdeveniment impli-

cats són una conducta i un estímul de tal manera que la conducta alterarà
aquest estímul, i el farà aparèixer si estava absent o el farà desaparèixer si
estava present. Si es posa a ploure mentre anem pel carrer, obrir el parai-
gües impedirà que ens mullem.
Com a conseqüència d'aquestes característiques, el condicionament clàssic

ens serveix per a anticipar fets importants o la seva absència, mentre que el
condicionament instrumental ens serveix per a alterar el nostre entorn amb
l'objectiu de fer-lo més agradable.
El primer investigador formalment acceptat dedicat a l'estudi del condiciona-

ment instrumental va ser Thorndike (1898, 1911). Els seus treballs tenien com
a finalitat estudiar la intel·ligència animal i consistien a presentar a uns gats
una sèrie de problemes per a estudiar com els solucionaven.
Va construir unes caixes de fusta que tenien una porta abatible subjectada per
una balda o més. Les baldes podien ser manipulades per diversos mecanismes
com, per exemple, directament amb la pota de l'animal o mitjançant un pedal
al qual es lligava una corda. Quan Thorndike tancava un gat famolenc en una
d'aquestes caixes, podia observar que el pobre animal no tenia la més mínima
intuïció del que havia de fer per a poder escapar del seu confinament i accedir a Edward�L.�Thorndike
un bol ple de menjar que era a l'exterior de la caixa. Com a mesura objectiva de
l'evolució de l'animal, Thorndike cronometrava el temps que trigava a escapar
de la caixa.
La "caixa problema"
No és estrany que en els primers assajos esgotés tot el temps (per exemple,
cinc minuts) sense assolir amb èxit el seu objectiu. Però a mesura que Thorn-
dike anava presentant el mateix problema als gats, va observar que el temps
que necessitaven per a escapar-se disminuïa progressivament. Precisament, la
reducció del temps d'escapada era la dada que indicava que els animals havien
après com solucionar el problema, és a dir, quines respostes havien d'executar
per a poder obrir la porta i accedir al menjar. Però, com s'explicava aquest
aprenentatge? Segons Thorndike, no hi havia rastre de conducta intuïtiva, si-
nó que els gats anaven duent a terme diferents comportaments fins que algun
d'ells proporcionava la solució del problema. Aquesta estratègia s'anomena as-
saig�i�error.
De fet, els animals feien moltes conductes, la majoria de les quals no tenien
cap conseqüència. Però, de tant en tant, apareixia una conducta que permetia
obrir la porta i accedir al menjar. Segons Thorndike, les conductes infructuoses
tendien a desaparèixer mentre que se seleccionaven aquelles altres conductes
que tenien èxit. Però, quin mecanisme era el responsable d'aquesta selecció?
Seguint a Thorndike, quan un animal executa una conducta que va seguida
d'un esdeveniment agradable, llavors els estímuls presents en el moment de la
resposta i la resposta quedaven connectats de manera que en el futur la pre-
sència dels estímuls activava directament la resposta que tenien connectada.
Si la conseqüència era aversiva, llavors la connexió es debilitava. Aquest me-
canisme es coneix com llei�de�l'efecte.
(1)
Tingueu en compte que el paper de la conseqüència (agradable o desagrada- Avui en dia se sap que aquesta
associació E-R no és l'única que es
ble) era més aviat secundari i servia per a enfortir o afeblir la connexió entre
pot establir en situacions de condi-
els estímuls i les respostes, però no quedava connectada a cap d'aquests ele- cionament, tant clàssic com instru-
mental.
ments. Aquesta manera d'explicar el condicionament instrumental era cohe-
rent amb l'explicació que es donava inicialment al condicionament clàssic se-

guint l'esquema E-R1 (estímul-resposta) i que anys més tard van adoptar els
psicòlegs dins l'enfocament conductista.
2. Preparacions experimentals: assajos discrets i

conducta operant
2.1. Assajos discrets
En el procediment experimental de Thorndike, l'animal quedava tancat a la

caixa problema fins que executava la conducta (o cadena de conductes) ins-
trumental que l'alliberava i li permetia l'accés al menjar. Després de menjar,
l'animal era retirat de la situació experimental fins a l'assaig següent. Aquest
tipus de procediment rep el nom d'assajos�discrets. Les principals caracterís-
tiques són que només es permet fer una vegada la resposta instrumental en
cada assaig i un cop donada es retira l'animal de l'aparell. Actualment, hi ha
unes quantes tasques d'assaig discret que s'han convertit en estàndards.
La tasca d'assaig discret més comunament utilitzada és la del laberint. Al co-

mençament del segle XX s'utilitzaven laberints molt complexes, però de mica
en mica es van anar simplificant fins a arribar al corredor o laberint de passadís
recte i als laberints en forma de T o Y. El corredor (vegeu la figura següent, b)
té una caixa de sortida en un dels extrems i una caixa de meta a l'altre. Un as-
saig de condicionament comença col·locant l'animal (generalment, una rata)
a la caixa de sortida. Seguidament, s'obre la porta que dóna accés al corredor
i es permet que l'animal camini fins a arribar a la caixa meta on normalment
trobarà el reforçador, menjar o aigua.
Esquema d'un laberint amb forma de T (a) i d'un corredor recte (b). S = caixa de sortida; PE = punt d'elecció; M1, M2 i M =
caixes meta
El laberint en forma de T (vegeu la figura anterior, a) està dissenyat per a estu-

diar la conducta d'elecció, ja que conté un braç de sortida i dues caixes meta.
Tingueu en compte que el punt d'unió entre el braç de sortida i els dos braços
meta és el punt d'elecció. En aquest punt, l'animal ha de decidir a quina de les
dues metes possibles es dirigirà. La manipulació experimental permet diverses
alternatives.
Es pot posar menjar només en un dels braços però no en l'altre. També es podrien utilitzar
dos tipus de reforçador, com, per exemple, una base d'aigua i farina en un dels braços i
la mateixa base però endolcida a l'altre meta.
Als laberints es poden mesurar diverses variables. Al corredor s'acostuma a cal-

cular la velocitat de carrera o la latència de la resposta –el temps que triga
l'animal a iniciar el recorregut. La velocitat de carrera normalment augmenta
a mesura que es repeteixen els assajos de condicionament, mentre que la la-
tència de la resposta s'escurça. Al laberint en T la mesura més habitual és el
percentatge d'elecció del braç crític. En tenir dues alternatives, un percentatge
d'elecció del 50% indica que l'elecció és a l'atzar, mentre que percentatges per
sobre del 50% indiquen que l'animal aprèn on hi ha el menjar (en cas que
només hi hagi menjar en un dels braços) o una preferència per un dels dos
menjars (en el cas d'utilitzar dos tipus diferents d'aliments).
2.2. Operant lliure
Ateses les característiques dels assajos discrets, la conducta de l'animal és res-

tringida per les condicions programades per l'investigador. Skinner (1938) va
crear un procediment que permetia l'estudi de la conducta d'una manera con-
tínua. Si analitzem el comportament d'una persona o d'un animal ens podrem
adonar que la conducta flueix constantment i sovint es fa difícil determinar
clarament les diferents unitats de conducta. Skinner va resoldre aquest pro-
blema introduint el concepte de resposta�operant, que es defineix a partir de
l'efecte que té una conducta sobre l'entorn de l'animal.
Una resposta operant en un humà pot ser introduir unes monedes en una màquina i
prémer el botó corresponent al refresc que es vol consumir.
Tot aquest patró de conducta serà una operant, ja que té la propietat de modi-
ficar l'entorn i fer accessible una beguda que abans de dur a terme la resposta
no podíem prendre. Al laboratori s'estudia la resposta operant amb la caixa
d'Skinner o caixa�de�condicionament (vegeu la figura següent).
La caixa de condicionament consta d'un espai en què se situa l'animal. Dins

aquest habitacle hi ha diversos elements que serveixen per a executar respostes
i presentar estímuls. Com a mecanismes de resposta es poden utilitzar diverses
modalitats, però les més comunament emprades són la palanca de resposta,
en el cas de les rates, i la tecla de resposta, en el cas dels coloms. La palanca
és un mecanisme que l'animal pot prémer i un cop deixa de fer-hi pressió,
retorna a la seva posició original. La tecla de resposta és un botó en què l'au pot
picotejar. En ambdós casos, cada cop que s'executa la resposta s'enregistra en
un ordinador. Normalment, quan l'animal executa la resposta operant activa

un mecanisme que dispensa una mica de menjar. El menjar rep el nom de
reforçador, ja que la seva presentació immediatament després de la resposta,
reforça la conducta. No obstant això, en determinats experiments la resposta
operant va seguida d'un estímul aversiu com pot ser una descàrrega elèctrica
moderada que s'administra a la planta dels peus per un engraellat metàl·lic.
Esquema d'una caixa de condicionament o caixa d'Skinner
Skinner�al�seu�laboratori�amb�una�caixa�de
En una de les parets, hi podem trobar els mecanismes per a dispensar estímuls (altaveu, llums, menjadora). També hi trobem un condicionament
mecanisme de resposta que, en el cas de les rates, acostuma a ser una palanca de resposta i, en el cas dels coloms, és una tecla
de resposta.
La preparació d'operant lliure ens permet estudiar la conducta dins un conti-

nu. Però com mesurem la conducta operant? Partim de la base que és l'animal
qui determina quan i en quina freqüència farà la conducta al llarg del temps,
més que no pas l'experimentador. Skinner va proposar la mesura de la taxa�de
resposta per a analitzar la conducta operant.
La taxa de resposta és la freqüència amb què la conducta apareix per

unitat de temps (un minut, per exemple).
La manera més habitual de mesurar la taxa de resposta és el registre�acumu-

latiu de respostes (vegeu la figura següent).
Un registre acumulatiu és una manera de representar com es repeteix

una resposta al llarg del temps.
Mostra el nombre total (o acumulat) de respostes que s'han produït fins a un

moment concret. A l'hora de representar gràficament un registre acumulatiu
situarem a l'eix d'abscisses el temps i a l'eix d'ordenades les respostes acumula-
des. Cada vegada que apareix una resposta (una pressió de palanca, per exem-
ple) la corba que es dibuixa incrementarà una unitat en l'eix d'abscisses.
La figura mostra una gràfica d'un registre acumulat
Els pendents de les respostes acumulades (línies puntejades) indiquen la freqüència de la resposta: com més inclinat sigui el
pendent, més alta és la freqüència de la resposta. Les ratlles obliqües que tallen el registre acumulat representen els reforçadors
dispensats. El registre s'ha obtingut a partir d'una simulació amb la rata virtual Sniffy (Alloway, Wilson i Graham, 2006).
D'altra banda, cada unitat de temps que transcorri farà que la corba es desplaci
en l'eix d'abscisses. Les variacions en les dues variables (temps i respostes acu-
mulades) genera una corba que variarà en el seu pendent. Si la rata no executa
la resposta operant, tindrem que el registre acumulatiu només creix en sentit
horitzontal, ja que va transcorrent el temps, mentre que no hi ha canvis en
l'eix d'ordenades, ja que no hi ha respostes per acumular. El resultat és que es
dibuixa un pendent nul, és a dir, una línia completament horitzontal. A partir
del moment en què es produeixen respostes i es van acumulant, la corba co-
mença a mostrar un pendent. És precisament la inclinació del pendent el que
ens dóna informació sobre la freqüència d'execució de la resposta operant. De
manera que pendents suaus indiquen que la taxa de resposta és baixa mentre
que pendents molt inclinats mostren taxes de resposta altes.
2.3. L'emmotllament
Quan situem per primera vegada una rata en una caixa de condicionament,
rarament observarem que l'animal executa la resposta espontàniament. Cal
ensenyar-li a prémer la palanca. Aquest entrenament passa per diverses fases.
En primer lloc, cal que l'animal sàpiga quan ha obtingut el reforçador i on el
trobarà. Aquest entrenament es basa en un condicionament clàssic.
El procediment consisteix a presentar reforçadors independentment de la con-

ducta que estigui tenint la rata. Cal assenyalar que el dispensador de menjar
fa un soroll característic cada vegada que es posa en marxa, fins i tot el menjar
fa soroll en el moment de caure a la menjadora. Aquests sorolls actuen com a
estímul condicionat, ja que queden associats a la presentació del menjar que
actua com a estímul incondicionat. La resposta condicionada generada per
aquest condicionament que ens interessa és l'apropament a la menjadora. Es
tracta, doncs, d'un procediment del seguiment�del�signe, ja que apropar-se
al lloc on es localitza el soroll l'apropa també al menjar. L'entrenament a la

menjadora, que és com es coneix aquest entrenament, tindrà l'avantatge que
el soroll un cop té les propietat d'estímul condicionat, també serveix com a
reforçador. D'aquesta manera, quan l'animal executi la resposta operant i senti
el soroll, la resposta serà reforçada immediatament, fins i tot si l'animal triga
uns segons a apropar-se a la menjadora per a recollir el menjar.
Un cop l'animal ja ha rebut l'entrenament a la menjadora està en condicions

d'aprendre la resposta operant volguda. En el cas de la rata que ha de prémer la
palanca, ja dèiem que difícilment executarà la resposta d'una manera espon-
tània. Això fa que haguem de programar aquest aprenentatge. La tècnica uti-
litzada normalment és l'emmotllament, que es defineix com el reforçament
d'aproximacions successives a la resposta requerida.
Tota conducta, especialment les conductes complexes com prémer una palan-
ca, poden desglossar-se en unitats simples. Si analitzem amb detall la respos-
ta de prémer la palanca podrem identificar aquestes unitats. Per a executar la
conducta, la rata ha d'atendre a la palanca, apropar-s'hi, posar-se dempeus,
recolzar una mà sobre la palanca i fer força avall per tal que la palanca baixi. Si
ens fixem bé en tota aquesta seqüència de moviments, ens adonarem que cada
unitat per sí mateixa és fàcil d'observar en una rata d'una manera espontània:
una rata inspecciona i atén a diferents objectes del seu entorn, es posa dreta
sobre les potes del darrere, toca i manipula objectes amb les mans, es recolza
sobre objectes o les parets de la caixa.
En definitiva, la conducta que cal emmotllar és nova quant al conjunt i

patró de moviments que requereix, però no quant a les unitats de con-
ducta que la componen.
Així, per a emmotllar la conducta de pressió de palanca en una rata podríem

començar per reforçar cada vegada que l'animal es posa dret sobre les potes
posteriors i amb independència del lloc de la cambra on ho faci. Podrem ob-
servar que amb l'entrenament necessari, aquest comportament apareix cada
vegada amb més freqüència del que ho feia inicialment. El pas següent consis-
tirà a restringir el reforçador a quan es posa dret però en una ubicació propera
a la palanca i no el reforçarem per posar-se dret si es troba lluny de la palanca.
Veiem, aquí, una segona característica de l'emmotllament: no reforçar

les formes de conducta més primerenques un cop s'hagin assolit.
Com abans, veurem que la rata cada vegada tendeix a localitzar-se més a prop
de la palanca. Seguint amb l'emmotllament, podrem passar a reforçar només
quan l'animal es posi dret just davant la palanca. Per acabar, podrem reforçar
només si la rata toca la palanca quan es posa dreta o quan torna a la posició
sobre les quatre potes. Si tot ha procedit correctament, veurem que l'animal
passa força estona tocant la palanca i en algun moment farà prou força sobre la
palanca com perquè aquesta baixi i accioni automàticament el mecanisme que
li lliurarà el menjar. A partir d'aquest moment aturarem la nostra intervenció
i deixarem que l'animal continuï manipulant la palanca pel seu compte.
La tècnica de l'emmotllament s'ha utilitzat amb èxit en molts camps diversos Emmotllament en humans
en els quals s'havien d'instaurar comportaments nous tant en humans com
En el cas dels humans,
en altres espècies d'animals. Els ensinistradors d'animals ensenyen a dofins, l'emmotllament es pot utilitzar
llops marins, gossos, cavalls i tota mena d'animals a dur a terme conductes per a perfeccionar habilitats en
esports, arts i com a teràpia en
sorprenents tant per a espectacles com per a ajudar a persones amb determi- casos en què les persones són
incapaces de seguir instrucci-
nades discapacitats. ons verbals.
3. Procediments de condicionament instrumental
Fins ara ens hem centrat en una situació molt concreta de condicionament
instrumental: quan l'aparició de la resposta anava seguida de l'obtenció d'un
estímul agradable com el menjar. No obstant això, hi ha moltes altres situaci-
ons de condicionament instrumental.
Alguns pares poden donar un gelat de postres al seu fill si s'ha menjat un plat de patates
bullides amb bledes, o li poden prohibir veure la televisió durant una tarda si el nen ha
pegat el seu germà. Una persona pot colpejar el seu gos si l'animal ensenya les dents
agressivament a un veí. Podem treure les piles a un rellotge si el seu tic-tac no ens deixa
dormir.
En tots aquests exemples, hi ha implicat un condicionament instrumental,

és a dir, la resposta executada comporta una conseqüència. Dos dels exem-
ples inclouen fets agradables (un gelat, veure la televisió). Un fet agradable
l'anomenem estímul�apetitiu. Els altres dos exemples inclouen fets desagra-
dables (un cop, un soroll molest). Un fet desagradable l'anomenem estímul
aversiu. A més, dos dels exemples exposats impliquen que la resposta provo-
qui la presentació de l'estímul que no era present abans de donar la resposta
(grunyir el gos i menjar el plat de patates i bledes). En aquests casos, parlem
d'una contingència positiva entre la resposta i l'estímul. Al contrari, algunes
vegades la conducta instrumental fa que un estímul present abans de donar la
resposta desaparegui quan aquesta es produeix (pegar el germà, treure les piles
del rellotge). És a dir, en aquestes situacions la contingència entre resposta i
estímul és negativa.
Per tant, els diferents procediments de condicionament instrumental es clas-

sifiquen en funció de la contingència positiva o negativa entre la resposta i
l'estímul sobre el qual actua la resposta i per la naturalesa de l'estímul conse-
güent.
1)�Reforçament�positiu
Quan posem una moneda en una màquina i obtenim el refresc que ens ve de gust, quan
cobrem el sou a final de mes, quan la parella ens fa un petó quan li fem un regal, tots
són exemples de reforçament positiu.
En cadascun dels exemples exposats, una resposta ha provocat l'aparició d'un

estímul apetitiu. Si es fa la resposta, l'estímul apetitiu apareix, si no hi ha la
resposta, llavors l'estímul apetitiu no es presenta. Per tant, la contingència
entre la resposta i l'estímul és positiva. Els efectes que té el reforçament positiu
sobre la conducta és que incrementa la probabilitat d'aparició de la conducta.
2)�Càstig�positiu�o,�simplement,�càstig
Si posem els dits en un endoll rebrem una descàrrega elèctrica, si toquem una cafetera
just quan acabem de fer el cafè ens cremarem, si el gat s'esmola les ungles al sofà li cridem.
En cadascuna d'aquestes situacions la conducta ha provocat l'aparició d'un

estímul aversiu i són exemples de càstig. La contingència entre la resposta i
l'estímul aversiu és positiva, ja que l'estímul només es presenta si abans s'ha
produït la resposta. Les conseqüències del càstig sobre la conducta és que pro-
voca una tendència a desaparèixer o a disminuir.
3)�Reforçament�negatiu
Una persona que té fòbia als gossos pot sortir corrent si de cop i volta es troba davant un
gos. Un conductor pot portar el cotxe al mecànic per fer una revisió abans d'un viatge
llarg per a evitar una avaria.
Aquests són dos exemples del procediment de reforçament negatiu. En amb-

dós casos, s'estableix una contingència negativa entre la resposta i un estímul
aversiu. La persona que fuig en presència d'un gos, pot aconseguir allunyar-se
del gos. El conductor que porta el cotxe al mecànic pot evitar una avaria i les
conseqüències aversives que té. Tot i que les dues situacions són pràcticament
iguals, hi ha una diferència notable entre elles.
• En el primer cas, la persona s'ha trobat directament amb l'estímul aversiu

(el gos) i la resposta ha provocat la desaparició de l'estímul. En altres pa-
raules, la persona ha escapat de la situació aversiva. Aquest procediment
rep el nom de procediment�d'escapada.
• En el segon cas, l'estímul aversiu (l'avaria del cotxe) no s'ha arribat a pro-
duir, és a dir, la conducta es fa sense que sigui present l'estímul aversiu i
impedeix que aparegui. Es tracta d'un procediment�d'evitació. És impor-
tant destacar que en el cas de l'evitació, hi ha d'haver algun fet que anticipi
la possibilitat de la situació aversiva.
Si la persona amb fòbia als gossos passeja per un carrer i sent bordar un gos, pot canviar
d'itinerari abans de trobar-se de cara amb l'animal i, en definitiva, està evitant l'animal.
En el cas del conductor, podria haver experimentat en el passat una avaria del cotxe
al bell mig dels Monegros de nit. El coneixement que ha de fer un viatge llarg podria
anticipar la possibilitat d'una avaria, i fer la revisió del cotxe impediria o reduiria que es
repetís en el futur.
Sigui com sigui, el reforçament negatiu provoca que la conducta es repeteixi

en el futur.
4)�Càstig�negatiu�o�entrenament�d'omissió
Un adolescent respon malament a un dels pares i aquest li retira el telèfon mòbil durant
una setmana; la direcció de trànsit treu punts del carnet de conduir a un conductor que
ha estat enxampat circulant a més de 140 km per hora.
(2)
Ambdós exemples mostren una contingència negativa entre una conducta i Aquest terme reflecteix el fet que
l'individu rep un estímul apetitiu
un estímul apetitiu. Si es produeix la conducta es retira un estímul agradable
periòdicament sempre que es de-
per a la persona. La conseqüència d'aquestes situacions sobre la conducta és diqui a fer una conducta diferent
de la resposta instrumental especi-
que tendirà a desaparèixer. Els procediments d'entrenament d'omissió també ficada pel procediment.
reben el nom de reforçament�diferencial�d'altres�conductes2.
Cal fer alguns comentaris finals sobre els termes utilitzats per a referir-se als
procediments de condicionament instrumental.
En primer lloc, els termes positiu i negatiu no es refereixen a valoracions del

procediment ni al tipus d'estímul implicat en el condicionament sinó que es
refereix exclusivament a la contingència entre la resposta i l'estímul.
Un altre aclariment que ajudarà a comprendre els diferents procediments és

que quan parlem de reforçament ens referim al fet que la conducta serà refor-
çada, és a dir, tendirà a incrementar la seva probabilitat d'aparició o es man-
tindrà. En canvi, quan parlem de càstig ens referim a aquells procediments
que provocaran una reducció en la freqüència de la conducta.
Una confusió comuna és entre càstig i reforçament negatiu. Sovint trobem

persones, fins i tot professionals de la psicologia, que utilitzen el terme reforça-
ment negatiu com a sinònim de càstig, probablement en contraposició al terme
reforçament positiu. Atenent a l'origen dels termes positiu i negatiu referits a la
contingència i al significat del terme reforçament (increment de la conducta) i
càstig (reducció de la conducta) aquesta confusió no s'hauria de produir.
Tipus de conseqüència
Apetitiva Aversiva
Correlació respos- Positiva Reforçament Càstig positiu

ta-conseqüència positiu
Negativa Càstig negatiu Reforçament ne-

o entrenament gatiu:
d'omissió 1) Escapada
2) Evitació
En la taula es mostren els quatre procediments del condicionament instrumental en funció de la correlació entre la resposta i la
conseqüència (entrada de les files) i del tipus de conseqüència (entrada de les columnes)
4. Elements del condicionament operant
Un organisme està executant conductes d'una manera continuada. Algunes

d'aquestes conductes poden coincidir amb un estímul reforçador. A més, les
conductes es produeixen en un context en el qual hi ha una gran quantitat
d'estímuls.
Imaginem que hem quedat amb uns amics i hem decidit anar a prendre uns refrescs a
un bar. En aquesta situació, hi trobem molts estímuls presents: els mateixos amics amb
qui hem quedat, la decoració del bar, l'època de l'any (si fa calor o fred), la roba que
portem, la gent que ens envolta, l'hora del dia, entre d'altres. A més, al llarg de la trobada
podem fer diverses conductes: podem fer un glop del refresc, parlar d'una anècdota, d'una
notícia que ha aparegut als diaris, rascar-nos, somriure, escoltar, explicar un acudit, etc.
A més, al llarg d'aquest flux de conductes en podem trobar algunes que van seguides
d'un estímul reforçador, per exemple, si expliquem un acudit i la resta d'amics riu, i
d'altres poden no tenir conseqüències, per exemple, si canviem de postura les cames
probablement no tindrà conseqüències sobre els nostres amics. Com a resultat d'aquestes
disposicions hi haurà conductes que es veuran seleccionades i d'altres no. Precisament les
que van seguides del reforçador tindran més probabilitat de repetir-se que les que no van
seguides del reforçador. Si hem explicat un acudit i els amics han rigut, és molt possible
que nosaltres mateixos o altres companys expliquin un segon acudit, i fins i tot podem
estar uns minuts fent gala del nostre coneixement d'aquestes historietes còmiques.
Però canviem d'escenari.
Ara som al tanatori per a donar el condol a un amic nostre per la mort del seu pare. És
difícil pensar que en aquesta situació algú pugui explicar un acudit, però en canvi és molt
més probable que apareguin comentaris sobre altres defuncions.
Les dues situacions il·lustren com els estímuls presents en una situació poden
controlar la nostra conducta.
Per tant, per a arribar a la comprensió de la conducta instrumental s'han

de tenir en compte els tres elements i les relacions que s'estableixen
entre ells, el que es coneix com contingència de tres termes: els estímuls
discriminants o antecedents, les respostes i les conseqüències.
4.1. L'estímul discriminant
L'estímul discriminant és el que apareix abans d'executar la conducta

instrumental i que, per tant, és l'antecedent de la conducta instrumen-
tal.
(3)
Thorndike, en la seva llei de l'efecte3, considerava que l'estímul discriminant Recordem que la llei de l'efecte
explica la conducta instrumental
controlava totalment la conducta instrumental. Aquesta explicació porta a la mitjançant les associacions E-R, és
concepció de la conducta instrumental com una reacció davant dels estímuls a dir, entre els estímuls discrimi-
nants i les respostes.
de l'entorn.
No obstant això, Skinner va demostrar que la conducta instrumental era con-

trolada per l'estímul reforçador, és a dir, per les conseqüències que té la con-
ducta.
Així, si donem menjar a una rata per prémer una palanca observarem que la taxa de la
conducta incrementa i es manté en un nivell determinat. Però si deixem de donar el
reforçador, llavors l'animal deixarà d'emetre la conducta. Si finalment tornem a introduir
el reforçador cada cop que la rata pressiona la palanca, la conducta reapareixerà de bell
nou.
Aquestes dades indiquen que la conducta instrumental és controlada per les

seves conseqüències. Llavors, quin és el paper dels estímuls antecedents?
Una possible resposta és que tinguin un paper informatiu respecte a la dispo-

nibilitat o no del reforçador. D'aquesta manera, una situació determinada in-
dicarà si la resposta pot ser reforçada o no ho serà, però, en última instància,
qui controlarà que s'emeti o no s'emeti la conducta seran les seves conseqüèn-
cies. Si els estímuls de l'entorn anticipen la disponibilitat del reforçador, i ens
sentim prou motivats per a obtenir-lo, llavors durem a terme la conducta ade-
quada per tal d'aconseguir el reforçador.
Diferència entre estímul discriminant i condicionat
Sovint s'ha fet èmfasi en indicar que un estímul discriminant no és un estímul condicio-
nat, ja que els estímuls condicionats provoquen la resposta condicionada, és a dir, con-
trolen directament la conducta condicionada, mentre que un estímul discriminant no
provoca la resposta sinó que només indica la possibilitat del reforçador.
No obstant això, la distinció entre estímul discriminant i estímul condicionat

de vegades no és tan clara.
Experiment de Bechterev
Per exemple, Bechterev va dur a terme un experiment en què un to precedia siste-

màticament una descàrrega elèctrica que s'administrava a la planta d'un peu d'uns
gossos. En aquest experiment, Bechterev va mesurar la resposta de flexió de pota en
presència del to com una resposta condicionada i va observar que a mesura que avan-
çava l'entrenament els animals flexionaven la pota en presència del to, la qual cosa
comportava en la majoria dels assajos que els animals evitessin l'estímul aversiu.
La interpretació de Bechterev va ser que la flexió de pota era una resposta con-
dicionada que s'activava quan apareixia el to. La disposició experimental per-
met una segona interpretació des del punt de vista del condicionament ins-
trumental. Si l'animal donava la resposta de flexió de pota, llavors un estímul
aversiu deixava de presentar-se o, dit amb altres paraules, la suposada respos-
ta condicionada controlava la presentació de l'estímul. Des d'aquest punt de
vista, Bechterev havia dissenyat una situació de reforçament negatiu.
Quina era la funció de l'estímul discriminant? Realment provocava la resposta

de flexió de pota o només informava que es presentaria un estímul dolorós i
la flexió de pota s'havia seleccionat perquè era útil per a evitar la descàrrega?
Si atenem al fet que en el condicionament clàssic l'organisme no té control

sobre els estímuls, llavors hem d'acceptar que les dades de Bechterev s'ajusten
més a la interpretació del condicionament instrumental, ja que els seus gos-
sos controlaven la presentació o no de la descàrrega flexionant la pota. Cen-
trem-nos ara en una altra situació comuna a molts experiments de condicio-
nament clàssic en els quals la resposta condicionada és l'apropament a la men-
jadora. Si presentem un EC, com pot ser un to, i sistemàticament va seguit
del lliurament de menjar a la menjadora, llavors podem observar que de mica
en mica els animals posen el cap a la menjadora amb més freqüència durant
el to que quan aquest no és present. La interpretació d'aquesta dada és que
l'apropament a la menjadora és una RC provocada per l'EC. Com que en aques-
ta situació l'animal experimenta els dos estímuls, l'EC i l'EI i, en una primera
anàlisi, cap dels dos estímuls no sembla estar sota el control de l'animal, els
investigadors no han dubtat a classificar la resposta d'apropament a la menja-
dora com a resposta condicionada.
Tanmateix, podríem fer una nova interpretació de la situació: el to podria

ser un estímul discriminant que assenyala la propera presentació del menjar
i que la resposta d'apropament a la menjadora fos una resposta instrumen-
tal que permet a l'animal tenir accés al menjar. Si la rata no s'aproxima a la
menjadora, no podrà obtenir el menjar. Tant la presentació de la descàrrega
en l'experiment de Bechterev o la presentació del menjar són programats per
l'experimentador. Aquests es presenten igualment a l'entorn, però que els ani-
mals els arribin a experimentar depèn, en darrera instància, del seu compor-
tament: si flexionen la pota eviten rebre la descàrrega i si s'apropen a la men-
jadora es facilita l'accés al menjar.
La qüestió de fons és si l'estímul antecedent, el to en els dos exemples, pro-

voca directament la resposta observada o provoca respostes tant emocionals,
com pot ser la por en el cas d'anticipar un estímul aversiu, o "alegria" en el
cas del menjar, com fisiològiques, per exemple, un increment de la taxa car-
díaca quan s'anticipa una descàrrega o la salivació quan s'anticipa el menjar,
que motiven l'animal per a executar la resposta que li permet controlar els
canvis en l'entorn. Sigui com sigui, la qüestió roman sense resoldre, tot i que
hi aprofundirem quan analitzem els mecanismes associatius implicats en el
condicionament instrumental.
4.2. La resposta instrumental
El segon element que cal analitzar en el condicionament instrumental és la

resposta. Una de les idees que podem tenir respecte al condicionament instru-
mental és que podem condicionar qualsevol conducta sempre que la reforcem.
Res més lluny que això.
De la mateixa manera que en el condicionament clàssic en què determi-

nades combinacions d'EC i EI eren més fàcils de condicionar que unes
altres, en el condicionament instrumental trobem que hi ha conductes
més fàcils de condicionar.
Alguns d'aquests límits estan relacionats en la preparació biològica dels orga-

nismes per a enfrontar-se a determinades situacions; d'altres, fan referència a la
interferència de conductes innates amb les conductes que volem condicionar.
Thorndike va observar diferències en la facilitat de condicionar determinades

conductes en els seus gats. Per exemple, quan va intentar condicionar respos-
tes com rascar-se o badallar com a respostes instrumentals, va trobar que, mal-
grat que els animals aprenien a executar-les per tal d'obtenir el reforçador, la
forma de les conductes variava al llarg de l'entrenament. A l'inici les respostes
eren intenses, però en assajos posteriors eren només simulacres de rascades o
de badalls.
Thorndike va proposar el concepte de pertinença per a explicar aquest com-

portament dels animals. Segons Thorndike, determinades conductes són cohe-
rents amb el reforçador per la història evolutiva de l'espècie. D'aquesta mane-
ra, manipular objectes, repenjar-se a les parets, etc. són comportaments natu-
rals d'un gat quan està tancat en un espai. En canvi, rascar-se i badallar no són
comportaments que permetin als animals escapar-se d'una situació de confi-
nament. Probablement, la feblesa de les respostes de rascar-se i badallar obser-
vades per Thorndike es devia al fet que no eren pertinents per a escapar-se de
la caixa on estaven tancats.
(4)
Els primers a publicar dades sobre la dificultat d'entrenar determinades con- El terme misbehavior el podem
traduir com 'mala conducta' o
ductes a partir dels principis del condicionament instrumental van ser els Bre-
'conducta errònia' (en algunes tra-
land (Breland i Breland, 1961) en l'article titulat "The Misbehavior4 of Orga- duccions al castellà s'utilitza el ter-
me conducta�maladaptativa).
nisms". Els Breland van ser estudiants d'Skinner i es van dedicar en la seva vi-
da professional a entrenar animals d'espècies molt diverses perquè fessin con-
ductes complexes. Entrenaven als animals per a zoològics, anuncis de televisió
i altres actuacions públiques. Si bé tenien èxit amb moltes de les conductes
que entrenaven, es van trobar amb la dificultat o impossibilitat d'entrenar-ne
algunes en determinades espècies animals.
Experiment de Breland i Breland (1961)
Probablement, el cas més conegut és quan van voler que un ós rentador agafés unes
monedes i les introduís dins d'una caixa. Al principi es va entrenar l'animal amb una
sola moneda i va aprendre fàcilment a agafar la moneda i introduir-la dins la caixa,
amb la qual cosa aconseguia menjar com a reforçador. Però quan se li van donar dues
monedes simultàniament perquè les desés a la caixa, la conducta es va deteriorar
marcadament. En lloc d'agafar les monedes i posar-les a la caixa (amb la qual cosa
aconseguiria ràpidament el reforçador), l'ós rentador sostenia les monedes entre les
mans durant uns minuts, sovint les fregava entre elles i de vegades les deixava a la
caixa i les tornava a recollir immediatament.
Els óssos rentadors poden aprendre diverses conductes com, per exemple, encistellar una pilota. En canvi, va
resultar difícil condicionar-los a introduir monedes en una guardiola.
Malgrat que aquestes conductes no es van reforçar mai, cada vegada apareixien amb
més freqüència fins al punt que els Breland van haver de desistir en el seu intent
d'entrenar-los. Es van trobar amb els mateixos problemes quan volien entrenar con-
ductes similars en porcs. En un principi, els porcs aprenien a agafar una "moneda" de
fusta i la ficaven en una caixa, però després de molts intents els animals començaven
a alterar el seu comportament i mostraven respostes com deixar caure la moneda i
barrigar, tornar-la a deixar caure i barrigar un altre cop. Evidentment, aquestes con-
ductes no eren reforçades, però els animals mostraven una forta tendència per a dur-
les a terme.
Com és possible que unes respostes que impedeixen la presentació del refor-
çador es mantinguessin amb tanta força? Els Brelands es van adonar que les
conductes errònies eren les que els óssos rentadors i els porcs feien normal-
ment com a part del seu repertori de conductes per a la recol·lecció de menjar.
Com que aquestes conductes semblaven estar relacionades amb les respostes
innates dels subjectes, les van anomenar derives�instintives:
Amb una gran experiència, l'actuació dels subjectes s'allunya de les

respostes reforçades vers les conductes instintives que apareixen quan
l'animal està buscant el reforçador (en aquest cas, menjar) en el medi
natural.
Un altre aspecte del condicionament instrumental és que la presentació del

reforçador després d'una determinada resposta fa que aquesta se seleccioni
en detriment d'altres respostes. Una conseqüència d'aquesta selecció és que el
condicionament instrumental promou una reducció en el rang de respostes
que executarà un individu. Efectivament, si l'única manera que té una rata
famolenca d'obtenir menjar és prémer una palanca, veurem que aquesta con-
ducta ocupa la major part del temps de l'animal, almenys mentre tingui gana.
Una qüestió important és si podem, per mitjà del condicionament instrumen-

tal, promoure un increment de la variabilitat�en�la�conducta. En la majo-
ria de procediments de condicionament instrumental l'investigador seleccio-
na una resposta concreta i la reforça quan apareix. Però podrem condicionar
un animal perquè executi cada vegada una resposta diferent per a aconseguir
el reforçador?
Page i Neuringer (1985) van demostrar que el condicionament instrumental

es podia utilitzar per a provocar una variabilitat en la conducta.
Experiment de Page i Neuringer (1985)
En la seva investigació van reforçar uns coloms amb menjar per a executar una se-
qüència de vuit cops de bec a dues tecles de resposta en una caixa de condicionament.
Per a un dels grups, el grup de control, no es va posar cap restricció en la seqüència
de les vuit respostes. Això és, cada cop que havia picotejat vuit vegades les tecles
amb independència de quina tecla picotejava i en quin ordre ho havia fet, rebia el
reforçador. Per al segon grup, el grup experimental, es va incloure una restricció per
a rebre el reforçador. De fet, els animals del grup experimental només rebien menjar
si la seqüència de cops de bec a les tecles de resposta era diferent de les seqüències de
respostes que l'animal havia efectuat en els darrers 50 assajos.
La freqüència de respostes diferents (seqüències dreta-esquerra) durant els pri-

mers dies d'entrenament va ser del 50% en els dos grups. En canvi, al final de
l'entrenament, mentre que els animals del grup control, sense cap restricció
en la seqüència de respostes dreta-esquerra, van mostrar una tendència a fer
la mateixa seqüència (el percentatge de seqüències diferents era de menys del
20%), els animals del grup experimental mostraven més del 75% de seqüèn-
cies diferents.
Entrenament de la
Aquests resultats mostren clarament que si prenem com a resposta ins- creativitat
trumental la variabilitat en la conducta, la podem reforçar i promoure
El condicionament instrumen-
d'aquesta manera que els organismes executin respostes diferents cada tal pot ser útil per entrenar a
les persones a ser creatives, en
vegada. el sentit que busquin solucions
noves als problemes coneguts.
4.3. L'estímul reforçador
El tercer element implicat en el condicionament instrumental és el reforçador.

Habitualment, al laboratori s'utilitzen estímuls biològicament potents quan es
treballa amb animals no humans. Podem utilitzar menjar per a reforçar con-
ductes com prémer una palanca amb rates o picotejar una tecla amb coloms.
Podem utilitzar igualment estímuls aversius com descàrregues.
No obstant això, podem trobar estímuls reforçadors que no entrarien en la

categoria de biològicament potents.
Quan treballem amb humans podem reforçar una conducta indicant simplement que la
resposta ha estat correcta o castigar una altra conducta informant que és incorrecta. Fora
del laboratori, podem modular la conducta d'altres persones elogiant-les o criticant-les.
Amb animals de companyia com gossos o gats podem pronunciar la paraula no perquè els
animals deixin de fer alguna conducta (per exemple, entrar en una habitació) o parlar-hi
afectuosament quan l'animal se'ns apropa.
Aquestes consideracions ens porten a dos aspectes dels reforçadors: primer, hi

ha una àmplia varietat d'estímuls que poden funcionar com a reforçadors; i
segon, hi ha reforçadors que inicialment eren estímuls neutres i amb un en-
trenament específic esdevenen reforçadors eficaços.
El primer punt ens fa buscar una definició de reforçador basada en els seus
efectes i no pas en les seves característiques físiques. Tenint en compte això,
podem definir un reforçador com qualsevol conseqüència que presen-

tada contingentment a una conducta, incrementa la probabilitat que la
conducta es repeteixi en el futur. De la mateixa manera, podem definir
un estímul punitiu com qualsevol conseqüència que presentada con-
tingentment a una conducta prèvia redueix la probabilitat d'aparició
d'aquesta conducta en el futur.
A partir d'aquestes definicions, ens adonem que no podem saber les propietats
reforçadores (o punitives) d'un estímul a priori. Sabrem si un estímul és refor-
çador (o punitiu) pels efectes que observarem sobre la conducta, però no per
les característiques intrínseques a l'estímul.
Exemple
Podem pensar que un caramel és un reforçador poderós per als nens, i probablement així
serà per a la majoria, però podem trobar algun infant a qui no li agraden els caramels i,
en conseqüència, la llaminadura no tindrà propietats reforçants.
La definició de reforçador donada pels efectes sobre la conducta ens permet

una classificació àmplia que inclou tant els estímuls biològicament potents
com els estímuls no biològicament potents. Tanmateix, la definició és circular.
Si donem menjar contingent a picotejar una tecla i observem que la conducta
incrementa o es manté, podem afirmar que el menjar és un reforçador perquè
incrementa la conducta contingent, però si preguntem què fa que el menjar
provoqui un increment de la resposta contingent, respondrem que el motiu
és que el menjar és un reforçador. És a dir, tornem a ser allà mateix.
Per a sortir d'aquest estancament, s'han proposat algunes definicions alterna-

tives basades en la privació i l'estat de necessitat que genera aquesta privació.
• Hull (1943) definia un reforçador no per les característiques de l'estímul

sinó per les seves propietats a l'hora de reduir un estat de necessitat. Per
exemple, si un animal ha passat hores sense menjar, l'aliment serà un re-
forçador eficaç perquè permet reduir un estat de necessitat. En canvi, si
l'animal està saciat, el menjar deixarà de ser un reforçador eficaç. Aquesta
definició ens permet predir quan un estímul serà un bon reforçador.
• D'una manera similar, Premack (1959) defineix un reforçador no en ter-

mes d'estímuls sinó d'activitat. Si observem a quines activitats es dedica
lliurement un nen quan arriba a casa després de l'escola, probablement
observarem que passa estones menjant, mirant la televisió, jugant a la play
station, fent deures o llegint. Evidentment, cadascuna d'aquestes activitats
variarà en freqüència d'aparició i no serà excessivament imprudent predir
que dedicarà molt de temps a mirar la televisió i a jugar a la play station,
i menys temps a fer deures o llegir un llibre.
D'aquesta manera, Premack parteix del supòsit que el patró global d'activitat
d'un subjecte es pot analitzar en funció de les seves activitats components.
Probablement, quan no hi ha cap tipus de restricció, el subjecte distribuirà el
temps entre les diferents activitats d'una determinada manera, i que aquesta
distribució reflectirà la preferència del subjecte per a cadascuna de les activi-
tats. Si el nen de l'exemple dedica més temps a mirar la televisió que a llegir,
llavors podem afirmar que prefereix la primera conducta que la segona. Ara bé,
la distribució de les conductes pot variar en funció dels estats motivacionals.
Si el nen no ha menjat res des de l'hora de dinar, és més probable que quan
arribi a casa es dediqui a menjar i no pas a mirar la televisió.
En definitiva, segons Premack, la preferència no depèn del nombre o tipus

d'activitat, sinó de la taxa d'execució de l'activitat amb relació a les opcions
disponibles. Quant a la relació de reforçament, Premack afirma que una acti-
vitat preferida reforçarà una activitat menys preferida si la primera és contin-
gent a la segona. Per exemple, si observem que el nen de l'exemple dedica un
70% del temps a mirar la televisió, un 10% a fer deures, un 10% a menjar i el
5% restant a llegir un llibre, podrem reforçar la conducta de llegir (poc prefe-
rida) si la fem contingent a la conducta de mirar la televisió (molt preferida).
Fer contingents dues conductes implica, en primer lloc, restringir la conduc-

ta més preferida i, en segon lloc, establir que només hi tindrà accés si prèvia-
ment ha dedicat un cert temps a la conducta menys preferida. Així, podem
privar el nen de veure la televisió si abans no llegeix un capítol d'un llibre.
Amb aquesta relació contingent observarem dos efectes: un increment de la
conducta menys preferida i una disminució de la conducta més preferida. El
nen pot dedicar en aquesta nova disposició un 30% del temps a llegir i un 55%
del temps a mirar la televisió, i mantenir constant la resta de conductes.
De la mateixa manera, podem explicar el comportament d'una rata en una

caixa de condicionament. Si l'animal porta 16 hores sense menjar i la posem
en una caixa de condicionament amb una palanca i accés lliure a menjar,
probablement observarem que dedica el 90% del temps a menjar i el 10%
a altres conductes. Però si restringim l'accés al menjar al fet que prèviament
pressioni la palanca, observarem un increment d'aquesta conducta. El principi
explicatiu és el mateix: la restricció d'una conducta preferida i contingent, com
menjar, a una conducta poc preferida, com prémer una palanca, reforçarà la
conducta menys preferida.
Una conseqüència d'aquesta anàlisi és que qualsevol conducta pot actuar com
a reforçador d'una altra conducta si es compleixen aquestes condicions. Si po-
sem una rata en una caixa on hi ha disponible una roda d'activitat i aigua,
és possible que si l'animal està saciat dediqui més temps a córrer que a beure,
però un animal assedegat dedicarà més temps a beure que a córrer. Segons Pre-
mack, en el primer cas, córrer podrà reforçar la conducta de beure si restringim
l'accés a la roda i el fem contingent a la resposta de beure. En el segon cas,
beure pot reforçar la conducta de córrer si restringim l'accés a l'aigua i el fem
contingent a la conducta de córrer.
Amb aquesta discussió sobre la definició de reforçador, hem deixat de banda el

fet que determinats estímuls que no són biològicament potents també tenen
la capacitat de reforçar els comportaments amb els que són contingents. Un
estímul corrent en la nostra cultura servirà per a il·lustrar aquest punt.
El treball diari que desenvolupem, siguem empleats o empresaris, té una

conseqüència important: els diners. És evident que les monedes i els
bitllets no són estímuls primaris, ja que no són biològicament potents
com l'aigua, el menjar, el plaer sexual o el confort. Hi ha un procés
d'aprenentatge a partir del qual els diners es converteixen en un reforça-
dor eficaç per a modular el nostre comportament. Quin és aquest apre-
nentatge que fa que un estímul inicialment neutre esdevingui en un
reforçador? Al llarg de la nostra infància anem associant els diners amb
tots els béns que podem obtenir amb ells. Un nen pot bescanviar uns
cèntims d'euro per caramels, per joguines i altres objectes que són re-
forçadors primaris. De més grans, podem invertir els diners en objectes
i activitats molt diferents. Podem anar a la discoteca, comprar el men-
jar diari, pagar el gas, l'electricitat, l'aigua, adquirir una casa i un cotxe,
etc. Així, doncs, treballar ens proporciona diners i els diners anticipen
la possibilitat de satisfer la majoria de les nostres necessitats bàsiques.
És possible que un estímul condicionat clàssicament amb un EI pugui servir

com a reforçador?
En el mòdul "Condicionament clàssic pavlovià" hem vist, quan hem estudiat

el condicionament de segon ordre, que si un EC (com ara un llum) s'aparella
sistemàticament amb un EI, aquest EC es pot utilitzar com a EI en el condici-
onament clàssic si l'aparellem amb un EC nou (per exemple, un to). Si apare-
llem el to amb el llum, el to començarà a provocar la resposta condicionada
com si el to s'hagués aparellat directament amb l'EI.
En el condicionament instrumental, el paper de l'EI el fa el reforçador. El paper

d'EC primari és l'estímul neutre que esdevindrà un reforçador�condicionat o
secundari després d'aparellar-lo amb el reforçador primari. Posteriorment, el
reforçador secundari pot actuar com a substitut del reforçador primari per a
reforçar una conducta amb la qual es lliura contingentment.
Skinner (1938) va publicar una de les primeres demostracions de la capacitat

d'un reforçador secundari per a reforçar una conducta instrumental.
Experiment de Skinner (1938)
En una primera fase de l'experiment va presentar repetidament a unes rates un so

aparellat amb menjar. Durant aquesta fase de l'experiment, els animals no havien
de fer cap conducta per a obtenir menjar; per tant, es tractava d'un procediment de
condicionament clàssic. En la segona fase de l'experiment, es va deixar de presentar
el menjar, i malgrat això, els animals van aprendre a prémer la palanca quan aquesta
conducta activava el so. Evidentment, com que el so no es va tornar a aparellar amb
el menjar durant la segona fase, no ens ha de sorprendre que la resposta de pressió
de la palanca no persistís durant gaire temps. Aquest aspecte és un paral·lelisme més
amb el condicionament de segon ordre.
Un concepte similar al de reforçador condicionat és el que Skinner va anome-

nar reforçador�generalitzat.
Un reforçador generalitzat no és res més que un tipus especial de refor-

çador condicionat que s'ha aparellat amb molts reforçadors primaris di-
ferents.
L'exemple dels diners que hem vist més amunt, serveix per a il·lustrar què és un
reforçador generalitzat. Els diners els tenim associats amb reforçadors primaris
molt diferents i, per això, esdevé un reforçador tan potent. Però el seu poder
depèn que segueixi associat amb els reforçadors primaris tal com demostrava
l'experiment d'Skinner. Si els diners deixessin de ser útils per a intercanviar-los
per reforçadors primaris, difícilment trobaríem algú que treballés per a obtenir
un grapat de trossos de papers de diversos colors.
Hi ha algunes variables com la quantitat i la naturalesa del reforçador que

determinen directament la taxa de la resposta instrumental.
Experiment de Hutt (1954)
Per exemple, Hutt (1954) va manipular la quantitat i qualitat del reforçador que unes
rates obtenien per prémer una palanca. Diferents grups de rates obtenien quantitats
petites, mitjanes o grans de menjar si duien a terme la resposta instrumental. El men-
jar consistia en una massa líquida d'aigua, llet i farina. Hutt va manipular la qualitat
del menjar fent més agradable la massa bàsica afegint-hi sacarina, fent-la desagrada-
ble amb àcid cítric o deixant la massa bàsica sense additius.
Els resultats trobats per Hutt (1954) van ser que la taxa de resposta de pressió
de palanca incrementava d'una manera directament proporcional a la quan-
titat i qualitat del reforçador. És a dir, la taxa de resposta era més gran quan
proporcionava més quantitat de reforçador. També la taxa de la resposta era
més gran quan la qualitat del reforçador millorava.
Vegem ara una situació diferent:
Imaginem que un bon dia que som a la feina ens crida el cap per a comunicar-nos que
a partir del mes següent cobrarem un 50% més de sou per la mateixa feina i, efectiva-
ment, al final de més ens ingressen els diners tal com ens havien promès. Tindrà algun
efecte sobre el nostre comportament amb relació a les tasques que fèiem habitualment
(recordem que en aquest cas hipotètic no se'ns demana res a canvi)?. És molt probable
que, a part de l'alegria i incredulitat que ens pot provocar l'inèdit fet, treballem amb més
entusiasme, almenys, durant un temps.
Realment succeirà així? Al laboratori s'han estudiat situacions similars a la des-

crita en la situació presentada i els resultats confirmen aquestes prediccions.
Experiment de Crespi (1942)
Crespi (1942) va entrenar tres grups de rates a córrer per un corredor per a obtenir
menjar. Durant una primera fase de l'experiment, cada grup rebia una quantitat di-
ferent de reforçador quan arribava a la caixa meta. Un dels grups rebia quatre boletes
de menjar, un altre grup rebia 16 boletes de menjar i el tercer grup rebia 64 boletes de
menjar. Al final d'aquest primer entrenament, i tal com calia esperar, el grup que re-
bia la quantitat més petita de reforçador era el que corria més lentament (aproxima-
dament, 1,5 peus per segon), mentre que el que rebia la quantitat més gran era el que
corria més (aproximadament, 3,5 peus per segon). El grup que rebia una quantitat
mitjana va mostrar una velocitat de carrera entre els altres dos grups (aproximada-
ment, 2,5 peus per segon). El més interessant va ser la manipulació que va fer Crespi
en una segona fase de l'experiment: va igualar la quantitat de boletes de menjar en
els tres grups de manera que tots van rebre 16 boletes de menjar. Per tant, hi havia un
grup que va passar de rebre quatre boletes a rebre'n 16, un altre grup que va passar de
rebre'n 64 a rebre'n 16 i un tercer grup, el grup de control, que no va experimentar
cap canvi en la quantitat de reforçador. Podem fer una primera predicció del com-
portament dels animals en aquesta segona fase.
Si la intensitat de la resposta instrumental depèn del valor absolut de la quan-

titat de reforçador, llavors els tres grups haurien de manifestar la mateixa velo-
citat de carrera durant la segona fase, ja que els tres grups van rebre la mateixa
quantitat de reforçador.
En realitat, els resultats no es van ajustar a aquesta predicció. Evidentment, el

grup de control que no va experimentar cap canvi en la quantitat de reforçador
va mantenir la seva velocitat de carrera. En canvi, el grup que havia estat rebent
la quantitat petita, va mostrar una velocitat de carrera superior a la del grup
de control (entorn de 3,5 peus per segon), mentre que el que va veure reduïda
la quantitat de reforçador en la segona fase va mostrar una velocitat de carrera
inferior (aproximadament, 1,5 peus per segon) a la del grup de control.
Els canvis en la conducta observats quan s'incrementa la quantitat de reforça-

dor s'anomenen contrast�positiu, mentre que els canvis de conducta causats
per una reducció de la quantitat habitual de reforçador reben el nom de con-
trast�negatiu.
En definitiva, els efectes de contrast positiu i negatiu posen en relleu que

els efectes de la quantitat (i també de la qualitat) d'un reforçador concret
depenen de la quantitat (i qualitat) dels reforçadors que un individu ha
experimentat en el passat.
Flaherty i els seus col·legues han estudiat quins mecanismes poden estar im-
plicats en els efectes de contrast. Tot i ser lluny encara d'una resposta prou
convincent, sembla que els mecanismes de cada efecte de contrast, positiu i
negatiu, són mediats per mecanismes diferents (Flaherty, 1996). L'efecte de
contrast negatiu és més robust que el de contrast positiu. Entre els diferents
mecanismes responsables del contrast negatiu s'ha proposat que un canvi a
una recompensa pitjor pot provocar un estat de frustració (Amsel, 1992). Fla-
herty (1996) proposa que el canvi a una recompensa petita provocaria canvis
cognitius i de conducta. Inicialment, el fet de trobar una recompensa més pe-

tita que l'esperada activaria respostes de recerca de millors fonts d'alimentació.
Quan aquestes conductes exploratòries no tenen èxit, llavors es produeixen
canvis emocionals de desencís i la conducta s'adapta a la nova situació.
4.4. La relació resposta-reforçador: contigüitat temporal i

contingència
Al llarg del mòdul estem presentant situacions en les quals la conducta pro- Exemple
dueix i és controlada per les seves conseqüències. La conducta flueix en un
Aprenem que si manipulem un
continu i al mateix temps al nostre voltant es produeixen infinitat d'estímuls. interruptor podem encendre o
Tot plegat pot semblar caòtic, però els processos d'aprenentatge ens permeten apagar un llum, però que surti
o es pongui el sol no es troba
extreure quines regularitats es produeixen al nostre entorn. Podem arribar a sota el nostre control.
determinar si alguns estímuls depenen del nostre comportament i quins estí-

muls no es troben sota el nostre control.
També és cert que les relacions entre la nostra conducta i les conseqüències no Exemple
són sempre determinants com la manipulació de l'interruptor i el llum, sinó
Si llancem una pilota a cistella
que són probabilístiques. durant un partit de bàsquet,
només encistellarem un per-
centatge dels llançaments.
El descobriment de totes les possibles relacions entre esdeveniments, i en el cas
que ens ocupa en aquest mòdul, entre la conducta i les seves conseqüències,
ens permet adaptar-nos a l'entorn en funció de les nostres necessitats. El nostre
objectiu ara és analitzar quins mecanismes permeten als organismes detectar
les regularitats entre el nostre comportament i les seves conseqüències.
Com hem vist en el mòdul "Condicionament clàssic pavlovià" a l'hora

d'explicar com es detectaven les relacions entre estímuls, hi ha dos tipus de
principis que s'han tingut en compte a l'hora d'explicar per què dos esdeveni-
ments queden associats. El primer principi és el de la contigüitat�temporal i
el segon principi és el de la contingència.
1)�Principi�de�la�contigüitat�temporal
La perspectiva tradicional del condicionament, tant clàssic com instrumental,

és que la contigüitat temporal és la condició que determina si es formaran
les associacions. Si quan entrem a una habitació que és a les fosques premem
l'interruptor, el llum s'encén immediatament i podem detectar ràpidament la
relació entre la conducta i la seva conseqüència. Però que succeiria si introdu-
íssim una demora entre els dos esdeveniments? Serem capaços de detectar la
relació entre resposta i reforçador? La investigació duta a terme en què es ma-
nipulava la demora entre la resposta i el reforçador ha mostrat que a mesura
que s'incrementava la demora, l'aprenentatge era més feble.
Experiment de Dickinson, Watt i Griffiths (1992)
Dickinson, Watt i Griffiths (1992) van dur a terme un experiment en què les rates
havien de prémer la palanca per a obtenir una boleta de menjar. La manipulació ex-
perimental consistia a introduir diferents demores entre la resposta i el reforçador. En
quatre grups diferents d'animals es van utilitzar demores de 2, 4, 24 i 64 segons. Així,
en el cas del grup amb una demora de dos segons, la pressió de palanca proporcionava
el reforçador dos segons després que s'hagués produït la resposta i en el grup amb la
demora de 64 segons, el reforçador apareixia 64 segons després d'executar cada pres-
sió de palanca. Es va mesurar la taxa de pressió de palanca i es va obtenir que a mesura
que s'incrementava la demora la taxa disminuïa. El grup que tenia una demora de
dos segons, pressionava la palanca amb una taxa de 20 respostes per minut; el grup
amb una demora de quatre segons responia set vegades per minut; el grup amb 64
segons de demora va respondre només una vegada per minut.
Sovint ens trobem amb situacions que no proporcionen la recompensa

immediatament; no obstant això, aprenem les relacions entre la nostra
conducta i el reforçador.
Si posem monedes en una màquina de refrescs i premem el botó adequat,

el refresc cau amb una demora molt breu. Però succeeix el mateix amb una
màquina de cafè? Normalment, les màquines de cafè dispensen la beguda amb
una demora relativament llarga, el temps que es necessita per a moldre el gra
de cafè i filtrar l'aigua pel cafè mòlt. Prémer el botó per a cridar un ascensor
també inclou una demora si l'ascensor no es troba a la mateixa planta des
d'on el cridem. Què fa que puguem aprendre la relació entre la resposta i el
reforçador malgrat les demores que hi ha entre ells?
Si fem una anàlisi més acurada de les situacions de la màquina de cafè i de

l'ascensor, ens adonarem que entre la resposta i el reforçador apareixen una
sèrie d'estímuls. Per exemple, un cop hem premut el botó del cafè exprés es
posen en marxa els mecanismes necessaris per a moldre el cafè i després la
bomba que fa circular l'aigua. Tots aquests mecanismes produeixen un sons
específics que es presenten immediatament després de la resposta i s'allarguen
fins que el cafè està preparat. Seran aquests estímuls els responsables que pu-
guem aprendre la relació entre la nostra conducta i el reforçador?
Experiment de Reed (1999)
En un treball de Reed (1999) va entrenar uns participants perquè escollissin una de

dues tecles d'un teclat d'ordinador, la A i la L. Prémer la tecla A anava seguit el 75%
de les vegades del parpelleig d'un triangle dibuixat a la pantalla, mentre que prémer
la tecla L no provocava mai el parpelleig. Per a un dels grups (grup immediat), el
parpelleig es produïa immediatament després de prémer la tecla A. En canvi, per a
dos grups més, el parpelleig del triangle es produïa cinc segons després de la resposta.
En un d'aquests dos grups amb demora, entre el moment de la resposta i el reforçador
no passava res (grup no assenyalat), mentre que per a l'altre grup, immediatament
després de prémer la tecla A, apareixien quatre X properes al triangle i desapareixien
en el moment en què es presentava el parpelleig del triangle (grup assenyalat). Final-
ment, es demanava als participants que valoressin la relació entre prémer qualsevol
de les tecles, A i L, amb la conseqüència. Tots els grups van assenyalar que la tecla
L no tenia cap relació amb el parpelleig del triangle, però van discrepar en la relació
donada entre la tecla A i el parpelleig. El grup immediat va ser el que va trobar una
relació alta, entorn de 95 en una escala de 0 a 100. El grup no assenyalat va trobar una
relació baixa, uns 30 punts. Finalment, el grup assenyalat va puntuar lleugerament
per sobre dels 50 punts.
Els resultats van mostrar que quan s'assenyalava un reforçador demorat incre-
mentava els judicis de la relació causal entre resposta i reforçador amb relació
al moment quan el reforçador demorat no anava assenyalat. Però per què el
senyal que omple la demora redueix els efectes perjudicials de la demora?
La resposta més habitual és que el senyal actua com a reforçador condicionat o

secundari. Pel seu aparellament amb el reforçador, forma una associació clàs-
sica amb aquest. Un cop formada aquesta associació, el participant pot relaci-
onar la resposta amb el senyal que, al seu torn, indica la presentació del refor-
çador. Les persones que no detecten la relació entre la il·luminació de la tecla
de l'ascensor un cop l'han presionada i la seva arribada, poden persistir en la
resposta si l'ascensor triga més del que poden suposar raonable.
Un altre fenomen relacionat amb la demora del reforçador és el que s'anomena

hipòtesi�del�marcatge.
Experiment de Lieberman, McIntosh i Thomas (1979)
Lieberman, McIntosh i Thomas (1979) van ser els primers a descriure aquest feno-
men. Van utilitzar un aparell adaptat expressament als objectius del seu experiment.
L'aparell consistia en una caixa de sortida que donava pas a la caixa d'elecció. A la
paret del fons d'aquesta caixa hi havia dos passadissos que corrien paral·lels i que
desembocaven en una caixa comuna de demora. Els dos passadissos es distingien pel
color, ja que un era negre i l'altre era blanc. Finalment, la caixa de demora donava
pas a la caixa meta on es proporcionava el menjar. Els subjectes experimentals van
ser rates. Un assaig consistia a deixar una rata a la caixa de sortida. Després, s'obria la
porta que comunicava amb la caixa d'elecció i un cop l'animal hi havia entrat havia
d'escollir un dels dos passadissos possibles. Quan havia travessat el passadís escollit,
l'animal entrava a la caixa de demora on quedava confinat durant 60 segons. Passats
els 60 segons, s'obria la porta que donava accés a la caixa meta. Les rates trobaven
menjar si en la seva elecció havien triat un braç concret, per exemple el de color
blanc, però no hi havia menjar si havia escollit el braç negre. Per tant, una bona
actuació dels animals era escollir el braç blanc en cada assaig. No obstant això, els
animals entrenats en aquestes condicions escollien el braç correcte un 50% dels cops
després de 50 assajos de condicionament, cosa que indicava que no havien après en
absolut la relació entre escollir el braç blanc i trobar menjar a la caixa meta, la qual
cosa constitueix un exemple més dels efectes perjudicials de la demora. L'experiment
constava d'un segon grup que va rebre el mateix tractament excepte que un cop ha-
vien escollit qualsevol dels dos braços, era l'experimentador qui els agafava i els situ-
ava a la caixa de demora i, 60 segons després, els tornava a agafar i els deixava a la
caixa meta on trobaven o no trobaven el reforçador en funció del braç triat.
Lieberman i els seus col·laboradors van designar aquesta manipulació experi-

mental com un marcatge�de�la�conducta�clau. Com que el marcatge apareixia
tant en les respostes correctes com incorrectes, no tenia possibilitats d'actuar
com un reforçador secundari. A diferència del grup no marcat, el grup marcat
va aprendre la discriminació i en els deu darrers assajos d'entrenament feien
el 90% d'eleccions correctes.
Torres bessones
L'explicació donada per Lieberman i els seus col·laboradors del feno-
men del marcatge és que quan es produeix un efecte intens és marca Un paral·lelisme als efectes del
marcatge seria el fet que mol-
la resposta que s'estava duent a terme en aquell moment. L'efecte del tes persones podem recordar
perfectament el que fèiem en
marcatge seria facilitar l'enregistrament a la memòria del que succeïa en el moment que ens vam assa-
el moment del marcatge i d'aquesta manera permetria associar millor bentar dels atemptats contra
les torres bessones o contra
aquestes respostes amb les conseqüències. els trens de rodalies a Madrid.
Aquests esdeveniments inten-
sos van permetre enregistrar a
la nostra memòria les conduc-
tes que fèiem en el moment
El fet que hi hagi un deteriorament del condicionament amb demores llargues d'assabentar-nos-en tot i que
en la presentació del reforçador no significa que no hi hagi situacions en què fossin irrellevants o rutinàries.
es pot obtenir aprenentatge quan es retarda el reforçador, malgrat que no hi

hagi reforçadors condicionats ni el marcatge de la resposta instrumental.
Experiment de Williams (1975)
Per exemple, Williams (1975) va entrenar uns coloms en una caixa de condiciona-
ment perquè picotegessin una tecla de resposta que s'il·luminava durant cinc segons.
Les respostes de picotejar la tecla es reforçaven amb la presentació de menjar nou
o deu segons després que s'apagués la tecla il·luminada. Aquesta demora del reforça-
ment no va impedir el condicionament: els animals van aprendre a picotejar la tecla
il·luminada. L'experiment de Williams incloïa un segon grup de coloms. El tracta-
ment rebut va ser idèntic excepte que en finalitzar la demora i just abans que es pre-
sentés el menjar, s'il·luminava una segona tecla d'un color diferent. Aquesta simple
manipulació experimental va donar com a resultat un descens dramàtic de la respos-
ta instrumental de picotejar la primera tecla. Els subjectes van atribuir l'aparició del
menjar a l'estímul que el precedia immediatament en lloc de fer-ho a les respostes
donades alguns segons abans.
Sempre es pot argumentar que en l'experiment de Williams la segona tecla

mantenia una contigüitat temporal millor amb el reforçador que no pas la
resposta de picotejar la primera tecla i, per tant, s'ajusta, d'alguna manera, al
principi de contigüitat. No obstant això, la resposta instrumental mantenia
la mateixa contigüitat temporal en els dos grups de coloms (una demora de
nou o deu segons) i, segons el principi de la contigüitat temporal per si sol,
la presència d'un segon estímul no hauria d'haver interferit en l'aprenentatge
resposta-reforçador.
Vegeu també
Experiment de Pearce i Hall (1978)
Vegeu l'apartat 5.3, "Progra-
En un altre treball de Pearce i Hall (1978) es va entrenar unes rates a prémer la pa- mes d'interval", d'aquest mò-
lanca per a obtenir menjar amb un programa d'interval variable (vegeu l'apartat se- dul didàctic.
güent sobre programes de reforçament; ara per ara només cal emfatitzar que aquest
programa de reforçament és intermitent i fa que no totes les respostes vagin seguides
de reforçador, és a dir, la relació resposta reforçador és imperfecta). A un dels grups
es va presentar un predictor perfecte del menjar en disposar que les pressions de pa-
lanca reforçades també provoquessin un estímul extern, breu. Aquest estímul afegit
que no apareixia en cap altre moment i, per tant, estava perfectament correlacionat
amb el reforçador va interferir significativament amb l'establiment de les pressions
de palanca, i presumiblement, amb l'aprenentatge de l'associació entre la pressió de
palanca i el reforçador. En canvi, en els grups de control en els quals no apareixia
aquest estímul extern o bé apareixia però d'una manera no correlacionada amb el re-
forçador, es va observar un bon condicionament de la resposta de pressió de palanca.
2)�Principi�de�la�contingència
Una conseqüència del principi de contigüitat temporal és que qualsevol res-

posta que fos seguida del reforçador hi quedaria associada. No obstant això,
hem presentat prou exemples que indiquen que la contigüitat temporal no és
suficient ni necessària per a l'establiment d'associacions, del contrari tindríem
el cap ple d'associacions irrellevants.
Segons Mackintosh (1983) si la funció del condicionament és detectar

les relacions causals entre esdeveniments, aquesta capacitat s'ha de ba-
sar en un mecanisme que impedeixi la formació de les associacions ir-
rellevants.
Quin és aquest mecanisme que assegura un bon condicionament dels bons

predictors del reforçador a expenses dels pitjors predictors? En estudiar el con-
dicionament clàssic hem vist els experiments de Rescorla (1967, 1968), en els
quals es demostrava que el condicionament depenia de la contingència entre
l'EC i l'EI, és a dir, de la probabilitat que l'EI es presentés en presència de l'EC i
en la seva absència. Aquest mecanisme també és responsable del condiciona-
ment instrumental?
Si recordem els procediments de condicionament instrumental, tindrem pre-

sent que una de les variables que cal tenir en compte a l'hora d'estudiar aquest
procediments és la relació positiva o negativa entre la resposta i l'estímul con-
següent. Parlàvem d'una relació positiva quan l'estímul consegüent es presen-
tava només si es produïa la resposta i dèiem també que la relació negativa
implicava que la resposta feia desaparèixer un estímul rellevant. En termes de
probabilitat resposta-reforçador, podem dir que tant en el reforçament com en
el càstig positiu la probabilitat de l'estímul apetitiu i aversiu, respectivament,
en presència de la resposta és 1, mentre que la probabilitat que apareguessin
aquests estímuls en absència de la resposta és 0. En el cas del reforçament i del
càstig negatiu, la relació s'inverteix de manera que la probabilitat de l'estímul
aversiu i apetitiu, respectivament, en presència de la resposta és 0, mentre que

la probabilitat que apareguessin aquests estímuls en absència de la resposta
és 1.
D'altra banda, quan s'ha estudiat directament el paper de la contingència en el

condicionament instrumental s'ha observat que aquest factor és més impor-
tant que la contigüitat temporal.
Experiment de Hammond (1980)
En una investigació, Hammond (1980) va establir que el 5% de les respostes de pres-

sió de palanca d'unes rates proporcionessin aigua com a reforçador. Formalment, la
probabilitat del reforçador segons la resposta era de 0,05, o p(Rf/Rs) = 0,05, en què
Rf és el reforçador i Rs, la resposta. El reforçador, però, no es presentava mai si abans
no s'executava la resposta, és a dir, que la probabilitat del reforçador en absència de
la resposta era igual a zero, o p(Rf/no-Rs) = 0. Aquesta disposició assegurava que els
animals rebessin un reforçador cada 20 segons si, i només si, havien premut la pa-
lanca. En una segona fase, Hammond va introduir presentacions gratuïtes d'aigua de
manera que la probabilitat d'obtenir aigua sense prémer la palanca igualava la pro-
babilitat de rebre l'aigua quan executaven la resposta instrumental.
Els resultats van ser clars, quan l'única manera possible d'obtenir aigua era
prémer la palanca, la taxa de resposta era alta, però quan el reforçador era
igual de probable si es responia o no es responia, els animals van deixar de
prémer la palanca. Els resultats demostren que els animals eren sensibles a les
diferents contingències resposta reforçador i la seva actuació era controlada
per aquestes contingències.
En un experiment amb estudiants universitaris, Chatlosh, Neunaber i Wasser-

man (1985) van trobar resultats similars.
Experiment de Chatlosh, Neunaber i Wasserman (1985)
En aquest cas, es va demanar als estudiants que en cada assaig premessin o no pre-
messin una tecla. La tasca consistia a esbrinar si prémer la tecla tenia algun efecte
sobre l'encesa d'un llum blanc. Finalment, els participants havien d'estimar el grau
de relació entre la resposta i el llum blanc en una escala de –100 a +100 (un valor
negatiu indicava que la resposta evitava que s'encengués el llum, mentre que puntu-
acions positives volia dir que la resposta feia encendre el llum). Els experimentadors
van variar la contingència entre resposta i conseqüència que anava de –,75 a +,75.
Les dades van mostrar que les puntuacions estimades dels participants
s'ajustaven a les contingències reals.
5. Programes de reforçament
Un programa de reforçament és el conjunt de criteris que determinen

si una conducta serà seguida de reforçador o no.
Aquests criteris s'estableixen, bàsicament, en termes del nombre de respostes

necessàries que s'han d'executar i de quant de temps ha de transcórrer des de
l'últim reforçador perquè el següent estigui disponible. Si bé els programes de
reforçament poden influir en l'adquisició de noves conductes, el seu estudi
s'ha centrat en els efectes que tenen sobre el manteniment de conductes ja
adquirides i, també, en l'efecte que tenen sobre l'extinció de conductes que
es volen eliminar.
L'estudi dels programes de reforçament s'ha dut a terme principalment en si-

tuacions d'operant lliure que permeten veure la conducta al llarg del temps
i s'ha trobat que els diferents programes simples de reforçament provoquen
patrons de resposta ben definits i diferenciats.
5.1. Programes de reforçament continu
Pràcticament, tots els exemples que hem vist fins ara eren controlats per un
programa�de�reforçament�continu. Això significa que cada vegada que apa-
reix la resposta operant va seguida del reforçador.
Si posem les monedes pertinents en una màquina de cafè i premem el botó corresponent
a cafè exprés, sempre obtindrem la beguda. Si introduïm un got de llet al microones
durant un temps apropiat, obtindrem la temperatura volguda per a prendre'ns la llet. Si
manipulem un interruptor, s'encendrà el llum si estava apagat o s'apagarà si estava encès.
Un programa de reforçament serà útil per a mantenir la taxa de resposta. Ara

bé, no totes les conductes que fem porten sempre a l'obtenció del reforçador.
Un jugador de bàsquet pot llançar a cistella diverses vegades durant un partit però no
sempre obtindrà el resultat volgut, sinó que encistellarà només un percentatge dels seus
llançaments. Podem trucar per telèfon, però no sempre aconseguim posar-nos en con-
tacte amb la persona volguda, ja que de vegades comuniquen i de vegades no responen.
Si ens trobem en un semàfor que canvia de vermell a verd i el cotxe de davant no avança,
podem tocar la botzina i probablement el conductor despistat es posarà en marxa, però
si ens trobem en un embús de trànsit per molt que toquem la botzina, els cotxes no es
posaran en moviment.
En totes aquestes situacions, la resposta va seguida a vegades del reforçador i

d'altres vegades, no. No obstant això, la resposta es manté. No deixarem de
llançar a cistella si fallem uns llançaments, ni deixarem de fer trucades tele-
fòniques tot i que no haguem pogut comunicar-nos amb la persona que ens
interessava, ni deixarem de tocar la botzina quan ens trobem amb el cotxe del
davant aturat. Aquests tipus de programes en què la resposta no va seguida

sempre del reforçador reben el nom de programes�de�reforçament�parcial
o�intermitent.
5.2. Programes de raó
L'únic criteri que defineix un programa�de�raó és que la resposta es produeixi

un determinat nombre de vegades abans de proporcionar el reforçador. Quan
el nombre de respostes necessari per a cada reforçador és constant rep el nom
de raó fixa i s'abreuja RFn, en què n és el valor de la raó.
Una rata que està sotmesa a un programa de reforçament RF25 rebrà el reforçador cada
25 respostes, això és, les primeres 24 respostes no seran reforçades i la que fa 25 rebrà el
reforçador. Un cop ha rebut el reforçador es torna a iniciar la raó.
Esquema d'un programa de reforçament de raó.
A la part superior es mostren les respostes produïdes al llarg del temps i els reforçadors obtinguts. En aquest cas, l'animal
rep un reforçador cada cinc respostes i es tracta d'un programa de raó fixa 5 o RF5. A la part inferior, l'animal ha rebut un
reforçador després de quatre, set, tres i sis respostes. En aquest cas, es tracta d'un programa de raó variable. Si calculem la
mitjana aritmètica de les quatre raons obtindrem que l'animal ha necessitat una mitjana de cinc respostes per a cada reforçador,
per això el programa és de RV5.
Fora del laboratori podem trobar exemples de programes de reforçament de

raó fixa:
Una persona que ha de vendre un nombre determinat de productes per tal de cobrar els
incentius, teclejar nou dígits per a establir una trucada telefònica o pujar els graons de
l'escala fins al primer pis.
En tots aquests exemples, cal donar un nombre fix de respostes abans d'assolir
el reforçador.
Un cas particular de programa�de�reforçament�de�raó�fixa és l'RF1. Si el nom-

bre de respostes necessàries per a cada reforçador és 1, llavors el programa és
de reforçament continu, ja que cada resposta serà seguida del reforçador.
Els programes�intermitents�de�raó�fixa generen un patró de resposta carac-

terístic. Si la raó és prou gran es pot observar que els animals deixen de res-
pondre durant un temps cada vegada que reben un reforçador. La taxa zero
que s'observa després de cada reforçador s'anomena pausa�postreforçament.
Després de la pausa, els animals inicien les respostes amb una taxa alta i estable
fins que obtenen el reforçador següent. La taxa de respostes donades pels ani-
mals s'anomena carrera�de�la�raó. Quan s'entrena un animal (o una persona)
sota un programa de RF, es comença per raons baixes i progressivament es va
incrementant la raó fins a arribar a la raó volguda. Cal tenir en compte, però,
que els increments de la raó no poden ser excessivament grans si no volem
que es deixi de respondre.
Efectivament, cada vegada que incrementem la raó d'una manera sobtada i

significativa apareix un efecte que rep el nom de tensió�de�la�raó que consis-
teix en el fet l'animal efectua pauses periòdiques durant la carrera de la raó.
Si la tensió de la raó és extrema, llavors l'animal podria deixar de respondre.
La pausa postreforçament s'ha explicat com un efecte de la predictibilitat del
nombre de respostes necessàries per a cada reforçador. A més, se suposava que
la durada de la pausa estava relacionada amb l'esforç requerit per la raó prece-
dent, és a dir, la pausa postreforçament s'interpretava com un efecte directe de
la conducta immediatament precedent. No obstant això, Baron i Herpolshei-
mer (1999) van trobar que la pausa postreforçament era controlada per la raó
subsegüent més que per la raó immediatament prèvia.
La interpretació d'aquestes dades és que els animals no fan la pausa postrefor-

çament per a descansar, sinó que més aviat estan avaluant l'esforç requerit per
a assolir el reforçador següent.
Si completem un trencaclosques de 1.000 peces, és possible que deixem passar un cert

temps abans no comencem a fer-ne el següent i que aquest temps serà més llarg si el
trencaclosques següent és de 3.000 peces que si és de 1.000 peces.
Si la pausa fos determinada per l'esforç del trencaclosques que acabem de fer,
la pausa seria la mateixa independentment del nombre de peces del trenca-
closques següent.
D'altra banda, en els programes�de�reforçament�de�raó�variable, el nombre

de respostes requerides per a cada reforçador va canviant. Aquests programes
s'abreugen RVn, en què n és el nombre mitjà de respostes donades per a acon-
seguir cadascun dels reforçadors.
Si fem una partida de billar en la qual hem d'introduir vuit boles als diferents forats,
necessitarem un nombre diferent de tirades per a introduir cadascuna de les boles. Pot
succeir que a la primera tirada encertem a introduir una bola en un dels forat o pot ser
que necessitem diversos cops per a aconseguir-ho.
Si hem necessitat 2, 5, 10, 6, 9, 1, 10 i 5 cops per a introduir les vuit boles que ens corres-
ponen, llavors haurem executat la nostra conducta sota un programa de RV6. Tingueu
en compte que el valor 6 de la RV és la mitjana aritmètica del nombre de respostes re-
querides per a les vuit boles.
Exemple
Més familiar pot ser l'exemple de les màquines escurabutxaques en les quals el jugador ha
de dur a terme un conjunt de jugades per a rebre el reforçador però no sap mai quantes
jugades ha de fer.
Com que en aquests programes la raó varia, no es pot predir el nombre de

respostes necessàries per a cada reforçador, les pauses postreforçador desapa-
reixen i, per tant, la taxa de respostes és molt més estable en els programes de
RV que en els programes de RF.
5.3. Programes d'interval
A diferència dels programes de raó en els quals l'únic requisit per a obtenir el
reforçador és donar un cert nombre de respostes, en els programes�d'interval
hi ha una segona condició que implica que ha d'haver transcorregut una de-
terminada quantitat de temps des de l'últim reforçador perquè torni a estar
disponible.
En els programes d'interval s'han de complir dos condicions per a obte-

nir el reforçador: executar la resposta instrumental i haver transcorregut
una determinada quantitat de temps des de l'últim reforçador.
Si som afeccionats a les sèries televisives, per exemple Dr. House, podem ser reforçats si
engeguem el televisor i sintonitzem el canal adequat el dia i l'hora d'emissió. Ara bé, un
cop s'ha acabat el capítol de la setmana, engegar el televisor i sintonitzar el canal no
produirà el reforçador. De fet, caldrà que transcorri una setmana fins que no torni a estar
disponible la nostra sèrie preferida.
L'exemple fa referència a un període fix de temps (una setmana) i, per tant,

parlarem de programa de reforçament d'interval fix una setmana o, d'una ma-
nera abreujada, IF1setmana. Al laboratori podem estudiar aquest tipus de pro-
grama i fer que un reforçador estigui disponible, per exemple, després de dos
minuts que s'hagi obtingut el darrer reforçador. Això implica que, un cop s'ha
dispensat un reforçador, durant els dos minuts següents no s'obtindrà un altre
reforçador, tot i que l'animal respongui. Ara bé, un cop transcorreguts aquests
dos minuts, el reforçador tornarà a estar disponible i la primera resposta que
es doni serà reforçada i es tornarà a iniciar un altre interval de dos minuts. Cal
tenir en compte que un programa d'interval no depèn només del temps, sinó
que cal que l'organisme executi la resposta instrumental, del contrari el refor-
çador no es lliurarà. Si ja ha passat una setmana des de la darrera emissió de Dr.
House, aquest estarà disponible una altra vegada, però no serem recompensats
si no executem la resposta, això és, si no sintonitzem el canal apropiat.
Esquema
Esquema d'un programa de reforçament d'interval
A la part superior es mostren les respostes donades al llarg del temps i els reforçadors obtinguts. En aquest cas,
l'animal rep un reforçador per la primera resposta que executa passats 60 segons des de la darrera resposta
reforçada. Com que l'interval és constant, es tracta d'un programa d'interval fix 60 segons o IF60seg. A la part
inferior, l'animal ha rebut un reforçador per la primera resposta donada després d'un interval de 45 segons i d'un
interval de 75 segons. En aquest cas, es tracta d'un programa d'interval variable. Si calculem la mitjana aritmètica
dels dos intervals, obtindrem un interval mitjà de 60 segons; per això, el programa és d'IV60seg.
Els programes d'IF generen un patró de respostes propi. Igual que els programes
de RF, just després de rebre el reforçador, els organismes deixen de respondre,
però a diferència dels programes de RF, quan es torna a respondre no es fa amb
una taxa alta i estable, sinó que les respostes incrementen d'una manera ex-
ponencial. A mesura que transcorre l'interval, comencen a aparèixer algunes
respostes tímidament, que van incrementant en la seva freqüència lentament
fins que cap al final de l'interval la taxa de resposta es dispara. Això fa que el
registre acumulatiu de respostes presenti una forma anomenada de fistó per la
seva semblança a l'ornament de la vora d'alguns vestits o objectes que consis-
teix en un retallat en forma de dents corbes.
Per a exemplificar aquest patró de respostes fora del laboratori imaginem que anem a la
parada de l'autobús i just quan hi estem arribant veiem que l'autobús marxa. Suposem que
no portem cap rellotge, però sabem que l'autobús passa cada 20 minuts; per tant, mentre
esperem el proper autobús seiem al banc i comencem a llegir un llibre. En aquesta situació
la resposta instrumental és mirar carrer avall per tal de veure si arriba el proper autobús.
El reforçador per a aquesta resposta és simplement veure arribar l'autobús. Pot semblar
un reforçador massa feble, però un cop veus l'autobús, et pots posar dret i apropar-te a la
via per a assegurar-te que el conductor et veu i s'atura. Al començament, la resposta de
mirar carrer avall per tal de veure l'autobús pot no aparèixer en absolut, i podem llegir
ininterrompudament durant cinc o deu minuts abans de donar el primer cop d'ull al
carrer. La propera mirada al carrer pot aparèixer dos o tres minuts després i, a continuació,
podem mirar cada minut. Després de 15 minuts d'espera, podem decidir deixar el llibre
i mirar d'una manera continuada fins que arribi l'autobús.
Per què es produeix aquest patró fistonat de respostes? El primer aspecte im- Lectura recomanada
portant del patró de respostes observat en els programes IF és que els animals
Per a una revisió sobre
disposem d'algun mecanisme que ens permet mesurar el temps. Com que els l'habilitat de mesurar el
intervals són fixos, els animals poden aprendre amb prou entrenament quina temps:
J. Gibbon i R. M. Church
és la durada de l'interval. Així, un cop un animal acaba de rebre el reforçador, (1992). Comparison of vari-
la probabilitat de rebre un nou reforçador és zero i, en conseqüència, no do- ance and covariance patterns
in parallel and serial theories
narà respostes, però a mesura que va passant el temps, la probabilitat d'arribar of timing. J. Exp. Anal. Behav.
al final de l'interval va incrementant i, per tant, també incrementa la probabi- 05, 57(3): 393-406.
litat d'obtenir el reforçador. Com més temps passa, més alta és la probabilitat
de rebre el reforçador i també la motivació per a respondre.
Una variant dels programes d'interval és fer que sigui imprevisible la durada
de l'interval. En aquest cas, parlem de programes�de�reforçament�d'interval
variable o, abreujat, IV. Així, un programa d'IV2minuts indica que el temps
mitjà dels intervals és de dos minuts, però en segons quins moments només
caldrà esperar, per exemple, 30 segons perquè el reforçador estigui disponible
i en altres moments l'espera serà més llarga, per exemple, tres minuts. El fet
que la durada de l'interval sigui imprevisible fa que la taxa de resposta sigui
més estable i, per tant, desaparegui el patró de resposta en forma de fistó.
Una situació que es trobaria sota un programa similar al d'interval variable és quan anem
a buscar bolets. Si coneixem un racó on surten rovellons hi podem anar un dia qualsevol
i collir tots els que hi trobem. Quan tornaran a estar disponibles més bolets no ho podem
saber. De vegades, a l'endemà ja n'hi podem trobar, d'altres vegades potser no n'hem
trobat fins al cap d'una setmana. Com que és imprevisible quan trobarem els rovellons,
el més probable és que hi fem visites amb força freqüència.
En els programes d'interval simples, un cop que el reforçador està disponible,

es manté disponible fins que s'executa la resposta instrumental, independent-
ment de quan es dugui a terme. Si un colom està picotejant sota un programa
IF2minuts, el reforçador estarà disponible passats dos minuts des de la darrera
vegada que es va obtenir un reforçador. Si l'animal respon just en el moment
que es compleixen els dos minuts rebrà el reforçador, però si s'esperen 20 mi-
nuts també serà reforçat. És a dir, un cop el reforçador està disponible ho estarà
fins que es produeixi la resposta.
Si recuperem l'exemple de la sèrie televisiva Dr. House, ens podem adonar que hi ha una
diferència important. Només serem reforçats si connectem el televisor durant l'hora se-
güent a la que ha començat el programa, però passat aquest temps ja no es podrà veure.
Aquest tipus de restricció respecte a quant de temps estarà disponible el refor-

çador s'anomena espera limitada i es pot aplicar tant als programes d'interval
fix com variable.
En la gràfica es mostren registres acumulats hipotètics generats pels quatre programes de reforçament simples. Es
pot observar que els programes fixos (RF i IF) produeixen pauses postreforçament. D'altra banda, els programes de
raó (RF i RV) produeixen taxes de resposta més elevades que els programes d'interval (IF i IV).
5.4. Comparació dels programes de raó i d'interval
Podem observar diverses similituds entre els programes de raó i d'interval. Ens
els programes fixos, tant de raó com d'interval, s'observa una pausa després
de rebre el reforçador. Aquestes pauses desapareixen quan els programes són
variables. No obstant això, hi ha diferències notables respecte a la taxa de
resposta que generen. Els programes de raó provoquen una taxa de resposta
molt més alta que els programes d'interval.
Experiment de Reynolds (1975)
Reynolds (1975) va dur a terme un experiment en què va comparar un programa de

RV amb un programa d'IV. Dos coloms van rebre menjar per picotejar una tecla de
resposta. Un dels coloms va ser reforçat amb un programa de RV. La freqüència amb
què obtenia menjar depenia de la taxa de resposta i del valor de la raó en cada mo-
ment. El segon colom va ser acoblat al primer de manera que cada vegada que aquest
era reforçat, el reforçador quedava disponible per al segon colom sota el programa
d'IV. Atès que el temps entre reforçadors del primer colom variava en funció del que
trigava a donar les respostes necessàries per a obtenir cada reforçador, el segon colom
estava sotmès a un programa d'IV. Aquesta tècnica de l'acoblament permetia que els
dos coloms rebessin la mateixa quantitat de reforçadors i distribuïts d'una manera
molt similar.
Els resultats de Reynolds (1975) van mostrar que la taxa de resposta del colom
reforçat amb un programa de RV era molt més alta que la taxa de resposta del
colom reforçat amb un programa d'IV. S'han trobat resultats similars en un
estudi que va comparar els programes de RV i d'IV que utilitzava estudiants
universitaris com a subjectes en lloc de coloms (Raia, Shillingford, Miller i
Baier, 2000).
Per què els programes de raó provoquen taxes de resposta més elevades que
els programes d'interval? Una primera resposta és que com que guanyar re-
forçadors a partir d'un programa de raó depèn exclusivament de l'actuació de
l'organisme, mentre que en els programes d'interval el reforçador depèn a més
a més del pas del temps, els primers provoquen més motivació que els segons.
En efecte, executar la resposta es troba completament sota el control de

l'organisme, mentre que el pas del temps queda fora del seu control, de ma-
nera que en un programa de raó, com més es respongui més reforçadors es
guanyen, mentre que en un programa d'interval no es reben més reforçadors
per respondre més, sinó per respondre en el moment adequat.
Una explicació alternativa recorre a processos de reforçament en comptes de

processos relacionats amb la motivació.
Però, què s'estaria reforçant d'una manera diferent en els programes de raó
i d'interval que generés la diferència en la taxa de resposta observada? Una
possibilitat és que en els programes de raó s'estigués reforçant temps entre
respostes curts, mentre que en els programes d'interval es reforcessin temps
entre respostes llargs. De fet, en un programa de raó com més ràpidament res-
pongui el subjecte més reforçadors aconseguirà. Per tant, si l'organisme espe-
ra poc temps entre respostes, obté més reforçadors i s'estan afavorint temps
entre respostes curts. En canvi, en un programa d'interval passa justament el
contrari. Pensem en un programa d'IF1minut. Si l'animal respon amb una fre-
qüència alta (temps entre resposta curt), pot executar moltes respostes durant
l'interval que no seran reforçades (ni tampoc els temps entre respostes curts).
D'altra banda, si l'animal s'espera prou temps entre una resposta i la següent,
la probabilitat que el reforçador estigui disponible i, per tant, de rebre'l serà
més alta. En conseqüència, el que s'estarà reforçant és que s'esperi un temps
entre resposta i resposta, és a dir, es reforçaran temps entre respostes llargs.
5.5. Conducta d'elecció: programa concurrent i programa

concurrent encadenat
Ja hem dit que la conducta és un continu i que a l'entorn s'esdevenen multitud

de fets. Alguns d'aquest fets estan estretament relacionats amb les conductes
i d'altres, no. A més, hi ha fets que mantenen una relació perfecta o determi-
nant amb la conducta i d'altres, només una relació probabilística. També hem
acceptat que els mecanismes d'aprenentatge ens permeten descobrir aquestes
relacions. La qüestió que ara estudiarem és com distribuïm la nostra conducta
en aquest continu.
És evident que constantment estem escollint què fer. Des de les eleccions més
banals, com, per exemple, si mirem la televisió o si llegim una revista, fins a
eleccions més importants com, per exemple, si establim una família o no. Ca-
da alternativa que se'ns presenta té unes conseqüències concretes i, per tant,
és molt possible que aquestes conseqüències influeixin en l'elecció final. Si
analitzem els dos exemples que hem posat veurem que les eleccions que im-
pliquen són diferents en el sentit que en el primer cas no exigeix cap compro-
mís i podem anar canviant d'alternativa sempre que vulguem. Podem posar
la televisió i mirar-la una estona i quan ens sembli podem llegir la revista, i a
l'inrevés. En canvi, la segona elecció implica un compromís, almenys per a un
determinat període de temps. Si decidim formar una família amb una parella,
no serà massa comú canviar de parella i anar alternant amb la primera sempre
que ens vingui de gust. Aquests dos tipus d'elecció s'han estudiat al laboratori
utilitzant els procediments de programa�concurrent i programa�concurrent
encadenat, respectivament.
5.5.1. Programa concurrent
La conducta�d'elecció s'ha estudiat habitualment en laberints en forma de T,

però actualment s'utilitza un procediment que permet estudiar la conducta en
un continu.
En un experiment estàndard de programa concurrent, l'animal s'ubica en una caixa de

condicionament on hi ha dos mecanismes de resposta, per exemple, dues palanques o
dues tecles de resposta. Cadascuna d'aquestes alternatives està lligada a un programa de
reforçament i les dues funcionen simultàniament. Els animals no tenen cap tipus de
restricció i, per tant, poden anar alternant lliurement entre les dues opcions.
Com distribuiran les seves respostes entre les dues alternatives?
Abans de respondre a la pregunta hem de descriure amb més precisió el proce-

diment i la mesura de la conducta d'elecció que s'utilitza en una situació com
aquesta. Suposem que deixem un colom dins d'una caixa de condicionament
on hi ha dues tecles de resposta. La que es troba a l'esquerra (tecla A) propor-
ciona reforçament amb un programa, per exemple, d'IV30seg, i la que es troba
a la dreta (tecla B), amb un programa de RV25. En aquesta situació, l'animal
podrà respondre a la tecla de la dreta i de l'esquerra quan i com vulgui. Una
manera de mesurar la resposta d'elecció és calcular la taxa relativa de resposta
a cadascuna de les tecles. La taxa relativa de respostes a la tecla A, per exemple,
es calcula dividint la taxa de resposta a la tecla A per la taxa de resposta total
(la taxa en la tecla A més la taxa en la tecla B):
RA/(RA+RB)
en què RA és la taxa de resposta a la tecla A i RB és la taxa de resposta a

la tecla B.
Si un animal respon per igual a les dues alternatives, la taxa relativa de resposta
a la tecla A serà igual a 0,5. Si mostra més tendència a respondre a la tecla A,
llavors la taxa relativa de resposta a la tecla A serà més gran de 0,5, mentre
que si mostra més tendència a respondre a la tecla B, llavors el valor de la taxa
relativa de resposta a la tecla A serà més petita de 0,5.
Hem apuntat que l'elecció entre les alternatives serà influenciada pels refor-
çadors que es poden obtenir en cadascuna d'elles. Si tenim dos programes de
reforçament IV30seg i IV60seg, els animals poden obtenir una quantitat de
reforços diferent en cadascun d'ells. En el programa d'IV30seg es poden acon-
seguir dos reforçadors per minut, mentre que en el programa d'IV60seg només
es pot aconseguir un reforçador per minut. És clar que el programa d'IV30seg
és més avantatjós, i podríem pensar que el colom es dedicaria només a respon-
dre a aquest programa. Però en tractar-se de dos programes d'interval, l'animal
pot aconseguir, almenys teòricament, tots els reforçadors dels dos programes,
si alterna d'una manera adequada entre les dues tecles de resposta. La taxa re-
lativa de resposta ens donarà informació sobre la distribució de les respostes
entre les dues alternatives.
Però també podrem calcular un altre paràmetre que ens permetrà veure si la
distribució de respostes és influïda pel reforçament obtingut en cada alterna-
tiva. Aquest paràmetre és la taxa relativa de reforçament. Així, la taxa relativa
de reforçament a la tecla A, per exemple, es calcula dividint la taxa de refor-
çament a la tecla A per la taxa de reforçament total (la taxa a la tecla A més
la taxa a la tecla B):
rA/(rA + rB)
en què rA és la taxa de reforçament a la tecla A i rB és la taxa de reforçament

a la tecla B.
Herrnstein (1961) va estudiar sistemàticament com es distribuïen les respostes

i els reforçadors en diferents combinacions de programes concurrents IV-IV.
Va dissenyar diverses parelles de programes concurrents que permetessin entre
els dos obtenir un màxim de 40 reforçadors en una hora. Per exemple, en un
programa concurrent IV6min-IV2min, l'animal pot obtenir un màxim de deu
reforçadors en una hora en el programa IV6min i un màxim de 30 reforçadors
en el programa IV2min. Va treballar amb diversos coloms i va calcular les taxes
relatives de respostes i de reforçadors en una de les tecles per a cada colom i en
cada combinació de programes concurrents. Els resultats van ser sorprenents:
els animals ajustaven la taxa relativa de respostes a una de les tecles de mane-
ra que s'apropava molt a la taxa relativa de reforçadors obtinguts en aquesta
alternativa. Aquesta regularitat ha estat replicada moltes vegades i ha donat
lloc a la llei�de�la�igualació. Matemàticament, la llei de la igualació s'expressa
de la manera següent:
RA/(RA + RB) = rA/(rA + rB)
en què RA i RB són les taxes de resposta a les tecles A i B, i rA i rB les taxes

de reforçament a les tecles A i B.
El que estableix la llei de la igualació és, simplement, que les taxes rela-
tives de resposta en una tecla determinada s'igualen a les taxes relatives
de reforçament en la mateixa tecla.
La llei de la igualació s'ha mostrat vàlida per a altres paràmetres del reforça-
dor com és la seva magnitud, immediatesa i qualitat, i també per a condici-
onament aversiu, o fins i tot per als programes simples de reforçament amb
una única alternativa de resposta. S'han fet diferents adaptacions de l'expressió
matemàtica de la llei de la igualació per a cadascun d'aquests paràmetres i
situacions. No exposarem aquí totes aquestes reformulacions de la llei de la
igualació, però sí que en presentarem un exemple quotidià.
Tothom està més o menys familiaritzat amb l'esport del bàsquet i les seves regles. Un
jugador pot escollir al llarg del partit fer llançaments des de dins de la zona, amb la qual
cosa s'aconsegueixen dos punts per cistella, o fer llançaments des de fora de la zona,
amb la qual cosa s'aconsegueixen tres punts per cistella. Considerem els llançaments a
cistella com la resposta instrumental, l'encistellada com el reforçador i els punts obtinguts
amb cadascun dels dos tipus d'encistellada com la magnitud del reforçador. En la taula
es mostra l'estadística de llançaments i encistellades de dos jugadors professionals de
bàsquet de la Penya durant la temporada 2007-2008.
Jugador Dos punts Tres punts
Encistellades Punts Llançaments Encistellades Punts Llançaments
Rudy�Fernández 105 210 177 90 270 220
Demond�Mallet 37 74 82 88 264 207
Podem calcular la taxa relativa de llançaments de tres punts per a cadascun dels dos
jugadors.
Rudy: R3/(R3 + R2) = 220/(220 + 177) = 0,55

Mallet: R3/(R3 + R2) = 207/(207 + 82) = 0,72
A continuació, calculem la taxa relativa de reforçament (encistellades) de tres punts dels

dos jugadors:
Rudy: r3/(r3 + r2) = 90/(90 + 105) = 0,46

Mallet: r3/(r3 + r2) = 88/(88 + 37) = 0,70
I, finalment, calculem la taxa relativa de la magnitud del reforçador (punts) de tres punts:
Rudy: M3/(M3 + M2) = 270/(270 + 210) = 0,56

Mallet: M3/(M3 + M2) = 264/(264 + 74) = 0,78
Podem veure que la llei de la igualació es compleix en el primer jugador pel que fa a la
magnitud del reforçador, mentre que per al segon jugador, la llei es compleix per a la
freqüència del reforçament. Sembla ser que per a cadascun del dos jugadors l'elecció dels
llançaments de dos o tres punts és determinada per diferents aspectes del reforçador: en
el primer jugador és la magnitud del reforçador la que controla la seva elecció del tipus
de llançament, mentre que per al segon jugador és la freqüència d'encistellades de cada
tipus de llançament la que en controla les eleccions.
En l'exemple hem vist com s'aplica la llei de la igualació en una situació real.
Les dades obtingudes s'ajusten d'una manera bastant precisa a les prediccions
de la llei de la igualació. No obstant això, Baum (1974) va identificar tres errors
sistemàtics en situacions d'elecció: biaixos, sobreigualació i infraigualació.
• Els biaixos s'observen quan els subjectes tenen una preferència clara per
una de les alternatives de resposta, per exemple, la palanca de la dreta. En
aquests casos, la preferència per un dels mecanismes de resposta interfereix
en els paràmetres de la recompensa i produeix un biaix respecte al que
preveu la llei de la igualació.
• La sobreigualació fa referència a una taxa de resposta superior per al millor

dels dos programes amb relació al que prediu la fórmula de la igualació.
Aquest error es produeix quan hi ha un cost addicional per a canviar d'una
alternativa a l'altra. Per exemple, és comú que en un programa concurrent
les primeres respostes després del canvi no siguin reforçades per a evitar
que se'n reforci precisament l'alternança. Aquesta tècnica s'anomena temps
fora i si és relativament llarg acostuma a produir la sobreigualació.
• El tercer error que ha detectat Baum és la infraigualació i es refereix al fet

que la taxa de resposta a l'alternativa millor és més baixa que la que cal
esperar a partir de la llei de la igualació.
Per tal de tenir en compte aquests errors en la llei de la igualació, Baum (1974)
va reformar l'equació de la llei introduint-hi dos paràmetres que corregissin
els errors identificats:
s
RA/RB = k(rA/rB)
en què RA, RB, rA i rB són les respostes i les freqüències del reforçador en
els programes A i B, respectivament; k és una constant que representa el
biaix de resposta i s és un exponent que regula la sensibilitat del subjecte
vers els dos programes.
Quan les dues constants, k i s, valen 1, llavors la llei de la igualació manté

la seva formulació original. Si s té un valor superior a 1, llavors es produeix
sobreigualació, i si té un valor inferior a 1, es produeix infraigualació.
Un altre problema de la llei de la igualació és que no es compleix si els pro-

grames de reforçament a les dues alternatives són de raó. Si presentem du-
es alternatives amb dos programes RV5 i RV15, la llei de la igualació prediu
que s'escollirà el programa més favorable (RV5) el 75% del temps. En canvi,
els animals escullen exclusivament el programa més favorable. En tractar-se
de programes de raó, la situació canvia notablement respecte als programes
d'interval, i, en aquesta nova situació, respondre al programa menys favora-
ble (RV15) fa perdre reforçadors que s'haguessin guanyat si s'hagués dedicat el
mateix nombre de respostes al programa més favorable.
La llei de la igualació només fa una descripció del comportament en situacions

d'elecció concurrent però no explica per què es produeix aquesta alternança.
S'han proposat diverses teories per a explicar la conducta d'elecció. Una d'elles
és la que es coneix amb el nom de maximització.
La idea central és que els animals alternen entre dues fonts de reforça-
ment per tal d'aconseguir el màxim de reforçadors.
En els programes concurrents IV-IV, la disponibilitat del reforçador depèn,

a més a més de la resposta, del pas del temps. Això implica que encara
que l'animal estigui responent a l'alternativa A, el temps també passa per
l'alternativa B, amb la qual cosa la probabilitat que el reforçador torni a estar
disponible a l'alternativa B incrementa. Imaginem que l'animal ha dedicat 50
segons a picotejar l'alternativa A fins a rebre el reforçador. A partir d'aquest
moment la probabilitat de rebre el reforçador a l'alternativa A és molt baixa
i probablement la probabilitat de rebre el reforçador en el programa B hagi
augmentat, ja que ha passat més temps des que va rebre l'últim reforçador en
aquest programa. Si això és així i l'animal vol maximitzar els reforçadors, el
més avantatjós és canviar a l'alternativa B.
Tot i que la teoria de la maximització pot explicar l'alternança entre dos pro-
grames IV-IV i la dedicació al programa millor de dos programes RV-RV, no pot
explicar per què les taxes relatives de resposta s'ajusten a la llei de la igualació.
Per exemple, si un animal està sotmès a una elecció IV30seg-IV60seg, podria
obtenir el màxim de reforçament si es dedica al programa IV30seg i cada 60
segons canvia al programa IV60seg. Però també obtindria el màxim de refor-
çadors si es dediqués al programa IV60seg i cada 30 segons provés en el pro-
grama IV30seg. Un altre problema es troba quan els individus estan sotmesos
a una elecció concurrent RV-IV. La maximització passaria per respondre quasi
exclusivament al programa RV i canviar al programa IV quan s'ha completat
l'interval. No obstant això, tant animals com humans dediquen més temps al
programa d'interval del que la maximització prediu.
Com a alternativa a la maximització s'ha proposat la teoria�del�millorament.

En aquest cas, s'entén millorar en el sentit de fer que alguna cosa sigui millor
que en el passat immediat. En aquest cas, els animals valorarien el seu rendi-
ment cada cert temps avaluant les taxes de reforçament que reben en cada
programa.
Fins ara hem parlat de les taxes de resposta en un sentit global, això és, els
reforçadors obtinguts en una alternativa en tota la sessió. Si un animal obté
50 reforçadors en l'alternativa A en una sessió d'una hora, la taxa global és
de 50 reforçadors per hora, però si ha dedicat només 15 minuts a aquesta
alternativa, llavors podem calcular la taxa local de reforçadors a l'alternativa A:
50 reforçadors per 15 minuts o, el que és el mateix, 200 reforçadors per hora.

Com que la taxa local només té en compte el temps que s'ha dedicat a una de
les alternatives, la taxa local sempre serà més alta que la taxa global.
La teoria del millorament proposa que els animals aniran fent ajustaments a la
distribució de les seves respostes fins que les taxes locals de les dues alternati-
ves s'igualin, moment en què ja no es pot millorar la situació. El més interes-
sant de la teoria és que prediu que les distribucions de les respostes s'ajustaran
exactament al que prediu la teoria de la igualació.
Suposem un programa concurrent IV30seg-IV60seg. Durant la primera sessió

d'una hora un animal pot distribuir el temps a parts iguals entre les dues alter-
natives i fer-ho de manera que obtingui el màxim de reforçadors teòricament
disponibles a cada alternativa. Les taxes globals en cada alternativa serien de
120 reforçadors en una hora en el programa IV30seg i 60 reforçadors en el pro-
grama IV60seg. Les taxes locals serien 240 i 120 reforçadors per hora, respecti-
vament. És evident que en aquesta situació és molt més avantatjós respondre
durant més estona al programa IV30seg. És molt possible que per a millorar
el rendiment, l'animal decideixi respondre més temps al programa d'IV30seg
durant la segona sessió. Imaginem que l'animal dedica 45 minuts al programa
IV30seg i obté tots els 120 reforçadors possibles i que dedica només 15 minuts
al programa IV60seg i que obté també tots els 60 reforçadors disponibles en la
sessió (hem de tenir en compte que els temps de dedicació a cada alternativa
són acumulats al llarg de la sessió, és a dir, un animal anirà alternant d'una al-
ternativa a l'altra diverses vagades i dedicarà petites quantitats de temps en ca-
da alternativa, però que acumulades seran 45 i 15 minuts a cadascuna d'elles).
En aconseguir el màxim de reforçadors en les dues alternatives, la taxa global

no variarà respecte a la primera sessió, però què passa amb les taxes locals? Si
obté 120 reforçadors en 45 minuts en el programa IV30seg, obtindrem que la
taxa local serà de 160 reforçadors per hora, mentre que en el cas del programa
IV60seg la taxa local serà de 60 reforçadors per 15 minuts o, el que és el mateix,
240. Després de la segona sessió, l'animal percep que és més rendible dedicar
més de 30 minuts al programa IV30seg (primera sessió) però menys de 45 mi-
nuts (segona sessió). D'acord amb això, a la tercera sessió podem trobar que
l'animal ha dedicat 40 minuts al programa IV30seg i 20 minuts al programa
IV60seg, i ha obtingut tots els reforçadors disponibles en ambdós programes.
Ara les taxes locals de reforçament serien 120 reforçadors en 40 minuts, o 180
reforçadors per hora en el programa IV30seg, i 60 reforçadors en 20 minuts, o
180 reforçadors per hora. Ara s'han igualat les dues taxes de reforçament locals
i, per tant, ja no es pot millorar la situació. Si calculem la llei de la igualació
tindrem que la taxa relativa de respostes al programa IV30seg és 40 minuts/60
minuts = 0,67. De la mateixa manera, podem calcular la taxa de reforçament
relativa en el programa d'IV30seg, 120 reforçadors/(120 reforçadors + 60 refor-
çadors) = 0,67. Podem veure, doncs, que la teoria del millorament aconsegueix
predir exactament com es distribuiran les respostes entre els dos programes
concurrents.
5.5.2. Programa concurrent encadenat
El segon tipus d'elecció que hem introduït més amunt era la que implicava
un compromís. Si rebem dues ofertes de treball ens haurem de decidir per una
d'elles. L'elecció implica un compromís perquè un cop feta l'elecció ens dedica-
rem, almenys un cert temps, a l'elecció escollida i renunciarem a l'alternativa.
Com s'ha estudiat aquesta situació al laboratori?
En aquest cas, l'elecció es fa abans d'accedir a un programa de reforçament Autocontrol

concret. La situació més simple és presentar dues alternatives de les quals
Potser el camp en què més
l'animal n'haurà d'escollir una executant un nombre determinat de respostes s'ha aplicat l'estudi de progra-
(per exemple, tres picades amb el bec a la tecla de la dreta). Un cop escollida mes concurrents encadenats és
el de l'autocontrol.
l'alternativa, l'animal te accés a un programa concret durant un període de
temps, per exemple, un programa de RV25 durant 10 minuts. La característica
més rellevant és que un cop escollit el programa de reforçament, ja no pot
canviar fins que no hagi transcorregut el temps especificat i se li permeti una
nova elecció.
Pensem en les situacions següents:
• Som a casa disposats a estudiar per a l'examen que tenim d'aquí a 15 dies quan els
amics ens telefonen i ens conviden a anar a la discoteca. Què farem en aquesta situ-
ació? El més probable és que anem a la discoteca.
• Volem deixar de fumar. Sabem que després d'un temps sense fumar trobarem unes
millores importants amb relació a la salut, no farem pudor de fum, no haurem de
sortir del lloc de treball cada dos per tres per a fer la cigarreta, etc. En canvi, després
de sis hores sense encendre cap cigarreta ens comencem a notar nerviosos, no ens
concentrem en el que fem, mengem més sovint i el nostre humor s'ha tornat agre.
Sabem que si fem una cigarreta tots aquests símptomes desapareixeran. Què farem
en aquesta situació? La resposta més probable serà encendre la cigarreta.
Què tenen de comú les dues situacions?
En les dues tenim dues opcions i hem de decidir entre elles. Quan escollim
una de les alternatives, perdem l'oportunitat de dedicar-nos a l'altra, almenys
un cert temps. Però, a més, tenim que una de les opcions proporciona un re-
forçament gran però demorat, mentre que l'altra opció proporciona un refor-
çament petit encara que immediat. En efecte, estudiar ens permet aprovar un
examen que, a la llarga, ens proporciona un ofici i la possibilitat de guanyar
diners, mentre que anar a la discoteca ens dóna un plaer immediat però petit,
ens ho haurem passat bé durant una estona però difícilment tindrà repercussi-
ons importants per a la nostra vida. No fumar (i dedicar-nos a altres activitats)
proporciona una gran recompensa amb relació a la salut i socialment, però els
seus efectes no els veurem fins passats uns dies o setmanes, mentre que fer una
cigarreta ens elimina la síndrome d'abstinència d'una manera immediata.
Rachlin i Green (1972) van dissenyar un procediment al laboratori per estu-

diar aquestes situacions d'elecció. Van utilitzar un procediment d'elecció con-
current encadenat en què l'elecció inicial donava lloc o bé a un programa
que proporcionava recompenses petites immediates, o bé a un altre programa
que proporcionava recompenses grans demorades. Sempre que l'elecció impli-
qui l'accés directe al programa seleccionat, els coloms prefereixen l'opció que
comporta recompenses petites però immediates. En el mateix treball, Rachlin
i Green van introduir una nova variable que consistia a posposar l'accés al
programa seleccionat un cert temps. El temps de demora entre el moment de
l'elecció i l'accés al programa era el mateix per als dos casos. El més interes-
sant és que en aquesta nova alternativa els coloms escollien preferentment el
programa que donava una recompensa gran i demorada. En altres paraules,
els coloms mostraven autocontrol. Resultats similars s'han trobat en diferents
espècies animals, els humans inclosos (vegeu Logue, 1998).
Per què és preferible un reforçador immediat que un reforçador demorat? Amb

la mateixa magnitud del reforçador és un fet que la immediatesa hi atorga més
valor o, el que és el mateix, la demora treu valor a un reforçador. Aquest fet
s'ha convertit en un principi general i els esforços s'han dirigit a establir com la
demora redueix el valor del reforçador. Mazur (1987) ha proposat una funció
matemàtica que representaria la pèrdua de valor del reforçador (V) en funció
de la magnitud (M) i la demora en què es presenta (D):
V = M/(1 + KD)
en què K és la taxa de descompte del valor.
La fórmula matemàtica es coneix com funció�del�decaïment�hiperbòlic. Si el

reforçador es produeix sense demora, D val 0 i, en conseqüència, el valor del
reforçador és determinat només per la seva magnitud. Però si el reforçament
es demora, llavors el valor és reduït. Però, com funciona l'equació?
Quan la recompensa és immediata encara que petita, llavors el valor depèn

exclusivament de la seva magnitud. En canvi, si el reforçador és gran, però
es lliura amb una demora suficient, l'equació prediu que perdrà valor i si el
resultat final dóna lloc a un valor més petit que el que té la recompensa petita
immediata, llavors escollirem aquesta darrera. En el cas de l'autocontrol, tenim
que s'introdueix una demora des del moment que es fa l'elecció fins que es
té l'accés al reforçador. Aquesta demora permet a la recompensa petita perdre
bona part del seu valor i, si és prou llarga, quedarà per sota del valor de la
recompensa gran i demorada, per la qual cosa ara els subjectes preferiran la
recompensa gran i demorada.
Tenint en compte aquesta funció del decaïment hiperbòlic de la recompensa,

es recomana a les persones que volen deixar de fumar, o que volen perdre pes,
que no tinguin reserves de tabac o menjar amb alt contingut calòric a casa.
D'una banda, aquesta tècnica permet eliminar claus que podrien desencadenar
el desig pel consum de tabac o menjar ric en calories, però, d'una altra banda,
implicaria demorar l'accés a les recompenses petites, ja que la persona hauria
de sortir de casa i desplaçar-se fins a la botiga. Aquesta demora faria perdre el
valor de les recompenses petites i facilitaria l'autocontrol.
6. Extinció de la resposta instrumental
Els mecanismes d'aprenentatge proporcionen flexibilitat a la conducta i ens

permeten adaptar-nos al nostre entorn. Fins ara, ens hem centrat en situaci-
ons relacionades amb l'adquisició i manteniment de conductes. En el condi-
cionament instrumental, quan una conducta és seguida d'una conseqüència
agradable es veurà reforçada i, en conseqüència, es mantindrà. Però si les cir-
cumstàncies canvien, per exemple, si la conducta deixa d'anar seguida del re-
forçador, llavors deixar d'executar la conducta serà el més adaptatiu.
Posem monedes en una màquina expenedora de cafè per obtenir-ne la beguda, però, si la
màquina està espatllada i no ens proporciona el cafè insistirem i premerem el botó fins
que ens convencem que no hi haurà reforçador i el deixem de prémer.
L'absència del reforçador esperat provoca l'extinció de la resposta instrumen-

tal. En la situació descrita, l'extinció es produirà ràpidament. Però que succeirà
si s'espatlla una màquina escurabutxaques? En aquest cas, un jugador persistirà
en la seva conducta durant molt de temps malgrat deixi de rebre el reforçador.
Recordem que les màquines escurabutxaques funcionen a partir d'un progra-
ma de reforçament intermitent i és precisament aquesta característica del pro-
grama de reforçament la que fa que s'observi aquesta resistència a l'extinció.
Aquesta troballa s'anomena efecte�del�reforçament�parcial. Però per què una

resposta que ha estat reforçada només intermitentment mostrarà més resis-
tència a l'extinció que una conducta que ha estat reforçada cada vegada que
ha aparegut?
Les conductes reforçades amb programes intermitents són més difícils

d'extingir que les conductes reforçades amb un programa continu.
Fase Adquisició Extinció
Procediment Resposta → Reforçador Resposta → Ø
Exemple Pressió de palanca → menjar Pressió de palanca → no menjar
La taula mostra el procediment d'adquisició i extinció d'una resposta instrumental
Una explicació de l'efecte del reforçament parcial és la coneguda amb el nom

de la hipòtesi�de�la�discriminació (Mowrer i Jones, 1945).
La hipòtesi afirma que perquè un subjecte deixi d'executar la resposta

un cop s'inicia l'extinció, el subjecte ha de ser capaç de discriminar el
canvi en la contingència del reforçament.
Amb el reforçament continu, en què cada resposta és reforçada, el canvi a una

situació d'extinció és fàcil de discriminar i, per això, la resposta desapareix rà-
pidament. En canvi, si estem actuant sota un programa de reforçament inter-
mitent, ens serà difícil discriminar la situació d'extinció.
Tot i que la teoria és senzilla, actualment hi ha evidències experimentals a fa- Vegeu també
vor d'una teoria alternativa lleugerament diferent basada en el decrement de
Vegeu el subapartat 9.2, "Gra-
la generalització i proposada per Capaldi (1966, 1967). La hipòtesi�del�decre- dients de generalització",
ment�en�la�generalització és el terme utilitzat per a anomenar el decrement d'aquest mòdul didàctic.
de les respostes que s'observa en proves de generalització quan els estímuls de

prova són cada vegada menys similars a l'estímul d'entrenament.
Si reforcem a un colom per picotejar una tecla il·luminada de color groc, observarem un
decrement de la generalització (una freqüència més baixa de respostes) si el color de la
tecla és blau durant la prova de generalització.
D'acord amb la hipòtesi del decrement en la generalització, s'observaran

menys respostes durant l'extinció si els estímuls presents durant
l'extinció són diferents dels que eren presents durant el reforçament.
Ara bé, si els estímuls durant el reforçament i l'extinció són similars,
llavors la taxa de respostes també serà similar.
Segons Capaldi, hi ha un decrement de la generalització més gran quan el

programa de reforçament canvia d'un reforçament continu a l'extinció, ja que
el subjecte no hauria experimentat mai una situació en què les seves respostes
no fossin reforçades. En altres paraules, l'animal deixaria de respondre ràpida-
ment, ja que no se l'hauria ensenyat mai a seguir responent quan les seves
respostes no fossin reforçades. Si atenem ara a un programa intermitent, per
exemple RV50, tenim que l'animal fa moltes respostes que no van seguides del
reforçador, de mitjana, només un 2% de les respostes proporciona el reforça-
dor. Si el programa de reforçament passa de RV50 a l'extinció, en què el 0% de
respostes són reforçades, les dues situacions seran molt similars i el decrement
de la generalització serà petit, és a dir, l'animal continuarà responent durant
més temps. Un programa de reforçament parcial, doncs, pot haver ensenyat a
l'animal a persistir en les seves respostes tot i que moltes no siguin reforçades
perquè tard o d'hora rebrà el reforçador.
Si bé l'efecte del reforçament parcial és un fenomen robust, hi ha situacions en

les quals no s'observa o, fins i tot, s'observa l'efecte contrari. Així, si s'entrena
un colom amb un programa continu quan la tecla de resposta és de color groc
i amb un programa RV10 quan la tecla de resposta és de color verd, quan
s'introdueix l'extinció en ambdues situacions, s'observa més persistència en la

resposta quan és present la tecla il·luminada de color groc (reforçament con-
tinu) que quan és il·luminada de color verd (reforçament RV10) (per exemple,
Flora i Pavlik, 1990). Nevin (1988) ha proposat que quan un animal s'entrena
en la situació descrita, el programa que proporciona més reforçadors adquireix
més resistència al canvi, i això explicaria perquè en l'extinció se segueix res-
ponent més a ell.
6.1. Altres efectes de l'extinció sobre la resposta instrumental
L'efecte més estudiat de l'extinció sobre una resposta instrumental és la reduc-

ció de la resposta i la resistència a l'extinció dels programes de reforçament
parcial. No obstant això, podem observar-hi altres efectes. Un afecta la con-
ducta i l'altre l'estat emocional.
1) Amb relació a la conducta, si la resposta instrumental efectiva deixa de

produir el reforçador, podrem observar un increment�de�la�variabilitat�de�la
conducta.
Si arribem a casa i s'ha espatllat l'ascensor i no ho sabem, premerem el botó per cridar-lo.
Quan veiem que no arriba, probablement tornarem a prémer el botó. Com que l'ascensor
no arribarà, podrem començar a provar noves estratègies com prémer repetidament el
botó o mantenir la pressió sobre el botó més temps del necessari.
Aquest efecte de l'extinció sobre la variabilitat de la resposta instrumental ha

estat estudiat experimentalment per Neuringer i els seus col·laboradors (Neu-
ringer, Kornell i Olufs, 2001).
En línies generals, les rates de l'experiment havien d'executar una seqüència de tres res-
postes per a obtenir un reforçador. De fet, els animals podien prémer qualsevol de les dues
palanques de resposta i/o una tecla de resposta. Qualsevol combinació podia ser reforça-
da durant l'entrenament i es va mesurar la variabilitat de la resposta. Quan no hi havia
cap restricció sobre la variabilitat en la seqüència de tres respostes, es va observar que els
animals desenvolupaven una preferència per una seqüència concreta i introduïen pocs
canvis. Quan posteriorment es va dur a terme l'extinció, es va observar que el descens
de la taxa de resposta anava acompanyat d'un increment de la variabilitat de la resposta.
Les rates de Neuringer i col·laboradors provaven seqüències diferents de respostes quan
les habituals van deixar de produir el reforçador.
2) L'altre efecte de l'extinció d'una resposta instrumental és la frustració. Exemple

L'emoció de frustració es produeix quan no s'obté un reforçador que s'espera.
En l'exemple de l'ascensor es-
Com a procés emocional, la frustració activa la conducta i en determinades patllat, si vivim al setè pis po-
situacions en què la frustració és viscuda severament pot generar una conduc- dríem reaccionar donant una
puntada de peu a la porta de
ta agressiva. l'ascensor.
Experiment d'Azrin, Hutchinson i Hake (1966)
En un experiment d'Azrin, Hutchinson i Hake (1966) van situar dos coloms en una
caixa d'Skinner. Un dels subjectes rebia reforçadors per a picotejar una tecla de res-
posta, mentre que l'altre animal romania lligat en una cantonada de la caixa. Mentre
el subjecte experimental era reforçat, ignorava completament el seu company. Quan
es va introduir un programa d'extinció i la resposta ja no proporcionava el reforçador
esperat, el subjecte experimental va mostrar una conducta agressiva vers el seu inno-
cent company, que fins llavors havia estat un convidat de pedra.
Aquesta mateixa reacció agressiva induïda per l'extinció també s'ha observat
en rates i persones (per exemple, Nation i Cooney, 1982; Tomie, Carelli i Wag-
ner, 1993).
Resumint, l'extinció consisteix a deixar de proporcionar el reforçador

un cop s'executa la resposta.
Imaginem una situació en què un bebè plora durant la nit i els pares l'agafen en braços.
La conducta de plorar s'haurà vist reforçada pel fet que el passegin amunt i avall del
passadís. Si volem que el bebè deixi de plorar de nit, haurem d'instaurar un procediment
d'extinció que implicarà no agafar el nen en braços quan plora. És molt possible que les
primeres nits, el bebè intensifiqui i allargui el plor a causa de la frustració de no rebre el
reforçador. També és possible que el bebè doni cops de peu. Aquest comportament mostra
els canvis en la resposta de plor (duració i intensitat) i la conducta agressiva que genera
l'extinció. Si els pares resisteixen la temptació d'agafar el nen en braços, la resposta de plor
desapareixerà. En canvi, si els pares cometen l'error d'agafar-lo en braços algunes vegades
i d'altres no, estaran instaurant un programa de reforçament parcial. La conseqüència
serà que l'extinció serà més difícil si finalment decideixen no agafar-lo més en braços.
7. Condicionament aversiu
La majoria de situacions que hem vist fins ara fan referència al reforçament
positiu, és a dir, que la conducta fa que es presenti un estímul o situació agra-
dables. No obstant això, quan parlàvem del procediments de condicionament
instrumental hem definit dues situacions en què hi havia implicats estímuls o
situacions aversives o desagradables. Si recordem, aquestes situacions eren el
reforçament negatiu, en què l'execució de la resposta provocava l'acabament
d'un estímul aversiu o n'impedia la presentació, i el càstig, en què la conducta
feia aparèixer un estímul aversiu. En aquest apartat, veurem amb deteniment
aquestes dues situacions.
7.1. Evitació i escapada
Solomon i Wynne (1953) van dur a terme un experiment que il·lustra moltes
de les característiques del reforçament negatiu.
Experiment de Solomon i Wynne (1953)
Van treballar amb gossos i l'aparell era una caixa d'anada i tornada (de l'anglès shuttle
box; vegeu la figura següent). Aquest aparell consta de dos compartiments separats per
una tanca d'uns centímetres d'alçària. Un animal es pot desplaçar d'un compartiment
a l'altre si salta la tanca. Cada compartiment té el terra de metall que es pot electrificar
per a dispensar estímuls aversius (descàrregues elèctriques). Finalment, cal indicar que
en cada compartiment hi ha una bombeta que pot il·luminar els dos compartiments
independentment. En cada sessió experimental, un gos rebia deu assajos en els quals
podia escapar o evitar una descàrrega si saltava a l'altre compartiment. Cada pocs
minuts, s'apagava el llum del compartiment on hi havia l'animal, mentre que el llum
de l'altre costat es mantenia encès. Si el gos es quedava en el compartiment a les
fosques, després de deu segons el terra s'electrificava i l'animal rebia la descàrrega
elèctrica que durava fins que l'animal saltava la barrera. D'aquesta manera, l'animal
podia escapar de la descàrrega. El gos també podia evitar la descàrrega si donava la
resposta abans que passessin els deu segons des que s'apagava el llum. En l'assaig
següent es procedia de la mateixa manera però la resposta consistia a tornar al primer
compartiment.
Esquema d'una caixa d'anada i tornada
L'animal s'ubica en un dels compartiments separats per la tanca. En un moment determinat es presenta
un estímul visual o auditiu d'uns pocs segons de durada i, a continuació, s'electrifica la reixa del terra del
compartiment on es troba l'animal, però no la del compartiment buit. Per a escapar-se de la descàrrega,
l'animal ha de saltar la tancar per tal de passar al compartiment de seguretat. Amb l'entrenament, l'animal
donarà respostes d'evitació, ja que canviarà de compartiment en el moment en què es presenta l'estímul
discriminant i abans que s'electrifiqui el terra.
En cada assaig, Solomon i Wynne van mesurar el temps que trigava l'animal a canviar
de compartiment a partir del moment en què el llum s'apagava. En els primers assajos
van poder veure que els animals trigaven més de deu segons a saltar al compartiment
del costat des de l'apagada del llum. Aquesta demora en la resposta provocava que
els pobres animals rebessin la descàrrega i, per tant, les respostes eren d'escapada.
Tanmateix, amb pocs assajos d'entrenament els animals canviaven de compartiment
abans que passessin els deu segons i, en conseqüència, evitaven la descàrrega. Cap
als 12 assajos de condicionament, la majoria de gossos evitava completament la des-
càrrega, ja que trigava de dos a tres segons a donar la resposta.
Els primers assajos de condicionament que consistien a escapar de la descàrre-

ga no són difícils d'explicar pel condicionament instrumental, ja que la respos-
ta modifica la situació en la qual es troba l'animal. Ara bé, els assajos d'evitació
són problemàtics perquè cal explicar com un estímul que no es presenta (que
l'animal no experimenta) pot reforçar la conducta.
En altres paraules, en impedir la presentació de la descàrrega, la situació no és

modificada pel comportament (no hi ha descàrrega i continua igual després
que l'animal respongui).
1)�Teoria�dels�dos�factors
Un dels primers investigadors que va intentar explicar per què es manté la

conducta d'evitació va ser Mowrer (1947) amb la teoria�dels�dos�factors. Els
dos factors són el condicionament clàssic i el condicionament instrumental
i tots dos han d'actuar per a poder explicar el condicionament d'evitació. Ex-
posarem la teoria seguint l'experiment de Solomon i Wynner.
La descàrrega elèctrica és un EI que provoca una RI de por i és precisament

aquesta resposta emocional la clau de la teoria. Mitjançant el condicionament
clàssic, algun senyal acaba anticipant la descàrrega i provoca la resposta de por.
En l'experiment de Solomon i Wynne, aquest EC eren els deu segons de foscor
que precedien la descàrrega. Amb pocs assajos, els gossos podien aprendre que
la foscor assenyalava la descàrrega i provocava por als animals.
El condicionament de por a un estímul inicialment neutre és el primer procés

de la teoria.
La sensació de por és desagradable i, per tant, la reducció de la por serà refor-

çant per a qualsevol resposta que la precedeixi. D'aquesta manera, la resposta
d'evitació el que fa és allunyar l'animal de l'estímul que provoca por i, a causa
d'això, la por es redueix i reforça la conducta. En el cas de Solomon i Wynne,
la resposta dels animals els portava a un compartiment il·luminat i, per tant,
desapareixia la foscor que els provocava la por. Aquest és el segon factor de
la teoria: el condicionament instrumental d'una conducta d'evitació per la re-
ducció de la por quan l'EC que la provoca desapareix.
De fet, la teoria dels dos factors elimina la resposta d'evitació i la substitueix

per una resposta d'escapada. En efecte, quan apareix l'EC activa la por i la
resposta instrumental permet que l'animal s'escapi de l'EC aversiu. Es tracta,
per tant, d'una resposta d'escapada i ja hem vist que aquest tipus de resposta
no comporta cap inconvenient per a ser explicada des del condicionament
instrumental.
Rescorla i LoLordo (1965) van dur a terme una sèrie experimental que dona-
va suport a la teoria dels dos factors. Atès que la clau de la teoria es troba en
el paper de l'estímul que prediu clàssicament l'EI aversiu, Rescorla i LoLordo
van manipular el significat d'un EC en aparellar-lo amb la descàrrega (condi-
cionament excitador) o amb l'absència de la descàrrega (condicionament in-
hibidor). Els resultats van mostrar que les presentacions de l'EC excitador en
una situació d'evitació incrementava la intensitat de la resposta instrumen-
tal, mentre que si es presentava l'EC inhibidor atenuava la resposta d'evitació.
Un EC inhibidor de la por s'anomena senyal�de�seguretat, ja que assenyala
l'absència d'un EI aversiu (Weisman i Litner, 1969). L'eficàcia dels senyals de
seguretat s'ha demostrat en diverses situacions. Per exemple, si es presenta un
estímul explícit cada vegada que s'acaba una descàrrega, llavors la por dels
animals a la situació experimental és atenuada (Mineka, Cook i Miller, 1984).
D'altra banda, el condicionament d'evitació és més ràpid si es presenta un es-
tímul cada vegada que l'animal duu a terme la resposta instrumental requerida
(McAllister i McAllister, 1992).
Malgrat que aquests experiments, i d'altres similars, donen suport a la teoria

dels dos factors, altres treballs han trobat dades que resulten un repte per a
la teoria.
En primer lloc, s'ha observat que la resposta d'evitació apareix en situacions

en què els animals no mostren signes de por. En el mateix experiment de
Solomon i Wynne, els animals gemegaven, orinaven i tremolaven quan el
llum s'apagava, comportaments que assenyalaven que els animals tenien por.
Tanmateix, a mesura que avançava l'entrenament i els animals eren eficients
amb la resposta d'evitació, aquestes manifestacions de por desapareixien. Si el
que manté la resposta d'evitació és escapar de la por, com es pot mantenir la
conducta si ja no hi ha por? És evident que aquestes dades aporten maldecaps
per a la teoria.
Un segon problema de la teoria dels dos factors és la seva resistència a

l'extinció. Si analitzem la situació, quan els animals són experts a evitar la
descàrrega, ja no l'experimenten més i, per tant, la presentació del senyal de
la descàrrega sense ella hauria de produir una extinció d'aquesta associació. Si
es produeix l'extinció, llavors el senyal deixarà de provocar por i, si no hi ha
por, l'animal hauria de deixar de respondre. Finalment, si deixa de respondre
hauria de tornar a rebre les descàrregues i tornar a adquirir la por i la resposta
d'evitació. No obstant això, aquest cicle que prediu la teoria dels dos factors no
s'ha observat mai. Encara més, un cop adquirida la resposta d'evitació, aquesta
mostra molta resistència a l'extinció. Solomon i Wynne van presentar cente-
nars d'assajos d'extinció i alguns dels seus gossos hi continuaven responent.
2)�Teoria�d'un�factor
Atesos els problemes de la teoria dels dos factors, no és estrany que aparegues-
sin noves teories per a explicar el condicionament d'evitació. Una d'elles rep el
nom de teoria�d'un�factor. Rep aquest nom ja que afirma que el condiciona-
ment clàssic de la por no és necessari perquè es produeixi la resposta d'evitació.
En altres paraules, l'evitació de la descàrrega és en si mateixa el reforçador.
Sidman (1953) i Herrnstein (1969; Herrnstein i Hineline, 1966) van dissenyar

procediments d'evitació sense necessitat de presentar senyals que predigues-
sin la descàrrega. No descriurem aquí els procediments, ja que són complexos,
però sí que mencionarem que van treballar amb rates que rebien descàrregues
elèctriques sense cap estímul explícit que les precedís. Si els animals premien
una palanca, llavors la descàrrega s'enrederia o es reduïa la probabilitat en què
apareixia. Aquests procediments permeten que els animals aprenguin a pré-
mer la palanca per a evitar descàrregues, encara que l'actuació no és mai tan
perfecta com en els procediments en què s'utilitza el senyal per a anticipar la
descàrrega. Herrnstein (1969) defensa que perquè els animals actuïn amb èxit
en una situació com aquesta, han de ser sensibles a la raó de descàrregues en
presència i en absència de la resposta i que, justament la reducció en la raó de
descàrregues rebudes, és suficient per a reforçar la conducta d'evitació. Per a
Herrnstein, la presència del senyal de la descàrrega fa que siguin més discrimi-
nables les situacions amb diferent probabilitat de descàrregues, fet que facilita-
ria l'aprenentatge d'evitació. També pot explicar els efectes de l'extinció. Com
que la resposta d'evitació comporta la reducció de la presència de descàrregues,
hi haurà poca diferència entre aquesta situació i la d'extinció de manera que

en no detectar el canvi entre el moment en què sí es presenten descàrregues i
el moment en què no se'n presenten, els animals no fan cap ajustament a la
seva conducta i continuen donant la resposta d'evitació.
3)�Teoria�cognitiva
Una segona alternativa a la teoria dels dos factors i, és clar, també per a la
teoria d'un factor, és la teoria�cognitiva que van proposar Seligman i Johnson
(1973). La teoria cognitiva se centra en el principi de la discrepància entre el
que succeeix i el que els organismes esperen que succeeixi. Aquesta perspectiva
segueix els postulats de la teoria de Rescorla i Wagner (1972) estudiada en el
mòdul "Condicionament clàssic pavlovià".
El model de Rescorla i Wagner se centra en dos elements principals: l'EI

real que els animals experimenten i l'expectativa que tenen els animals
de l'EI. Si hi ha una discrepància entre l'EI observat i l'esperat, llavors
es produirà aprenentatge. Si no hi ha discrepància, llavors no hi haurà
aprenentatge.
D'acord amb aquest principi de la discrepància, Seligman i Johnson afirmen

que l'aprenentatge d'evitació es produirà quan hi hagi una discrepància entre
el que s'espera i el que s'observa. Proposen que en l'aprenentatge d'evitació hi
ha dues expectatives importants: 1) si es respon no hi haurà estímul aversiu, i
2) si no es respon es presentarà l'estímul aversiu. No serem agosarats si afirmem
que la majoria d'organismes preferim la primera situació a la segona i, per tant,
es produirà la resposta.
A més, la resposta es mantindrà mentre no es violi alguna d'aquestes expecta-

tives, això és, mentre no es produeixi una discrepància entre el que s'espera
i el que s'observa. Així, la teoria pot explicar molt fàcilment la resistència a
l'extinció. Malgrat que en l'extinció es deixa de presentar la descàrrega, això
no altera les expectatives dels animals, en altres paraules, si donen la resposta
esperen no rebre la descàrrega i, com que en l'extinció ja no es presenta la
descàrrega, es compleix l'expectativa. Si l'extinció no es produeix perquè no
es vulnera cap expectativa, llavors què podem fer per a extingir una resposta
d'evitació?
Si l'aprenentatge (i l'extinció) es produeix quan hi ha una discrepància entre

el que esperem i el que observem, caldrà provocar aquesta discrepància. Una
manera de fer-ho és impedint que els animals donin la resposta d'evitació en
presència de les claus que activen l'expectativa de la descàrrega. Com hem dit
abans, una de les expectatives de l'animal en una situació d'evitació és que la
descàrrega es presentarà si no executa la resposta. El procediment que bloqueja
la resposta d'evitació força els animals a tenir l'expectativa de la presentació
de la descàrrega, però com que en l'extinció no es presenten descàrregues, es

produeix una discrepància entre el que s'espera i el que s'observa. És justament
aquesta discrepància la que n'afavoreix l'extinció. Page i Hall (1953) van ser
dels primers a demostrar que aquest procediment que impedeix la resposta
d'evitació n'accelerava l'extinció.
Reforçament negatiu
Escapada Evitació
Contingència resposta-reforçador Negativa Negativa
Conseqüència�de�la�resposta Elimina un estímul aversiu Impedeix un estímul aversiu
Resultat�sobre�la�conducta Es manté la conducta Es manté la conducta
Teories Condicionament instrumental • Teoria dels dos factors

• Teoria d'un factor (contingència)
• Teoria cognitiva (discrepància entre l'expectativa i la reali-
tat)
Resum comparatiu entre escapada i evitació
7.2. Càstig
Quan una conducta va seguida d'un estímul aversiu podem observar un de-
crement de la conducta.
Si en arribar a la muntanya baixem del cotxe i freguem sense adonar-nos un ram

d'ortigues, probablement les deixarem de tocar en el futur. La urticària que ens provoca
la planta és un estímul aversiu prou intens per a inhibir la conducta de tocar-la amb la
pell descoberta.
Seguint el nostre passeig pel Pirineu podem veure que un ramat de vaques pastura
tranquil·lament en un prat. Per més que busquem, no hi trobem el pastor ni el gos d'atura,
sinó un vailet elèctric que envolta el camp. Fa anys que els pastors utilitzen aquest mètode
per a mantenir els ramats controlats sense haver-hi de ser present totes les hores del dia.
Com diu el nom, el vailet elèctric és un filferro electrificat que envolta el prat
i si una vaca s'hi acosta i el toca rep una descàrrega. Els animals aprenen ràpi-
dament que no han d'intentar superar els límits de prat assenyalats pel vailet.
Ambdós casos són exemples de càstig.
Al laboratori es pot estudiar el càstig presentant una descàrrega elèctrica (o

qualsevol altre estímul aversiu) quan una rata executa un conducta instrumen-
tal, per exemple, prémer la palanca.
Vegeu també
Experiment d'Skinner (1938)
Sobre programa IV podeu veu-
En un experiment clàssic d'Skinner (1938), es van entrenar durant tres dies dos grups re el subapartat 5.3, "Progra-
de rates amb un programa IV per a obtenir menjar si premien una palanca. Després mes d'interval", d'aquest mò-
de l'entrenament es va introduir un procediment d'extinció durant dues sessions. dul didàctic.
L'única diferència entre els dos grups va ser que per a un dels grups, durant els deu
primers minuts de la primera sessió d'extinció, quan l'animal pressionava la palanca,
aquesta saltava enlaire i colpejava les potes de l'animal. Aquest càstig lleuger va ser
suficient per a reduir la conducta d'una manera notable respecte al grup que rebia
només extinció. Tanmateix, quan va desaparèixer el càstig, la resposta va tornar a
aparèixer. Al llarg de la segona sessió les taxes de resposta dels dos grups van ser molt
similars i es van acabar extingint al mateix ritme.
Skinner va concloure que el càstig tenia un efecte de supressió de la conducta,

però que l'efecte era temporal.
Experiment d'Azrin (1960)
Azrin (1960) va dur a terme un experiment en el qual després d'entrenar unes rates a
prémer la palanca per a obtenir menjar va introduir el càstig de manera que cada ve-
gada que premien la palanca rebien una descàrrega suau. A l'inici, la taxa de resposta
va disminuir dràsticament, però al llarg de diverses sessions, la resposta es va recupe-
rar. Tanmateix, quan la descàrrega era prou intensa, el càstig produïa un descens o la
desaparició completa de la resposta a llarg termini.
També s'ha estudiat la naturalesa de la supressió de la conducta, ja que hi ha

altres procediments que també provoquen la supressió d'una conducta instru-
mental sense que aquesta conducta provoqui la presentació d'un estímul aver-
siu (per exemple, la supressió condicionada estudiada en el mòdul "Condici-
onament clàssic pavlovià").
Experiment de Schuster i Rachlin (1968)
Schuster i Rachlin (1968) van dur a terme un experiment en què uns coloms podien
picotejar dues tecles de resposta per a obtenir menjar sota el mateix programa IV.
En alguns moments, s'encenia la tecla de resposta ubicada a la dreta i picotejar-la
proporcionava menjar. En d'altres, era la tecla de l'esquerra la que s'il·luminava i les
respostes a aquesta tecla també eren reforçades. Un cop els animals van aprendre la
tasca, es va introduir l'estímul aversiu. Concretament, quan s'il·luminava la tecla de
la dreta, algunes de les picades dels coloms eren seguides d'una descàrrega. En canvi,
quan s'il·luminava la tecla de l'esquerra, es presentava la descàrrega amb la mateixa
freqüència però independentment de la resposta de picotejar. Els resultats van mos-
trar que els animals van deixar de respondre quan s'il·luminava la tecla de la dreta,
però mantenien la resposta si s'il·luminava la tecla de l'esquerra. Els resultats mostren,
doncs, que la supressió de la resposta durant el càstig es deu a la contingència entre
la resposta i l'estímul aversiu (vegeu la figura següent).
Representació de les dades de Schuster i Rachlin (1968).
La descàrrega només reduïa la resposta de pressió de palanca quan era contingent a la resposta, però no quan
no era contingent a la resposta.
D'acord amb el que hem exposat fins ara, podem concloure que el càs-
tig positiu té els efectes oposats al reforçament positiu. Mentre que el
reforçament provoca un increment de la resposta, el càstig en provoca
un descens i aquests canvis es mantindran mentre es mantingui la con-
tingència entre la resposta i l'estímul apetitiu o aversiu, respectivament.
Ara analitzarem alguns factors que influeixen en l'eficàcia del càstig positiu.
• Si volem suprimir una conducta mitjançant el càstig cal que introduïm

l'estímul aversiu amb la seva màxima intensitat des d'un bon comença-
ment. Ja hem comentat en analitzar l'experiment d'Azrin (1960) que els
subjectes es poden habituar a un estímul aversiu suau i diversos estudis
han mostrat que aquesta habituació es pot generalitzar a altres estímuls
aversius més intensos. Azrin, Holz i Hake (1963) van trobar que uns co-
loms deixaven d'executar la conducta si aquesta produïa una descàrrega de
80 volts des del primer moment, però si la intensitat de la descàrrega co-
mençava amb una intensitat baixa en les primeres presentacions i s'anava
incrementant a poc a poc al llarg de les sessions experimentals, els coloms

continuaven responent fins i tot quan la resposta produïa descàrregues de
130 volts.
• Un altre factor que interfereix en l'eficàcia del càstig és la immediatesa

amb què es presenta l'estímul aversiu. Igual que en el reforçament la de-
mora entre la conducta i el reforçador reduïa l'eficàcia del reforçador, en
el càstig s'ha demostrat que la demora de l'estímul aversiu respecte a la
conducta que es vol suprimir no té cap efecte. Tothom que té animals de
companyia sap la inutilitat de castigar un gos o un gat per haver defecat
enmig del menjador si el càstig no s'administra en el moment en què es
produeix la conducta de l'animal. De la mateixa manera, advertir un in-
fant que es porta malament pel carrer que quan arribem a casa el castiga-
rem té pocs efectes.
• Els programes� de� càstig, és a dir, el patró amb què s'administra el càs-
tig també té repercussions sobre la seva eficàcia. La manera més efectiva
d'eliminar una conducta és mitjançant un programa continu de càstig i
no d'un programa intermitent. Abans de presentar els estudis que mostren
alguns dels efectes dels programes de càstig cal recordar que en aquests
experiments els animals aprenen a donar la resposta per a obtenir menjar
i, posteriorment, s'introdueix el càstig de la mateixa conducta. Per tant, els
animals estan altament motivats per a executar la conducta que es casti-
ga. Amb aquest procediment, Azrin i col·laboradors (1963) van comparar
diferents programes de càstig de RF que anaven des d'una raó igual a 1 a
una raó de 1.000. Van trobar que com més petita era la raó, més eficaç
era el programa per a reduir la conducta. També s'ha trobat (Azrin, 1956)
que quan es castiga una conducta amb un programa d'IF60seg provoca un
patró de respostes desaccelerat a mesura que s'acaba l'interval (just el patró
oposat al que provoca el reforçament en què s'observa una acceleració cap
al final de l'interval). Quan s'ha utilitzat un programa de RF20, els animals
reduïen les respostes a mesura que s'apropava la resposta número 20 i que,
just després de rebre el càstig, els animals tornaven a respondre amb una
taxa alta (Hendry i VanToller, 1964). De bell nou, trobem un patró de res-
posta oposat al que provoca el reforçament amb programes de RF. Allà vè-
iem que l'RF provocava justament una pausa després del reforçament; en
el càstig, la pausa es fa abans de rebre el càstig.
• En recordar el procediment per a estudiar els programes de càstig hem

dit que els animals estaven motivats per a dur a terme la resposta. Com
influeix la motivació per respondre sobre l'eficàcia del càstig? Azrin i
col·laboradors (1963) van demostrar que l'èxit de castigar una conducta
mantinguda amb reforçament de menjar depenia del grau de privació de
menjar dels animals. Si els animals portaven moltes hores sense menjar,
l'eficàcia del càstig era mínima, però si només estaven lleugerament fa-
molencs, llavors el càstig suprimia pràcticament la conducta. Tot i que
aquesta relació no ha de sorprendre ningú, té implicacions importants si
volem castigar una conducta altament motivada sense haver d'utilitzar es-
tímuls aversius molt intensos. Cal identificar el reforçador que manté la
conducta i devaluar-lo. Una manera de fer-ho és dispensant-lo d'una ma-
nera no contingent a la conducta que volem castigar. Un exemple deixarà
clar aquest punt.
Imaginem uns pares que volen eliminar la conducta destructiva del seu fill. Sospiten
que la conducta destructiva del nen persegueix la finalitat de captar l'atenció dels pares.
Llavors, la manera de devaluar el reforçador seria prestar atenció al nen en altres moments
diferents de quan es porta malament.
• Relacionat amb aquest darrer punt, s'ha observat que proporcionar con-
ductes�alternatives a la conducta castigada que proporcionin el mateix
reforçador augmenta l'eficàcia del reforçador. Continuem amb l'exemple
del nen que trenca objectes per a obtenir l'atenció dels pares. Si realment
és l'única manera que té el nen de rebre atenció, el càstig no tindrà cap
efecte, ja que en si mateix implicarà l'atenció que busca el nen. Si prestem
atenció al nen per altres comportaments acceptats, com llegir, llavors li
podem proporcionar atenció i interessar-nos pel que llegeix o dedicar-li
un temps al dia per a jugar.
Experiment d'Azrin i Holz (1966)
Azrin i Holz (1966) van presentar dades en què un colom que responia en un pro-
grama RF25 per a obtenir menjar (vegeu els programes de raó, secció 6.2 d'aquest
mòdul) i va ser castigat amb una descàrrega lleu, va reduir la taxa de resposta només
en un 10%. En canvi, un altre colom que disposava de dues tecles de resposta amb el
mateix programa RF25 en cadascuna d'elles i que només es castigava el fet de respon-
dre en una, però no en l'altra, van deixar de respondre completament a l'alternativa
castigada.
Malgrat l'obvietat dels resultats, moltes persones fallen a l'hora de proporcio-

nar i reforçar conductes alternatives acceptades a la conducta no volguda. En
el camp de la modificació de la conducta sovint s'utilitzen tècniques basades
en aquests resultats. Així, si un terapeuta decideix castigar la conducta de ba-
rallar-se amb els companys de l'escola, el més comú és que, a part de castigar
la conducta no volguda, reforci una altra conducta alternativa i incompatible
amb la no volguda, per exemple, el joc cooperatiu.
• El darrer factor que veurem que afecta l'eficàcia del càstig fa referència al
paper que té el càstig com a senyal�del�reforçador.
Experiment d'Holz i Azrin (1961)
Holz i Azrin (1961) van entrenar uns coloms perquè picotegessin una tecla de resposta
per a obtenir el menjar. La peculiaritat del procediment era que el menjar només
estava disponible quan es castigava la resposta de picotejar amb una descàrrega, però
no en altres moments en què no es castigava la resposta. De fet, la descàrrega feia el
paper d'un estímul discriminant que assenyalava la disponibilitat del menjar. No és
estrany, doncs, que els pobres coloms estiguessin disposats a rebre descàrregues si era
l'únic moment en què podien menjar.
Azrin i Holz (1963) van proposar que el comportament masoquista podria

estar relacionat amb aquestes dades. Si una persona aprèn que l'única manera
d'obtenir atenció dels altres és quan es fa mal, es possible que busqui aquestes
situacions ja que li anticipen l'atenció que busca.
Factors que afecten l'eficàcia del càstig
Incrementen l'eficàcia • Màxima intensitat de l'estímul aversiu.

• Contigüitat temporal resposta-estímul aversiu.
• Programa de càstig continu.
• Proporcionar alternatives per al reforçador.
Redueixen l'eficàcia • Nivell de motivació alt per al reforçador.

• Estímul aversiu com a senyal de la disponibilitat del reforçador.
Resum dels factors que afecten l'eficàcia del càstig.
Si es tenen en compte tots els factors que afecten l'eficàcia del càstig
per a suprimir conductes, podem concloure que el procediment és tan
eficaç com el reforçament per a modificar el comportament.
No obstant això, hi ha certs efectes� secundaris� del� càstig que cal tenir en
compte abans de decidir la seva utilització.
• Primer, el càstig pot provocar determinades reaccions�emocionals com

la por o l'empipament. Aquestes emocions sovint interfereixen en
l'aprenentatge i en l'execució. Balaban, Rhodes i Neuringer (1990) van pre-
sentar una tasca de memòria a uns estudiants. En un dels grups, se'ls cas-
tigava amb una descàrrega quan cometien un error i, en l'altre, se'ls casti-
gava amb un to. Els resultats van ser que els estudiants treballaven més
lentament i cometien més errors quan se'ls castigava amb la descàrrega
que quan se'ls castigava amb el to.
• Un segon aspecte que cal tenir en compte és que el càstig pot suprimir
altres�conductes diferents de la que es castiga.
Imagineu una aula on un estudiant fa una pregunta i el professor li respon, "aquesta és

una pregunta poca-solta". Probablement, la intenció del professor sigui reduir les pregun-
tes estúpides, però no seria estrany que al mateix temps reduís el fet de fer preguntes en
general, les dolentes però també les bones.
En les situacions de la vida real, és molt difícil fer un seguiment complet de

tota la conducta d'una persona, però especialment de les conductes que són
susceptibles de ser castigades.
Si un nen és reforçat per endreçar l'habitació, ell mateix estarà interessat a fer notar als
pares que ha posat en ordre l'habitació. Però si es castiga el nen per pegar el seu germà,
procurarà fer-ho quan no hi hagi adults al davant i si el germà el delata, el més probable
és que l'infractor ho negui per evident que sigui.
Relacionat amb el que acabem de dir, Azrin i Holz van descriure el comporta-
ment d'una rata força intel·ligent que rebia càstigs per algunes de les pressions
de palanca que feia amb l'objectiu d'obtenir menjar. Concretament, aquest
animal va aprendre a prémer la palanca posant-se panxa enlaire de manera
que la pell l'aïllava de les descàrregues que es dispensaven des del terra. És evi-
dent que un delinqüent intentarà amagar totes les proves possibles dels seus
delictes per tal d'escapar del càstig que comporten les seves accions.
• Un altre problema del càstig és que tendeix a provocar conductes�agressi-

Experiment d'Ulrich i
ves cap a la persona que proporciona el càstig i també cap a altres persones Azrin (1962)
que pugin ser a prop.
Ulrich i Azrin (1962) van
situar dues rates en una
caixa on es comportaven
plàcidament. Però tan bon
punt van començar a rebre
Com a conclusió, Azrin i Holz (1963) afirmen que el càstig no és reco- descàrregues la seva con-
manat, especialment si hi ha altres tècniques que permeten obtenir els ducta es va tornar agressiva
i es barallaven entre elles.
mateixos resultats que el càstig però que fan servir una estimulació ape-
titiva.
Aquesta no és només una qüestió d'eficàcia, sinó ètica. No obstant això, hi ha

moltes situacions en què podem aplicar el càstig i considerar-les normals. És
evident que els governs poden regular el funcionament de les institucions per
a eradicar el càstig de les institucions com la policia, les escoles, les presons,
etc., però ja és més difícil controlar la utilització del càstig en les interaccions
interpersonals del dia a dia entre pares i fills, entre esposos, etc. A més, el món
físic és ple de situacions en què podem rebre un càstig. Només cal pensar en
les conseqüències que pot tenir una distracció mentre conduïm, treballem o
practiquem algun esport. Atès que aquestes situacions són inevitables, té sentit
continuar estudiant els efectes del càstig sobre el nostre comportament.
Fins aquí, hem exposat els efectes del procediment de càstig i els factors que
influeixen en la seva eficàcia. Però, com s'explica que el càstig redueixi la con-
ducta?
La primera teoria que analitzarem rep el nom de teoria�de�l'evitació�del�càstig

basada en la teoria dels dos factors.
Experiments de Dinsmoor (1954, 1955, 1977)
Dinsmoor (1954, 1955, 1977) va assumir que qualsevol resposta és constituïda per
una cadena d'altres conductes. Prémer una palanca comença per apropar-se a l'estri,
aixecar la pota, repenjar-la damunt la palanca i fer força avall. Quan el darrer ele-
ment de la cadena provoca l'estímul aversiu, les baules prèvies de la cadena queden
associades amb l'estímul aversiu i serveixen com a senyals clàssics per a evocar por.
D'aquesta manera, apropar-se a la cadena pot activar la por de l'animal i qualsevol
resposta que interrompi la por es veurà reforçada. Així, trencar la cadena i dedicar-se
a altres conductes elimina la por i es veuen reforçades. En definitiva, els animals dei-
xen d'executar la resposta castigada perquè es reforcen altres conductes incompati-
bles amb la conducta castigada.
Com a alternativa a aquesta explicació trobem la que es basa en la llei negativa

de l'efecte (Thorndike, 1911; Rachlin i Herrnstein, 1969) o també coneguda
com teoria�del�factor�únic.
Bàsicament, la teoria postula que el càstig actua directament sobre la

conducta castigada sense necessitat de recórrer al condicionament clàs-
sic.
Tot i que és difícil poder comparar experimentalment les dues teories, la recer-
ca ha aportat més dades a favor de la teoria del factor únic. No obstant això,
els experiments més concloents a favor de la teoria del factor únic són bastant
complexes i no els exposarem aquí.
8. Teories del condicionament instrumental
En la introducció de l'estudi de la conducta instrumental hem dit que aquesta

reflectia el que tradicionalment s'entén com a conducta voluntària. També
hem fet referència a un mecanisme molt elemental que s'havia proposat per a
explicar la conducta instrumental basat en l'hedonisme: els organismes estem
motivats per a executar respostes que ens proporcionen plaer i evitem el dolor.
Encara que puguem estar d'acord amb aquest plantejament, cal una anàlisi
més detallada dels mecanismes que controlen la conducta instrumental.
Per què el reforçador motiva el nostre comportament? I quins mecanismes fan

que detectem la resposta apropiada per a obtenir el reforçador?
Respondre a les dues preguntes és important per a comprendre millor el nostre

comportament. En la realitat, cadascuna d'aquestes preguntes ha generat la
seva pròpia via de recerca i les seves teories.
Les qüestions motivacionals de la resposta instrumental s'han enfocat des de

la perspectiva de la regulació� de� la� conducta, més propera a l'enfocament
d'Skinner i que preveu una anàlisi molar de la conducta. El seu interès principal
és com el procediment de condicionament instrumental determina el flux de
les activitats d'un organisme. Parteix de la base que la conducta persegueix
metes i que els organismes se serveixen de la seva conducta per a aconseguir
les metes. L'èmfasi es posa, doncs, en la funció de la conducta instrumental.
D'altra banda, els mecanismes que permeten descobrir les relacions entre el
comportament i les seves conseqüències és el centre d'interès de la perspec-
tiva�associativa. Thorndike va ser el primer a intentar explicar el comporta-
ment instrumental per la formació d'associacions. Actualment, l'interès per
l'enfocament associatiu és influenciat pels estudis en el camp del condiciona-
ment clàssic i pren una estratègia molecular.
La conducta instrumental s'estudia en referència als antecedents estimuladors

i les conseqüències específiques de la conducta. Malgrat les diferències evi-
dents, o precisament per aquestes diferències, ambdues perspectives s'han de
prendre com a complementàries i no pas com a adversàries, si volem arribar a
assolir un coneixement més ampli de la conducta instrumental.
8.1. Estructura associativa del condicionament instrumental
Thorndike va ser el primer que va descriure els elements implicats en el con- Abecé de la conducta
dicionament instrumental: la resposta (R), la conseqüència o reforçador (C) i
Skinner anomenava aquesta
els estímuls (E) en presència del quals es produeixen la resposta. estructura l'abecé de la conduc-
ta: A d'antecedents (els estí-
muls), B de behaviour ('con-
Des d'un punt de vista associatiu, l'existència dels tres elements permet pensar ducta' en anglès) i C de conse-
güents.
en la possibilitat de tres associacions diferents pel cap baix (vegeu la figura
següent). Una associació entre els estímuls i la resposta (E-R), una associació
entre la resposta i la conseqüència (R-C) i una associació entre els estímuls i
les conseqüències (E-C).
Esquema de l'estructura associativa implicada en el condicionament instrumental
La fletxa discontínua mostra l'associació E-R corresponent a la llei de l'efecte formulada per Thorndike. Les fletxes contínues
mostren les associacions entre l'estímul discriminant i la conseqüència (associació E-C) i l'associació entre la resposta i la
conseqüència (associació R-C). (Vegeu el text per a una explicació detallada de cadascuna d'aquestes associacions.)
8.1.1. Associacions E-R
Com hem vist al començament del mòdul, Thorndike va formular la llei�de

l'efecte per a explicar el condicionament instrumental.
Segons la llei de l'efecte, quan es reforça una conducta es forma una as-
sociació entre els estímuls presents en el moment d'executar la resposta
i la resposta.
El paper del reforçador és marginal en el sentit que no forma part de

l'associació.
Seguint la llei de l'efecte, la presència d'un estímul que s'ha associat a una res-
posta seria suficient perquè es produís la resposta. La llei de l'efecte no preveu
que un organisme pugui tenir una expectativa del reforçador, ja que en no es-
tar associat ni als estímuls ni a la resposta, no se'n pot activar la representació
mental. Aquesta idea va contra la intuïció.
Si premem el botó de l'ascensor és perquè esperem que l'ascensor vingui al pis on ens
trobem; si introduïm unes monedes a la màquina expenedora de refrescos és perquè
tenim l'expectativa del refresc.
No obstant això, les primeres teories entenien l'aprenentatge com una associ-
ació E-R.
Hull (1934, 1943, 1952) va desenvolupar un dels sistemes teòrics sobre

l'aprenentatge més influents.
El nucli central de la teoria és que la conducta depèn de dos factors

principals, l'hàbit o aprenentatge i l'estat motivacional.
Aquesta teoria és un dels primers intents des d'una perspectiva associativa de

diferenciar entre conducta i aprenentatge. Efectivament, un dels principals
problemes de l'enfocament conductista era la confusió entre aprenentatge i
conducta, o dit d'una altra manera, la definició d'aprenentatge com un canvi
en la conducta. La teoria de Hull, però, fa aquesta diferenciació i considera
que sense hàbit o sense motivació no hi haurà comportament. Aquest aspecte
de la teoria és rellevant, ja que hi pot haver aprenentatge però si no hi ha un
estat motivacional, no es veurà reflectit en el comportament. El mateix es pot
dir quant a la motivació. El fet d'acceptar dos factors que no es poden observar
directament fa necessària la definició acurada d'aquestes variables.
1)�Motivació
El primer concepte que cal definir és la motivació. Segons Hull, els organismes
tenen necessitats biològiques com pot ser la gana, la set, la son. Qualsevol
d'aquestes necessitats impulsarà o motivarà la conducta, en principi no apresa,
que té per objectiu la reducció de la necessitat. Per tant, la motivació depèn
estretament de l'estat de l'organisme.
Aquesta concepció de la motivació permet a Hull definir també el que és un

reforçador. D'acord amb Hull, el que reforçarà la conducta no és l'estímul re-
forçador per si mateix, sinó la reducció de la necessitat que produeix el refor-
çador.
El menjar no seria un reforçador per si mateix, sinó el fet que en ingerir-lo permet eliminar
o reduir la sensació de gana.
No obstant això, Hull acaba admetent que hi ha alguns aspectes dels estímuls
reforçadors que poden influir en la conducta. Per exemple, veiem que la gran-
dària o la qualitat del reforçador influïa directament en el comportament dels
animals, de manera que estaven més disposats a treballar per un aliment dolç
que per un aliment àcid. Doncs bé, Hull inclou aquestes propietats motivaci-
onals del reforçadors amb el que anomena incentiu.
En resum, la motivació és definida per l'estat de necessitat de

l'organisme però també per les propietats d'incentiu dels estímuls refor-
çadors.
2)�Aprenentatge
El segon factor que Hull tenia en compte per a explicar el comportament és

l'aprenentatge o hàbit.
Hull explica l'aprenentatge o la formació d'un hàbit de la manera següent:
Sempre que un organisme experimenta una seqüència estímul-respos-

ta seguida d'una reducció del seu estat de necessitat o impuls (D, de
l'anglès drive), llavors s'incrementa l'hàbit (EHR), que consisteix en una
tendència a efectuar la resposta en presència de l'estímul.
La força�de�l'hàbit està relacionada amb el nombre de vegades que la

seqüència estímul-resposta ha anat seguida de la reducció de l'impuls.
La definició que dóna Hull de l'aprenentatge segueix el model de la llei de

l'efecte de Thorndike, és a dir, una associació entre els estímuls presents en
el moment de la resposta i aquesta. Però a diferència de Thorndike, Hull in-
clou una explicació de la forma com actua el reforçador en aquest procés
d'aprenentatge: la capacitat del reforçador per a reduir un estat de necessitat
és la clau per a formar les associacions E-R.
Però quina evidència hi ha de la formació d'associacions E-R? Rescorla (1991,

vegeu també Nevin, 1999) reconeix que l'evidència d'aquestes associacions és
indirecta i es basen en el fet que, un cop hem après una resposta instrumental,
no podem deixar de respondre totalment malgrat es devaluï completament el
reforçador. Però per a entendre aquesta idea cal que primerament ens centrem
en un segon tipus d'associació implicada en el condicionament instrumental:
les associacions�entre�les�respostes�i�les�conseqüències o associacions R-C.
8.1.2. Associacions R-C
Les associacions E-R defensen que la conducta és controlada pels estímuls an-
tecedents, de manera que si es presenta un determinat estímul, aquest activa
la resposta amb la qual està associat. No obstant això, Skinner es va adonar que
els estímuls consegüents també tenen control sobre el comportament. Així,
si una rata prem la palanca i obté menjar, mantindrà el seu comportament,
almenys mentre tingui gana. Si en un segon moment, es deixa de presentar
el menjar, podrem observar que la conducta de prémer la palanca es redueix
i fins i tot desapareix. Si es torna a presentar el menjar contingent amb la
resposta, aquesta torna a aparèixer. Aquesta simple manipulació experimental

permet assumir que la conducta és controlada pels estímuls consegüents. Però
quin mecanisme permet explicar aquests canvis en la conducta que depenen
dels estímuls consegüents?
Des de la perspectiva associativa cap la possibilitat que es formin associacions

entre les respostes i les conseqüències.
Aquest tipus d'associacions permeten als organismes saber què han de

fer per a produir determinats canvis en el seu entorn com, per exemple,
obtenir menjar.
Quines evidències tenim de l'existència d'aquestes associacions? Ens centra-

rem en una recerca de Colwill i Rescorla (1985).
Experiment de Colwill i Rescorla (1985)
En aquest treball, un grup de rates van aprendre a obtenir dos reforçadors executant
dues respostes diferents. Així, els animals obtenien boletes de menjar en prémer una
palanca i sucrosa líquida si estiraven d'una cadena que penjava del sostre de la caixa
de condicionament. L'entrenament amb cadascuna de les respostes es feia en dies al-
ternatius. Per a evitar explicacions segons les dificultats en la manipulació dels meca-
nismes de resposta o el valor dels dos reforçadors utilitzats, es va disposar que, per a la
meitat dels subjectes, les relacions entre les dues respostes i els dos reforçadors fossin
les esmentades, però per a l'altra meitat dels animals aquestes relacions s'invertien,
de manera que prémer la palanca proporcionava la sucrosa líquida, mentre que esti-
rar de la cadena produïa les boletes de menjar. Un cop els animals havien après les
relacions entre cada conducta i les seves conseqüències concretes, es va procedir a
devaluar un dels reforçadors.
El concepte de devaluar fa referència a la manipulació experimental que fa que un

determinat estímul reforçador canviï el seu valor hedònic. Per exemple, el menjar és
un estímul apetitiu per a un animal famolenc, però deixa de ser apetitiu si l'animal
està saciat o si el consum d'aquest menjar provoca un malestar gastrointestinal. En
l'experiment de Colwill i Rescorla la devaluació va consistir a presentar, en dies al-
terns, els dos reforçadors. La ingestió d'un dels reforçadors era seguida d'un males-
tar provocat per una injecció de ClLi, mentre que el consum de l'altre reforçador no
provocava cap malestar. Altre cop, per a evitar explicacions alternatives, a la meitat
dels subjectes, se'ls va devaluar la sucrosa líquida i, a l'altra meitat, se'ls va devaluar
les boletes de menjar.
Resumint el procediment, i independentment de les respostes i els reforçadors con-

crets, cada animal va aprendre que dues respostes, R1 i R2, proporcionaven cadascu-
na una conseqüència diferenciada, C1 i C2. Si es formen associacions R-C, llavors els
animals haurien d'adquirir dues associacions, R1-C1 i R2-C2. La devaluació de C1 per-
metria posar a prova si realment s'han adquirit aquestes associacions R-C. Colwill i
Rescorla van dur a terme una darrera fase de prova després de la devaluació de C1 que
consistia en una sessió de 20 minuts en la qual estaven disponibles els dos mecanis-
mes de resposta i, per tant, els animals podien escollir entre R1 i R2. Durant aquesta
sessió, cap dels dos mecanismes no proporcionava el reforçador, per la qual cosa es
tractava d'un procediment d'extinció. Si s'haguessin format les associacions R-C, lla-
vors els animals poden anticipar un reforçador que provoca un malestar si executen
la R1, i un reforçador apetitiu si executen la R2. Els resultats van ser clars, els animals
preferien treballar en el mecanisme que proporcionava reforçadors no devaluats que
en el mecanisme que proporcionava reforçadors devaluats. Durant els primers quatre
minuts de la prova, els animals van respondre a R2 amb una taxa de 6,7 respostes per
minut, mentre que responien a R1 amb una taxa d'1,8 respostes per minut. Aquests
resultats només són possibles si els animals poden anticipar quina conseqüència té
cadascuna de les seves accions i, per tant, donen suport a la formació d'associacions
R-C.
Però tornem un moment enrere, quan hem dit que les proves de la formació
d'associacions E-R només eren indirectes. Si ens fixem en la condició en què
es devalua el reforçador, podem apreciar que els animals no van deixar de res-
pondre totalment. Aquesta dada no és coherent si només es formessin associ-
acions R-C, ja que els animals estarien invertint temps en una activitat que els
portaria a un aliment nociu. Per què es continua responent a R1? La resposta
és que s'han format associacions E-R. Això és, les característiques físiques de
cada mecanisme de resposta s'han associat amb la resposta corresponent, de
manera que aquestes característiques físiques poden provocar la resposta dels
animals.
8.1.3. Associacions E-C
En introduir l'anàlisi associativa del condicionament instrumental, hem

postulat una tercera associació entre els estímuls antecedents i els estímuls
consegüents. Tot i que aquesta associació és clàssica, ja que els dos elements
associats són estímuls, pot tenir repercussions importants sobre la conducta
instrumental. Penseu en la manipulació experimental següent: un animal pot
obtenir menjar si pressiona la palanca, però només quan és present un to. Si
no apareix el to, llavors la pressió de palanca no proporciona menjar. És evi-
dent que una bona conducta adaptada de l'animal és la que limita les respostes
de pressió de palanca només en presència del to, ja que en la seva absència
seria una despesa energètica inútil. Com veurem en l'apartat de discriminació
i generalització, els animals no tenen gaire dificultat per a aprendre a limitar
les respostes en presència de l'estímul antecedent o discriminant.
Si bé aquest comportament es pot explicar per una associació E-R, ja que la

resposta ha estat seguida de reforçador només quan era present el to, hi ha
una segona possibilitat: que els animals aprenguin una associació E-C entre el
to i el menjar de manera que l'estímul discriminant anticipi la disponibilitat
del reforçador.
Colwill i Rescorla (1988) van aportar dades a favor de l'existència d'aquestes

associacions. En l'experiment que analitzarem es van utilitzar dos estímuls
discriminants (un soroll i un llum), quatre respostes (empènyer amb el morro
un botó, estirar d'una maneta, prémer una palanca i estirar d'una cadena) i
dues conseqüències (boletes de menjar i sucrosa líquida).
Associacions E-C
Experiment de Colwill i Rescorla (1988)
Les associacions E-C permeten
En una primera fase es va entrenar els animals a executar l'R1 per obtenir la C1 en als organismes anticipar la dis-
presència de l'E1 i executar R2 per a obtenir la C2 en presència de l'E2. Igual que en ponibilitat d'un reforçador.
l'experiment que hem descrit anteriorment, les respostes, estímuls i conseqüències
concretes es van contrabalançar d'una manera adequada. D'acord amb la formació
d'associacions clàssiques entre l'estímul discriminant i les conseqüències (E-C), lla-
vors el procediment hauria permès associacions entre l'E1 i la C1 i entre l'E2 i la C2.
Per tal de posar a prova aquestes associacions, Colwill i Rescorla van dur a terme una
segona fase en la qual els animals van aprendre dues respostes noves: l'R3 que propor-
cionava la C1, i l'R4 que proporcionava la C2. Durant aquesta fase no es va presentar
cap dels dos estímuls discriminants. Finalment, es va dur a terme la fase de prova
en la qual es presentaven assajos amb l'E1 i assajos amb l'E2. En cadascun d'aquests
assajos els animals podien escollir entre les respostes R3 i R4.
Com que les respostes R3 i R4 no s'havien executat mai en presència dels estímuls
discriminants, no s'havien pogut formar associacions E-R i, en conseqüència, els es-
tímuls discriminants no podien activar cap de les dues respostes. D'altra banda, si
l'E1 s'hagués associat amb C1 i l'E2 s'hagués associat amb C2, llavors E1 i E2 activarien
l'expectativa de C1 i de C2, respectivament. Si els animals tenien l'expectativa de C1
en presència d'E1, llavors s'esperaria que executessin la resposta que els proporciona-
ria el reforçador esperat, això és, R3, mentre que si tenien l'expectativa de C2, llavors
executarien l'R4. En altres paraules, en presència d'un estímul discriminant determi-
nat, els animals esperen que estigui disponible una conseqüència concreta i que, per
tant, executin preferentment la resposta que proporciona aquesta conseqüència.
Els resultats van ser els següents. La prova va consistir en vuit assajos i es va obtenir
una mitjana de 7,3 respostes per minut al mecanisme de resposta associat a la mateixa
conseqüència que l'estímul discriminant present, mentre que la mitjana de respostes
al mecanisme associat a la conseqüència diferent era de 5,1 respostes per minut. Per
tant, l'estímul discriminant s'hauria d'haver associat amb la conseqüència, ja que la
seva capacitat per a modular la conducta era més gran quan la conseqüència associada
a l'estímul discriminant i la resposta era la mateixa.
8.1.4. Associacions jeràrquiques
Finalment, cal tenir en compte que si bé la naturalesa de l'associació E-C és

clàssica, la conseqüència no es produirà si abans no apareix la resposta instru-
mental.
En altres paraules, l'estímul discriminant només marca l'ocasió per a la

conseqüència, però aquesta no tindrà lloc tret que l'organisme executi
la resposta adequada.
Aquesta situació ens porta a la necessitat d'avaluar una nova possibilitat:

que l'estímul discriminant no solament s'associï amb cadascun dels altres ele-
ments, sinó que evoqui una representació de la relació que hi ha entre la res-
posta i el reforçador (Jenkins, 1977). Aquest tipus d'associació més complexa
que la que relaciona dos elements simples, rep el nom d'associació�jeràrquica.
Aquesta estructura associativa implicaria que un estímul discriminant no pro-
vocaria la resposta directament mitjançant l'associació E-R, que com assenyala
Mackintosh (1983) és factible quan la resposta instrumental s'ha convertit en
un hàbit, ni es limitaria a activar una expectativa del reforçador mitjançant
l'associació E-C, sinó que aportaria informació més concreta sobre el que ha
de fer l'animal per a obtenir el reforçador, és a dir, activaria la representació
de l'associació R-C. En els darrers anys s'han obtingut dades experimentals a
favor d'aquestes associacions jeràrquiques (per exemple, Rescorla, 1990); no
obstant això, la complexitat dels procediments experimentals utilitzats fa que
la seva presentació quedi fora dels objectius d'aquest mòdul.
Per acabar amb l'anàlisi associativa del condicionament instrumental, exposa-

rem la idea de Mackintosh (1983) que afirma que l'actuació instrumental és la
conseqüència d'una instrucció que s'infereix d'una associació, en lloc de ser
provocada directament per una associació.
L'exposició d'una contingència positiva entre les pressions de palanca i el men-

jar establirà una associació entre elles, o una proposició que les pressions de
palanca proporcionen menjar. Si una rata té gana i el menjar és agradable, lla-
vors el coneixement adquirit de la premissa que les pressions de palanca pro-
dueixen menjar, es combinarà amb una altra premissa que el menjar cal bus-
car-lo. A partir d'aquestes dues premisses es pot derivar la instrucció d'accionar
la palanca.
8.2. Teories sobre la regulació de la conducta
L'anàlisi associativa del condicionament constitueix una explicació molecular

del condicionament instrumental. Portat a l'extrem, els mecanismes associa-
tius exposats permeten als organismes adquirir informació rellevant respecte a
l'entorn, un coneixement en forma de premisses o proposicions que permetrà
la combinació entre aquestes de manera que s'activi la conducta més apropi-
ada en cada moment.
Tanmateix, l'anàlisi del condicionament instrumental també s'ha fet des d'una
perspectiva molar, global. S'han proposat diverses teories que s'agrupen sota
el títol de la regulació de la conducta. Algunes d'aquestes teories prenen supòsits
del camp de l'economia per a intentar explicar de quina manera es regula el
nostre comportament.
Quan hem exposat els elements del condicionament instrumental i, concre-

tament, el reforçador, hem presentat la teoria�de�Premack.
Recordem que d'acord amb Premack, en qualsevol situació en la qual

no hi ha restriccions, els organismes distribueixen el temps en diverses
activitats en funció de les necessitats de l'animal i la disponibilitat de
les diverses activitats.
Si seguim l'argument de Premack, una activitat que apareix en una freqüència

alta pot servir per a reforçar una altra activitat de baixa freqüència sempre que
es restringeixi la primera i es faci contingent amb la segona. Si una rata té
gana (vegeu la figura següent), el més probable és que dediqui més temps a
menjar que a córrer en una roda d'activitat. Si restringim l'accés al menjar i el
fem contingent a donar unes voltes en la roda d'activitat podrem observar que
la conducta de baixa freqüència incrementa i la d'alta freqüència disminueix.
D'una manera simètrica, podem establir un procediment de càstig. En aquest
cas, es fa contingent una conducta de baixa freqüència amb una altra conduc-
ta d'alta freqüència de manera que si apareix la segona, s'obliga l'execució de la

primera. En tots dos casos, s'obté una redistribució en la freqüència d'aparició
de les diverses conductes. El punt crític de la teoria de Premack és la probabi-
litat diferencial de les conductes instrumental i reforçadora.
Diagrama representatiu del principi de Premack
Si les rates estan privades de menjar, llavors menjar serà la conducta més freqüent i
reforçarà la conducta de baixa freqüència córrer. Si els animals no estan privats de
menjar, llavors les rates correran més i reforçarà la conducta de menjar.
Allison (1989, Timberlake i Allison, 1974) va proposar que el factor crític per-
què una conducta en reforci una altra és la restricció de la conducta amb in-
dependència de la seva freqüència d'aparició. A favor d'aquesta hipòtesi, Tim-
berlake i Allison (1974) van trobar que l'accés a una conducta de baixa proba-
bilitat es podia utilitzar com a reforçador d'una altra conducta, amb l'única
condició que els subjectes tinguessin la restricció de fer aquesta conducta.
La idea bàsica d'aquest punt de vista és que els organismes distribueixen

les seves conductes, quan no hi ha restriccions, de manera més òptima
per a ells. Aquesta distribució rep el nom de punt�de�complaença�de
la�conducta.
En posem un exemple senzill en el qual només es tinguin en compte dues

conductes en el cas d'un adolescent.
Imaginem que el noi o la noia dedica d'una manera espontània el 60% del temps entre
l'acabament de l'institut i l'hora de sopar a veure la televisió i el 15% a estudiar (la resta
del temps el dedicarà a altres activitats). Aquesta distribució constituiria el punt de com-
plaença de la conducta. Tanmateix, en el moment en què s'introdueix una contingència
resposta reforçador, s'altera aquest punt de complaença o, el que és el mateix, el punt
d'equilibri.
Suposem que establim una contingència en la qual per cada 15 minuts d'estudi pot mirar
la televisió durant 15 minuts. És evident que aquesta nova situació trenca l'equilibri de
la distribució de les conductes i la conseqüència és que l'adolescent redistribuirà la seva
conducta de manera que s'apropi el màxim al punt de complaença.
S'entendrà millor amb una representació gràfica (vegeu la figura següent). El punt de
complaença de la conducta és representat pel cercle blanc, mentre que la contingèn-
cia establerta entre les dues conductes es representa amb la línia negra. Qualsevol punt
d'aquesta línia compliria el requisit de la contingència. En quin punt, però, se situarà la
nova distribució de les dues activitats? D'acord amb la teoria, l'adolescent buscarà el punt
que l'apropi més al punt de complaença, és a dir, el punt de la línia que es trobi més a
prop del punt de complaença (Staddon, 1983). Suposem que l'adolescent disposa de dues
hores des que arriba a casa i l'hora de sopar. En condicions normals, dedicaria 72 minuts
a mirar la televisió i 18 minuts a estudiar. Si vol mantenir el màxim de dedicació a veure
la televisió i d'acord amb el programa establert, l'obligaria a dedicar 60 minuts a estudiar
per a poder veure 60 minuts de televisió. El més probable és que l'adolescent no estigui
disposat a pagar un "preu" tan alt. Una altra opció és que no estigués disposat a estudiar
més temps del que ja dedicava, però en aquest cas perd molt respecte a mirar la televisió,
ja que només hi podria dedicar 18 minuts. Buscar el punt que millor s'ajusti al punt de
complaença es converteix en la motivació de la conducta. En l'exemple que ens ocupa,
una solució podria ser dedicar 37,5 minuts a cada conducta de manera que aconseguiria
distribuir les dues conductes i s'allunyaria el mínim de l'equilibri. La nova distribució
implica un increment del temps d'estudi i una reducció del temps dedicat a la televisió.
Distribució de les conductes de mirar la TV i d'estudiar
El punt blanc mostra el punt de complaença o la distribució òptima quan no hi ha restriccions. La línia mostra les
diferents possibilitats de combinar les dues conductes quan s'introdueix un programa de reforçament en el qual es
demana que l'estudiant dediqui la mateixa quantitat de temps a estudiar que a veure la tele. Com es pot observar,
cap dels punts de la línia no passa pel punt de complaença. La conseqüència és que l'estudiant haurà de reajustar els
dos comportaments d'acord amb el punt de la recta que és més a prop del punt de complaença (el triangle negre).
Un aspecte interessant de la teoria és que si restringim la conducta d'estudiar

i la fem contingent amb la de veure la televisió podrem veure que la conducta
d'estudi serviria per a reforçar la de veure la televisió. Si el nostre adolescent
hagués de veure 90 minuts de televisió per a poder estudiar durant 10 minuts,
llavors per a mantenir-se proper al punt de complaença hauria d'incrementar
el temps de veure la televisió per a no perdre gaire temps d'estudi.
Teories del condicionament instrumental
Basades�en�els�mecanismes Basades�en�la�motivació
• Explicació molecular • Explicació molar

• Mecanismes associatius • Regulació de la conducta
– Associacions E-R – Premack: les conductes d'alta probabili-
– Associacions R-C tat reforcen les conductes de baixa pro-
– Associacions E-C babilitat.
– Associacions E-(R-C) – Punt de complaença: la restricció d'una
conducta la converteix en reforçadora
d'una segona conducta.
Resum de les teories sobre el condicionament instrumental. Cal assenyalar que les teories molars i molecular no són incompati-
bles sinó complementàries.
9. Generalització i discriminació
Al llarg del mòdul hem pogut veure que la conducta instrumental és governa-
da pels estímuls antecedents i els estímuls consegüents. Els primers aporten in-
formació sobre la disponibilitat o no-disponibilitat dels estímuls consegüents
i sobre quines conductes els permeten controlar, mentre que els segons con-
sisteixen en situacions agradables que procurem obtenir o desagradables que
intentem aturar o impedir. En aquest apartat ens centrarem en les propietats
dels estímuls que permeten controlar la conducta. Cal tenir en compte, però,
que tot i que tractem d'aquest tema en el mòdul del condicionament instru-
mental, les característiques que veurem no es limiten a aquest tipus de condi-
cionament, sinó que s'estenen també al condicionament clàssic. Així, doncs,
el coneixement que tenim sobre la generalització i la discriminació dels es-
tímuls afecta tant els estímuls condicionats com els estímuls discriminants.
Exposarem la idea del control de la conducta amb un experiment de Reynolds

(1961) exposat a Domjan (2003).
Experiment de Reynolds (1961)
En aquest experiment es van entrenar dos coloms perquè picotegessin una tecla
il·luminada de color vermell amb un triangle blanc al centre. L'entrenament con-
sistia a proporcionar menjar si els coloms picotejaven la tecla sempre que estigués
il·luminada amb aquest dibuix, però no rebien menjar si la picotejaven quan no es-
tava il·luminada. Els animals van mostrar el seu aprenentatge, ja que van limitar la
resposta als moments en què la tecla s'il·luminava. Podem afirmar que la il·luminació
de la tecla controlava la resposta de picotejar dels coloms. Més interessant, però,
va ser la prova que va dur a terme Reynolds amb els coloms un cop havien assolit
l'aprenentatge. La prova consistia a presentar en alguns assajos el disc il·luminat de
color vermell sense el triangle, i en altres assajos presentar el triangle blanc però sense
el fons de color vermell. Durant la prova la resposta de picotejar la tecla no era segui-
da del reforçador. Quina característica de l'estímul original controlaria la resposta?
Reynolds va trobar que mentre que un dels coloms responia a la tecla de color vermell
i ignorava el triangle blanc, el segon colom responia bàsicament al triangle blanc i
ignorava la tecla de color vermell.
Aquests resultats de la prova indiquen que de tots els estímuls o característi-

ques dels estímuls, només alguns d'ells arriben a tenir el control de la conduc-
ta. D'altra banda, els resultats també il·lustren el fet que sense un entrenament
explícit qualsevol característica pot arribar a adquirir el control de la conduc-
ta. En l'experiment de Reynolds, podria ser que un dels animals s'hagués fixat
en el color vermell o la forma circular de la tecla durant l'entrenament, men-
tre que l'altre colom es podria haver fixat en el color blanc de la tecla o en
la forma triangular de la figura blanca. Més encara, els resultats mostren que
els animals discriminaven entre els dos estímuls de prova ja que responien
d'una manera diferencial davant de cadascun d'ells. Al mateix temps, podem
afirmar que els animals també generalitzaven entre l'estímul utilitzat durant
l'entrenament original i un dels estímuls de prova, ja que hi continuaven res-

ponent en la seva presència, i discriminaven entre l'estímul original i l'altre
estímul de prova, ja que no hi responien en la seva presència.
9.1. Generalització i discriminació
L'exemple que acabem d'exposar ens ha servit per a introduir els dos conceptes
de què tractarem en aquest apartat i que cal definir formalment.
La generalització és la tendència a tractar dos estímuls diferents com

si fossin iguals.
La discriminació és la tendència a respondre d'una manera diferencial
a dos estímuls diferents.
Es fa evident que els dos fenòmens són complementaris, ja que si generalitzem

entre dos estímuls, no estem discriminant entre ells; i d'altra banda, si discri-
minem entre dos estímuls, no generalitzem entre ells.
Lashley i Wade (1946) van afirmar que la generalització és una conseqüència

de la incapacitat del subjecte per a diferenciar els estímuls. Lashley i Wade
consideren que es generalitza perquè hi ha una confusió entre els estímuls de
prova i l'estímul que s'ha utilitzat durant l'entrenament. D'aquesta afirmació
de Lashley i Wade es desprèn que com més semblants siguin dos estímuls més
confusió hi haurà entre ells i es produirà més generalització.
En altres paraules, la generalització és la relació sistemàtica entre la força

de la resposta als estímuls generalitzats i la similitud d'aquests estímuls amb
l'estímul utilitzat durant l'entrenament original. Aquesta relació sistemàtica
s'anomena gradient�de�generalització.
9.2. Gradients de generalització
Una manera d'estudiar els gradients de generalització consisteix a dur a ter-

me una fase d'entrenament en la qual s'ensenya els subjectes a respondre en
presència d'un estímul determinat, per exemple, un llum d'un color determi-
nat. Un cop finalitzat aquest entrenament, es duu a terme una fase de prova
durant la qual es presenten d'una manera aleatòria l'estímul d'entrenament i
altres estímuls nous que varien en el color. Durant la prova no s'administra el
reforçador i s'enregistren les respostes davant de cada estímul de prova.
La primera demostració dels gradients de generalització la van aportar Gutt-

man i Kalish (1956).
Experiment de Guttman i Kalish (1956)
En el seu experiment van manipular el color del llum d'una tecla de resposta mit-
jançant uns filtres cromàtics. L'entrenament inicial consistia a il·luminar la tecla de
resposta d'un color determinat, concretament un llum amb una longitud d'ona de
580 nanòmetres. Durant els períodes de presentació de l'estímul, de 60 segons, els
coloms tenien accés a menjar amb un programa de reforçament IV d'un minut. En
els períodes en què la tecla estava apagada no es dispensava menjar als animals. En
la prova de generalització, van presentar l'estímul d'entrenament durant períodes de
30 segons, a més d'altres deu estímuls amb una longitud d'ona inferior o superior en
l'espectre cromàtic que variaven entre els 520 nm i els 640 nm de longitud d'ona. Els
11 estímuls es van presentar un total de 12 vegades cadascun. No es va administrar
menjar durant les sessions de prova.
Els resultats van mostrar que els coloms van respondre amb la taxa de resposta més
alta davant de l'estímul d'entrenament (580 nm de longitud d'ona). També van mos-
trar taxes de resposta molt altes enfront de longituds d'ona similars (570 i 590 nm).
Les taxes de resposta van anar disminuint a mesura que la longitud d'ona dels estí-
muls de prova s'allunyava del valor de l'estímul original fins que els animals amb
prou feines responien quan les longituds d'ona eren de 520, 540, 620 i 640 nm. En
altres paraules, els gradients de generalització mostren com la generalització i la dis-
criminació depenen del grau de similitud entre els estímuls.
La gràfica mostra un gradient de generalització similar al que van obtenir Guttman

i Kalish
Es pot observar que la freqüència màxima de respostes es produeix en presència de l'estímul d'entrenament
(580 nm). També es pot veure que els estímuls de prova (570 i 590 nm) similars a l'estímul d'entrenament
provoquen una taxa de resposta molt alta, cosa que indica un grau de generalització alt. Finalment, els estímuls
de prova allunyats de l'estímul d'entrenament provoquen taxes de resposta molt baixes, la qual cosa indica una
bona discriminació respecte a l'estímul d'entrenament.
Com es pot veure en la figura anterior la forma d'un gradient de generalització

és com la d'una campana. Generalment, els subjectes mostren el màxim de
respostes en presència de l'estímul d'entrenament. Mentre que en presència
dels estímuls de prova la taxa de resposta és més baixa. Podem trobar gradients
de generalització molt estrets, cosa que hem d'interpretar com una discrimi-
nació molt fina, o gradients de generalització molt amples que ens indiquen
molta generalització. El cas més extrem és del gradient de generalització pla
que es produeix quan es generalitza completament entre els estímuls de prova
i l'estímul d'entrenament.
9.3. Discriminacions extradimensionals i intradimensionals
L'experiment de Guttman i Kalish mostra un entrenament en el qual només

s'utilitza un estímul durant l'entrenament per a indicar la disponibilitat del
reforçador, mentre que la no-disponibilitat del reforçador queda assenyalada
per l'absència de l'estímul discriminant. L'estímul discriminant rep el nom d'E
+.
En altres procediments es poden utilitzar dos estímuls diferents per a indicar

quan hi ha i quan no hi ha disponibilitat del reforçador. Per exemple, es poden
presentar unes línies verticals com a senyal de la disponibilitat del reforçador
i el color verd com a senyal que el reforçador no està disponible. L'estímul
que assenyala el no-reforçament rep el nom d'E–. Com que els estímuls discri-
minants corresponen a dimensions d'estimulació diferents, la discriminació
s'anomena extradimensional. D'altra banda, podríem fer la discriminació més
difícil si demanem als subjectes que discriminin entre dos estímuls que perta-
nyen a la mateixa dimensió de l'estímul, per exemple, entre dos colors o dues
freqüències sonores. En aquest cas, parlem de discriminacions intradimensio-
nals. En la figura següent apareixen dos exemples d'aquestes discriminacions.
Exemples d'estímuls emprats en discriminacions extradimensionals (esquerra) i

intradimensionals (dreta)
En la discriminació extradimensional, els subjectes han de discriminar entre ratlles verticals i el color verd. L'orientació de
les ratlles i el color són dues dimensions diferents dels estímuls. En la discriminació intradimensional, els subjectes han de
discriminar entre dos valors (colors) dins la mateixa dimensió estimular.
El tipus d'entrenament en discriminació utilitzat influirà notablement en els

gradients de generalització. Jenkins i Harrison (1962) van entrenar tres grups
de coloms a picotejar una tecla de resposta per a obtenir menjar. Per a un dels
grups l'E+ era un to de 1.000 Hz, mentre que l'absència del to actuava com a
E–, és a dir, picotejar la tecla era reforçat sempre que hi havia present el to,
però no es reforçava mai la resposta en absència del to. Un segon grup va rebre
el mateix entrenament que el primer grup excepte que l'E– era un altre to de
950 Hz. Finalment, el tercer grup era de control i no va rebre cap entrenament
en discriminació. Concretament, en aquest grup de control, el to de 1.000 Hz
sempre era present i els animals sempre rebien el reforçador per a picotejar
la tecla.
Un cop es va acabar l'entrenament en els tres grups, es va procedir a la pro-

va de generalització amb tons de diverses freqüències amb l'objectiu de veure
fins a quin punt el to controlava la conducta. El grup de control va mostrar
un gradient de generalització pla, és a dir, responia amb la mateixa taxa de
resposta a qualsevol estímul de prova de manera que hi havia una generalit-
zació completa entre el to de 1.000 Hz i la resta de tons de prova. En canvi, els
dos grups que havien rebut un entrenament en discriminació mostraven gra-
dients de generalització. El gradient més estret corresponia al grup que havia
rebut la discriminació intradimensional entre els dos tons. En altres paraules,
l'entrenament amb una discriminació intradimensional va produir la discri-
minació més fina.
9.4. La transposició i el desplaçament del vèrtex
Experiment de Kohler (1939)
Kohler (1939) va entrenar uns pollets en una discriminació intradimensional en

la qual presentava dos estímuls que variaven en la tonalitat de gris. Si els pollets
s'apropaven al gris més clar, llavors tenien accés al menjar. Però si s'apropaven al gris
més fosc, no rebien el reforçador. Aquest procediment rep el nom de discriminació
simultània, ja que els dos estímuls són presents alhora i els pollets n'havien d'escollir
un. Amb prou entrenament, els pollets van aprendre a apropar-se al color gris clar.
Com havien resolt aquest problema?
Molts psicòlegs pioners que estudiaven el comportament dels animals pensa-

ven que els animals aprenien les associacions E-R en termes dels valors�abso-
luts dels estímuls (per exemple, Morgan, 1894). En altres paraules, els pollets
de Kohler s'apropaven al gris clar perquè aquesta tonalitat de gris, i no una
altra, havia quedat associada amb la resposta d'apropament, ja que proporci-
onava el reforçador.
No obstant això, Kohler defensava que els animals podien manipular concep-
tes�abstractes per a resoldre problemes com el de discriminació entre les dues
tonalitats de gris. Segons Kohler els pollets haurien après a escollir el més clar
entre els dos grisos. Cal tenir en compte que aquest aprenentatge seria relacio-
nal, ja que els animals haurien d'haver descobert la relació entre els dos grisos
i que aquesta relació era la rellevant per a resoldre el problema. Més concreta-
ment, els animals haurien après a apropar-se al més clar dels dos grisos.
Evidentment, les dues explicacions poden explicar l'actuació dels pollets. Per
tal de poder determinar quines de les dues explicacions, absoluta o relacio-
nal, era la més adequada, Kohler va idear una prova força original. Després de
l'entrenament que hem descrit, Kohler va presentar als pollets una nova dis-
criminació simultània entre el gris clar que havia estat l'E+ en la primera fase i
un segon estímul nou més clar encara (vegeu la figura següent). Durant aques-
ta prova no es reforçava cap de les eleccions dels animals per a assegurar que
la seva conducta depenia del que havien après durant l'entrenament inicial.
Estímuls utilitzats per Kohler (1939) en el seu experiment de transposició
Durant la prova, els pollets van escollir preferentment el gris més clar malgrat que havia estat el gris més fosc el reforçat durant
l'entrenament de discriminació.
D'acord amb la teoria absoluta, els pollets continuarien apropant-se a l'E+, ja

que les seves característiques físiques serien les que s'haurien associat amb la
resposta d'apropament. En canvi, la posició de Kohler defensava que els pollets
s'aproparien a l'estímul nou, ja que era el més clar. Els resultats que va obtenir
Kohler van mostrar que els pollets preferien l'estímul nou, el més clar dels dos
estímuls de prova, que l'E+ original, el més fosc dels dos grisos de prova.
Aquest fenomen va rebre el nom de transposició, perquè se suposava que Transposició

els animals havien transferit la regla "escollir el gris més clar" apresa durant
La transposició s'ha demos-
l'entrenament a la situació de prova. trat en diferents espècies ani-
mals com ximpanzés (Kohler,
1939), rates (Lawrence i De-
Un fenomen relacionat amb la transposició és el desplaçament�del�vèrtex. Rivera, 1954) i nens (Alberts i
Ehrenfreund, 1951), i també
Quan s'utilitzen discriminacions intradimensionals i s'avalua posteriorment la en altres dimensions estimulars
com la grandària (Gulliksen,
generalització en una fase de prova, es pot observar un fenomen força robust: 1932).
el desplaçament del màxim o vèrtex del gradient de generalització.
El desplaçament del vèrtex consisteix en l'allunyament del màxim del

gradient de generalització respecte a l'E+ original i en direcció oposada
a l'E-.
Experiment de Hanson (1959)
Hanson (1959) va dur a terme un experiment en el qual es van entrenar diferents

grups de coloms perquè discriminessin entre dos colors definits per la longitud d'ona.
Tot i que l'experiment constava de cinc grups, aquí només n'analitzarem tres. En els
tres grups es va utilitzar un color de 550 nm de longitud d'ona com a E+. En canvi, els
tres grups diferien en el color de l'E–. Per a un del grups, l'E– era un llum de 590 nm
de longitud d'ona; per a un altre grup, l'E– era un llum de 555 nm de longitud d'ona.
El tercer grup era de control i l'E– consistia en l'absència del llum. En resum, el grup
control havia de discriminar entre presència i absència de l'E+, i els altres grups havien
de discriminar entre un E+ i un E–. Durant la fase de prova es van presentar llums de
diferent longitud d'ona que variaven entre 480 nm i 620 nm. El grup de control va
mostrar un gradient de generalització normal, és a dir, amb el màxim de respostes en
presència de l'E+. En canvi, el grup que havia discriminat entre els dos llums de 550
i 590 nm va mostrar el màxim de respostes a la longitud d'ona de 540 nm, encara
que la taxa de respostes a l'E+ era molt similar. Tanmateix, el desplaçament del vèrtex
va ser més espectacular en el grup que va discriminar entre les longituds d'ona molt
semblants, 550 i 555 nm. En aquest cas, les longituds d'ona que van provocar el
màxim de respostes van ser les de 540 i 530 nm, però els animals pràcticament no
van respondre en presència de l'E+. En la figura següent es pot veure que la línia amb
quadrats negres dibuixa un gradient de generalització normal, mentre que les línies
amb quadradets i triangles blancs tenen el màxim desplaçat respecte a l'E+ (550 nm)
en direcció oposada als respectius E–.
Gràfica basada en les dades de Hanson (1959) en la qual es pot veure l'efecte del desplaçament del màxim.
Des del punt de vista de la posició absoluta, el desplaçament del vèrtex és un

nou repte, ja que prediu que els animals haurien de continuar responent amb
més intensitat davant de l'E+ durant la prova de generalització.
D'altra banda, la posició relacional tampoc ho pot explicar d'una manera clara
les dades de Hanson. En la discriminació amb longituds d'ona de 550 i 555
nm, els colors són verd-groc, i la longitud d'ona de 550 nm és més verdosa.
Segons l'aprenentatge relacional, en la prova els animals haurien de respondre
a l'estímul més verd. Efectivament, les longituds d'ona de 540 i 530 nm són
més verdoses que l'E+ i fins aquí els resultats concorden amb l'aprenentatge
relacional. El problema és que les longituds d'ona compreses entre 500 i 520
nm són els verds purs i en l'experiment de Hanson no van provocar la taxa de
resposta màxima com prediu l'aprenentatge relacional.
9.5. Teoria d'Spence (1936)
Spence (1936) va elaborar una teoria absoluta que pot explicar d'una manera
elegant els fenòmens de la transposició i del desplaçament del vèrtex.
El punt de partida és que els subjectes aprenen només sobre els estímuls
d'una manera individual i no aprenen res respecte a les seves relacions.
A partir d'aquest supòsit, Spence va proposar que en un entrenament intradi-

mensional l'E+ adquiria força excitadora i l'E– adquiria força inhibidora. Això
és, l'E+ activa la resposta, mentre que l'E– inhibeix la resposta.
Un segon supòsit d'Spence és que ambdues forces, excitadora i inhibi-

dora, formen els seus respectius gradients de generalització excitador i
inhibidor.
Guttman i Kalish van demostrar l'existència dels gradients de generalització

excitadors, però ara cal presentar alguna evidència de l'existència de gradients
de generalització inhibidors abans de continuar amb l'exposició de la teoria
d'Spence i la seva aplicació als fenòmens de la transposició i del desplaçament
del vèrtex.
Representació esquemàtica dels estímuls utilitzats en l'experiment de Honig et al. (1963). Vegeu el text per a una
explicació de l'experiment.
Una demostració clàssica dels gradients de generalització inhibidors la trobem

en el treball de Honig, Boneau, Burstein i Pennypacker (1963).
Experiment de Honig, Boneau, Burstein i Pennypacker (1963)
Aquests investigadors van entrenar dos grups de coloms en una discriminació visu-
al. Un grup va rebre el reforçador per a respondre a la tecla de resposta quan estava
il·luminada de color blanc amb una línia vertical sobreposada (E+), però no era re-
forçat quan es presentava el llum blanc sense la línia (E–). El segon grup va rebre el
mateix entrenament en discriminació, però amb els estímuls intercanviats, això és,
el llum blanc sol era l'E+ i el llum blanc amb la línia negra vertical era l'E–. Un cop
els dos grups van aprendre la discriminació amb els respectius estímuls es va fer una
prova de generalització en què es presentava la tecla de resposta il·luminada de color
blanc i sobreposada una línia negra que diferia en l'angle d'inclinació respecte a la
vertical (0°). L'angle d'inclinació de la línia variava de 30 en 30 graus de manera que
les inclinacions de prova van ser de –90°, –60°, –30°, 0°, +30°, +60° i +90° (vegeu la
figura anterior).
Els animals del grup en el qual la línia vertical actuava com a E+ van mostrar el
màxim de resposta en presència de l'E+ i a mesura que la inclinació de la línia
s'allunyava de la verticalitat les taxes de resposta van ser més baixes. Aquests
resultats són una demostració més del gradient de generalització excitador.
Pels nostres interessos actuals, són més interessants els resultats del grup en
què la línia vertical actuava com a E–. Els animals d'aquest grup van respon-
dre molt poc en presència de la línia vertical, però en el cas en què la línia
apareixia inclinada respecte a la vertical, els animals responien amb taxes més
elevades. Quan la línia apareixia horitzontal (condicions de prova –90° i +90°)
els animals van mostrar les taxes de resposta més elevades. Aquesta és una
evidència clara de l'existència dels gradients de generalització inhibidors que
necessitaven per a continuar exposant la teoria d'Spence.
Havíem deixat l'exposició de la teoria d'Spence en el supòsit de l'existència

dels gradients de generalització excitador i inhibidor entorn de l'E+ i de l'E–,
respectivament. En el continu d'una dimensió d'un estímul, com el color, la
grandària o la freqüència sonora, alguns valors de la dimensió es poden veure
afectats tant per forces excitadores com per forces inhibidores simultàniament
i, atesa la direcció oposada d'aquestes dues forces, és raonable assumir que
es contrarestaran. En la figura següent es pot veure una representació gràfica
d'aquests supòsits. La corba contínua representa la força excitadora neta al
continu d'estímuls. Cal advertir que l'E+ mostra una força excitadora neta més
baixa que altres estímuls nous com l'E1 i l'E2.
Representació gràfica dels gradients excitador i inhibidor entorn dels estímuls E+ i E–, respectivament (línies puntejades). La línia
contínua representa la força excitadora neta que resulta de les forces excitadores i inhibidores.
Apliquem la teoria d'Spence a l'experiment de Hansen sobre el desplaçament

del màxim. A partir de la fase d'entrenament en discriminació, s'haurà desen-
volupat un gradient de generalització excitador entorn de l'estímul 550 nm i
un gradient de generalització inhibidor entorn de l'estímul 555 nm. Tot i que
l'estímul 550 nm tingui la força excitadora més gran, també rebrà molta força
inhibidora de la longitud d'ona de 555 nm i, un cop contrarestades les forces
excitadores i inhibidores, s'obtindrà una força excitadora neta més baixa que
una longitud d'ona de 530 nm, la qual rep una força excitadora importat des
de la longitud d'ona de 550 nm, però poca força inhibidora des de la longitud
d'ona de 555 nm. D'acord amb la teoria d'Spence, la força excitadora neta de
la longitud d'ona de 530 nm serà més gran que la força excitadora neta de
la longitud d'ona de 550 nm i provocarà, en conseqüència, més respostes i
donarà lloc al desplaçament del vèrtex. Recordem que la teoria relacional té
dificultats per a explicar perquè les longituds d'ona de 500 o 520 nm no pro-
voquen més respostes que la de 530 nm. En canvi, la teoria d'Spence no té di-
ficultats per a explicar aquestes dades. La longitud d'ona de 520 nm està molt
allunyada tant de l'E+ com de l'E–, la qual cosa implica que pot rebre una certa
força excitadora generalitzada de l'E+ però molt poca o cap força inhibidora
generalitzada des de l'E–. En tot cas, la teoria d'Spence pot assumir que la força
excitadora neta de la longitud d'ona de 520 nm serà més baixa que la de 530
nm i, per tant, també serà inferior la taxa de resposta provocada.
El mateix raonament es pot aplicar al fenomen de la transposició. Durant la

discriminació, el gris clar (E+) haurà adquirit força excitadora, mentre que el
gris fosc (E–) haurà adquirit força inhibidora. Durant la prova l'E+ rebrà força
inhibidora generalitzada des de l'E–, la qual cosa reduirà la seva força excita-
dora guanyada durant l'entrenament. En canvi, l'estímul nou presentat durant
la prova de transposició rebrà força excitadora des de l'E+ però no rebrà força
inhibidora de l'E–, ja que es troba més proper a l'E+ que a l'E–. Si la força exci-
tadora neta de l'estímul nou resulta més gran que la de l'E+, llavors no és sor-
prenent que els animals escullin amb més freqüència l'estímul nou que l'E+.
L'anàlisi que acabem de fer mostra que la teoria d'Spence pot explicar
els fenòmens de la transposició i del desplaçament del màxim sense
problemes.
Això no obstant, veurem un experiment de Gonzalez, Gentry i Bitterman

(1954) amb un procediment que rep el nom de problema� de� la� grandària
intermèdia.
Experiment de Gonzalez, Gentry i Bitterman (1954)
Van utilitzar nou estímuls que consistien en quadrats de diferents grandàries. El més
petit tenia una àrea de nou polzades quadrades i el més gran tenia 27 polzades qua-
drades. Els estímuls es van numerar des de l'1 (el més petit) fins al 9 (el més gran).
Durant l'entrenament, uns ximpanzés havien d'escollir entre els estímuls 1, 5 i 9.
Els animals van rebre un reforçador sempre que escollissin el quadrat intermedi, el
número 5. (Naturalment, la posició dels tres estímuls es va anar intercanviant ale-
atòriament amb l'objectiu que els animals no utilitzessin la posició com a estímul
discriminant.)
Durant la prova, es van presentar als ximpanzés conjunts de tres estímuls i es va refor-
çar qualsevol de les seves eleccions. Suposem que en un assaig de prova es presenten
els quadrats 4, 7 i 9. Des de la teoria relacional es prediu que si els animals han après
la regla "escollir el quadrat de grandària intermèdia" ara escollirien el quadrat número
7. En canvi, la teoria d'Spence fa una predicció diferent. A causa de l'entrenament
inicial, el quadrat número 5 tindria la màxima força excitadora que es generalitzaria
a les altres grandàries, mentre que els quadrats 1 i 9 haurien adquirit força inhibidora
que també es generalitzaria als quadrats propers.
Atesa la disposició de les forces excitadores i inhibidores, aquest procediment

no hauria de provocar un desplaçament del màxim, sinó que els seus efectes
serien fer més estret el gradient de generalització entorn de l'estímul número
5 (l'E+).
En definitiva, la teoria d'Spence prediu que en aquest problema s'escollirà sem-

pre l'estímul més proper a l'E+ (el quadrat 4 en l'exemple).
Els resultats de Gonzalez i col·laboradors van afavorir la teoria relacional. Els

ximpanzés van escollir habitualment l'estímul amb una grandària intermèdia
en els assajos de prova amb independència de quin conjunt de quadrats se'ls
presentava.
Ambdues teories, relacional i absoluta, tenen els seus punts forts i els seus
punts febles. Això fa pensar que els animals poden aprendre a partir tant de
les característiques absolutes dels estímuls com de les relacions que hi ha entre
els estímuls que cal discriminar. La qüestió és determinar en quins moments
s'imposarà una estratègia sobre l'altra. De fet, la teoria absoluta explica millor
que la relacional el desplaçament del vèrtex, en què la discriminació original és
seqüencial. Contràriament, la teoria relacional pot explicar millor el problema
de la grandària intermèdia en què la discriminació inicial és simultània.
Una solució de compromís és que l'aprenentatge sobre les característi-

ques absolutes dels estímuls s'afavoriria quan les discriminacions són
seqüencials i en les quals és difícil determinar relacions entre els estí-
muls.
En canvi, la utilització de relacions seria més fàcil en les discriminacions

simultànies en què són presents alhora els estímuls, de manera que és
més senzill determinar la relació entre ells.
Malgrat que la solució plantejada per a fer compatibles les teories relacionals
i absolutes de la discriminació i la generalització és coherent, Thomas (1993)
ha plantejat, a partir de la seva recerca amb estudiants universitaris, un model
relacional que pot explicar el fenomen del desplaçament del màxim i efectes
relacionats.
Experiment de Thomas i Jones (1962)
Thomas i Jones (1962) van dur a terme un experiment en què mostraven als partici-
pants un llum de 525 nm de longitud d'ona durant 60 segons. Passat aquest minut es
presentava un estímul de prova d'un conjunt de cinc estímuls (el mateix E+ i quatre
estímuls diferents) i els participants havien de decidir si era o no era el mateix color
que l'estímul original. L'experiment constava de cinc grups diferents que diferien en
el conjunt d'estímuls de prova que rebien. Així, el grup de control rebia un conjunt
simètric respecte a l'E+, és a dir, dos estímuls de prova amb longituds d'ona inferiors
a l'E+ i dos estímuls amb longituds d'ona superiors a l'E+ (el cinquè estímul de prova
era el mateix E+). Per a la resta de grups, els estímuls de prova es desplaçaven cap a
valors inferiors respecte de l'E+ o cap a valors superiors. Per exemple, a un dels grups
se li van presentar els quatre estímuls de prova generalitzat amb longituds d'ona que
anaven des de 485 fins a 515 nm, i a un altre dels grups els estímuls de prova gene-
ralitzats se situaven entre 535 i 565 nm.
La teoria d'Spence prediu que independentment de quin sigui el conjunt d'estímuls

de prova, els participants havien de donar més respostes davant de l'E+, i reduir les
respostes a mesura que els estímuls generalitzats diferissin de l'E+. En canvi, els resul-
tats de Thomas i Jones no confirmaven aquesta predicció, ja que els seus participants
desplaçaven el màxim de respostes en la direcció del conjunt d'estímuls de prova.
Això és, quan el conjunt d'estímuls de prova comprenia longituds d'ona entre 485
i 525 nm, el màxim de respostes s'obtenia en presència de l'estímul 515 nm, men-
tre que si el conjunt d'estímuls comprenia longituds d'ona entre 525 i 565 nm, el
màxim de respostes s'obtenia en presència de l'estímul 535 nm (recordem que l'E+
era la longitud d'ona de 525 nm). De fet, l'únic grup que va mostrar un gradient de
generalització d'acord amb les prediccions de la teoria d'Spence va ser el que va rebre
un conjunt d'estímuls de prova simètric respecte a l'E+.
El model de Thomas és relacional ja que defensa que els subjectes jutgen els
estímuls de prova respecte a un referent o representació subjectiva del valor
mitjà dels estímuls que experimenten. Així, en l'experiment de Thomas i Jones,
els participants del grup simètric van elaborar una representació de l'estímul
de referència similar al mateix E+ i per aquesta raó van donar el màxim de
respostes a l'E+. En canvi, quan els estímuls de prova tenien valors per sota de
l'E+, la representació de referència tenia un valor per sota del valor de l'E+ i,
per això, els participants van respondre més a la longitud d'ona de 515 nm.
(Cal advertir que a l'experiment en cada assaig es mostrava l'E+ i després un
dels estímuls de prova, cosa que implica que l'E+ es va mostrar més vegades
que la resta d'estímuls i, per això, el desplaçament del màxim és moderat.)
Aquest model fa prediccions contraintuïtives. Per exemple, si presentem una
discriminació entre un E+ i un E–, i el conjunt d'estímuls de prova de la ge-
neralització es troba desplaçat cap a l'E–, llavors la representació mitjana de
referència obtinguda de la mitjana dels estímuls experimentats se situaria més
a prop de l'E– que de l'E+ i, per tant, s'hauria d'obtenir un desplaçament del
màxim en direcció a l'E–, just el contrari que prediu la teoria d'Spence. Tho-
mas, Mood, Morrison i Wiertelak (1991) van trobar precisament els resultats
que prediu el model de Thomas. El que no sabem és per què els coloms mos-
tren un desplaçament del màxim d'acord amb el que prediu la teoria d'Spence
i els humans no.
9.6. Teoria de la discriminació basada en processos d'atenció
Sutherland i Mackintosh (1971) consideren que l'aprenentatge de discrimina-

ció depèn de dos processos. Qualsevol estímul és format per diverses dimen-
sions com, per exemple, el color, la forma, la grandària, etc. Normalment, els
experiments que hem vist fins aquí sobre discriminació i generalització mani-
pulaven una dimensió i mantenien constant les altres dimensions. Tanmateix,
a la naturalesa els estímuls que hem de discriminar no són tan purs i poden
variar en més d'una dimensió.
Segons Sutherland i Mackintosh, un dels processos implicats en la discrimina-

ció és el procés�d'atenció. Si un estímul presenta una dimensió més salient,
com la brillantor o el color, llavors atendrem més a aquesta dimensió. D'altra
banda, si en un moment determinat estem atenent a una dimensió concre-
ta quan donem una resposta i som reforçats, llavors s'incrementarà la força
d'aquesta dimensió i tendirem a atendre-la més.
Imaginem que mirem un estímul que ens crida l'atenció pel seu color, però
si aquesta dimensió no és rellevant per a obtenir el reforçador, deixarem
d'atendre al color i atendrem a una altra dimensió, per exemple, la forma. Si
aquesta nova dimensió és rellevant per a obtenir el reforçador, llavors incre-
mentarem l'atenció a aquesta dimensió.
El segon procés proposat per la teoria de Sutherland i Mackintosh és

l'adquisició� de� la� resposta. En el cas d'una discriminació la resposta seria
l'elecció del valor de la dimensió que provoca el reforçament. Així, si rebem el
reforçador quan escollim un estímul que té la forma quadrada i no som refor-
çats si escollim un estímul amb forma triangular, acabarem donant la resposta
d'escollir la forma quadrada.
Un disseny experimental que aporta evidència a favor de la teoria de Suther-

land i Mackintosh consisteix en els efectes dels canvis intradimensionals i ex-
tradimensionals en l'aprenentatge de discriminacions.
Experiment de Mackintosh i Little (1969)
Mackintosh i Little (1969) van dur a terme un experiment en què es presentaven dos
problemes successius en els quals uns coloms havien de discriminar entre estímuls
visuals (vegeu la figura següent). Els subjectes de la condició extradimensional eren
entrenats en primer lloc per a discriminar segons l'orientació de dues línies (vertical
i horitzontal). Les línies també tenien colors diferents (groc i vermell), però aques-
ta dimensió de l'estímul era irrellevant. De fet, en la meitat dels assajos, la línia ver-
tical era groga i l'horitzontal era vermella i, en l'altra meitat dels assajos, els colors
s'invertien. Un cop els coloms havien après la discriminació d'acord amb l'orientació
de les línies, els animals havien d'aprendre una segona discriminació entre dos co-
lors (blau i verd). En aquesta segona discriminació, els dos colors es presentaven en
dues línies obliqües l'orientació de les quals (dreta i esquerra) era irrellevant per a
resoldre el nou problema. Així, per a aquest grup, la dimensió orientació era rellevant
en la primera discriminació, mentre que la dimensió color era irrellevant. El segon
problema de discriminació implicava un canvi extradimensional, ja que la dimensió
rellevant era el color i no l'orientació de la línia. Els subjectes de la condició intradi-
mensional rebien un primer problema amb els mateixos estímuls que el grup extra-
dimensional, però amb la diferència que la dimensió rellevant era el color i la irrelle-
vant era l'orientació de la línia. El segon problema de discriminació era idèntic al del
grup extradimensional. Per tant, per al segon grup, la dimensió color era rellevant en
les dues discriminacions, mentre que la dimensió orientació de la línia era irrellevant
(vegeu la figura següent).
Esquema del disseny experimental de Mackintosh i Little (1969). El grup G1 (grup extradimensional) rebia
un canvi extradimensional entre les dues discriminacions. El grup G2 (grup intradimensional) rebia un canvi
intradimensional entre les dues discriminacions.
La teoria de Sutherland i Mackintosh prediu que, com a conseqüència del pri-

mer problema, els animals del grup extradimensional haurien après a atendre
a la dimensió orientació, ja que era la rellevant per a solucionar el problema
i deixarien d'atendre al color, ja que és irrellevant. Aquest aprenentatge sobre
la dimensió rellevant interferirà en la segona discriminació, ja que els animals
continuaran atenent a la orientació al començament fins que s'adonin que
aquí és irrellevant. Contràriament, per als animals del grup intradimensional,
la dimensió color seria rellevant en els dos problemes, per la qual cosa la se-
gona discriminació es veuria afavorida.
Resumint, un aprenentatge més ràpid en la condició de canvi intradimensio-

nal aportaria una bona evidència a favor de la teoria de Sutherland i Mackin-
tosh. Els resultats van confirmar aquestes prediccions.
9.7. Aprenentatge perceptiu
Hem vist que l'entrenament de discriminació en què es presenten dos estímuls

que varien en una dimensió provoca gradients de generalització força estrets,
cosa que significa que la discriminació és molt acurada. Ara bé, aquest entre-
nament implicava reforçar una de les alternatives (E+) i no reforçar l'altra al-
ternativa (E–). Un altre procediment que facilita l'adquisició d'una discrimina-
ció és ensenyar als subjectes quina és la dimensió de l'estímul rellevant per
a resoldre el problema (Lawrence, 1949). Però, és necessari reforçar distintiva-
ment dos estímuls per a produir una bona discriminació?
Gibson i Walk (1956) van demostrar per primera vegada que la mera exposició
a estímuls complexes com poden ser triangles i cercles és suficient per a facilitar
la discriminació entre els estímuls.
Experiment de Gibson i Walk (1956)
Gibson i Walk van presentar cercles i triangles a unes rates a les seves gàbies des que
van néixer fins que van complir 90 dies (edat en què una rata ja és adulta). Els animals
van aprendre a discriminar entre aquests estímuls amb una quantitat significativa-
ment més petita d'errors que un grup de control que no va rebre l'exposició prèvia
als estímuls.
Experiments posteriors molt més controlats han demostrat que l'efecte és ro-
bust i que no cal una exposició tan llarga ni que els animals siguin joves (per
a una revisió vegeu Hall, 1989).
Aquesta facilitació de la discriminació entre estímuls complexos causa-

da per l'exposició no reforçada als estímuls prèvia a l'entrenament de
discriminació rep el nom d'aprenentatge�perceptiu.
En el mòdul sobre condicionament clàssic hem vist que l'exposició no reforça-

da a un estímul que s'aparellarà amb l'EI provoca un retard en l'aprenentatge,
una inhibició latent. Com és que un procediment similar pot produir un re-
tard en el condicionament i una facilitació en la discriminació?
Gibson (1969) va proposar que el fet que els subjectes poguessin inspeccio-
nar els estímuls abans de l'entrenament, els permetia diferenciar-los, ja que
en podien extreure les característiques diferenciadores mitjançant un procés
perceptiu.
McLaren, Kaye i Mackintosh (1989, McLaren i Mackintosh, 2000) han pro-

posat una teoria associativa de l'aprenentatge perceptiu. Segons McLaren i
col·laboradors, tot estímul, per simple que sigui, és format per diversos ele-
ments. En cada presentació de l'estímul es mostreja un determinat nombre
d'elements que quedaran associats entre ells. Consideren, igual que les teo-
ries absolutes, que la generalització entre dos estímuls es deu a la quantitat
d'elements en comú que tenen els estímuls. Quan dos estímuls comparteixen
molts elements en comú, la discriminació entre ells serà molt difícil.
Si presentem un estímul compost AX i l'aparellem amb una conseqüència, EI, es forma-

ran tres tipus d'associacions: una entre els elements de l'estímul A-X i dues entre cada
element i l'EI. Si en una prova de generalització presentem un estímul diferent, però que
comparteix una part d'elements en comú, BX, tindrem que X activarà la representació de
l'EI per dues vies: una directa per l'associació X-EI i una indirecta per la cadena associativa
X-A-EI. Per tant, es produirà una generalització entre AX i BX, més gran com més pes
tinguin els elements en comú.
Com pot ajudar l'exposició no reforçada als estímuls a millorar la discrimina-

ció?
Segons McLaren i col·laboradors hi ha tres mecanismes que intervindrien du-

ran l'exposició: la inhibició latent diferenciada dels elements en comú, les con-
nexions inhibidores entre els elements únics i la unitització.
1)�Inhibició�latent�diferenciada�dels�elements�en�comú
El mecanisme de la inhibició latent diferenciada dels elements en comú es ba-

sa en el fet que els elements en comú reben el doble d'exposició no reforçada.
Atesos dos estímuls complexos, AX i BX, cadascun d'ells consta d'un element
únic, A i B, respectivament, i a més comparteixen un element, X. Cada vegada
que es presenta l'estímul AX, els elements que el formen, A i X, reben inhibició
latent. De la mateixa manera, cada vegada que es presenta l'estímul BX, els
elements que el formen, B i X, també reben inhibició latent. Així, si es fan deu
presentacions de cada estímul, tindrem que al final s'han presentat deu vega-
des els elements únics, A i B, i en canvi, s'ha presentat 20 vegades l'element
comú X. Per tant, la inhibició latent de l'element comú serà el doble que la
dels elements únics. En la figura següent es mostra com els elements comuns
s'exposen el doble que els elements únics. Quan després de l'exposició no re-
forçada es dugui a terme l'aprenentatge de discriminació, els elements únics
tindran més facilitat d'entrar en associació amb les diferents conseqüències,
mentre que els elements en comú no s'associaran i d'aquesta manera es reduirà
la generalització entre els estímuls.
Esquema explicatiu del mecanismes de la inhibició latent diferenciada

entre elements únics i comuns segons la teoria de McLaren, Kaye i
Mackintosh (1989)
Experiment de Trobalon, Sansa, Chamizo i Mackintosh (1991)
Trobalon, Sansa, Chamizo i Mackintosh (1991) van dur a terme una sèrie experimen-
tal en la qual es manipulava la quantitat d'elements en comú que tenien dos braços
d'un laberint en T. Per a dos grups de rates, els terres dels braços diferien en color
i textura (elements únics), mentre que les parets dels braços eren del mateix color
marró (elements en comú). Per tant, els estímuls que s'havien de discriminar eren AX
i BX, en què A i B eren els terres i X, les parets. Per a uns altres dos grups es va reduir
el nombre d'elements en comú pintant les parets d'un dels braços de color blanc i les
de l'altre braç de color negre. Per tant, podem representar la discriminació entre dos
estímuls complexos AX i BY, en què A i B serien els terres i X i Y serien les parets.
Un grup en cada tipus de discriminació va ser exposat sense reforçar als dos braços,
mentre que el segon grup de cada discriminació no va rebre l'exposició. Després de
la fase d'exposició no reforçada es va fer un entrenament en el qual un dels braços,
AX, contenia menjar com a reforçador, mentre que l'altre braç, BX o BY, en funció
de la discriminació, no contenia menjar.
Com calia esperar, el grup de control en el qual els braços diferien en el terra i les
parets, AX i BY, van aprendre la discriminació més ràpidament que el grup de control
en el qual les parets dels braços eren del mateix color, AX i BX, ja que l'element X
quedava associat amb el menjar quan els animals escollien el braç AX.
La dada més interessant, però, la van proporcionar els grups exposats prèviament als
braços. Concretament, en els grups en què les parets dels braços estaven pintades
de diferent color l'exposició va retardar la discriminació respecte al grup de control
corresponent. Contràriament, l'exposició als braços que tenien les parets pintades del
mateix color va facilitar la discriminació entre els dos braços.
Els resultats d'aquest experiment són coherents amb el mecanisme de la inhi-

bició latent diferenciada dels elements en comú. Quan les parets i els terres
dels braços eren diferents, l'exposició no reforçada va provocar una inhibició
latent a tots els elements, AX i BY, i els animals van tenir dificultats per a
aprendre les conseqüències de cada braç. En canvi, en la discriminació entre
AX i BX, l'exposició prèvia no reforçada va reduir la capacitat d'associar-se de
l'element X i, per tant, van ser els elements únics els que es van associar amb
les respectives conseqüències. En comparació, en el seu grup de control no
exposat, l'element en comú X va quedar associat al menjar quan les rates van
escollir el braç AX. La presència de X en el braç BX activava la representació
del menjar, cosa que provocava que els animals l'escollissin amb una alta pro-
porció, almenys durant l'inici de l'entrenament.
En l'experiment de Trobalon i col·laboradors és va fer una exposició alterna-

da dels dos braços que s'havien de discriminar. Aquest procediment alternat
s'ha demostrat que és clau a l'hora d'obtenir l'efecte facilitador de l'exposició.
Efectivament, Symonds i Hall (1995) van comparar el programa d'exposició
alternada (AX, BX, AX, BX...) amb un altre procediment que anomenen per
blocs i que consisteix a exposar, primerament, en un bloc un dels dos estímuls
i, després, en un segon bloc l'altre estímul (AX, AX... – BX, BX...). La figura
següent mostra d'una manera esquematitzada les presentacions alternades i
per blocs utilitzades per Symonds i Hall.
Els resultats de l'experiment van mostrar que només s'obtenia un efec-

te d'aprenentatge perceptiu quan l'exposició era alternada, però no quan
l'exposició era per blocs. La implicació d'aquesta troballa és que es contradiu
amb el mecanisme de la inhibició latent diferenciada dels elements en comú.
Tingueu en compte que independentment de l'ordre de presentació dels estí-

muls, els dos programes d'exposició garanteixen el doble d'exposició als ele-
ments en comú respecte als únics i, d'acord amb aquest mecanisme, en els
dos procediments s'hauria d'obtenir l'efecte facilitador de l'exposició prèvia no
reforçada.
Esquema de les exposicions alternada i per blocs
Els dos tipus de presentació dels estímuls garanteixen la mateixa quantitat d'exposició als dos estímuls compostos.
L'única diferència és l'ordre en què es presenten els compostos.
2)�Connexions�inhibidores
El segon mecanisme proposat per McLaren i col·laboradors és la formació de

connexions inhibidores entre els elements únics dels estímuls exposats. Re-
cordem que durant les primeres presentacions dels estímuls se suposa que es
formen associacions entre els elements que formen cada compost. Així, en
presentar AX es formarà una associació A↔ X i en presentar BX es formarà una
associació B↔ X. Un cop formades aquestes associacions, la presentació AX
provocarà que l'element X evoqui la representació de l'element únic B. D'acord
amb la teoria de McLaren i col·laboradors (vegeu també, McLaren i Mackin-
tosh, 2000), l'activació associativa de B com que no és físicament present, és
a dir, a partir de la seva associació amb X, permetrà una associació inhibidora
entre A i B, (A–‫׀‬B). De la mateixa manera, les presentacions de BX activaran
la representació de A a partir de l'associació X→ A i permetran la connexió
inhibidora B–‫׀‬A. Quan després de l'exposició condicionem un dels estímuls
compostos, AX, amb la conseqüència (EI), tant l'element A com l'element X
quedaran associats amb l'EI. En la prova de generalització amb BX, X activarà
la representació de l'EI, però B inhibirà la representació de A i com que està
associat amb el mateix EI, aquest també es veurà inhibit. En definitiva, la re-
presentació de l'EI activada per X serà reduïda per la inhibició procedent de la
connexió inhibidora B–‫(׀‬A→ EI). En conseqüència, BX no activarà la resposta
i, per tant, no hi haurà generalització de AX a BX, respecte a un grup de control
que no hagi rebut l'exposició prèvia a AX i BX, ja que en aquest grup B no po-
drà inhibir la representació de A i, en canvi, X activarà la representació de l'EI.
La demostració de connexions inhibidores entre els elements únics de dos

estímuls exposats sense reforçament prové de l'efecte Espinet.
Experiment d'Espinet, Iraola, Bennett i Mackintosh (1995)
Espinet, Iraola, Bennett i Mackintosh (1995) van dur a terme una exposició alternada
a dos compostos gustatius, AX i BX. Després van condicionar un dels compostos,
AX, amb un malestar gastrointestinal i finalment van dur a terme les proves pròpies
per a estudiar la inhibició condicionada (proves de retard estudiades en el mòdul del
condicionament clàssic). En la prova de retard, es va aparellar el compost BX amb l'EI
i el condicionament es va desenvolupar més lentament que un grup de control que
havia rebut una exposició alternada només amb els elements únics, A i B. L'exposició
dels elements únics en el grup de control assegurava la mateixa quantitat d'exposició
a A i a B i, per tant, la mateixa quantitat d'inhibició latent, però l'absència de l'element
comú, X, impedia la formació de connexions inhibidores entre A i B. Per a la prova
de la sumació van utilitzar un altre gust, Q, aparellat amb el malestar gastrointestinal
i durant la prova van presentar el compost QB. Si B inhibís la representació de l'EI
mitjançant la seva associació inhibidora amb A, hauria de contrarestar l'activació del
malestar provocada per la presència de Q. En el grup de control, el compost QB hauria
d'activar la representació del malestar amb més força ja que B no la podria inhibir.
3)�Unitització
El tercer mecanisme proposat per McLaren i col·laboradors per a explicar

l'aprenentatge perceptiu és el que s'anomena unitització.
Aquest mecanisme proposa que les connexions entre els elements únics
d'un estímul seran més fortes que les connexions entre els elements
únics i els elements comuns.
L'argument es basa en el fet que quan es presenta un compost AX, es formen

associacions entre els elements únics (a1, a2...) i entre els elements únics i co-
muns (a1, a2, x1, x2...). En canvi, en la presentació de BX, com que són presents
els elements comuns però no els elements únics de A, es produirà una extinció
de les associacions entre els elements únics de A i els elements en comú. El
resultat d'aquest procés és que en presentar AX hi haurà una tendència central
al fet que s'activin amb més força els elements únics de A que no pas els ele-
ments comúns X. El mateix succeirà amb el compost BX. D'aquesta manera,
els elements únics tindran més oportunitat d'associar-se amb les conseqüèn-
cies que els elements en comú, la qual cosa facilitarà la discriminació entre AX
i BX. Tot i que el mecanisme és coherent, la seva demostració experimental
resulta molt complicada de dur a la pràctica.
En resum, dels tres mecanismes proposats per McLaren i col·laboradors,

el més potent i que té més dades que li donen suport és el de les conne-
xions inhibidores entre els elements únics dels estímuls exposats.
Hall (2003) va proposar una explicació alternativa de l'aprenentatge perceptiu.

Segons Hall, l'exposició alternada a dos estímuls compostos que comparteixen

elements en comú, AX i BX, interfereix en un procés d'habituació dels ele-
ments únics però no dels elements comuns. En altres paraules, la saliència dels
elements únics es mantindria alta després d'una exposició alternada mentre
que la saliència dels elements comuns es veuria reduïda significativament. Hall
accepta que en les primeres exposicions dels compostos, AX i BX, es formen
associacions entre els elements únics i comuns (A↔ X, B↔ X). Un cop forma-
des aquestes associacions, la presentació de AX activarà la representació de B
a partir de l'associació X→ B. L'activació associativa de B, estant físicament
absent l'estímul B, evitarà l'habituació o, el que és el mateix, mantindrà alta la
saliència de B. En els assajos en què es presenta BX, s'activarà la representació
de A i serà aquest estímul el que en mantingui alta la saliència. Aquest procés
no es produirà quan l'exposició sigui per blocs, ja que en presentar sempre
AX, tant A com X perdran saliència, i el mateix quan es presenti el bloc BX,
en què B i X perdran saliència. Quan es condicioni el compost AX, en el grup
d'exposició alternada, A aombrarà fortament X, ja que té més saliència i X no
s'associarà amb l'EI. En el grup que ha rebut una exposició per blocs, A serà poc
salient i no podrà aombrà eficaçment X, cosa que en permetrà l'associació amb
l'EI. Finalment, la prova de generalització en què es presenta BX, X no activarà
l'expectativa de l'EI en el grup exposat alternadament, la qual cosa produirà
una bona discriminació entre AX i BX, mentre que en el grup d'exposició per
blocs, X sí que podrà activar la representació de l'EI, la qual cosa provocarà
una generalització entre AX i BX.
Artigas, Prados, Sansa, Blair i Hall (2006) han aportat dades a favor del meca-
nisme proposat per Hall.
Experiment d'Artigas, Prados, Sansa, Blair i Hall (2006)
En un dels seus experiments van utilitzar dos grups de rates als quals exposaven
a dos estímuls compostos amb un element en comú, AX i BX. En un dels grups
l'exposició era alternada i en l'altre grup l'exposició era per blocs. Una característica
de l'experiment era que un dels elements únics era el gust salat. La raó d'utilitzar
aquest sabor és que el procediment usat consistia a provocar una necessitat de sal
i poder utilitzar el sabor a sal com un EI potent. De fet, després de l'exposició, els
dos grups van rebre un compost format pels dos sabors únics, AB. La idea és que si
l'exposició alternada produeix connexions inhibidores entre els elements únics, A i
B, com proposen McLaren i col·laboradors, llavors seria difícil formar una associació
entre els dos elements únics. En canvi, seguint Hall, si l'exposició alternada manté
alta la saliència dels elements únics, llavors es facilitaria l'associació entre els dos ele-
ments únics, A i B. En els dos casos, el retard o la facilitació seria respecte al grup de
control que va rebre l'exposició per blocs. Per a poder mesurar la força de l'associació
AB, aquests investigadors van provocar una necessitat de sal el dia previ a la prova i
durant aquesta van presentar el sabor únic diferent de la sal.
Els resultats van mostrar una facilitació de l'associació AB en el grup alternat,

cosa que dóna suport a la teoria de Hall i va en contra de les connexions in-
hibidores entre els elements en comú.
No obstant això, Artigas, Sansa i Prados (2006) també han trobat l'efecte Espi-
net després d'exposicions alternades però no després d'exposicions per blocs.
Tanmateix, l'efecte Espinet només apareixia quan les exposicions eren llar-
gues, però no quan eren curtes. Ja hem comentat que l'efecte Espinet és una
bona demostració de l'existència d'associacions inhibidores entre els elements
únics. D'altra banda, aquesta recerca va mostrar l'aprenentatge perceptiu tant
en exposicions llargues com curtes. Les conclusions van ser que és possible que
els dos mecanismes contribueixin al fenomen de l'aprenentatge perceptiu. El
manteniment de la saliència tindria efectes a curt termini (i potser també a
llarg termini), mentre que les connexions inhibidores implicarien un procés
més lent i només es manifestarien després d'una exposició relativament llarga.
Taula�resum�de�la�generalització�i�la�discriminació
Definicions Generalització: tendència a respondre a un estí-

mul nou similar a l'EC o als estímuls discriminants.
Discriminació: consisteix a respondre d'una ma-
nera diferent a dos estímuls segons les seves dife-
rències.
Fenòmens • Desplaçament del màxim

• Transposició
• Aprenentatge perceptiu
Teories de la discriminació i generalització • Gradients de generalització excitadors i inhibi-

dors (Spence, 1936)
• Aprenentatge relacional (Köhler, 1939)
• Teoria de l'atenció (Sutherland i Mackintosh,
1971)
Teories de l'aprenentatge perceptiu • Connexions inhibidores (McLaren, Kaye i

Mackintosh, 1989)
• Manteniment de la saliència (Hall, 2003)
10. Aprenentatge per observació
És indubtable que una proporció gran de l'aprenentatge humà es produeix no

amb el condicionament clàssic o com a resultat del reforçament o del càstig,
sinó per observació.
Bandura i Walters (1963) es van interessar per aquest tipus d'aprenentatge. El

seu punt de partida era que la teoria tradicional de l'aprenentatge era incom-
pleta, ja que no tenia en compte el paper de l'aprenentatge per observació.
Al llarg del mòdul "Condicionament clàssic pavlovià" com d'aquest mòdul,
hem estudiat formes d'aprenentatge que posen l'èmfasi en l'experiència indi-
vidual: un individu executa una determinada conducta i experimenta les con-
seqüències que la segueixen. En canvi, Bandura i Walters afirmen que molts
dels aprenentatges es produeixen mitjançant l'experiència dels altres i no per
la nostra experiència personal.
Observem la conducta dels altres, n'observem les conseqüències i, poste-

riorment, n'imitem les conductes.
En poques paraules, Bandura i Walters afirmen que l'enfocament tradicional

de l'aprenentatge, que emfatitza la pràctica i l'experiència personal, és insufi-
cient –pot explicar alguns tipus d'aprenentatge però no tots.
Bandura i Walters estaven interessats a explicar com es desenvolupen les dife-

rents personalitats. Accepten que algunes diferències en la personalitat de les
persones es poden deure a factors hereditaris, però que la majoria són causades
per les experiències personals d'aprenentatge. Consideren que la personalitat
adulta està marcadament influenciada per les experiències en la primera in-
fància i que aquestes experiències exerceixen la seva influència mitjançant els
principis de la teoria�de�l'aprenentatge�social.
Per teoria� de� l'aprenentatge� social, Bandura i Walters entenen una

combinació dels principis del condicionament clàssic i instrumental i
dels principis de l'aprenentatge per observació o imitació.
De fet, no rebutgen en absolut els principis de l'aprenentatge per condiciona-

ment, sinó que hi afegeixen una nova manera d'aprendre.
Tot i que la teoria de Bandura i Walters ha estat la més influent respecte al

paper que té la imitació en l'aprenentatge, no van ser els primers investigadors
que van tractar del tema.
10.1. Teories de la imitació
10.1.1. La imitació com a instint
Alguns del primers psicòlegs (Baldwin, 1906; James, 1890; Morgan, 1896; Mc-
Dougall, 1908) van suggerir que les persones i altres animals tenen una ten-
dència� innata� a� imitar el comportament d'altres individus. La idea que la
imitació és innata prové, en part, de l'evidència que els bebès poden imitar
els moviments dels adults. Per exemple, McDougall (1908) descrivia com el
seu fill de quatre mesos d'edat treia la llengua quan un adult davant seu feia
el mateix. Naturalment, hi ha la possibilitat que aquest comportament fos re-
forçat si els adults somreien o reien quan l'infant feia la conducta.
Experiments de Meltzoff i Moore (1977, 1983)
Meltzoff i Moore (1977, 1983) van dur a terme experiments controlats per tal de de-
terminar si efectivament uns bebès de 12 a 21 dies d'edat podien imitar alguns mo-
viments que feien els adults. Concretament, van utilitzar quatre moviments: treure
els llavis enfora, obrir la boca, treure la llengua i el moviment seqüencial dels dits
(vegeu la figura següent). Un model executava una de les conductes i esperava per a
veure si l'infant la repetia. Les conductes dels infants van ser enregistrades en vídeo
i puntuades per persones que desconeixien quin dels quatre gestos havia observat
l'infant en un assaig determinat. Els investigadors van trobar que els infants realment
mostraven una tendència a imitar el comportament que havien vist. Atesa l'edat dels
bebès, era poc probable que aquests comportaments haguessin estat reforçats pels
seus pares. De fet, els pares van indicar que no havien observat cap tipus d'imitació
en els seus fills.
Representació de les conductes que havien d'imitar els nadons en l'experiment de Meltzoff i Moore (1977)
Els resultats de Meltzoff i Moore s'han replicat diverses vegades i avui dia que-
da bastant clar que els nadons tenen una tendència a imitar algunes gesticula-
cions dels adults, especialment treure la llengua. No obstant això, encara no hi
ha un acord absolut sobre com s'han d'interpretar aquestes dades. Per exem-
ple, Anisfeld (1991) ha proposat que treure la llengua (i possiblement altres
conductes) és un patró d'acció fix innat (un reflex) que s'activa quan l'infant
veu que una altra persona fa el mateix gest. Meltzoff i Moore (1989) no estan
d'acord amb aquesta interpretació i mantenen que els nadons tenen la capa-
citat d'imitar moviments que veuen fer als adults. Si aquesta interpretació de
Meltzoff i Moore és correcta, llavors té repercussions importants, ja que signi-
ficaria que els humans naixem amb la capacitat d'associar determinades entra-
des sensorials (la visió d'un adult que fa un gest determinat) amb un conjunt
de moviments musculars que permeten que l'infant faci el mateix moviment
que veu. Cal tenir en compte que els nadons no tenen l'oportunitat de veure la
seva pròpia cara quan obren la boca o treuen la llengua. Encara més, la majoria
dels nadons estudiats per Meltzoff i Moore probablement no havia vist la seva
cara reflectida en un mirall. Això és, aquests infants difícilment haurien tingut
ocasió de practicar diferents postures enfront d'un mirall i associar determi-
nats moviments amb les expressions facials a les quals donen lloc. Tanmateix,
cal més recerca per a poder determinar si els nadons poden imitar un ampli
rang de moviments o només uns quants, com ara treure la llengua.
Una segona qüestió sobre la capacitat d'imitar se centra en si es tracta d'una ha-
bilitat exclusivament humana o altres espècies animals també tenen la capa-
citat d'imitar.
Thorndike (1911) no va trobar cap evidència que els seus animals aprengues-
sin a resoldre problemes mitjançant l'observació d'altres individus. Això va re-
forçar la seva llei de l'efecte i que, per tant, els animals no humans aprenien
a partir de les seves experiències directes. No obstant això, Robert (1990) ha
recollit més de 200 estudis sobre l'aprenentatge per observació en animals. Les
espècies estudiades són primats, gats, gossos, rosegadors, ocells i peixos. Les
tasques apreses variaven en complexitat.
Thorpe (1963) va proposar tres categories d'aprenentatge per observació.
• La categoria més simple proposada per Thorpe era la facilitació�social, en

què el comportament d'un individu provoca una conducta similar en un
altre individu, però que la conducta ja es troba en el repertori de l'imitador.
Experiment de Wyrwicka (1978)
Un exemple d'aquesta facilitació social el trobem en un treball de Wyrwicka (1978)

en el qual va entrenar unes gates perquè mengessin alguns aliments poc habituals
com plàtans o patates xafades i va observar que les seves cries també van començar
a menjar els mateixos aliments que les mares.
• La segona categoria d'aprenentatge per observació proposada per Thorpe

és l'augment�local, en el qual la conducta d'un model dirigeix l'atenció de
l'aprenent cap a un determinat objecte o lloc en l'entorn. Com a resultat
es té que una conducta que es podria aprendre per assaig i error s'aprèn
més ràpidament.
Experiment de Warden, Fjeld i Koch (1940)
Warden, Fjeld i Koch (1940) van entrenar unes mones a estirar d'una cadena per a
obtenir menjar com a reforçador. A continuació, es va posar una mona sense entre-
nament en una caixa idèntica propera a la caixa de la mona entrenada. Els investiga-
dors van poder constatar que la mona sense experiència observava el comportament
de la que coneixia la resposta adequada i immediatament la imitava. Probablement,
la mona ingènua hauria après la resposta per assaig i error, però el seu aprenentatge es
va veure accelerat per l'observació de la conducta de la seva companya ensinistrada.
Aquest tipus d'aprenentatge per observació també s'ha trobat en aus (per
exemple, Hogan, 1986) i, el que és més interessant, no cal que el model
i l'aprenent siguin de la mateixa espècie. Bullock i Neuringer (1977) van
trobar que uns coloms podien aprendre a executar una cadena de dues
respostes (picotejar dues tecles en un ordre concret) si observaven la mà
d'un humà que feia la seqüència correcta.
• La tercera categoria d'aprenentatge per observació proposada per Thorpe

rep el nom d'imitació�autèntica i no és fàcil de distingir de la categoria
anterior. Es refereix a la imitació d'un patró de conductes que és molt poc
probable que aparegui en una determinada espècie i que rarament pot ser
apresa per assaig i error.
Experiment de Kawai (1965)
Un exemple d'imitació autèntica la trobem en un estudi de Kawai (1965) que va

observar el comportament d'un grup de mones que vivien en una illa del Japó. Quan
els grans de blat s'escampaven per la platja, les mones els recollien d'un en un entre
els grans de sorra i se'ls menjaven. Una de les mones va descobrir que si llançava un
grapat de sorra amb el blat a l'aigua, la sorra s'enfonsava i el blat surava, cosa que
facilitava la tasca de separar-los. Ràpidament altres mones van començar a imitar
aquest comportament.
Imitació autèntica
És difícil trobar exemples de la imitació autèntica en altres espècies d'animals diferents

dels primats, però s'han descrit casos anecdòtics que es poden entendre com una evidèn-
cia d'una imitació autèntica en aus (Fisher i Hinde, 1947). El 1921, alguns habitants del
sud d'Anglaterra es van adonar que alguns ocells havien començat a obtenir llet foradant
les ampolles dipositades al llindar de les portes. Al llarg dels anys, aquest comportament
de les aus es va estendre al llarg d'Anglaterra, Gales, Escòcia i Irlanda. A més, aquest com-
portament es va observar en diferents espècies d'ocells. Com que no té massa sentit pensar
que tots aquests ocells van aprendre sobtadament aquest comportament per ells matei-
xos, devien aprendre i transmetre la conducta per mitjà de l'aprenentatge per observació.
10.1.2. La imitació com una resposta instrumental
Miller i Dollard (1941) van proposar que l'aprenentatge per observació no era
un nou tipus d'aprenentatge diferent dels condicionaments clàssic i instru-
mental, sinó que era un cas especial d'aprenentatge instrumental. Ja hem vist
que els estímuls discriminants tenien un paper important en el control de la
conducta instrumental. Segons Miller i Dollar en l'aprenentatge per observa-
ció la conducta del model tindria el paper d'estímul discriminant amb la pe-
culiaritat que la resposta reforçada seria la mateixa o molt similar a la que fa
el model.
Experiment de Miller i Dollard (1941)
En un experiment de Miller i Dollar van treballar amb parelles de nens de primer

cicle. En cada parella, un dels nens tenia el paper de model i l'altre, d'aprenent. En
cada assaig els dos nens entraven en una habitació on hi havia dues cadires i en
cadascuna una caixa. Abans de cada assaig es va indicar al nen que feia de model
que es dirigís a una de les dues caixes on hi podia haver un caramel. L'aprenent
podia veure l'elecció del model, però no si obtenia o no el caramel. A continuació,
era l'aprenent el qui havia d'anar a una de les dues caixes on podia o no trobar el
caramel. La meitat dels aprenents formaven part del grup d'imitació i eren reforçats
si emetien la mateixa resposta d'elecció que el model. L'altra meitat d'aprenents eren
del grup de no-imitació i obtenien el reforçadors si escollien la caixa que no havia
escollit el model.
Els resultats d'aquest experiment són fàcilment previsible. Després d'uns quants as-
sajos, els nens del grup d'imitació feien la mateixa elecció que el seu model, mentre
que els nens del grup de no-imitació escollien la caixa contrària a la que havia escollit
el model.
La interpretació de Miller i Dollar és que la imitació és produirà si es reforça

un individu per imitar el model i, al contrari, la imitació no es produirà si
es reforça l'individu per fer una conducta diferent de la del model. Aquesta
anàlisi de l'aprenentatge per observació no necessita diferenciar-lo com a una
forma diferent del condicionament instrumental.
Ara bé, cal ser prudents a l'hora d'acceptar aquesta explicació de l'aprenentatge
per observació ja que només és viable en situacions en què l'aprenent observa
el comportament del model, copia immediatament la conducta i rep reforça-
dor per fer-ho. Moltes conductes apreses per observació no mostren aquest
patró, com va assenyalar Bandura (1969).
Una nena petita veu que la seva mare li prepara un bol de llet amb cereals. La mare treu
el bol d'un armari i a continuació agafa la bossa de cereals d'un altre armari i n'aboca una
quantitat al bol. Acte seguit obre la nevera i pren una ampolla de llet i acaba d'omplir el
bol. Probablement, la nena pot haver atès a tota aquesta cadena de conductes però no
les executarà i, per tant, no serà reforçada. Tanmateix, l'endemà quan la mare no és a la
cuina, la nena es prepara ella sola el bol de cereals amb més o menys èxit.
L'exemple il·lustra una situació d'aprenentatge per observació en el qual la

conducta no ha estat prèviament practicada ni, en conseqüència, reforçada.
Per tant, és difícil explicar aquest aprenentatge a partir del condicionament
instrumental. Tanmateix, cal tenir en compte que els principis del condicio-
nament instrumental tampoc no poden explicar per què una rata executa per
primera vegada una pressió de palanca.
De totes maneres, podem explicar l'aparició de noves conductes si recorrem al

concepte de generalització. De fet, moltes conductes noves són variacions de
respostes similars reforçades prèviament.
Experiment de Lashley (1924)
En un experiment de Lashley (1924) es va entrenar unes rates perquè caminessin

per un laberint cobert lleugerament d'aigua per a arribar a un punt on hi havia el
reforçador. Quan es va inundar el laberint de manera que l'animal havia de nedar, les
rates no van tenir cap problema per a arribar fins al reforçador.
Podem afirmar que la conducta de nedar va ser una generalització de la conducta

prèviament reforçada de caminar per l'aigua.
Tornem a l'exemple de la nena que prepara el seu propi bol de cereals. És molt
probable que els pares reforcin els seus fills per a imitar les seves conductes. Per
exemple, podem pronunciar la paraula aigua davant del nen i si aquest emet
un so similar (abua) és molt possible que riguem, el felicitem i li fem carícies,
el que reforçarà la conducta d'imitació. D'altra banda, els components de la
conducta de preparació d'un bol de cereals es poden haver reforçat en altres
situacions. És molt probable que la nena hagués estat reforçada en el passat
per a obrir armaris, o també hauria pogut rebre reforçadors per a omplir pots
de sorra al parc o transvasar aigua d'un pot a un altre mentre jugava.
En definitiva, les conductes noves es poden produir a partir de la generalització

d'altres conductes reforçades en el passat.
Experiment de Baer, Peterson i Sherman (1967)
Per exemple, Baer, Peterson i Sherman (1967) van reforçar alguns nens amb retard
mental profund per a imitar diverses conductes executades pel professor (posar-se
drets, assentir amb el cap, obrir una porta). Després de l'establiment de les respostes
imitades (cosa que va necessitar diverses sessions), el professor feia ocasionalment
conductes noves i els nens també les van imitar encara que no havien estat reforçats
mai abans per a fer-les.
10.1.3. La teoria de Bandura sobre l'aprenentatge per imitació
Experiment de Bandura (1965)
Bandura (1965) va dur a terme un experiment sobre imitació de la conducta agressiva

en nens de quatre anys d'edat. Els nens van participar en l'experiment d'una manera
individual. Cada nen va veure primer de tot una pel·lícula curta en una pantalla de
televisor en la qual un adult feia quatre conductes agressives diferents dirigides contra
una nina de grans dimensions. Cada conducta era acompanyada de verbalitzacions
específiques. Les conductes van ser:
1) Asseure's damunt la nina i colpejar-la a la cara.

2) Colpejar el cap de la nina amb un mall.
3) Donar-li puntades de peu.
4) Llançar pilotes de goma contra la nina.
Posteriorment, alguns nens van veure que l'agressor rebia alguns reforçadors d'un
altre adult al temps que l'elogiava. Uns altres nens van veure que renyaven l'agressor.
Finalment, per a un tercer grup de nens, el vídeo no mostrava cap conseqüència de
la conducta agressiva del model.
Grup Fase d'observació Fase de prova 1 Fase de prova 2
Premi Conducta agressiva Comuna als tres grups: Comuna als tres grups: els
del model → reforça- els nens tenien accés a la nens van ser reforçats per
ment nina amb la qual havia a imitar al model d'una
actuat el model d'una manera individual.
Càstig Conducta agressiva manera individual.
del model → càstig
Sense Conducta agressiva

conse- del model → no-con-
qüència seqüència
Esquema del disseny experimental de Bandura (1965)
Immediatament després de veure la pel·lícula, cada nen entrava en una habitació on

hi havia una nina idèntica a la mostrada en la pel·lícula juntament amb altres jogui-
nes i se l'animava que hi jugués. El nen romania sol a l'habitació però se l'observava
per un mirall unidireccional. Durant el temps en què es van quedar sols a l'habitació,
els nens van mostrar moltes conductes agressives contra la nina i moltes d'elles eren
semblants a les del model. A més, els nens van mostrar més conducta agressiva que
les nenes.
Aquests resultat poden ser els esperats per la teoria de la generalització de la

imitació. No obstant això, Bandura va trobar dos aspectes de la conducta que
no poden ser explicats per aquesta teoria. La primera troballa és que les con-
seqüències que rebien els models influïa en la conducta dels nens. Concre-
tament, els nens que van observar que el model era recompensat exhibien
més conducta agressiva que els nens que havien vist com castigaven el model.
D'acord amb la teoria de la generalització de la imitació, els nens (i els adults)
imiten altres persones perquè la conducta d'imitar ha estat reforçada anterior-
ment, però no diu res sobre com el reforçament o el càstig del model afectarà
l'aprenent. La segona troballa fa referència a una fase final de l'experiment en
què Bandura va oferir reforç als nens de tots els grups per a imitar el model de la
pel·lícula. Amb aquest incentiu tots els nens dels tres grups van mostrar molta
conducta agressiva i no diferien entre les condicions experimentals. Aquestes
dades van fer que Bandura conclogués que el reforçador no és necessari per
a l'aprenentatge per observació de noves conductes, però que l'expectativa de
reforçament és essencial per a l'execució d'aquestes noves conductes. Segons
Bandura hi ha una distinció clara entre aprenentatge i conducta, i és precisa-
ment la falta d'aquesta distinció el que impedeix que la teoria de la generalit-
zació de la imitació en pugui explicar els resultats.
A partir de les seves investigacions, Bandura (1969, 1986) va proposar la teo-

ria�cognitiva�de�l'aprenentatge�per�observació. Bandura diferencia quatre
processos implicats en l'aprenentatge per observació:
1)�Processos�d'atenció. L'aprenent ha de prestar atenció a les característiques

rellevants de la conducta del model.
2)�Processos�de�retenció. És obvi que un individu ha de retenir informació
adquirida mitjançant l'observació si després vol reproduir la conducta.
3)�Processos�de�reproducció�motora. Per a poder reproduir la conducta apre-

sa mitjançant l'observació cal que l'aprenent tingui les capacitats motores mí-
nimes per a dur a terme la conducta. Colpejar una nina no presenta proble-
mes per a l'aprenent ja que té prou habilitat per a donar cops. Però un expert
jugador de billar ens pot mostrar pas per pas com fer una carambola a tres
bandes, però si l'observador no ha manipulat mai un tac, possiblement li serà
com a mínim difícil, reproduir la conducta, encara que ens en pugui fer una
descripció verbal perfecta.
4)�Processos�de�motivació�i�d'incentiu. Segons Bandura els tres primers pro-
cessos és tot el que es necessita per a adquirir la capacitat de fer una no-
va conducta, però aquesta nova conducta no es reflectirà si l'aprenent no
rep l'incentiu adequat. Perquè la conducta s'executi, l'individu ha de tenir
l'expectativa que serà reforçada. L'experiment de Bandura (1965) descrit més
amunt proporciona un exemple del paper que té l'incentiu. Els nens que van
veure com es castigava el model per agredir la nina, probablement van desen-
volupar l'expectativa que aquesta conducta té conseqüències desagradables i,
per tant, van mostrar menys conducta agressiva que els nens dels altres grups.
En canvi, quan se'ls va oferir un reforçador per a imitar la conducta del mo-
del, les seves expectatives sobre les conseqüències de la conducta van canviar i
van emetre la mateixa quantitat de conducta agressiva que els nens dels altres
grups.
10.2. Factors que afecten la probabilitat de la imitació
Fins ara hem vist dos factors importants i evidents que fan més o menys pro-
bable que un observador imiti la conducta d'un model: les conseqüències que
té el comportament sobre el model i les conseqüències sobre l'observador. Els
infants són més propensos a imitar les conductes d'un model que han estat
reforçades. Els infants també tenen més probabilitat d'imitar un model quan
han estat reforçats per la seva imitació. Ara ens centrarem en altres factors que
se sap que influeixen en la imitació.
10.2.1. Característiques del model
Els infants generalment tenen més contacte amb els seus pares que amb qual-
sevol altra persona, però això no treu que estiguin exposats a molts altres mo-
dels en potència. Els germans, els companys de classe, els professors, els avis,
personalitats de la televisió, personatges dels dibuixos animats, esportistes fa-
mosos, etc. Tanmateix, els infants no imiten per igual tots aquests possibles
models. Què fa que uns models siguin més imitats que uns altres?
Una de les característiques que fa que un model tingui més probabilitat de

ser imitat és la seva capacitat�de�reforçar�els�infants. En altres paraules, les
persones que proporcionen més reforçament, tant afectiu com d'altres formes
de reforçadors, tendeixen a ser més imitades.
Experiment de Bandura i Huston (1961)
Bandura i Huston (1961) van dur a terme un experiment en el qual una dona interac-
tuava individualment amb uns nens de llar d'infants. La dona es va mostrar afectu-
osa amb la meitat dels nens i freda i distant amb l'altra meitat. Quan més tard es
va permetre que els nens juguessin amb la dona, els qui la coneixien com a persona
afectuosa van imitar significativament més les conductes del model que els infants
que la coneixen com a persona distant.
Una segona característica del model és el poder�que�té�sobre�l'imitador. De

fet, els pares exerceixen un gran control sobre els fills quan decideixen el que
poden i el que no poden fer. Mischel i Grusec (1966) van posar a prova aquesta
hipòtesi.
Experiment de Mischel i Grusec (1966)
A uns nens de llar d'infants els van presentar una dona com la nova professora, men-
tre que per a uns altres nens, la mateixa dona va ser presentada com una professora
visitant. La idea era que els nens veurien la persona que seria la seva professora com
una persona amb més poder que si només era una visitant que no tornarien a veure
en el futur. La dona va passar una estona jugant amb cada grup per separat. Posteri-
orment, i quan no hi havia la dona present, es va deixar que els nens juguessin lliu-
rement. Els resultats van mostrar més conducta d'imitació en els nens que pensaven
que la dona seria la seva nova professora que en els nens que la veien només com
una visitant.
El concepte de poder o control equival al concepte de dominància en els cas

dels grups socials. Diversos estudis han mostrat resultats equivalents als que
acabem de veure quan el model era un nen dominant a l'aula (Abramovitch i
Grusec (1978) o una cheer-leader entre un grup de noies (McCullagh, 1986).
Una altra variable és la similitud�entre�el�model�i�l'observador. Per exemple,

s'ha demostrat que és molt més probable que un nen imiti un model que és
del mateix sexe, edat o que sembla mostrar els mateixos interessos (Burnstein,
Stotland i Zander, 1961; Davidson i Smith, 1982).
Una altra variable és la sinceritat�del�model. Klass (1979) va trobar que els

nens imitaven més un model que semblava sincer que un altre que semblava
poc sincer.
La llista de variables no és exhaustiva, però és fàcil veure que poden ser expli-
cades sense dificultat per la teoria de Bandura i de la generalització de la imi-
tació. Un nen pot haver après que una persona dominant el podrà reforçar si
l'imita. Un nen també pot haver estat reforçat per a imitar altres persones del
mateix sexe, edat, etc. i, en canvi, pot haver estat castigat per imitar persones
de diferent sexe o edat. També és possible que un nen hagi après que és poc
aconsellable imitar persones poc sinceres. D'acord amb la teoria de la genera-
lització de la imitació, cadascuna d'aquestes variables reflecteix els efectes de

l'experiència passada del nen; d'acord amb la teoria de Bandura, reflecteixen
les expectatives que té el nen del reforçament futur.
10.2.2. Característiques de l'aprenent
Un altre focus d'interès ha estat descobrir les diferències individuals que es

correlacionen amb la tendència d'una persona a imitar el comportament dels
altres. Algunes d'aquestes característiques poden semblar òbvies, però d'altres
no. Per exemple, Bandura (1965) va trobar que els nens tendeixen més a imitar
conductes agressives que les nenes. Abramovitch i Grusec (1978) van trobar
que els nens petits (quatre anys) imitaven més que nens més grans (nou anys).
També van trobar que els nens dominants (a qui imiten més) resultaven mos-
trar més conducta imitativa.
Moltes d'aquestes característiques són específiques de la situació. Tanmateix,

es pot fer una afirmació, tot i que intuïtiva, que les persones menys segures
de si mateixes tendeixen a imitar més el comportament dels altres (Thelen,
Dollinger i Kirkland, 1979). Molts estudis han manipulat el nivell de seguretat
en presentar als participants tasques que podien o no podien resoldre.
Experiment de Roberts, Boone i Wurtele (1982)
Roberts, Boone i Wurtele (1982) van treballar amb nens en edat preescolar i els van
donar a fer una tasca de discriminació. La meitat dels nens rebia retroalimentació
positiva i l'altra meitat va rebre retroalimentació negativa.
Els resultats van mostrar més imitació d'un model en els nens que havien rebut
la retroalimentació negativa.
En la mateixa línia, Jakubczak i Walters (1959) van trobar que els nens que
mostraven independència a l'hora de resoldre un problema (això és, que no
acceptaven l'ajuda malgrat que tinguessin dificultats per a resoldre els proble-
mes) eren menys propensos a imitar un model que els nens que eren altament
dependents (que acceptaven ajuda fins i tot quan no la necessitaven).
10.2.3. Característiques de la situació
Si les persones mostren més tendència a imitar quan estan insegures de la seva
conducta, llavors les situacions�ambigües també provocaran més inseguretat
i per tant més imitació.
Experiment de Thelen, Paul i Dollinger (1978)
Thelen, Paul i Dollinger (1978) van manipular la incertesa d'una situació en presen-
tar als participants, nens preadolescents, tasques que tenien dues opcions (condició
d'incertesa baixa) o amb deu opcions possibles (condició d'incertesa alta). Els nens
que es trobaven amb una situació d'incertesa alta imitaven més el model que nens
que es trobaven en la condició de certesa baixa.
Una segona variable de la situació que afecta la imitació és la dificultat�de

la� tasca encomanada. Harnick (1978) va trobar que infants entre catorze i
vint-i-vuit mesos d'edat van imitar més un model quan s'enfrontaven amb
tasques de dificultat mitjana que quan les tasques eren molt fàcils o molt difí-
cils. Aquest comportament pot ser adaptatiu, ja que quan la tasca és molt fàcil
no cal aprendre res per imitació i, d'altra banda, quan la tasca és molt difícil
ni tan sols l'observació del model pot ajudar.
Contra el que es podria pensar, la manera de presentar el model no és una

variable que afecti l'aprenentatge per observació. Bandura (1962) va comparar
models vius, enregistrats en vídeo o en dibuixos animats, tots ells mostraven
els mateixos comportaments agressius; tanmateix, no va observar diferències
significatives quant a la imitació d'aquestes conductes per part dels nens.
Què podem aprendre mitjançant l'observació?
Bandura i Walters defensen que les formes característiques de respondre

a les diferents situacions que tenen els individus, el que es pot entendre
com a personalitat, es desenvolupa principalment al llarg de la infantesa
a partir de les influències tant del condicionament instrumental com
de l'aprenentatge per observació. Aquesta idea ha promogut abundant
investigació i és remarcable en el camp de les fòbies, les addiccions i el
desenvolupament cognitiu.
En el cas de les fòbies la recerca es basa principalment en estudis correlaci-

onals, estudis de casos i informes retrospectius, cosa que no representa un
suport gaire fort a la idea que l'aprenentatge per observació sigui la base del
desenvolupament de les fòbies.
S'ha trobat que membres de la mateixa família mostren les mateixes fòbies, o que alguns
aviadors de la Segona Guerra Mundial desenvolupaven fòbies després de veure la por
d'alguns dels seus companys durant o després de les missions.
D'altra banda, es disposa de dades que suggereixen que la teoria de

l'aprenentatge social o per observació pot explicar l'adquisició de conductes
d'addicció al tabac, l'alcohol i les drogues. Ja hem vist que els principis de
reforçament i càstig poden explicar el manteniment de la conducta d'addicció
(vegeu la teoria de Solomon i Corbit) un cop ja s'ha desenvolupat. No obstant

això, l'adquisició d'aquests comportaments es pot explicar per l'aprenentatge
per observació.
La primera cigarreta que fuma una persona és una experiència aversiva, llavors, com és
possible que la persona torni a fumar? De molt petitets molts nens han estat exposats
a persones que fumaven: els pares, germans més grans, personalitats de la televisió i ci-
nema, etc. La conseqüència de fumar sembla tenir algun aspecte positiu. Algunes perso-
nes han manifestat que van començar a fumar perquè els feia més madurs, sofisticats
o atractius. Podria ser que aquests "avantatges" tinguessin més força que l'experiència
aversiva de fumar. D'aquesta manera, les persones imitarien la conducta de fumar ja que
els models són ben percebuts.
Aquestes idees van ser exposades per Kozlowski (1979). Avui dia, però, la con-
ducta de fumar comença a ser mal valorada per una gran part de la societat i
els governs de molts països han començat a restringir severament la conducta
de fumar. Si el fumador es mostra com una persona que rep més càstigs que
reforços, s'espera d'acord amb la teoria de l'aprenentatge per observació, que
el nombre de joves que inicia l'hàbit es vegi reduït significativament.
També sembla que la teoria de l'aprenentatge per observació pot explicar el

desenvolupament de l'alcoholisme. O'Leary, O'Leary i Donovan (1976) van
trobar que hi havia una tendència que els pares de les persones alcohòliques
s'ubiquessin en una de dues categories: o bé eren grans consumidors o bé tot
el contrari, abstemis molt rígids. La idea d'O'Leary i col·laboradors era que en
ambdós casos els pares eren mals models per a un consum moderat d'alcohol.
Si els pares són grans bevedors, els fills poden imitar aquest comportament.
Si els pares són abstemis, llavors els fills també poden imitar aquest compor-
tament. Però imaginem que el fill d'uns pares totalment abstemis decideix co-
mençar a beure. Els pares no hauran mostrat mai al fill els hàbits que prevenen
caure en l'alcoholisme (com, per exemple, beure només en ocasions especials,
no beure mai abans del treball o deixar de consumir alcohol després d'una o
dues begudes). Tret que els fills hagin après aquestes guies en un altre entorn,
poden progressar d'una manera inadvertida cap al consum patològic d'alcohol.
10.3. Influència de l'aprenentatge per observació en el

desenvolupament cognitiu
A continuació, analitzarem com l'aprenentatge social pot influir en el desen-

volupament cognitiu.
Piaget (1926, 1929) va suggerir que a mesura que els infants creixen van pas-
sant per diferents etapes de desenvolupament cognitiu i que passar d'una etapa
a l'altra depèn del creixement, de la maduració i de l'experiència personal. Els
teòrics de l'aprenentatge social (per exemple, Rosenthal i Zimmerman, 1972,
1978) defensen que l'aprenentatge per observació és el principal mecanisme
per al desenvolupament de les habilitats cognitives.
Per tal de posar-ne un exemple, analitzarem la tasca de conservació. En una de

les seves versions, es mostra als infants tres recipients cilíndrics transparents.
Dos d'ells són idèntics i contenen la mateixa quantitat d'aigua. La prova s'inicia
en preguntar quin dels dos recipients conté més quantitat d'aigua i la resposta
habitual és que en contenen la mateixa quantitat. A continuació i davant del
nen, es traspassa l'aigua d'un dels recipients al tercer que és més prim i alt.
Es torna a preguntar al nen quin dels dos recipients conté més aigua. Si el
nen respon que en contenen la mateixa quantitat, llavors el nen ja ha assolit
el concepte de conservació dels volums. Tanmateix, la majoria dels infants
de menys de set anys d'edat respon que hi ha més aigua al recipient estret i
alt. Sembla ser que aquests infants es deixen portar per l'alçària del nivell de
l'aigua en cada recipient i ignoren altres característiques com, per exemple, el
diàmetre de la base del recipient. Aquests infants encara no han après que els
líquids mantenen el seu volum constant amb independència de la forma del
recipient que els contingui.
Rosenthal i Zimmerman van intentar demostrar que l'adquisició del concep-

te de la conservació dels volums no depenia de la simple maduració i de
l'experiència personal, sinó de l'aprenentatge per observació. En un dels seus
experiments, uns nens que encara no havien adquirit el concepte de conser-
vació dels volums, van observar com un model adult executava correctament
la tasca. L'experiment constava de dos grups que diferien només en el fet que
en un d'ells el model explicava per què els dos recipients contenien la mateixa
quantitat d'aigua.
Posteriorment a l'observació del model, els dos grups van haver de resoldre
diversos problemes relacionats amb la conservació dels volums. Els resultats
van mostrar que els nens dels dos grups van millorar en la realització de la
tasca, i els qui en rebien una explicació van mostrar una millora més gran.
Una crítica a aquests resultats és que els nens podien aprendre a canviar la Aprenentatge per
seva resposta, però sense entendre el perquè (Kuhn, 1974). No obstant això, observació
hi ha evidència que els nens poden resoldre problemes diferents dels que han També s'ha trobat que
vist resoldre als models. Per exemple, Rosenthal i Zimmerman van trobar que l'aprenentatge per observació
millora l'execució en altres ti-
els nens eren capaços de resoldre un problema de conservació del nombre que pus de tasques cognitives com
l'adquisició de regles grama-
implica la comprensió que el nombre d'objectes en una línia no varia si la línia ticals, conceptes abstractes i
solució de problemes (Rivera
es fa més llarga espaiant més els objectes. Els nens eren capaços de resoldre i Smith, 1987; Zimmerman i
correctament aquesta nova tasca després d'haver vist actuar el model en la Blom, 1983).
tasca de conservació de volums, però mai en la de conservació del nombre.
Bandura també ha proposat que l'aprenentatge per observació pot influir en el

judici dels infants respecte a quines conductes són bones i quines són dolentes.
Un nen que observa un comportament honest en els seus pares quant a qüestions finan-
ceres, pot aprendre a comportar-se de la mateixa manera. En canvi, un nen que observa
que els seus pares estafen, fan trampes en la declaració de la renda, deixen de pagar fac-
tures, poden aprendre que aquests comportaments són acceptats o fins i tot desitjables.
Experiment de Bandura i McDonald (1963)
En un experiment, Bandura i McDonald (1963) van presentar problemes sobre judi-

cis morals desenvolupats inicialment per Piaget (1932). Es demanava a uns nens un
judici sobre quina de dues situacions hipotètiques era una entremaliadura abans i
després de veure un model en què es feien judicis similars. En cada parella d'històries,
un protagonista provocava un dany més gran que un altre, però les seves intencions
eren millors. Per exemple, en una situació un nen obeïa la seva mare que l'havia cri-
dat a sopar i en obrir una porta colpejava una cadira i tirava per terra i trencava un
munt de tasses de cafè que eren sobre la cadira. Aquest nen provocava un gran dany
mentre obeïa la mare. La segona història mostrava un nen que trencava una tassa de
cafè mentre intentava agafar un pot de galetes quan la seva mare no el veia. Aquest
nen provocava un dany inferior mentre feia una entremaliadura. Els nens petits jut-
gen l'entremaliadura amb relació a la grandària del dany causat, mentre que els nens
més grans tenen en compte les intencions de les persones quan fan els seus judicis.
Després que els nens de l'experiment de Bandura i McDonald haguessin donat el seu
judici, cadascun va observar un model adult que donava el judici contrari (indepen-
dentment del tipus de decisió que havia pres cada nen). Els resultats van mostrar que
els participants en l'experiment podien canviar els seus judicis en qualsevol direcció
després d'haver vist el model. El fet que els judicis durant la prova eren sobre històries
completament noves mostra que els nens havien après una regla general sobre els
judicis morals.
Tot i que no entrarem en detalls, l'aprenentatge per observació s'ha utilitzat

com una eina en les teràpies de conducta. Se n'ha observat l'eficàcia per a fa-
cilitar conductes amb baixa probabilitat d'aparició, l'adquisició de noves con-
ductes, l'eliminació de pors i de conductes no desitjades.
Exercicis d'autoavaluació
Preguntes�d'alternatives�múltiples
1. Segons Skinner (1938), un reforçador és un esdeveniment que...
a) redueix l'impuls.
b) produeix por.
c) redueix el nivell de dolor.
d) augmenta la probabilitat d'execució d'una resposta.
2. La llei de l'efecte de Thorndike proposa que...
a) la força de la connexió estímul-estímul pot augmentar amb l'experiència.

b) el subjecte en un experiment d'aprenentatge pot ser motivat per a formar una associació.
c) el reforç enforteix l'associació entre un estímul i una resposta.
d) l'aprenentatge es produeix només quan un estímul és seguit d'una resposta.
3. Què és un estímul discriminant?
a) És un estímul que assenyala la disponibilitat del reforçador.

b) És un estímul biològicament potent i que se sol denominar reforçador.
c) És un estímul que provoca una resposta reflexa que en el condicionament instrumental
es dóna per suposada.
d) És un estímul intens indispensable per al condicionament instrumental.
4. En el procediment de REC, necessitem que els animals mostrin una taxa de resposta en
la tasca instrumental alta i estable. Quin dels programes bàsics de reforç següents garanteix
una taxa de resposta alta i estable?
a) Interval fix.
b) Raó variable.
c) Raó fixa.
d) Interval variable.
5. Retirar el permís de conduir a algú per conduir sota els efectes de l'alcohol és un exemple
a) de càstig.
b) d'entrenament de recompensa.
c) d'entrenament d'evitació.
d) d'entrenament d'omissió.
6. En el procediment d'omissió, l'execució de la resposta instrumental dóna lloc...
a) a l'aparició d'un estímul aversiu.

b) a la retirada d'un estímul aversiu.
c) a l'aparició d'un estímul apetitiu.
d) a la retirada d'un estímul apetitiu.
7. La resposta d'escapada consisteix en una resposta que es dóna per a...
a) impedir l'aparició d'un EI apetitiu.

b) fer desaparèixer un EI apetitiu.
c) fer desaparèixer un EI aversiu.
d) impedir l'aparició d'un EI aversiu.
8. En què s'assembla l'entrenament de càstig positiu al de reforçament negatiu (escapada-evi-

tació)?
a) En els dos entrenaments es pretén instaurar una nova conducta.

b) En els dos entrenaments s'utilitzen EI aversius.
c) En els dos entrenaments es pretén suprimir una conducta en curs.
d) Els dos entrenaments s'emmarquen en el condicionament clàssic.
9. En què consisteix un programa d'interval variable (IV)?
a) El reforçament es presenta al subjecte per la primera resposta que fa un cop transcorreguda

una quantitat fixa de temps des de l'últim reforçament.
b) El subjecte és recompensat per cada n respostes (prèviament fixades).
c) El subjecte és recompensat per cada n respostes, però el nombre de respostes requerit per
a la presentació del reforç varia aleatòriament.
d) La recompensa està disponible un cop transcorregut un temps determinat, la duració del
qual varia aleatòriament.
10. Què representa el pendent de la línia que es dibuixa en un registre acumulatiu?
a) La intensitat de les respostes.

b) La taxa de respostes.
c) Les aproximacions successives de les respostes.
d) El nombre d'errors de les respostes que mesurem.
11. Segons es pot observar en el gràfic, quin programa de reforçament pot estar reflectint?
a) RF10.
b) IF2''.
c) RV10.
d) Cap dels tres.
12. En què consisteix la tècnica de l'emmotllament?
a) En l'establiment d'una nova conducta aparellant-la a un reforç positiu.

b) En la imitació de la conducta d'un model que executa una resposta nova.
c) En l'establiment d'una nova pauta de conducta mitjançant el reforçament diferencial de
conductes que s'aproximen successivament a la conducta volguda.
d) És una tècnica molt utilitzada a les perruqueries, però amb un interès escàs per a la psi-
cologia.
13. La llei de la igualació reflecteix un fet fonamental de la conducta d'elecció entre dues
alternatives A i B, i indica que...
a) la taxa relativa de respostes en l'alternativa A és igual que la taxa relativa de respostes en

l'alternativa B.
b) la taxa relativa de respostes en l'alternativa A és igual que la taxa relativa de reforçaments
en l'alternativa B.
c) la taxa relativa de respostes en l'alternativa A és igual que la taxa relativa de reforçaments
per a aquesta alternativa.
d) la taxa relativa de reforçaments en l'alternativa A és igual que la taxa relativa de reforça-
ments en l'alternativa B.
14. Com podem observar en la figura, tenim una gallina sotmesa a dos programes concurrents
de reforç. Segons la llei de la igualació, quina seria la distribució de resposta esperada en les
dues tecles?
a) En la tecla VI 30 segons, el doble de respostes que en la tecla VI 60 segons.

b) En la tecla VI 60 segons, el doble de respostes que en la tecla VI 30 segons.
c) En les dues tecles igual.
d) No ho podem saber.
15. Què suposa per a la teoria d'Spence de l'aprenentatge discriminant el fet que es puguin
presentar gradients d'excitació i d'inhibició entorn de l'E+ i entorn de l'E–?
a) Un problema per a la teoria.

b) Un gran suport a la teoria.
c) No suposa res.
d) No s'ha pogut demostrar mai l'existència de gradients de generalització inhibidors.
16. Imaginem que ensinistrem un grup de coloms a picotejar en presència d'un llum de
580nm de longitud d'ona i, posteriorment, els posem a prova en presència de llums d'altres
colors. Els resultats que observem en la gràfica mostren que les seves respostes estan en funció
del grau de semblança dels estímuls de prova amb l'estímul d'entrenament original. Aquest
tipus de resultats constitueix...
a) un contrast de conducta.
b) un desplaçament del màxim.
c) un gradient de generalització.
d) un gradient pla de generalització.
17. En la gràfica es mostren dos gradients de generalització. Quin fenomen es pot observar?
a) Una discriminació extradimensional.

b) L'efecte de transposició en el grup G1.
c) Un gradient de generalització excitador en el grup G1 i un gradient de generalització
inhibidor en el grup G2.
d) El desplaçament del màxim en el grup G2.
Preguntes�obertes
1) Compareu els mètodes d'operant lliure i d'assajos discrets en la recerca del condicionament
instrumental (apartat 3).
2) Contrasteu el reforçament positiu i el negatiu (apartat 4).
3) Quins són els efectes de la demora en el reforçament i com es poden minimitzar? (apartat 5)
4) Compareu els programes de raó i d'interval (apartat 6).
5) Què ens indica la recerca amb programes concurrents i concurrents encadenats sobre la
conducta d'elecció? (apartat 6)
6) Descriviu les diferents associacions que es poden inferir en el condicionament instrumen-
tal (apartat 9).
7) Compareu la teoria de Premack i les teories sobre regulació conductual (apartat 9).
8) Descriviu el gradient de generalització i els efectes que s'hi associen (apartat 10).
9) Com pot explicar la teoria d'Spence el desplaçament del màxim (apartat 10).
10) Quins mecanismes s'han proposat per a explicar l'aprenentatge perceptiu? (apartat 10)
11) Descriviu els processos implicats en l'aprenentatge per observació proposats per Bandura
(apartat 11).
Solucionari
Exercicis d'autoavaluació
1.�d
2.�c
3.�a
4.�b
5.�d
6.�d
7.�c
8.�b
9.�d
10.�b
11.�a
12.�c
13.�c
14.�a
15.�b
16.�c
17.�d
Glossari
aprenentatge relacional m Concepció segons la qual la discriminació entre dos estímuls
es basa en una relació entre ells.
associació jeràrquica f Una associació entre un estímul i una relació resposta-conseqüèn-

cia particular.
associació R-C f Vegeu associació�resposta-conseqüència.
associació resposta-conseqüència f Una associació entre la conducta d'un individu i

una conseqüència, per exemple, menjar.
sigla associació�R-C
autocontrol m Una condició que descriu la situació en la qual un individu escull l'opció
d'una recompensa gran, però demorada en lloc d'una recompensa petita i immediata.
canvi extradimensional m Procediment en què varia la resposta d'elecció correcta i la

dimensió de l'estímul en què difereixen les possibles eleccions.
canvi intradimensional m Procediment en què varia la resposta d'elecció correcta, però

es manté la dimensió de l'estímul en què difereixen les possibles eleccions.
càstig m Un procediment de condicionament instrumental en què una conducta és seguida

d'un estímul aversiu.
condicionament instrumental m Una forma d'aprenentatge en la qual un estímul és

contingent a una resposta.
conducta maladaptada f Conductes innates evocades pel reforçador i que interfereixen

amb la conducta instrumental.
en misbehaviour
contigüitat temporal f Immediatesa de la presentació del reforçador.
contingència f Dependència de la presentació del reforçador de l'execució de la resposta

instrumental.
contrast negatiu m Una reducció de la resposta com a conseqüència d'una reducció del
valor del reforçador.
contrast positiu m Un increment de la resposta com a conseqüència d'un augment del

valor del reforçador.
control per l'estímul m El grau en què un estímul provoca la resposta.
desplaçament del màxim m Un desplaçament del màxim del gradient de generalització

respecte de l'E+ i en direcció oposada a l'E–.
sin. compl. desplaçament�del�vèrtex
desplaçament del vèrtex m sin. desplaçament�del�màxim
discriminació f Consisteix a respondre d'una manera diferent a dos estímuls segons les
seves diferències.
efecte del reforçament parcial m Dificultat d'extingir una resposta que ha estat refor-
çada parcialment.
emmotllament m Un procediment per a enfortir una resposta instrumental, per mitjà de

reforçar aproximacions successives a la resposta criteri final.
entrenament d'omissió m Un procediment de condicionament instrumental en què la

resposta és seguida de la retirada d'un estímul apetitiu.
escapada f Un procediment de condicionament instrumental en què la resposta és seguida

de la retirada d'un estímul aversiu.
estímul discriminant m Estímul que informa de la disponibilitat del reforçador.
evitació f Un procediment de condicionament instrumental en què la resposta impedeix

la presentació d'un estímul aversiu.
força de l'hàbit f Tendència a executar una resposta en presència d'un estímul determinat.
generalització f Tendència a respondre a un estímul nou similar a l'EC o als estímuls

discriminants.
gradient de generalització m Relació entre la força de la resposta als estímuls de prova

en funció de la seva similitud amb l'EC o amb els estímuls discriminants.
hipòtesi del marcatge f Una teoria de la facilitació de l'aprenentatge, segons la qual la

presentació d'una clau després d'una resposta d'elecció marca aquesta resposta en la memòria
de l'animal.
imitació f Reproducció d'una conducta observada en un altre individu.
impuls m Un estat de l'organisme que correspon a un desequilibri biològic.
infraigualació f Una taxa de resposta per al millor de dos programes de reforçament

inferior a la que prediu la llei de la igualació.
llei de la igualació f Un enunciat matemàtic que descriu la relació entre la taxa de res-
posta i la taxa de reforçament.
maximització f Teoria de la igualació que afirma que la conducta de la igualació es pro-

dueix perquè l'animal pretén obtenir el màxim de reforçadors.
millorament m Teoria de la igualació que afirma que la conducta de la igualació es pro-

dueix perquè l'animal escull contínuament l'opció amb la taxa de reforçament més gran en
un moment determinat.
misbehaviour f Vegeu conducta�maladaptada.
pausa postreforçament f Període posterior al reforçament en què l'individu deixa de

respondre. S'observa en els programes de reforçament de raó i d'interval fixos.
programa de reforçament d'interval fix m Un programa de reforçament intermitent

en què el subjecte rep la recompensa per respondre després d'un període determinat de temps.
sigla programa�IF
programa de reforçament d'interval variable m Un programa de reforçament inter-

mitent en què el subjecte rep la recompensa per respondre després d'un període de temps
que varia d'un reforçador a un altre.
sigla programa�IV
programa de reforçament de raó fixa m Un programa de reforçament intermitent en

què el subjecte rep la recompensa per respondre un determinat nombre de vegades.
sigla programa�RF
programa de reforçament de raó variable m Un programa de reforçament intermitent

en què el subjecte rep la recompensa per respondre un determinat nombre de vegades, que
varia entre un reforçador i el següent.
sigla programa�RV
programa de reforçament continu m Un programa de reforçament en què la conse-

qüència es presenta cada vegada que s'executa la resposta.
programa de reforçament intermitent m Vegeu programa�de�reforçament�parcial.
programa de reforçament parcial m Un programa de reforçament en què la conse-

qüència no es presenta cada vegada que s'executa la resposta.
sin. compl. programa�de�reforçament�intermitent
programa IF m Vegeu programa�de�reforçament�d'interval�fix.
programa IV m Vegeu programa�de�reforçament�d'interval�variable.
programa RF m Vegeu programa�de�reforçament�de�raó�fixa.
programa RV m Vegeu programa�de�reforçament�de�raó�variable.
punt de complaença m La combinació preferida de dues activitats.

reforçador m Estímul que contingent a la resposta fa que incrementi la taxa de la resposta.
reforçador condicionat m Un estímul inicialment neutre que pel seu aparellament amb
un reforçador primari adquireix la propietat de reforçar una conducta.
sin. compl. reforçador�secundari
reforçament negatiu m Un procediment del condicionament instrumental en què una

resposta elimina o impedeix la presentació d'un estímul aversiu.
reforçament positiu m Un procediment de condicionament instrumental en què la res-

posta és seguida de la presentació d'un estímul apetitiu.
reforçador secundari m sin. reforçador�condicionat
sobreigualació f Una taxa de resposta per al millor de dos programes de reforçament

superior a la que prediu la llei de la igualació.
Què hauríeu de saber?
Després d'estudiar el mòdul de condicionament instrumental hauríeu de

conèixer els mètodes d'operant lliure i d'assajos discrets utilitzats en la recerca
sobre condicionament instrumental. També és important que es recordi tot el
que té relació amb el reforçament positiu i reforçament negatiu, i també amb
el càstig i l'entrenament per omissió. Cal conèixer també els efectes que té la
demora en el reforçament sobre l'aprenentatge instrumental. Relacionat amb
aquest darrer punt, és convenient conèixer la importància de la contingència
entre resposta i reforçador.
Respecte als programes de reforçament és necessari conèixer els efectes que

tenen sobre la conducta, pel que fa a la seva taxa i estabilitat. Quant a la llei de
la igualació cal conèixer-ne la formulació i les teories que l'expliquen. També
és interessant poder distingir entre els programes concurrents i els programes
concurrents encadenats.
Amb relació a les teories sobre el condicionament cal tenir coneixement de

les diferents associacions que es produeixen entre els estímuls discriminants,
les respostes i les conseqüències. També és útil conèixer les teories sobre la
regulació de la conducta.
Quant al control per l'estímul cal saber què és la discriminació i la generalit-

zació. Saber interpretar un gradient de generalització i quins factors en poden
determinar la forma. Cal tenir coneixements sobre el desplaçament del màxim
i com s'interpreta des de les perspectives absolutes i relacionals.
Pel que fa a l'aprenentatge observacional és necessari conèixer les bases de la

conducta imitativa i les teories proposades per a explicar-la. És importat saber
diferenciar entre la conducta imitativa com a resposta instrumental i el punt
de vista de Bandura. A partir d'aquesta darrera teoria cal conèixer els diferents
processos implicats en l'aprenentatge per observació i els factors relacionats
amb el model i l'aprenent que influeixen en l'aprenentatge per observació.
Bibliografia
Bibliografia recomanada
Alloway, T., Wilson, G., i Graham, J. (2006). Sniffy: La rata virtual. Madrid: Thompson.
Dickinson, A. (1984). Teorías actuales del aprendizaje animal (original anglès, 1980). Madrid:
Editorial Debate.
Domjan, M. (2003). Principios de aprendizaje y conducta (original anglès, 2003). Madrid: Thom-
son.
Froufe, M. (2004). Aprendizaje asociativo. Madrid: Thompson.
Mackintosh, N. J. (1988). Condicionamiento y aprendizaje asociativo (original anglès, 1983).

Madrid: Alhambra Universidad.
Maldonado, A. (1998). Aprendizaje, cognición y comportamiento humano. Madrid: Biblioteca

Nueva.
Pearce, J. M. (1998). Aprendizaje y cognición (original anglès, 1997). Barcelona: Ariel.
Pellón, R. i Huidobro, A. (Ed.). (2004). Inteligencia y aprendizaje. Barcelona: Ariel.
Tarpy, R. M. (2000). Aprendizaje: Teoría e investigación contemporáneas (original anglès, 1997).

Madrid: McGraw-Hill.
Referències bibliogràfiques
Abramovitch, R. i Grusec, J. E. (1978). Peer imitation in a natural setting. Child Dev., 03;
49(1), 60-65.
Alberts, E. i Ehrenfreund, D. (1951). Transposition in children as a function of age. J. Exp.

Psychol., 01; 41(1), 30-38.
Allison, J. (1989). The nature of reinforcement. A S. B. Klein i R. R. Mowrer (Ed.), Contempo-

rary learning theories: Instrumental conditioning theory and the impact of biological constraints on
learning (pp. 13-39). Hillsdale, NJ, England: Lawrence Erlbaum Associates.
Alloway, T., Wilson, G., i Graham, J. (2006). Sniffy: La rata virtual. Madrid: Thompson.
Amsel, A. (1992). Frustration theory: An analysis of dispositional learning and memory. Nova
York, NY, EUA: Cambridge University Press.
Anisfeld, M. (1991). Neonatal imitation. Developmental Review, 03; 11(1), 60-97.
Artigas, A. A., Sansa, J., Blair, C. A. J., Hall, G., i Prados, J. (2006). Enhanced discrimination
between flavor stimuli: Roles of salience modulation and inhibition. J. Exp. Psychol.: Anim.
Behav. Processes, 04; 32(2), 173-177.
Artigas, A. A., Sansa, J., i Prados, J. (2006). The espinet and the perceptual learning effects
in flavour aversion conditioning: do they depend on a common inhibitory mechanism? The
Quarterly Journal of Experimental Psychology, 59, 471-481.
Azrin, N. H. i Holz, W. C. (1966). Punishment. A W. K. Honig (Ed.), Operant behavior: Areas

of research and application. Englewood Cliffs, NJ: Prentice Hall.
Azrin, N. H., Holz, W. C., i Hake, D. F. (1963). Fixed-ratio punishment. J. Exp. Anal. Behav.,
6(2), 141-148.
Azrin, N. H., Hutchinson, R. R., i Hake, D. F. (1966). Extinction-induced aggression. J. Exp.

Anal. Behav., 9(3), 191-204.
Azrin, N. H. (1960). Effects of punishment intensity during variable-interval reinforcement.

J. Exp. Anal. Behav., 3, 123-142.
Azrin, N. H. (1956). Some effects of two intermittent schedules of immediate and non-
immediate punishment. Journal of Psychology: Interdisciplinary and Applied, 42, 3-21.
Baer, D. M., Peterson, R. F., i Sherman, J. A. (1967). The Development of Imitation by Rein-
forcing Behavioral Similarity to a Model. J. Exp. Anal. Behav., 10(5), 405-416.
Balaban, M. T., Rhodes, D. L., i Neuringer, A. (1990). Orienting and defense responses to
punishment: Effects on learning. Biol. Psychol., 06; 30(3), 203-217.
Baldwin, J. M. (1906). Mental development, methods, and processes. Nova York: Macmillian.
Bandura, A. i Huston, A. C. (1961). Identification as a process of incidental learning. The

Journal of Abnormal and Social Psychology, 09; 63(2), 311-318.
Bandura, A. (1986). Social foundations of thought and action: A social cognitive theory. Englewood
Cliffs, NJ, EUA: Prentice Hall.
Bandura, A. (1969). Principles of behavior modification. Oxford, Anglaterra: Holt, Rinehart &
Winston.
Bandura, A. (1965). Influence of models' reinforcement contingencies on the acquisition of

imitative responses. J. Pers. Soc. Psychol., 06; 1(6), 589-595.
Bandura, A. (1962). Social learning through imitation. A M. R. Jones (Ed.), Nebraska Sympo-
sium on Motivation (pp. 211-274). Oxford, Anglaterra: Univer. Nebraska Press.
Bandura, A. i McDonald, F. J. (1963). Influence of social reinforcement and the behavior of

models in shaping children's moral judgment. The Journal of Abnormal and Social Psychology,
09; 67(3), 274-281.
Bandura, A. i Walters, R. H. (1963). Social learning and personality development. Nova York:
Holt Rinehart and Winston.
Baron, A. i Herpolsheimer, L. R. (1999). Averaging effects in the study of fixed-ratio response

patterns. J. Exp. Anal. Behav., 03; 71(2), 145-153.
Baum, W. M. (1974). On two types of deviation from the matching law: Bias and under-
matching. J. Exp. Anal. Behav., 07; 22(1), 231-242.
Breland, K. i Breland, M. (1961). The misbehavior of organisms. Am. Psychol., 11; 16(11),
681-684.
Bullock, D. i Neuringer, A. (1977). Social learning by following: An analysis. J. Exp. Anal.

Behav., 01; 27(1), 127-135.
Burnstein, E., Stotland, E., i Zander, A. (1961). Similarity to a model and self-evaluation. The
Journal of Abnormal and Social Psychology, 03; 62(2), 257-264.
Capaldi, E. J. (1967). A sequential hypothesis of instrumental learning. A K. W. Spence i J.

T. (Ed.), The psychology of learning and motivation (I). Oxford, Anglaterra: Academic Press.
Capaldi, E. J. (1966). Partial reinforcement: A hypothesis of sequential effects. Psychol. Rev.,

09; 73(5), 459-477.
Chatlosh, D. L., Neunaber, D. J., i Wasserman, E. A. (1985). Response-outcome contingency:

Behavioral and judgmental effects of appetitive and aversive outcomes with college students.
Learn. Motiv., 02; 16(1), 1-34.
Colwill, R. M. i Rescorla, R. A. (1988). Associations between the discriminative stimulus

and the reinforcer in instrumental learning. J. Exp. Psychol.: Anim. Behav. Processes, 04; 14(2),
155-164.
Colwill, R. M. i Rescorla, R. A. (1985). Postconditioning devaluation of a reinforcer affects

instrumental responding. J. Exp. Psychol.: Anim. Behav. Processes, 01; 11(1), 120-132.
Crespi, L. P. (1942). Quantitative variation of incentive and performance in the white rat.
Am.J.Psychol., 55: 467-517.
Davidson, E. S. i Smith, W. P. (1982). Imitation, social comparison, and self-reward. Child

Dev., 08; 53(4), 928-932.
Dickinson, A., Watt, A., i Griffiths, W. J. (1992). Free-operant acquisition with delayed rein-
forcement. The Quarterly Journal of Experimental Psychology B: Comparative and Physiological
Psychology, 10; 45(3), 241-258.
Dinsmoor, J. A. (1977). Escape, avoidance, punishment: Where do we stand? J. Exp. Anal.

Behav., 07; 28(1), 83-95.
Dinsmoor, J. A. (1955). Punishment: II. An Interpretation of Empirical Findings. Psychol.

Rev., 03; 62(2), 96-105.
Dinsmoor, J. A. (1954). Punishment: I. The avoidance hypothesis. Psychol. Rev., 01; 61(1),
34-46. Domjan
Espinet, A., Iraola, J. A., Bennett, C. H., i Mackintosh, N. J. (1995). Inhibitory associati-
on between neutral stimuli in flavor-aversion conditioning. Anim. Learn. Behav., 11; 23(4):
361-368.
Fisher, J. i Hinde, C. A. (1947). The opening of milk bottles by birds. British Birds, 42: 347-357.
Flaherty, C. F. (1996). Incentive relativity. Nova York, NY, EUA: Cambridge University Press.
Flora, S. R. i Pavlik, W. B. (1990). Conventional and reversed partial reinforcement effects in

human operant responding. Bulletin of the Psychonomic Society, 09; 28(5), 429-432.
Gibbon, J. i Church, R. M. (1992). Comparison of variance and covariance patterns in parallel

and serial theories of timing. J. Exp. Anal. Behav., 05; 57(3), 393-406.
Gibson, E. J. (1969). Principles of perceptual learning and development. East Norwalk, CT, EUA:
Appleton-Century-Crofts.
Gibson, E. J. i Walk, R. D. (1956). The effect of prolonged exposure to visually presented

patterns on learning to discriminate them. J. Comp. Physiol. Psychol., 06; 49(3): 239-242.
Gonzalez, R. C., Gentry, G. V., i Bitterman, M. E. (1954). Relational discrimination of inter-

mediate size in the chimpanzee. J. Comp. Physiol. Psychol., 10; 47(5): 385-388.
Gulliksen, H. (1932). Studies of transfer of response: I. Relative versus absolute factors in the
discrimination of size by the white rat. Journal of Genetic Psychology, 40: 37-51.
Guttman, N. i Kalish, H. I. (1956). Discriminability and stimulus generalization. J. Exp. Psyc-

hol., 01; 51(1): 79-88.
Hall, G. (2003). Learned changes in the sensitivity of stimulus representations: Associative

and nonassociative mechanisms. The Quarterly Journal of Experimental Psychology B: Compa-
rative and Physiological Psychology, 56B(1): 43-55.
Hammond, L. J. (1980). The effect of contingency upon the appetitive conditioning of free-
operant behavior. J. Exp. Anal. Behav., 11; 34(3): 297-304.
Hanson, H. M. (1959). Effects of discrimination training on stimulus generalization. J. Exp.

Psychol., 11; 58(5): 321-334.
Harnick, F. S. (1978). The relationship between ability level and task difficulty in producing
imitation in infants. Child Dev., 03; 49(1): 209-212.
Hendry, D. P. i Van-Toller, C. (1964). Fixed-ratio punishment with continuous reinforcement.

J. Exp. Anal. Behav., 7(4): 293-300.
Herrnstein, R. J. (1969). Method and theory in the study of avoidance. Psychol. Rev., 01;
76(1): 49-69.
Herrnstein, R. J. (1961). Relative and absolute strength of response as a function of frequency

of reinforcement. J. Exp. Anal. Behav., 4, 267-272.
Herrnstein, R. J. i Hineline, P. N. (1966). Negative reinforcement as shock-frequency reduc-

tion. J. Exp. Anal. Behav., 9(4), 421-430.
Hogan, D. E. (1986). Observational learning of a conditional hue discrimination in pigeons.

Learn. Motiv., 02; 17(1), 40-58.
Holz, W. C. i Azrin, N. H. (1961). Discriminative properties of punishment. J. Exp. Anal.

Behav., 4: 225-232.
Honig, W. K., Boneau, C. A., Burstein, K. R., i Pennypacker, H. S. (1963). Positive and nega-
tive generalization gradients obtained after equivalent training conditions. J. Comp. Physiol.
Psychol., 02; 56(1), 111-116.
Hull, C. L. (1952). A behavior system: an introduction to behavior theory concerning the individual
organism. New Haven, CT, EUA: Yale University Press.
Hull, C. L. (1943). Principles of behavior: an introduction to behavior theory. Oxford, Anglaterra:

Appleton-Century.
Hull, C. L. (1934). Learning: II. The factor of the conditioned reflex. A Handbook of General Expe-
rimental Psychology (pp. 382-455). Worcester, MA, EUA: Clark University Press,.
Hutt, P. J. (1954). Rate of bar pressing as a function of quality and quantity of food reward.
J. Comp. Physiol. Psychol., 06; 47(3), 235-239.
Jakubczak, L. F. i Walters, R. H. (1959). Suggestibility as dependency behavior. The Journal of

Abnormal and Social Psychology, 07; 59(1), 102-107.
James W. Association (1980). A W. James (Ed.), The principles of psychology (I, pp. 550-604).
Nova York, NY, EUA: Henry Holt and Co.
Jenkins, H. M. (1977). Sensitivity of different response systems to stimulus-reinforcer and

response-reinforcer relations. A H. Davis i H. M. B. Hurwitz (Ed.), Operant-Pavlovian interac-
tions. Hillsdale, NJ: Erlbaum.
Jenkins, H. M. i Harrison, R. H. (1962). Generalization gradients of inhibition following

auditory discrimination learning. J. Exp. Anal. Behav., 5(4), 435-441.
Kawai, M. (1965). Newly acquired pre-cultural behavior of the natural troop of Japanese
monkeys on Koshima islet. Primates,6, 1-30.
Klass, E. T. (1979). Relative influence of sincere, insincere, and neutral symbolic models. J.
Exp. Child Psychol., 02; 27(1), 48-59.
Köhler, W. (1939). Simple structural function in the chimpanzee and the chicken. A W. D.
Ellis (Ed.), A source book of gestalt psychology. Nova York: Harcourt Brace.
Kozlowski, L. T. (1979). Psychosocial influences on cigarette smoking. A N. A. Krasnegor

(Ed.), The behavioral influences on cigarette smoking. NIDA Research Monograph 26. DHEW
Publication No. (ADM) 79-882.
Kuhn, D. (1974). Inducing development experimentally: Comments on a research paradigm.

Developmental Psychology, 10, 590-600.
Lashley, K. S. (1924). Studies of the cerebral functionin learning: V. The retention of motor
habits after destruction of so-called motor areas in primates. Archives of Neurology and Psyc-
hiatry, 12, 249-276.
Lashley, K. S. i Wade, M. (1946). The Pavlovian theory of generalization. Psychol. Rev, 03;
53(2), 72-87.
Lawrence, D. H. (1949). Acquired distinctiveness of cues: I. Transfer between discriminations

on the basis of familiarity with the stimulus. J. Exp. Psychol., 12; 39(6), 770-784.
Lawrence, D. H. i Derivera, J. (1954). Evidence for Relational Transposition. J. Comp. Physiol.

Psychol., 12; 47(6), 465-471.
Lieberman, D. A., McIntosh, D. C., i Thomas, G. V. (1979). Learning when reward is delayed:
A marking hypothesis. J. Exp. Psychol.: Anim.Behav.Processes, 07; 5(3), 224-242.
Logue, A. W. (1998). Laboratory research on self-control: Applications to administration.

Review of General Psychology, 06; 2(2), 221-238.
Mackintosh, N. J. (1983). Conditioning and associative learning. Oxford: Oxford University

Press.
Mackintosh, N. J. i Little, L. (1969). Intradimensional and extradimensional shift learning

by pigeons. Psychonomic Science, 14(1), 5-6.
Mazur, J. E. (1987). An adjusting procedure for studying delayed reinforcement. A M. L.

Commons, J. E. Mazur, J. A. Nevin i H. Rachlin (Ed.), The effect of delay and of intervening events
on reinforcement value (pp. 55-73). Hillsdale, NJ, Anglaterra: Lawrence Erlbaum Associates.
McAllister, W. R. i McAllister, D. E. (1992). Fear determines the effectiveness of a feedback

stimulus in aversively motivated instrumental learning. Learn. Motiv., 02; 23(1), 99-115.
McCullagh, P. (1986). Model status as a determinant of observational learning and perfor-

mance. Journal of Sport Psychology, 12; 8(4), 319-331.
McDougall, W. (1908). An Introduction to Social Psychology. Nova York, NY, EUA: Methuen.
McLaren, I. P. L. i Mackintosh, N. J. (2000). An elemental model of associative learning: I.

Latent inhibition and perceptual learning. Anim. Learn. Behav., 08; 28(3), 211-246.
McLaren, I. P. L., Kaye, H., i Mackintosh, N. (1989). J. An associative theory of the represen-
tation of stimuli: Applications to perceptual learning and latent inhibition. A R. G. M. Morris
(Ed.), Parallel distributed processing: Implications for psychology and neurobiology (pp. 102-130).
Nova York, NY, EUA: Clarendon Press/Oxford University Press.
Meltzoff, A. N. i Moore, M. K. (1989). Imitation in newborn infants: Exploring the range of

gestures imitated and the underlying mechanisms. Dev. Psychol., 11; 25(6), 954-962.
Meltzoff, A. N. i Moore, M. K. (1983). Newborn infants imitate adult facial gestures. Child
Dev., 06; 54(3), 702-709.
Meltzoff, A. N. i Moore, M. K. (1977). Imitation of facial and manual gestures by human

neonates. Science, 10; 198(4312), 75-78.
Miller, N. E. i Dollard, J. (1941). Social learning and imitation. New Haven, CT, EUA: Yale
University Press.
Mineka, S., Cook, M., i Miller, S. (1984). Fear conditioned with escapable and inescapa-
ble shock: Effects of a feedback stimulus. J. Exp. Psychol.: Anim. Behav. Processes, 07; 10(3):
307-323.
Mischel, W. i Grusec, J. (1966). Determinants of the rehearsal and transmission of neutral

and aversive behaviors. J. Pers. Soc. Psychol., 02; 3(2), 197-205.
Morgan, C. L. (1986). Habit and Instinct. Nova York: E. Arnold.
Morgan, C. L. (1894). An introduction to comparative psychology. Londres, Anglaterra: Walter

Scott.
Mowrer, O. H. i Jones, H. (1945). Habit strength as a function of the pattern of reinforcement.

J. Exp. Psychol., 08; 35(4), 293-311.
Mowrer, O. H. (1947). On the dual nature of learning--a re-interpretation of 'conditioning'

and 'problem-solving.'. Harvard Educational Review, 17, 102-148.
Nation, J. R. i Cooney, J. B. (1982). The time course of extinction-induced aggressive behavior

in humans: Evidence for a stage model of extinction. Learn. Motiv., 02; 13(1), 95-112.
Neuringer. A., Kornell, N. i Olufs, M. (2001). Stability and variability in extinction. J. Exp.
Psychol.: Anim. Behav. Processes, 01; 27(1), 79-94.
Nevin, J. A. (1999). Analyzing Thorndike's Law of Effect: The question of stimulus-response

bonds. J. Exp. Anal. Behav., 11; 72(3), 447-450.
Nevin, J. A. (1988). Behavioral momentum and the partial reinforcement effect. Psychol.Bull.,
01; 103(1), 44-56.
O'Leary, D. E., O'Leary, M. R., i Donovan, D. M. (1976). Social skill acquisition and psycho-
social development of alcoholics: A review. Addict.Behav., 1(2), 111-120.
Page, H. A. i Hall, J. F. (1953). Experimental extinction as a function of the prevention of a

response. J. Comp. Physiol. Psychol., 02; 46(1), 33-34.
Page, S. i Neuringer, A. (1985). Variability is an operant. J. Exp. Psychol.: Anim.Behav.Processes,

07; 11(3), 429-452.
Pearce, J. M. i Hall, G. (1978). Overshadowing the instrumental conditioning of a lever-press

response by a more valid predictor of the reinforcer. J. Exp. Psychol.: Anim. Behav.Processes,
10; 4(4), 356-367.
Piaget, J. (1932). The moral judgment of the child. Oxford, Anglaterra: Harcourt, Brace.
Piaget, J. (1929). The child's conception of the world. Oxford, Anglaterra: Harcourt, Brace.
Piaget, J. (1926). The language and thought of the child. Oxford, Anglaterra: Harcourt, Brace.
Premack, D. (1959). Toward empirical behavior laws: I. Positive reinforcement. Psychol. Rev.,
07; 66(4), 219-233.
Rachlin, H. i Green, L. (1972). Commitment, choice and self-control. J. Exp. Anal. Behav.,
01; 17(1), 15-22.
Rachlin, H. i Herrnstein, R. J. (1969). Hedonism revisited: On the negative law of effect.

A B. A. Campbell i R. M. Church (Ed.), Punishment and aversive behavior. Nova York: Apple-
ton-Century-Crofts.
Raia, C. P., Shillingford, S. W., Miller, H. L. J., i Baier, P. S. (2000). Interaction of procedural
factors in human performance on yoked schedules. J. Exp. Anal. Behav., 11; 74(3), 265-281.
Reed, P. (1999). Role of a stimulus filling an action-outcome delay in human judgments of

causal effectiveness. J. Exp. Psychol.: Anim. Behav. Processes, 01; 25(1), 92-102.
Rescorla, R. A. (1991). Associative relations in instrumental learning: The Eighteenth Bartlett

Memorial Lecture. The Quarterly Journal of Experimental Psychology B: Comparative and Physi-
ological Psychology, 02; 43(1), 1-23.
Rescorla, R. A. (1990). Evidence for an association between the discriminative sti-

mulus and the response-outcome association in instrumental learning. J. Exp. Psychol.:
Anim.Behav.Processes, 10; 16(4), 326-334.
Rescorla, R. A. (1968). Probability of Shock in the Presence and Absence of Cs in Fear Con-
ditioning. J. Comp. Physiol. Psychol., 08; 66(1), 1-5.
Rescorla, R. A. (1967). Pavlovian Conditioning and its Proper Control Procedures. Psychol.
Rev., 01; 74(1), 71-80.
Rescorla, R. A. i Lolordo, V. M. (1965). Inhibition of avoidance behavior. J. Comp. Physiol.

Psychol., 06; 59(3), 406-412.
Rescorla, R. A. i Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the

effectiveness of reinforcement and nonreinforcement. A A. H. Black i W. F. Prokasy (Ed.),
Classical conditioning II: Current research and theory. Nova York: Appleton-Century-Crofts.
Reynolds, G. S. (1975). A primer of operant conditioning (rev. ed.). Oxford, Anglaterra: Scott,
Foresman.
Reynolds, G. S. (1961). Attention in the pigeon. J. Exp. Anal. Behav., 4: 203-208.
Rivera, D. M. i Smith, D. D. (1987). Influence of modeling on acquisition and generalization

of computational skills: A summary of research findings from three sites. Learning Disability
Quarterly, 10(1), 69-80.
Robert, M. (1990). Observational learning in fish, birds, and mammals: A classified biblio-
graphy spanning over 100 years of research. Psychol. Rec., 40(2), 289-311.
Roberts, M. C., Boone, R. R., i Wurtele, S. K. (1982). Response uncertainty and imitation:
Effects of pre-experience and vicarious consequences. British Journal of Social Psychology, 09;
21(3), 223-230.
Rosenthal, T. L. i Zimmerman, B. J. (1972). Modeling by exemplification and instruction in

training conservation. Dev. Psychol., 05; 6(3), 392-401.
Rosenthal, T. L. i Zimmerman, B. J. (1978). Social learning and cognition. Nova York: Academic
Press.
Schuster, R. i Rachlin, H. (1968). Indifference between punishment and free shock: Evidence
for the negative law of effect. J. Exp. Anal. Behav., 11(6), 777-786.
Seligman, M. E. i Johnston, J. C. (1973). A cognitive theory of avoidance learning. A F. J.

McGuigan i D. B. Lumsden (Ed.), Contemporary approaches to conditioning and learning. Oxford,
Anglaterra: V. H. Winston & Sons.
Sidman, M. (1953). Two temporal parameters of the maintenance of avoidance behavior by

the white rat. J. Comp. Physiol. Psychol., 08; 46(4): 253-261.
Skinner, B. F. (1938). The behavior of organisms: an experimental analysis. Oxford, Anglaterra:

Appleton-Century.
Solomon, R. L. i Corbit, J. D. (1974). An opponent-process theory of motivation: I. Temporal

dynamics of affect. Psychol. Rev., 03; 81(2), 119-145.
Solomon, R. L. i Wynne, L. C. (1953). Traumatic avoidance learning: acquisition in normal

dogs. Psychol. Monogr., 67(4), 19-19.
Spence, K. W. (1936). The nature of discrimination learning in animals. Psychol. Rev., 09;
43(5), 427-449.
Sutherland, N. S. i Mackintosh, N. J. (1971). Mechanisms of animal discrimination learning.

Nova York: Academic Press.
Symonds, M. i Hall, G. (1995). Perceptual learning in flavor aversion learning: Roles of sti-
mulus comparison and latent inhibition of common elements. Learning and Motivation, 26,
203-219.
Thelen, M. H., Dollinger, S. J., i Kirkland, K. D. (1979). Imitation and response certainty.
Journal of Genetic Psychology, 09; 135(1), 139-152.
Thelen, M. H., Paul, S. C., Dollinger, S. J., i Roberts, M. C. (1978). Response uncertainty and
imitation: The interactive effects of age and task options. Journal of Research in Personality,
09; 12(3), 370-380.
Thomas, D. R. (1993). A model for adaptation-level effects on stimulus generalization. Psyc-

hol. Rev., 10; 100(4), 658-673.
Thomas, D. R. i Jones, C. G. (1962). Stimulus generalization as a function of the frame of

reference. J. Exp. Psychol., 07; 64(1), 77-80.
Thomas, D. R., Mood, K., Morrison, S., i Wiertelak, E. (1991). Peak shift revisited: A test of
alternative interpretations. J. Exp. Psychol.: Anim. Behav. Processes, 04; 17(2), 130-140.
Thorndike, E. L. (1911). Animal Intelligence. Experimental Studies. Oxford, Anglaterra: 1911.
Thorndike, E. L. (1898). Animal intelligence: An experimental study of the associative pro-

cesses in animals. Psychol. Monogr., 06; 2(4), 1-109.
Thorpe, W. H. (1963). Learning and instinct in animals (2a ed.). Londres: Methuen.
Timberlake, W. i Allison, J. (1974). Response deprivation: An empirical approach to instru-

mental performance. Psychol. Rev., 03; 81(2), 146-164.
Tomie, A., Carelli, R., i Wagner, G. C. (1993). Negative correlation between tone (S) and
water increases target biting during S in rats. Anim. Learn. Behav., 11; 21(4), 355-359.
Trobalon, J. B., Sansa, J., Chamizo, V. D., i Mackintosh, N. J. (1991). Perceptual learning
in maze discriminations. The Quarterly Journal of Experimental Psychology B: Comparative and
Physiological Psychology, 11; 43(4), 389-402.
Ulrich, R. E. i Azrin, N. H. (1962). Reflexive fighting in response to aversive stimulation. J.

Exp. Anal. Behav., 5(4), 511-520.
Warden, C. J., Fjeld, H. A., i Koch, A. M. (1940). Imitative behavior in cebus and rhesus
monkeys. Journal of Genetic Psychology, 56, 311-322.
Weisman, R. G. i Litner, J. S. (1969). Positive conditioned reinforcement of Sidman avoidance

behavior in rats. J. Comp. Physiol. Psychol., 08; 68(4), 597-603.
Williams, B. A. (1975). The blocking of reinforcement control. J. Exp. Anal. Behav., 09; 24(2),
215-226.
Wyrwicka, W. (1978). Imitation of mother's inappropriate food preference in weanling kit-

tens. Pavlov. J. Biol. Sci., 13(2), 55-72.
Zimmerman, B. J. i Blom, D. E. (1983). Toward an empirical test of the role of cognitive

conflict in learning. Developmental Review, 03; 3(1), 18-38.

Condicionament Instrumental

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Condicionament Instrumental

Uploaded by

Copyright:

Available Formats

Condicionament

Joan Sansa i Aguilar

1. Definició de condicionament instrumental............................... 7

2. Preparacions experimentals: assajos discrets i conducta

3. Procediments de condicionament instrumental....................... 18

4. Elements del condicionament operant........................................ 21

6. Extinció de la resposta instrumental........................................... 56

8. Teories del condicionament instrumental.................................. 73

8.1.1. Associacions E-R ............................................................ 74

10. Aprenentatge per observació.......................................................... 104

Exercicis d'autoavaluació........................................................................ 119

Què hauríeu de saber?............................................................................. 127

L'objectiu d'aquest mòdul és proporcionar als estudiants coneixements so-

Al llarg del mòdul es presentaran procediments, fenòmens i teories relacionats

En l'apartat de generalització i discriminació, ens centrarem en aquells estí-

És crucial, per tant, que la resposta no es produeixi exclusivament en presèn-

Finalment, el mòdul dedica un últim apartat a l'aprenentatge per observa-

1. Definició de condicionament instrumental

1.1. La conducta emergent o voluntària. L'hedonisme com a

Un exemple simple servirà per a il·lustrar aquesta situació:

Per tant, la conducta instrumental pot encaixar perfectament en el que conei-

Descartes va diferenciar entre la conducta involuntària i la conducta voluntà-

No obstant això, hi ha una explicació alternativa de la conducta voluntària

Tornem a l'exemple que ens ocupa. Si en entrar a l'habitació a les fosques

Així, doncs, la conducta voluntària seria determinada per les conse-

De fet, i com veurem a continuació, els procediments de condicionament ins-

1.2. Comparació entre condicionament clàssic i instrumental

Ja hem apuntat les diferències entre el condicionament clàssic i el condicio-

La idea bàsica és que dos esdeveniments que es presenten contigus en el temps

• En el condicionament� clàssic, els esdeveniments que queden associats

• En canvi, en el condicionament�instrumental, els esdeveniment impli-

Com a conseqüència d'aquestes característiques, el condicionament clàssic

El primer investigador formalment acceptat dedicat a l'estudi del condiciona-

rent amb l'explicació que es donava inicialment al condicionament clàssic se-

2. Preparacions experimentals: assajos discrets i

2.1. Assajos discrets

En el procediment experimental de Thorndike, l'animal quedava tancat a la

La tasca d'assaig discret més comunament utilitzada és la del laberint. Al co-

El laberint en forma de T (vegeu la figura anterior, a) està dissenyat per a estu-

Als laberints es poden mesurar diverses variables. Al corredor s'acostuma a cal-

2.2. Operant lliure

Ateses les característiques dels assajos discrets, la conducta de l'animal és res-

La caixa de condicionament consta d'un espai en què se situa l'animal. Dins

un ordinador. Normalment, quan l'animal executa la resposta operant activa

Esquema d'una caixa de condicionament o caixa d'Skinner

La preparació d'operant lliure ens permet estudiar la conducta dins un conti-

La taxa de resposta és la freqüència amb què la conducta apareix per

La manera més habitual de mesurar la taxa de resposta és el registre�acumu-

Un registre acumulatiu és una manera de representar com es repeteix

Mostra el nombre total (o acumulat) de respostes que s'han produït fins a un

La figura mostra una gràfica d'un registre acumulat

El procediment consisteix a presentar reforçadors independentment de la con-

al lloc on es localitza el soroll l'apropa també al menjar. L'entrenament a la

Un cop l'animal ja ha rebut l'entrenament a la menjadora està en condicions

En definitiva, la conducta que cal emmotllar és nova quant al conjunt i

Així, per a emmotllar la conducta de pressió de palanca en una rata podríem

Veiem, aquí, una segona característica de l'emmotllament: no reforçar

3. Procediments de condicionament instrumental

En tots aquests exemples, hi ha implicat un condicionament instrumental,

Per tant, els diferents procediments de condicionament instrumental es clas-

En cadascun dels exemples exposats, una resposta ha provocat l'aparició d'un

En cadascuna d'aquestes situacions la conducta ha provocat l'aparició d'un

Aquests són dos exemples del procediment de reforçament negatiu. En amb-