Professional Documents
Culture Documents
instrumental
PID_00224015
Cap part d'aquesta publicació, incloent-hi el disseny general i la coberta, no pot ser copiada,
reproduïda, emmagatzemada o transmesa de cap manera ni per cap mitjà, tant si és elèctric com
químic, mecànic, òptic, de gravació, de fotocòpia o per altres mètodes, sense l'autorització
prèvia per escrit dels titulars del copyright.
© FUOC • PID_00224015 Condicionament instrumental
Índex
Introducció.................................................................................................. 5
5. Programes de reforçament.............................................................. 39
5.1. Programes de reforçament continu ............................................ 39
5.2. Programes de raó ......................................................................... 40
5.3. Programes d'interval .................................................................... 42
5.4. Comparació dels programes de raó i d'interval .......................... 45
5.5. Conducta d'elecció: programa concurrent i programa
concurrent encadenat ................................................................. 46
5.5.1. Programa concurrent ..................................................... 47
5.5.2. Programa concurrent encadenat ................................... 53
7. Condicionament aversiu.................................................................. 60
7.1. Evitació i escapada ...................................................................... 60
7.2. Càstig ........................................................................................... 65
9. Generalització i discriminació....................................................... 83
9.1. Generalització i discriminació .................................................... 84
9.2. Gradients de generalització ......................................................... 84
9.3. Discriminacions extradimensionals i intradimensionals ............ 86
9.4. La transposició i el desplaçament del vèrtex .............................. 87
9.5. Teoria d'Spence (1936) ................................................................ 89
9.6. Teoria de la discriminació basada en processos d'atenció ........... 95
9.7. Aprenentatge perceptiu ............................................................... 96
Solucionari.................................................................................................. 123
Glossari......................................................................................................... 124
Bibliografia................................................................................................. 128
© FUOC • PID_00224015 5 Condicionament instrumental
Introducció
Fins ara hem estudiat diferents situacions en què els estímuls provocaven res-
postes en els organismes. En la resposta reflexa, la presència d'un estímul acti-
va automàticament una resposta. D'aquesta manera, un tros d'aliment intro-
duït dins la boca activarà la resposta de salivació.
També hem vist que la conducta reflexa pot ser modulada amb l'experiència:
l'habituació i la sensibilització modifiquen la intensitat de la resposta, i la re-
dueixen o la intensifiquen, respectivament. En el mòdul "Condicionament
clàssic pavlovià" hem analitzat el condicionament clàssic. Si un estímul inici-
alment neutre, per exemple l'olor de pa acabat de fer, s'aparella sistemàtica-
ment amb la introducció del pa a la boca, ambdós estímuls, olor i pa, queden
associats i l'estímul neutre és capaç de provocar una resposta que inicialment
no provocava. En l'exemple, l'olor de pa pot provocar respostes com la saliva-
ció, moviments de la boca i d'altres. L'estímul de l'olor serveix de senyal que
anticipa l'aliment i prepara l'organisme per a rebre'l. Des d'aquesta perspectiva,
la conducta és una conseqüència de l'estímul. Però hi ha altres situacions en
les quals la relació s'inverteix i són precisament els estímuls la conseqüència
de la nostra conducta.
Si entrem en una habitació que és a les fosques podem manipular l'interruptor i fer que
s'il·lumini. Aquí, doncs, primer executem una conducta i, després, apareix la conseqüèn-
cia.
Podem dir que la nostra conducta és l'instrument que ens permet mo-
dificar l'entorn, ja sigui físic com social. Per aquest motiu, aquesta con-
ducta rep el nom de conducta�instrumental.
Una anàlisi més detallada d'aquesta situació ens permet adonar-nos que hem
executat la conducta amb un objectiu: il·luminar la sala. Per això, sovint es
defineix la conducta instrumental com a dirigida�a�una�meta. Però, encara
més, podríem no haver encès el llum.
Per exemple, si sabem que a l'habitació hi ha un bebè que s'acaba d'adormir, podríem
decidir no encendre el llum per a no despertar-lo.
© FUOC • PID_00224015 8 Condicionament instrumental
Va construir unes caixes de fusta que tenien una porta abatible subjectada per
una balda o més. Les baldes podien ser manipulades per diversos mecanismes
com, per exemple, directament amb la pota de l'animal o mitjançant un pedal
al qual es lligava una corda. Quan Thorndike tancava un gat famolenc en una
d'aquestes caixes, podia observar que el pobre animal no tenia la més mínima
intuïció del que havia de fer per a poder escapar del seu confinament i accedir a Edward�L.�Thorndike
un bol ple de menjar que era a l'exterior de la caixa. Com a mesura objectiva de
l'evolució de l'animal, Thorndike cronometrava el temps que trigava a escapar
de la caixa.
© FUOC • PID_00224015 10 Condicionament instrumental
La "caixa problema"
No és estrany que en els primers assajos esgotés tot el temps (per exemple,
cinc minuts) sense assolir amb èxit el seu objectiu. Però a mesura que Thorn-
dike anava presentant el mateix problema als gats, va observar que el temps
que necessitaven per a escapar-se disminuïa progressivament. Precisament, la
reducció del temps d'escapada era la dada que indicava que els animals havien
après com solucionar el problema, és a dir, quines respostes havien d'executar
per a poder obrir la porta i accedir al menjar. Però, com s'explicava aquest
aprenentatge? Segons Thorndike, no hi havia rastre de conducta intuïtiva, si-
nó que els gats anaven duent a terme diferents comportaments fins que algun
d'ells proporcionava la solució del problema. Aquesta estratègia s'anomena as-
saig�i�error.
De fet, els animals feien moltes conductes, la majoria de les quals no tenien
cap conseqüència. Però, de tant en tant, apareixia una conducta que permetia
obrir la porta i accedir al menjar. Segons Thorndike, les conductes infructuoses
tendien a desaparèixer mentre que se seleccionaven aquelles altres conductes
que tenien èxit. Però, quin mecanisme era el responsable d'aquesta selecció?
Seguint a Thorndike, quan un animal executa una conducta que va seguida
d'un esdeveniment agradable, llavors els estímuls presents en el moment de la
resposta i la resposta quedaven connectats de manera que en el futur la pre-
sència dels estímuls activava directament la resposta que tenien connectada.
Si la conseqüència era aversiva, llavors la connexió es debilitava. Aquest me-
canisme es coneix com llei�de�l'efecte.
(1)
Tingueu en compte que el paper de la conseqüència (agradable o desagrada- Avui en dia se sap que aquesta
associació E-R no és l'única que es
ble) era més aviat secundari i servia per a enfortir o afeblir la connexió entre
pot establir en situacions de condi-
els estímuls i les respostes, però no quedava connectada a cap d'aquests ele- cionament, tant clàssic com instru-
mental.
ments. Aquesta manera d'explicar el condicionament instrumental era cohe-
© FUOC • PID_00224015 11 Condicionament instrumental
Esquema d'un laberint amb forma de T (a) i d'un corredor recte (b). S = caixa de sortida; PE = punt d'elecció; M1, M2 i M =
caixes meta
© FUOC • PID_00224015 13 Condicionament instrumental
Es pot posar menjar només en un dels braços però no en l'altre. També es podrien utilitzar
dos tipus de reforçador, com, per exemple, una base d'aigua i farina en un dels braços i
la mateixa base però endolcida a l'altre meta.
Una resposta operant en un humà pot ser introduir unes monedes en una màquina i
prémer el botó corresponent al refresc que es vol consumir.
Tot aquest patró de conducta serà una operant, ja que té la propietat de modi-
ficar l'entorn i fer accessible una beguda que abans de dur a terme la resposta
no podíem prendre. Al laboratori s'estudia la resposta operant amb la caixa
d'Skinner o caixa�de�condicionament (vegeu la figura següent).
Skinner�al�seu�laboratori�amb�una�caixa�de
En una de les parets, hi podem trobar els mecanismes per a dispensar estímuls (altaveu, llums, menjadora). També hi trobem un condicionament
mecanisme de resposta que, en el cas de les rates, acostuma a ser una palanca de resposta i, en el cas dels coloms, és una tecla
de resposta.
Els pendents de les respostes acumulades (línies puntejades) indiquen la freqüència de la resposta: com més inclinat sigui el
pendent, més alta és la freqüència de la resposta. Les ratlles obliqües que tallen el registre acumulat representen els reforçadors
dispensats. El registre s'ha obtingut a partir d'una simulació amb la rata virtual Sniffy (Alloway, Wilson i Graham, 2006).
D'altra banda, cada unitat de temps que transcorri farà que la corba es desplaci
en l'eix d'abscisses. Les variacions en les dues variables (temps i respostes acu-
mulades) genera una corba que variarà en el seu pendent. Si la rata no executa
la resposta operant, tindrem que el registre acumulatiu només creix en sentit
horitzontal, ja que va transcorrent el temps, mentre que no hi ha canvis en
l'eix d'ordenades, ja que no hi ha respostes per acumular. El resultat és que es
dibuixa un pendent nul, és a dir, una línia completament horitzontal. A partir
del moment en què es produeixen respostes i es van acumulant, la corba co-
mença a mostrar un pendent. És precisament la inclinació del pendent el que
ens dóna informació sobre la freqüència d'execució de la resposta operant. De
manera que pendents suaus indiquen que la taxa de resposta és baixa mentre
que pendents molt inclinats mostren taxes de resposta altes.
2.3. L'emmotllament
Quan situem per primera vegada una rata en una caixa de condicionament,
rarament observarem que l'animal executa la resposta espontàniament. Cal
ensenyar-li a prémer la palanca. Aquest entrenament passa per diverses fases.
En primer lloc, cal que l'animal sàpiga quan ha obtingut el reforçador i on el
trobarà. Aquest entrenament es basa en un condicionament clàssic.
Tota conducta, especialment les conductes complexes com prémer una palan-
ca, poden desglossar-se en unitats simples. Si analitzem amb detall la respos-
ta de prémer la palanca podrem identificar aquestes unitats. Per a executar la
conducta, la rata ha d'atendre a la palanca, apropar-s'hi, posar-se dempeus,
recolzar una mà sobre la palanca i fer força avall per tal que la palanca baixi. Si
ens fixem bé en tota aquesta seqüència de moviments, ens adonarem que cada
unitat per sí mateixa és fàcil d'observar en una rata d'una manera espontània:
una rata inspecciona i atén a diferents objectes del seu entorn, es posa dreta
sobre les potes del darrere, toca i manipula objectes amb les mans, es recolza
sobre objectes o les parets de la caixa.
Com abans, veurem que la rata cada vegada tendeix a localitzar-se més a prop
de la palanca. Seguint amb l'emmotllament, podrem passar a reforçar només
quan l'animal es posi dret just davant la palanca. Per acabar, podrem reforçar
només si la rata toca la palanca quan es posa dreta o quan torna a la posició
© FUOC • PID_00224015 17 Condicionament instrumental
sobre les quatre potes. Si tot ha procedit correctament, veurem que l'animal
passa força estona tocant la palanca i en algun moment farà prou força sobre la
palanca com perquè aquesta baixi i accioni automàticament el mecanisme que
li lliurarà el menjar. A partir d'aquest moment aturarem la nostra intervenció
i deixarem que l'animal continuï manipulant la palanca pel seu compte.
La tècnica de l'emmotllament s'ha utilitzat amb èxit en molts camps diversos Emmotllament en humans
en els quals s'havien d'instaurar comportaments nous tant en humans com
En el cas dels humans,
en altres espècies d'animals. Els ensinistradors d'animals ensenyen a dofins, l'emmotllament es pot utilitzar
llops marins, gossos, cavalls i tota mena d'animals a dur a terme conductes per a perfeccionar habilitats en
esports, arts i com a teràpia en
sorprenents tant per a espectacles com per a ajudar a persones amb determi- casos en què les persones són
incapaces de seguir instrucci-
nades discapacitats. ons verbals.
© FUOC • PID_00224015 18 Condicionament instrumental
Fins ara ens hem centrat en una situació molt concreta de condicionament
instrumental: quan l'aparició de la resposta anava seguida de l'obtenció d'un
estímul agradable com el menjar. No obstant això, hi ha moltes altres situaci-
ons de condicionament instrumental.
Alguns pares poden donar un gelat de postres al seu fill si s'ha menjat un plat de patates
bullides amb bledes, o li poden prohibir veure la televisió durant una tarda si el nen ha
pegat el seu germà. Una persona pot colpejar el seu gos si l'animal ensenya les dents
agressivament a un veí. Podem treure les piles a un rellotge si el seu tic-tac no ens deixa
dormir.
1)�Reforçament�positiu
Quan posem una moneda en una màquina i obtenim el refresc que ens ve de gust, quan
cobrem el sou a final de mes, quan la parella ens fa un petó quan li fem un regal, tots
són exemples de reforçament positiu.
2)�Càstig�positiu�o,�simplement,�càstig
© FUOC • PID_00224015 19 Condicionament instrumental
Si posem els dits en un endoll rebrem una descàrrega elèctrica, si toquem una cafetera
just quan acabem de fer el cafè ens cremarem, si el gat s'esmola les ungles al sofà li cridem.
3)�Reforçament�negatiu
Una persona que té fòbia als gossos pot sortir corrent si de cop i volta es troba davant un
gos. Un conductor pot portar el cotxe al mecànic per fer una revisió abans d'un viatge
llarg per a evitar una avaria.
• En el segon cas, l'estímul aversiu (l'avaria del cotxe) no s'ha arribat a pro-
duir, és a dir, la conducta es fa sense que sigui present l'estímul aversiu i
impedeix que aparegui. Es tracta d'un procediment�d'evitació. És impor-
tant destacar que en el cas de l'evitació, hi ha d'haver algun fet que anticipi
la possibilitat de la situació aversiva.
Si la persona amb fòbia als gossos passeja per un carrer i sent bordar un gos, pot canviar
d'itinerari abans de trobar-se de cara amb l'animal i, en definitiva, està evitant l'animal.
En el cas del conductor, podria haver experimentat en el passat una avaria del cotxe
al bell mig dels Monegros de nit. El coneixement que ha de fer un viatge llarg podria
anticipar la possibilitat d'una avaria, i fer la revisió del cotxe impediria o reduiria que es
repetís en el futur.
4)�Càstig�negatiu�o�entrenament�d'omissió
Un adolescent respon malament a un dels pares i aquest li retira el telèfon mòbil durant
una setmana; la direcció de trànsit treu punts del carnet de conduir a un conductor que
ha estat enxampat circulant a més de 140 km per hora.
© FUOC • PID_00224015 20 Condicionament instrumental
(2)
Ambdós exemples mostren una contingència negativa entre una conducta i Aquest terme reflecteix el fet que
l'individu rep un estímul apetitiu
un estímul apetitiu. Si es produeix la conducta es retira un estímul agradable
periòdicament sempre que es de-
per a la persona. La conseqüència d'aquestes situacions sobre la conducta és diqui a fer una conducta diferent
de la resposta instrumental especi-
que tendirà a desaparèixer. Els procediments d'entrenament d'omissió també ficada pel procediment.
reben el nom de reforçament�diferencial�d'altres�conductes2.
Cal fer alguns comentaris finals sobre els termes utilitzats per a referir-se als
procediments de condicionament instrumental.
Tipus de conseqüència
Apetitiva Aversiva
En la taula es mostren els quatre procediments del condicionament instrumental en funció de la correlació entre la resposta i la
conseqüència (entrada de les files) i del tipus de conseqüència (entrada de les columnes)
© FUOC • PID_00224015 21 Condicionament instrumental
Imaginem que hem quedat amb uns amics i hem decidit anar a prendre uns refrescs a
un bar. En aquesta situació, hi trobem molts estímuls presents: els mateixos amics amb
qui hem quedat, la decoració del bar, l'època de l'any (si fa calor o fred), la roba que
portem, la gent que ens envolta, l'hora del dia, entre d'altres. A més, al llarg de la trobada
podem fer diverses conductes: podem fer un glop del refresc, parlar d'una anècdota, d'una
notícia que ha aparegut als diaris, rascar-nos, somriure, escoltar, explicar un acudit, etc.
A més, al llarg d'aquest flux de conductes en podem trobar algunes que van seguides
d'un estímul reforçador, per exemple, si expliquem un acudit i la resta d'amics riu, i
d'altres poden no tenir conseqüències, per exemple, si canviem de postura les cames
probablement no tindrà conseqüències sobre els nostres amics. Com a resultat d'aquestes
disposicions hi haurà conductes que es veuran seleccionades i d'altres no. Precisament les
que van seguides del reforçador tindran més probabilitat de repetir-se que les que no van
seguides del reforçador. Si hem explicat un acudit i els amics han rigut, és molt possible
que nosaltres mateixos o altres companys expliquin un segon acudit, i fins i tot podem
estar uns minuts fent gala del nostre coneixement d'aquestes historietes còmiques.
Ara som al tanatori per a donar el condol a un amic nostre per la mort del seu pare. És
difícil pensar que en aquesta situació algú pugui explicar un acudit, però en canvi és molt
més probable que apareguin comentaris sobre altres defuncions.
Les dues situacions il·lustren com els estímuls presents en una situació poden
controlar la nostra conducta.
(3)
Thorndike, en la seva llei de l'efecte3, considerava que l'estímul discriminant Recordem que la llei de l'efecte
explica la conducta instrumental
controlava totalment la conducta instrumental. Aquesta explicació porta a la mitjançant les associacions E-R, és
concepció de la conducta instrumental com una reacció davant dels estímuls a dir, entre els estímuls discrimi-
nants i les respostes.
de l'entorn.
© FUOC • PID_00224015 22 Condicionament instrumental
Així, si donem menjar a una rata per prémer una palanca observarem que la taxa de la
conducta incrementa i es manté en un nivell determinat. Però si deixem de donar el
reforçador, llavors l'animal deixarà d'emetre la conducta. Si finalment tornem a introduir
el reforçador cada cop que la rata pressiona la palanca, la conducta reapareixerà de bell
nou.
Sovint s'ha fet èmfasi en indicar que un estímul discriminant no és un estímul condicio-
nat, ja que els estímuls condicionats provoquen la resposta condicionada, és a dir, con-
trolen directament la conducta condicionada, mentre que un estímul discriminant no
provoca la resposta sinó que només indica la possibilitat del reforçador.
Experiment de Bechterev
La interpretació de Bechterev va ser que la flexió de pota era una resposta con-
dicionada que s'activava quan apareixia el to. La disposició experimental per-
met una segona interpretació des del punt de vista del condicionament ins-
trumental. Si l'animal donava la resposta de flexió de pota, llavors un estímul
aversiu deixava de presentar-se o, dit amb altres paraules, la suposada respos-
ta condicionada controlava la presentació de l'estímul. Des d'aquest punt de
vista, Bechterev havia dissenyat una situació de reforçament negatiu.
(4)
Els primers a publicar dades sobre la dificultat d'entrenar determinades con- El terme misbehavior el podem
traduir com 'mala conducta' o
ductes a partir dels principis del condicionament instrumental van ser els Bre-
'conducta errònia' (en algunes tra-
land (Breland i Breland, 1961) en l'article titulat "The Misbehavior4 of Orga- duccions al castellà s'utilitza el ter-
me conducta�maladaptativa).
nisms". Els Breland van ser estudiants d'Skinner i es van dedicar en la seva vi-
da professional a entrenar animals d'espècies molt diverses perquè fessin con-
ductes complexes. Entrenaven als animals per a zoològics, anuncis de televisió
i altres actuacions públiques. Si bé tenien èxit amb moltes de les conductes
que entrenaven, es van trobar amb la dificultat o impossibilitat d'entrenar-ne
algunes en determinades espècies animals.
© FUOC • PID_00224015 25 Condicionament instrumental
Probablement, el cas més conegut és quan van voler que un ós rentador agafés unes
monedes i les introduís dins d'una caixa. Al principi es va entrenar l'animal amb una
sola moneda i va aprendre fàcilment a agafar la moneda i introduir-la dins la caixa,
amb la qual cosa aconseguia menjar com a reforçador. Però quan se li van donar dues
monedes simultàniament perquè les desés a la caixa, la conducta es va deteriorar
marcadament. En lloc d'agafar les monedes i posar-les a la caixa (amb la qual cosa
aconseguiria ràpidament el reforçador), l'ós rentador sostenia les monedes entre les
mans durant uns minuts, sovint les fregava entre elles i de vegades les deixava a la
caixa i les tornava a recollir immediatament.
Els óssos rentadors poden aprendre diverses conductes com, per exemple, encistellar una pilota. En canvi, va
resultar difícil condicionar-los a introduir monedes en una guardiola.
Malgrat que aquestes conductes no es van reforçar mai, cada vegada apareixien amb
més freqüència fins al punt que els Breland van haver de desistir en el seu intent
d'entrenar-los. Es van trobar amb els mateixos problemes quan volien entrenar con-
ductes similars en porcs. En un principi, els porcs aprenien a agafar una "moneda" de
fusta i la ficaven en una caixa, però després de molts intents els animals començaven
a alterar el seu comportament i mostraven respostes com deixar caure la moneda i
barrigar, tornar-la a deixar caure i barrigar un altre cop. Evidentment, aquestes con-
ductes no eren reforçades, però els animals mostraven una forta tendència per a dur-
les a terme.
Com és possible que unes respostes que impedeixen la presentació del refor-
çador es mantinguessin amb tanta força? Els Brelands es van adonar que les
conductes errònies eren les que els óssos rentadors i els porcs feien normal-
ment com a part del seu repertori de conductes per a la recol·lecció de menjar.
Com que aquestes conductes semblaven estar relacionades amb les respostes
innates dels subjectes, les van anomenar derives�instintives:
© FUOC • PID_00224015 26 Condicionament instrumental
En la seva investigació van reforçar uns coloms amb menjar per a executar una se-
qüència de vuit cops de bec a dues tecles de resposta en una caixa de condicionament.
Per a un dels grups, el grup de control, no es va posar cap restricció en la seqüència
de les vuit respostes. Això és, cada cop que havia picotejat vuit vegades les tecles
amb independència de quina tecla picotejava i en quin ordre ho havia fet, rebia el
reforçador. Per al segon grup, el grup experimental, es va incloure una restricció per
a rebre el reforçador. De fet, els animals del grup experimental només rebien menjar
si la seqüència de cops de bec a les tecles de resposta era diferent de les seqüències de
respostes que l'animal havia efectuat en els darrers 50 assajos.
Entrenament de la
Aquests resultats mostren clarament que si prenem com a resposta ins- creativitat
trumental la variabilitat en la conducta, la podem reforçar i promoure
El condicionament instrumen-
d'aquesta manera que els organismes executin respostes diferents cada tal pot ser útil per entrenar a
les persones a ser creatives, en
vegada. el sentit que busquin solucions
noves als problemes coneguts.
Quan treballem amb humans podem reforçar una conducta indicant simplement que la
resposta ha estat correcta o castigar una altra conducta informant que és incorrecta. Fora
del laboratori, podem modular la conducta d'altres persones elogiant-les o criticant-les.
Amb animals de companyia com gossos o gats podem pronunciar la paraula no perquè els
animals deixin de fer alguna conducta (per exemple, entrar en una habitació) o parlar-hi
afectuosament quan l'animal se'ns apropa.
El primer punt ens fa buscar una definició de reforçador basada en els seus
efectes i no pas en les seves característiques físiques. Tenint en compte això,
A partir d'aquestes definicions, ens adonem que no podem saber les propietats
reforçadores (o punitives) d'un estímul a priori. Sabrem si un estímul és refor-
çador (o punitiu) pels efectes que observarem sobre la conducta, però no per
les característiques intrínseques a l'estímul.
Exemple
Podem pensar que un caramel és un reforçador poderós per als nens, i probablement així
serà per a la majoria, però podem trobar algun infant a qui no li agraden els caramels i,
en conseqüència, la llaminadura no tindrà propietats reforçants.
© FUOC • PID_00224015 28 Condicionament instrumental
D'aquesta manera, Premack parteix del supòsit que el patró global d'activitat
d'un subjecte es pot analitzar en funció de les seves activitats components.
Probablement, quan no hi ha cap tipus de restricció, el subjecte distribuirà el
temps entre les diferents activitats d'una determinada manera, i que aquesta
distribució reflectirà la preferència del subjecte per a cadascuna de les activi-
tats. Si el nen de l'exemple dedica més temps a mirar la televisió que a llegir,
llavors podem afirmar que prefereix la primera conducta que la segona. Ara bé,
la distribució de les conductes pot variar en funció dels estats motivacionals.
Si el nen no ha menjat res des de l'hora de dinar, és més probable que quan
arribi a casa es dediqui a menjar i no pas a mirar la televisió.
70% del temps a mirar la televisió, un 10% a fer deures, un 10% a menjar i el
5% restant a llegir un llibre, podrem reforçar la conducta de llegir (poc prefe-
rida) si la fem contingent a la conducta de mirar la televisió (molt preferida).
Una conseqüència d'aquesta anàlisi és que qualsevol conducta pot actuar com
a reforçador d'una altra conducta si es compleixen aquestes condicions. Si po-
sem una rata en una caixa on hi ha disponible una roda d'activitat i aigua,
és possible que si l'animal està saciat dediqui més temps a córrer que a beure,
però un animal assedegat dedicarà més temps a beure que a córrer. Segons Pre-
mack, en el primer cas, córrer podrà reforçar la conducta de beure si restringim
l'accés a la roda i el fem contingent a la resposta de beure. En el segon cas,
beure pot reforçar la conducta de córrer si restringim l'accés a l'aigua i el fem
contingent a la conducta de córrer.
L'exemple dels diners que hem vist més amunt, serveix per a il·lustrar què és un
reforçador generalitzat. Els diners els tenim associats amb reforçadors primaris
molt diferents i, per això, esdevé un reforçador tan potent. Però el seu poder
depèn que segueixi associat amb els reforçadors primaris tal com demostrava
l'experiment d'Skinner. Si els diners deixessin de ser útils per a intercanviar-los
per reforçadors primaris, difícilment trobaríem algú que treballés per a obtenir
un grapat de trossos de papers de diversos colors.
Per exemple, Hutt (1954) va manipular la quantitat i qualitat del reforçador que unes
rates obtenien per prémer una palanca. Diferents grups de rates obtenien quantitats
petites, mitjanes o grans de menjar si duien a terme la resposta instrumental. El men-
jar consistia en una massa líquida d'aigua, llet i farina. Hutt va manipular la qualitat
del menjar fent més agradable la massa bàsica afegint-hi sacarina, fent-la desagrada-
ble amb àcid cítric o deixant la massa bàsica sense additius.
Els resultats trobats per Hutt (1954) van ser que la taxa de resposta de pressió
de palanca incrementava d'una manera directament proporcional a la quan-
titat i qualitat del reforçador. És a dir, la taxa de resposta era més gran quan
proporcionava més quantitat de reforçador. També la taxa de la resposta era
més gran quan la qualitat del reforçador millorava.
Imaginem que un bon dia que som a la feina ens crida el cap per a comunicar-nos que
a partir del mes següent cobrarem un 50% més de sou per la mateixa feina i, efectiva-
ment, al final de més ens ingressen els diners tal com ens havien promès. Tindrà algun
efecte sobre el nostre comportament amb relació a les tasques que fèiem habitualment
(recordem que en aquest cas hipotètic no se'ns demana res a canvi)?. És molt probable
que, a part de l'alegria i incredulitat que ens pot provocar l'inèdit fet, treballem amb més
entusiasme, almenys, durant un temps.
Crespi (1942) va entrenar tres grups de rates a córrer per un corredor per a obtenir
menjar. Durant una primera fase de l'experiment, cada grup rebia una quantitat di-
ferent de reforçador quan arribava a la caixa meta. Un dels grups rebia quatre boletes
de menjar, un altre grup rebia 16 boletes de menjar i el tercer grup rebia 64 boletes de
menjar. Al final d'aquest primer entrenament, i tal com calia esperar, el grup que re-
bia la quantitat més petita de reforçador era el que corria més lentament (aproxima-
dament, 1,5 peus per segon), mentre que el que rebia la quantitat més gran era el que
corria més (aproximadament, 3,5 peus per segon). El grup que rebia una quantitat
mitjana va mostrar una velocitat de carrera entre els altres dos grups (aproximada-
ment, 2,5 peus per segon). El més interessant va ser la manipulació que va fer Crespi
en una segona fase de l'experiment: va igualar la quantitat de boletes de menjar en
els tres grups de manera que tots van rebre 16 boletes de menjar. Per tant, hi havia un
grup que va passar de rebre quatre boletes a rebre'n 16, un altre grup que va passar de
rebre'n 64 a rebre'n 16 i un tercer grup, el grup de control, que no va experimentar
cap canvi en la quantitat de reforçador. Podem fer una primera predicció del com-
portament dels animals en aquesta segona fase.
Flaherty i els seus col·legues han estudiat quins mecanismes poden estar im-
plicats en els efectes de contrast. Tot i ser lluny encara d'una resposta prou
convincent, sembla que els mecanismes de cada efecte de contrast, positiu i
negatiu, són mediats per mecanismes diferents (Flaherty, 1996). L'efecte de
contrast negatiu és més robust que el de contrast positiu. Entre els diferents
mecanismes responsables del contrast negatiu s'ha proposat que un canvi a
una recompensa pitjor pot provocar un estat de frustració (Amsel, 1992). Fla-
herty (1996) proposa que el canvi a una recompensa petita provocaria canvis
© FUOC • PID_00224015 33 Condicionament instrumental
Al llarg del mòdul estem presentant situacions en les quals la conducta pro- Exemple
dueix i és controlada per les seves conseqüències. La conducta flueix en un
Aprenem que si manipulem un
continu i al mateix temps al nostre voltant es produeixen infinitat d'estímuls. interruptor podem encendre o
Tot plegat pot semblar caòtic, però els processos d'aprenentatge ens permeten apagar un llum, però que surti
o es pongui el sol no es troba
extreure quines regularitats es produeixen al nostre entorn. Podem arribar a sota el nostre control.
També és cert que les relacions entre la nostra conducta i les conseqüències no Exemple
són sempre determinants com la manipulació de l'interruptor i el llum, sinó
Si llancem una pilota a cistella
que són probabilístiques. durant un partit de bàsquet,
només encistellarem un per-
centatge dels llançaments.
El descobriment de totes les possibles relacions entre esdeveniments, i en el cas
que ens ocupa en aquest mòdul, entre la conducta i les seves conseqüències,
ens permet adaptar-nos a l'entorn en funció de les nostres necessitats. El nostre
objectiu ara és analitzar quins mecanismes permeten als organismes detectar
les regularitats entre el nostre comportament i les seves conseqüències.
1)�Principi�de�la�contigüitat�temporal
Dickinson, Watt i Griffiths (1992) van dur a terme un experiment en què les rates
havien de prémer la palanca per a obtenir una boleta de menjar. La manipulació ex-
perimental consistia a introduir diferents demores entre la resposta i el reforçador. En
quatre grups diferents d'animals es van utilitzar demores de 2, 4, 24 i 64 segons. Així,
en el cas del grup amb una demora de dos segons, la pressió de palanca proporcionava
el reforçador dos segons després que s'hagués produït la resposta i en el grup amb la
demora de 64 segons, el reforçador apareixia 64 segons després d'executar cada pres-
sió de palanca. Es va mesurar la taxa de pressió de palanca i es va obtenir que a mesura
que s'incrementava la demora la taxa disminuïa. El grup que tenia una demora de
dos segons, pressionava la palanca amb una taxa de 20 respostes per minut; el grup
amb una demora de quatre segons responia set vegades per minut; el grup amb 64
segons de demora va respondre només una vegada per minut.
Els resultats van mostrar que quan s'assenyalava un reforçador demorat incre-
mentava els judicis de la relació causal entre resposta i reforçador amb relació
al moment quan el reforçador demorat no anava assenyalat. Però per què el
senyal que omple la demora redueix els efectes perjudicials de la demora?
Lieberman, McIntosh i Thomas (1979) van ser els primers a descriure aquest feno-
men. Van utilitzar un aparell adaptat expressament als objectius del seu experiment.
L'aparell consistia en una caixa de sortida que donava pas a la caixa d'elecció. A la
paret del fons d'aquesta caixa hi havia dos passadissos que corrien paral·lels i que
desembocaven en una caixa comuna de demora. Els dos passadissos es distingien pel
color, ja que un era negre i l'altre era blanc. Finalment, la caixa de demora donava
pas a la caixa meta on es proporcionava el menjar. Els subjectes experimentals van
ser rates. Un assaig consistia a deixar una rata a la caixa de sortida. Després, s'obria la
porta que comunicava amb la caixa d'elecció i un cop l'animal hi havia entrat havia
d'escollir un dels dos passadissos possibles. Quan havia travessat el passadís escollit,
l'animal entrava a la caixa de demora on quedava confinat durant 60 segons. Passats
els 60 segons, s'obria la porta que donava accés a la caixa meta. Les rates trobaven
menjar si en la seva elecció havien triat un braç concret, per exemple el de color
blanc, però no hi havia menjar si havia escollit el braç negre. Per tant, una bona
actuació dels animals era escollir el braç blanc en cada assaig. No obstant això, els
animals entrenats en aquestes condicions escollien el braç correcte un 50% dels cops
després de 50 assajos de condicionament, cosa que indicava que no havien après en
absolut la relació entre escollir el braç blanc i trobar menjar a la caixa meta, la qual
cosa constitueix un exemple més dels efectes perjudicials de la demora. L'experiment
constava d'un segon grup que va rebre el mateix tractament excepte que un cop ha-
vien escollit qualsevol dels dos braços, era l'experimentador qui els agafava i els situ-
© FUOC • PID_00224015 36 Condicionament instrumental
ava a la caixa de demora i, 60 segons després, els tornava a agafar i els deixava a la
caixa meta on trobaven o no trobaven el reforçador en funció del braç triat.
Torres bessones
L'explicació donada per Lieberman i els seus col·laboradors del feno-
men del marcatge és que quan es produeix un efecte intens és marca Un paral·lelisme als efectes del
marcatge seria el fet que mol-
la resposta que s'estava duent a terme en aquell moment. L'efecte del tes persones podem recordar
perfectament el que fèiem en
marcatge seria facilitar l'enregistrament a la memòria del que succeïa en el moment que ens vam assa-
el moment del marcatge i d'aquesta manera permetria associar millor bentar dels atemptats contra
les torres bessones o contra
aquestes respostes amb les conseqüències. els trens de rodalies a Madrid.
Aquests esdeveniments inten-
sos van permetre enregistrar a
la nostra memòria les conduc-
tes que fèiem en el moment
El fet que hi hagi un deteriorament del condicionament amb demores llargues d'assabentar-nos-en tot i que
en la presentació del reforçador no significa que no hi hagi situacions en què fossin irrellevants o rutinàries.
Per exemple, Williams (1975) va entrenar uns coloms en una caixa de condiciona-
ment perquè picotegessin una tecla de resposta que s'il·luminava durant cinc segons.
Les respostes de picotejar la tecla es reforçaven amb la presentació de menjar nou
o deu segons després que s'apagués la tecla il·luminada. Aquesta demora del reforça-
ment no va impedir el condicionament: els animals van aprendre a picotejar la tecla
il·luminada. L'experiment de Williams incloïa un segon grup de coloms. El tracta-
ment rebut va ser idèntic excepte que en finalitzar la demora i just abans que es pre-
sentés el menjar, s'il·luminava una segona tecla d'un color diferent. Aquesta simple
manipulació experimental va donar com a resultat un descens dramàtic de la respos-
ta instrumental de picotejar la primera tecla. Els subjectes van atribuir l'aparició del
menjar a l'estímul que el precedia immediatament en lloc de fer-ho a les respostes
donades alguns segons abans.
Vegeu també
Experiment de Pearce i Hall (1978)
Vegeu l'apartat 5.3, "Progra-
En un altre treball de Pearce i Hall (1978) es va entrenar unes rates a prémer la pa- mes d'interval", d'aquest mò-
lanca per a obtenir menjar amb un programa d'interval variable (vegeu l'apartat se- dul didàctic.
güent sobre programes de reforçament; ara per ara només cal emfatitzar que aquest
programa de reforçament és intermitent i fa que no totes les respostes vagin seguides
de reforçador, és a dir, la relació resposta reforçador és imperfecta). A un dels grups
es va presentar un predictor perfecte del menjar en disposar que les pressions de pa-
lanca reforçades també provoquessin un estímul extern, breu. Aquest estímul afegit
que no apareixia en cap altre moment i, per tant, estava perfectament correlacionat
amb el reforçador va interferir significativament amb l'establiment de les pressions
de palanca, i presumiblement, amb l'aprenentatge de l'associació entre la pressió de
palanca i el reforçador. En canvi, en els grups de control en els quals no apareixia
aquest estímul extern o bé apareixia però d'una manera no correlacionada amb el re-
forçador, es va observar un bon condicionament de la resposta de pressió de palanca.
2)�Principi�de�la�contingència
Els resultats van ser clars, quan l'única manera possible d'obtenir aigua era
prémer la palanca, la taxa de resposta era alta, però quan el reforçador era
igual de probable si es responia o no es responia, els animals van deixar de
prémer la palanca. Els resultats demostren que els animals eren sensibles a les
diferents contingències resposta reforçador i la seva actuació era controlada
per aquestes contingències.
En aquest cas, es va demanar als estudiants que en cada assaig premessin o no pre-
messin una tecla. La tasca consistia a esbrinar si prémer la tecla tenia algun efecte
sobre l'encesa d'un llum blanc. Finalment, els participants havien d'estimar el grau
de relació entre la resposta i el llum blanc en una escala de –100 a +100 (un valor
negatiu indicava que la resposta evitava que s'encengués el llum, mentre que puntu-
acions positives volia dir que la resposta feia encendre el llum). Els experimentadors
van variar la contingència entre resposta i conseqüència que anava de –,75 a +,75.
Les dades van mostrar que les puntuacions estimades dels participants
s'ajustaven a les contingències reals.
© FUOC • PID_00224015 39 Condicionament instrumental
5. Programes de reforçament
Pràcticament, tots els exemples que hem vist fins ara eren controlats per un
programa�de�reforçament�continu. Això significa que cada vegada que apa-
reix la resposta operant va seguida del reforçador.
Si posem les monedes pertinents en una màquina de cafè i premem el botó corresponent
a cafè exprés, sempre obtindrem la beguda. Si introduïm un got de llet al microones
durant un temps apropiat, obtindrem la temperatura volguda per a prendre'ns la llet. Si
manipulem un interruptor, s'encendrà el llum si estava apagat o s'apagarà si estava encès.
Un jugador de bàsquet pot llançar a cistella diverses vegades durant un partit però no
sempre obtindrà el resultat volgut, sinó que encistellarà només un percentatge dels seus
llançaments. Podem trucar per telèfon, però no sempre aconseguim posar-nos en con-
tacte amb la persona volguda, ja que de vegades comuniquen i de vegades no responen.
Si ens trobem en un semàfor que canvia de vermell a verd i el cotxe de davant no avança,
podem tocar la botzina i probablement el conductor despistat es posarà en marxa, però
si ens trobem en un embús de trànsit per molt que toquem la botzina, els cotxes no es
posaran en moviment.
Una rata que està sotmesa a un programa de reforçament RF25 rebrà el reforçador cada
25 respostes, això és, les primeres 24 respostes no seran reforçades i la que fa 25 rebrà el
reforçador. Un cop ha rebut el reforçador es torna a iniciar la raó.
A la part superior es mostren les respostes produïdes al llarg del temps i els reforçadors obtinguts. En aquest cas, l'animal
rep un reforçador cada cinc respostes i es tracta d'un programa de raó fixa 5 o RF5. A la part inferior, l'animal ha rebut un
reforçador després de quatre, set, tres i sis respostes. En aquest cas, es tracta d'un programa de raó variable. Si calculem la
mitjana aritmètica de les quatre raons obtindrem que l'animal ha necessitat una mitjana de cinc respostes per a cada reforçador,
per això el programa és de RV5.
Una persona que ha de vendre un nombre determinat de productes per tal de cobrar els
incentius, teclejar nou dígits per a establir una trucada telefònica o pujar els graons de
l'escala fins al primer pis.
En tots aquests exemples, cal donar un nombre fix de respostes abans d'assolir
el reforçador.
fins que obtenen el reforçador següent. La taxa de respostes donades pels ani-
mals s'anomena carrera�de�la�raó. Quan s'entrena un animal (o una persona)
sota un programa de RF, es comença per raons baixes i progressivament es va
incrementant la raó fins a arribar a la raó volguda. Cal tenir en compte, però,
que els increments de la raó no poden ser excessivament grans si no volem
que es deixi de respondre.
Si la pausa fos determinada per l'esforç del trencaclosques que acabem de fer,
la pausa seria la mateixa independentment del nombre de peces del trenca-
closques següent.
Si fem una partida de billar en la qual hem d'introduir vuit boles als diferents forats,
necessitarem un nombre diferent de tirades per a introduir cadascuna de les boles. Pot
succeir que a la primera tirada encertem a introduir una bola en un dels forat o pot ser
que necessitem diversos cops per a aconseguir-ho.
Si hem necessitat 2, 5, 10, 6, 9, 1, 10 i 5 cops per a introduir les vuit boles que ens corres-
ponen, llavors haurem executat la nostra conducta sota un programa de RV6. Tingueu
en compte que el valor 6 de la RV és la mitjana aritmètica del nombre de respostes re-
querides per a les vuit boles.
Exemple
Més familiar pot ser l'exemple de les màquines escurabutxaques en les quals el jugador ha
de dur a terme un conjunt de jugades per a rebre el reforçador però no sap mai quantes
jugades ha de fer.
© FUOC • PID_00224015 42 Condicionament instrumental
A diferència dels programes de raó en els quals l'únic requisit per a obtenir el
reforçador és donar un cert nombre de respostes, en els programes�d'interval
hi ha una segona condició que implica que ha d'haver transcorregut una de-
terminada quantitat de temps des de l'últim reforçador perquè torni a estar
disponible.
Si som afeccionats a les sèries televisives, per exemple Dr. House, podem ser reforçats si
engeguem el televisor i sintonitzem el canal adequat el dia i l'hora d'emissió. Ara bé, un
cop s'ha acabat el capítol de la setmana, engegar el televisor i sintonitzar el canal no
produirà el reforçador. De fet, caldrà que transcorri una setmana fins que no torni a estar
disponible la nostra sèrie preferida.
Esquema
A la part superior es mostren les respostes donades al llarg del temps i els reforçadors obtinguts. En aquest cas,
l'animal rep un reforçador per la primera resposta que executa passats 60 segons des de la darrera resposta
reforçada. Com que l'interval és constant, es tracta d'un programa d'interval fix 60 segons o IF60seg. A la part
inferior, l'animal ha rebut un reforçador per la primera resposta donada després d'un interval de 45 segons i d'un
interval de 75 segons. En aquest cas, es tracta d'un programa d'interval variable. Si calculem la mitjana aritmètica
dels dos intervals, obtindrem un interval mitjà de 60 segons; per això, el programa és d'IV60seg.
Els programes d'IF generen un patró de respostes propi. Igual que els programes
de RF, just després de rebre el reforçador, els organismes deixen de respondre,
però a diferència dels programes de RF, quan es torna a respondre no es fa amb
una taxa alta i estable, sinó que les respostes incrementen d'una manera ex-
ponencial. A mesura que transcorre l'interval, comencen a aparèixer algunes
respostes tímidament, que van incrementant en la seva freqüència lentament
fins que cap al final de l'interval la taxa de resposta es dispara. Això fa que el
registre acumulatiu de respostes presenti una forma anomenada de fistó per la
seva semblança a l'ornament de la vora d'alguns vestits o objectes que consis-
teix en un retallat en forma de dents corbes.
Per a exemplificar aquest patró de respostes fora del laboratori imaginem que anem a la
parada de l'autobús i just quan hi estem arribant veiem que l'autobús marxa. Suposem que
no portem cap rellotge, però sabem que l'autobús passa cada 20 minuts; per tant, mentre
esperem el proper autobús seiem al banc i comencem a llegir un llibre. En aquesta situació
la resposta instrumental és mirar carrer avall per tal de veure si arriba el proper autobús.
El reforçador per a aquesta resposta és simplement veure arribar l'autobús. Pot semblar
un reforçador massa feble, però un cop veus l'autobús, et pots posar dret i apropar-te a la
via per a assegurar-te que el conductor et veu i s'atura. Al començament, la resposta de
mirar carrer avall per tal de veure l'autobús pot no aparèixer en absolut, i podem llegir
ininterrompudament durant cinc o deu minuts abans de donar el primer cop d'ull al
carrer. La propera mirada al carrer pot aparèixer dos o tres minuts després i, a continuació,
podem mirar cada minut. Després de 15 minuts d'espera, podem decidir deixar el llibre
i mirar d'una manera continuada fins que arribi l'autobús.
© FUOC • PID_00224015 44 Condicionament instrumental
Per què es produeix aquest patró fistonat de respostes? El primer aspecte im- Lectura recomanada
portant del patró de respostes observat en els programes IF és que els animals
Per a una revisió sobre
disposem d'algun mecanisme que ens permet mesurar el temps. Com que els l'habilitat de mesurar el
intervals són fixos, els animals poden aprendre amb prou entrenament quina temps:
J. Gibbon i R. M. Church
és la durada de l'interval. Així, un cop un animal acaba de rebre el reforçador, (1992). Comparison of vari-
la probabilitat de rebre un nou reforçador és zero i, en conseqüència, no do- ance and covariance patterns
in parallel and serial theories
narà respostes, però a mesura que va passant el temps, la probabilitat d'arribar of timing. J. Exp. Anal. Behav.
al final de l'interval va incrementant i, per tant, també incrementa la probabi- 05, 57(3): 393-406.
litat d'obtenir el reforçador. Com més temps passa, més alta és la probabilitat
de rebre el reforçador i també la motivació per a respondre.
Una variant dels programes d'interval és fer que sigui imprevisible la durada
de l'interval. En aquest cas, parlem de programes�de�reforçament�d'interval
variable o, abreujat, IV. Així, un programa d'IV2minuts indica que el temps
mitjà dels intervals és de dos minuts, però en segons quins moments només
caldrà esperar, per exemple, 30 segons perquè el reforçador estigui disponible
i en altres moments l'espera serà més llarga, per exemple, tres minuts. El fet
que la durada de l'interval sigui imprevisible fa que la taxa de resposta sigui
més estable i, per tant, desaparegui el patró de resposta en forma de fistó.
Una situació que es trobaria sota un programa similar al d'interval variable és quan anem
a buscar bolets. Si coneixem un racó on surten rovellons hi podem anar un dia qualsevol
i collir tots els que hi trobem. Quan tornaran a estar disponibles més bolets no ho podem
saber. De vegades, a l'endemà ja n'hi podem trobar, d'altres vegades potser no n'hem
trobat fins al cap d'una setmana. Com que és imprevisible quan trobarem els rovellons,
el més probable és que hi fem visites amb força freqüència.
Si recuperem l'exemple de la sèrie televisiva Dr. House, ens podem adonar que hi ha una
diferència important. Només serem reforçats si connectem el televisor durant l'hora se-
güent a la que ha començat el programa, però passat aquest temps ja no es podrà veure.
En la gràfica es mostren registres acumulats hipotètics generats pels quatre programes de reforçament simples. Es
pot observar que els programes fixos (RF i IF) produeixen pauses postreforçament. D'altra banda, els programes de
raó (RF i RV) produeixen taxes de resposta més elevades que els programes d'interval (IF i IV).
Podem observar diverses similituds entre els programes de raó i d'interval. Ens
els programes fixos, tant de raó com d'interval, s'observa una pausa després
de rebre el reforçador. Aquestes pauses desapareixen quan els programes són
variables. No obstant això, hi ha diferències notables respecte a la taxa de
resposta que generen. Els programes de raó provoquen una taxa de resposta
molt més alta que els programes d'interval.
Els resultats de Reynolds (1975) van mostrar que la taxa de resposta del colom
reforçat amb un programa de RV era molt més alta que la taxa de resposta del
colom reforçat amb un programa d'IV. S'han trobat resultats similars en un
estudi que va comparar els programes de RV i d'IV que utilitzava estudiants
universitaris com a subjectes en lloc de coloms (Raia, Shillingford, Miller i
Baier, 2000).
© FUOC • PID_00224015 46 Condicionament instrumental
Per què els programes de raó provoquen taxes de resposta més elevades que
els programes d'interval? Una primera resposta és que com que guanyar re-
forçadors a partir d'un programa de raó depèn exclusivament de l'actuació de
l'organisme, mentre que en els programes d'interval el reforçador depèn a més
a més del pas del temps, els primers provoquen més motivació que els segons.
Però, què s'estaria reforçant d'una manera diferent en els programes de raó
i d'interval que generés la diferència en la taxa de resposta observada? Una
possibilitat és que en els programes de raó s'estigués reforçant temps entre
respostes curts, mentre que en els programes d'interval es reforcessin temps
entre respostes llargs. De fet, en un programa de raó com més ràpidament res-
pongui el subjecte més reforçadors aconseguirà. Per tant, si l'organisme espe-
ra poc temps entre respostes, obté més reforçadors i s'estan afavorint temps
entre respostes curts. En canvi, en un programa d'interval passa justament el
contrari. Pensem en un programa d'IF1minut. Si l'animal respon amb una fre-
qüència alta (temps entre resposta curt), pot executar moltes respostes durant
l'interval que no seran reforçades (ni tampoc els temps entre respostes curts).
D'altra banda, si l'animal s'espera prou temps entre una resposta i la següent,
la probabilitat que el reforçador estigui disponible i, per tant, de rebre'l serà
més alta. En conseqüència, el que s'estarà reforçant és que s'esperi un temps
entre resposta i resposta, és a dir, es reforçaran temps entre respostes llargs.
És evident que constantment estem escollint què fer. Des de les eleccions més
banals, com, per exemple, si mirem la televisió o si llegim una revista, fins a
eleccions més importants com, per exemple, si establim una família o no. Ca-
da alternativa que se'ns presenta té unes conseqüències concretes i, per tant,
és molt possible que aquestes conseqüències influeixin en l'elecció final. Si
© FUOC • PID_00224015 47 Condicionament instrumental
analitzem els dos exemples que hem posat veurem que les eleccions que im-
pliquen són diferents en el sentit que en el primer cas no exigeix cap compro-
mís i podem anar canviant d'alternativa sempre que vulguem. Podem posar
la televisió i mirar-la una estona i quan ens sembli podem llegir la revista, i a
l'inrevés. En canvi, la segona elecció implica un compromís, almenys per a un
determinat període de temps. Si decidim formar una família amb una parella,
no serà massa comú canviar de parella i anar alternant amb la primera sempre
que ens vingui de gust. Aquests dos tipus d'elecció s'han estudiat al laboratori
utilitzant els procediments de programa�concurrent i programa�concurrent
encadenat, respectivament.
RA/(RA+RB)
Si un animal respon per igual a les dues alternatives, la taxa relativa de resposta
a la tecla A serà igual a 0,5. Si mostra més tendència a respondre a la tecla A,
llavors la taxa relativa de resposta a la tecla A serà més gran de 0,5, mentre
que si mostra més tendència a respondre a la tecla B, llavors el valor de la taxa
relativa de resposta a la tecla A serà més petita de 0,5.
© FUOC • PID_00224015 48 Condicionament instrumental
Hem apuntat que l'elecció entre les alternatives serà influenciada pels refor-
çadors que es poden obtenir en cadascuna d'elles. Si tenim dos programes de
reforçament IV30seg i IV60seg, els animals poden obtenir una quantitat de
reforços diferent en cadascun d'ells. En el programa d'IV30seg es poden acon-
seguir dos reforçadors per minut, mentre que en el programa d'IV60seg només
es pot aconseguir un reforçador per minut. És clar que el programa d'IV30seg
és més avantatjós, i podríem pensar que el colom es dedicaria només a respon-
dre a aquest programa. Però en tractar-se de dos programes d'interval, l'animal
pot aconseguir, almenys teòricament, tots els reforçadors dels dos programes,
si alterna d'una manera adequada entre les dues tecles de resposta. La taxa re-
lativa de resposta ens donarà informació sobre la distribució de les respostes
entre les dues alternatives.
Però també podrem calcular un altre paràmetre que ens permetrà veure si la
distribució de respostes és influïda pel reforçament obtingut en cada alterna-
tiva. Aquest paràmetre és la taxa relativa de reforçament. Així, la taxa relativa
de reforçament a la tecla A, per exemple, es calcula dividint la taxa de refor-
çament a la tecla A per la taxa de reforçament total (la taxa a la tecla A més
la taxa a la tecla B):
rA/(rA + rB)
El que estableix la llei de la igualació és, simplement, que les taxes rela-
tives de resposta en una tecla determinada s'igualen a les taxes relatives
de reforçament en la mateixa tecla.
La llei de la igualació s'ha mostrat vàlida per a altres paràmetres del reforça-
dor com és la seva magnitud, immediatesa i qualitat, i també per a condici-
onament aversiu, o fins i tot per als programes simples de reforçament amb
una única alternativa de resposta. S'han fet diferents adaptacions de l'expressió
matemàtica de la llei de la igualació per a cadascun d'aquests paràmetres i
situacions. No exposarem aquí totes aquestes reformulacions de la llei de la
igualació, però sí que en presentarem un exemple quotidià.
Tothom està més o menys familiaritzat amb l'esport del bàsquet i les seves regles. Un
jugador pot escollir al llarg del partit fer llançaments des de dins de la zona, amb la qual
cosa s'aconsegueixen dos punts per cistella, o fer llançaments des de fora de la zona,
amb la qual cosa s'aconsegueixen tres punts per cistella. Considerem els llançaments a
cistella com la resposta instrumental, l'encistellada com el reforçador i els punts obtinguts
amb cadascun dels dos tipus d'encistellada com la magnitud del reforçador. En la taula
es mostra l'estadística de llançaments i encistellades de dos jugadors professionals de
bàsquet de la Penya durant la temporada 2007-2008.
Podem calcular la taxa relativa de llançaments de tres punts per a cadascun dels dos
jugadors.
I, finalment, calculem la taxa relativa de la magnitud del reforçador (punts) de tres punts:
Podem veure que la llei de la igualació es compleix en el primer jugador pel que fa a la
magnitud del reforçador, mentre que per al segon jugador, la llei es compleix per a la
freqüència del reforçament. Sembla ser que per a cadascun del dos jugadors l'elecció dels
llançaments de dos o tres punts és determinada per diferents aspectes del reforçador: en
el primer jugador és la magnitud del reforçador la que controla la seva elecció del tipus
de llançament, mentre que per al segon jugador és la freqüència d'encistellades de cada
tipus de llançament la que en controla les eleccions.
En l'exemple hem vist com s'aplica la llei de la igualació en una situació real.
Les dades obtingudes s'ajusten d'una manera bastant precisa a les prediccions
de la llei de la igualació. No obstant això, Baum (1974) va identificar tres errors
sistemàtics en situacions d'elecció: biaixos, sobreigualació i infraigualació.
© FUOC • PID_00224015 50 Condicionament instrumental
• Els biaixos s'observen quan els subjectes tenen una preferència clara per
una de les alternatives de resposta, per exemple, la palanca de la dreta. En
aquests casos, la preferència per un dels mecanismes de resposta interfereix
en els paràmetres de la recompensa i produeix un biaix respecte al que
preveu la llei de la igualació.
Per tal de tenir en compte aquests errors en la llei de la igualació, Baum (1974)
va reformar l'equació de la llei introduint-hi dos paràmetres que corregissin
els errors identificats:
s
RA/RB = k(rA/rB)
en què RA, RB, rA i rB són les respostes i les freqüències del reforçador en
els programes A i B, respectivament; k és una constant que representa el
biaix de resposta i s és un exponent que regula la sensibilitat del subjecte
vers els dos programes.
La idea central és que els animals alternen entre dues fonts de reforça-
ment per tal d'aconseguir el màxim de reforçadors.
Tot i que la teoria de la maximització pot explicar l'alternança entre dos pro-
grames IV-IV i la dedicació al programa millor de dos programes RV-RV, no pot
explicar per què les taxes relatives de resposta s'ajusten a la llei de la igualació.
Per exemple, si un animal està sotmès a una elecció IV30seg-IV60seg, podria
obtenir el màxim de reforçament si es dedica al programa IV30seg i cada 60
segons canvia al programa IV60seg. Però també obtindria el màxim de refor-
çadors si es dediqués al programa IV60seg i cada 30 segons provés en el pro-
grama IV30seg. Un altre problema es troba quan els individus estan sotmesos
a una elecció concurrent RV-IV. La maximització passaria per respondre quasi
exclusivament al programa RV i canviar al programa IV quan s'ha completat
l'interval. No obstant això, tant animals com humans dediquen més temps al
programa d'interval del que la maximització prediu.
Fins ara hem parlat de les taxes de resposta en un sentit global, això és, els
reforçadors obtinguts en una alternativa en tota la sessió. Si un animal obté
50 reforçadors en l'alternativa A en una sessió d'una hora, la taxa global és
de 50 reforçadors per hora, però si ha dedicat només 15 minuts a aquesta
alternativa, llavors podem calcular la taxa local de reforçadors a l'alternativa A:
© FUOC • PID_00224015 52 Condicionament instrumental
La teoria del millorament proposa que els animals aniran fent ajustaments a la
distribució de les seves respostes fins que les taxes locals de les dues alternati-
ves s'igualin, moment en què ja no es pot millorar la situació. El més interes-
sant de la teoria és que prediu que les distribucions de les respostes s'ajustaran
exactament al que prediu la teoria de la igualació.
çadors) = 0,67. Podem veure, doncs, que la teoria del millorament aconsegueix
predir exactament com es distribuiran les respostes entre els dos programes
concurrents.
El segon tipus d'elecció que hem introduït més amunt era la que implicava
un compromís. Si rebem dues ofertes de treball ens haurem de decidir per una
d'elles. L'elecció implica un compromís perquè un cop feta l'elecció ens dedica-
rem, almenys un cert temps, a l'elecció escollida i renunciarem a l'alternativa.
Com s'ha estudiat aquesta situació al laboratori?
• Som a casa disposats a estudiar per a l'examen que tenim d'aquí a 15 dies quan els
amics ens telefonen i ens conviden a anar a la discoteca. Què farem en aquesta situ-
ació? El més probable és que anem a la discoteca.
• Volem deixar de fumar. Sabem que després d'un temps sense fumar trobarem unes
millores importants amb relació a la salut, no farem pudor de fum, no haurem de
sortir del lloc de treball cada dos per tres per a fer la cigarreta, etc. En canvi, després
de sis hores sense encendre cap cigarreta ens comencem a notar nerviosos, no ens
concentrem en el que fem, mengem més sovint i el nostre humor s'ha tornat agre.
Sabem que si fem una cigarreta tots aquests símptomes desapareixeran. Què farem
en aquesta situació? La resposta més probable serà encendre la cigarreta.
En les dues tenim dues opcions i hem de decidir entre elles. Quan escollim
una de les alternatives, perdem l'oportunitat de dedicar-nos a l'altra, almenys
un cert temps. Però, a més, tenim que una de les opcions proporciona un re-
forçament gran però demorat, mentre que l'altra opció proporciona un refor-
çament petit encara que immediat. En efecte, estudiar ens permet aprovar un
examen que, a la llarga, ens proporciona un ofici i la possibilitat de guanyar
diners, mentre que anar a la discoteca ens dóna un plaer immediat però petit,
ens ho haurem passat bé durant una estona però difícilment tindrà repercussi-
ons importants per a la nostra vida. No fumar (i dedicar-nos a altres activitats)
© FUOC • PID_00224015 54 Condicionament instrumental
proporciona una gran recompensa amb relació a la salut i socialment, però els
seus efectes no els veurem fins passats uns dies o setmanes, mentre que fer una
cigarreta ens elimina la síndrome d'abstinència d'una manera immediata.
V = M/(1 + KD)
Posem monedes en una màquina expenedora de cafè per obtenir-ne la beguda, però, si la
màquina està espatllada i no ens proporciona el cafè insistirem i premerem el botó fins
que ens convencem que no hi haurà reforçador i el deixem de prémer.
Tot i que la teoria és senzilla, actualment hi ha evidències experimentals a fa- Vegeu també
vor d'una teoria alternativa lleugerament diferent basada en el decrement de
Vegeu el subapartat 9.2, "Gra-
la generalització i proposada per Capaldi (1966, 1967). La hipòtesi�del�decre- dients de generalització",
ment�en�la�generalització és el terme utilitzat per a anomenar el decrement d'aquest mòdul didàctic.
Si reforcem a un colom per picotejar una tecla il·luminada de color groc, observarem un
decrement de la generalització (una freqüència més baixa de respostes) si el color de la
tecla és blau durant la prova de generalització.
Si arribem a casa i s'ha espatllat l'ascensor i no ho sabem, premerem el botó per cridar-lo.
Quan veiem que no arriba, probablement tornarem a prémer el botó. Com que l'ascensor
no arribarà, podrem començar a provar noves estratègies com prémer repetidament el
botó o mantenir la pressió sobre el botó més temps del necessari.
En línies generals, les rates de l'experiment havien d'executar una seqüència de tres res-
postes per a obtenir un reforçador. De fet, els animals podien prémer qualsevol de les dues
palanques de resposta i/o una tecla de resposta. Qualsevol combinació podia ser reforça-
da durant l'entrenament i es va mesurar la variabilitat de la resposta. Quan no hi havia
cap restricció sobre la variabilitat en la seqüència de tres respostes, es va observar que els
animals desenvolupaven una preferència per una seqüència concreta i introduïen pocs
canvis. Quan posteriorment es va dur a terme l'extinció, es va observar que el descens
de la taxa de resposta anava acompanyat d'un increment de la variabilitat de la resposta.
Les rates de Neuringer i col·laboradors provaven seqüències diferents de respostes quan
les habituals van deixar de produir el reforçador.
En un experiment d'Azrin, Hutchinson i Hake (1966) van situar dos coloms en una
caixa d'Skinner. Un dels subjectes rebia reforçadors per a picotejar una tecla de res-
posta, mentre que l'altre animal romania lligat en una cantonada de la caixa. Mentre
el subjecte experimental era reforçat, ignorava completament el seu company. Quan
es va introduir un programa d'extinció i la resposta ja no proporcionava el reforçador
esperat, el subjecte experimental va mostrar una conducta agressiva vers el seu inno-
cent company, que fins llavors havia estat un convidat de pedra.
Aquesta mateixa reacció agressiva induïda per l'extinció també s'ha observat
en rates i persones (per exemple, Nation i Cooney, 1982; Tomie, Carelli i Wag-
ner, 1993).
Imaginem una situació en què un bebè plora durant la nit i els pares l'agafen en braços.
La conducta de plorar s'haurà vist reforçada pel fet que el passegin amunt i avall del
passadís. Si volem que el bebè deixi de plorar de nit, haurem d'instaurar un procediment
d'extinció que implicarà no agafar el nen en braços quan plora. És molt possible que les
primeres nits, el bebè intensifiqui i allargui el plor a causa de la frustració de no rebre el
reforçador. També és possible que el bebè doni cops de peu. Aquest comportament mostra
els canvis en la resposta de plor (duració i intensitat) i la conducta agressiva que genera
l'extinció. Si els pares resisteixen la temptació d'agafar el nen en braços, la resposta de plor
desapareixerà. En canvi, si els pares cometen l'error d'agafar-lo en braços algunes vegades
i d'altres no, estaran instaurant un programa de reforçament parcial. La conseqüència
serà que l'extinció serà més difícil si finalment decideixen no agafar-lo més en braços.
© FUOC • PID_00224015 60 Condicionament instrumental
7. Condicionament aversiu
La majoria de situacions que hem vist fins ara fan referència al reforçament
positiu, és a dir, que la conducta fa que es presenti un estímul o situació agra-
dables. No obstant això, quan parlàvem del procediments de condicionament
instrumental hem definit dues situacions en què hi havia implicats estímuls o
situacions aversives o desagradables. Si recordem, aquestes situacions eren el
reforçament negatiu, en què l'execució de la resposta provocava l'acabament
d'un estímul aversiu o n'impedia la presentació, i el càstig, en què la conducta
feia aparèixer un estímul aversiu. En aquest apartat, veurem amb deteniment
aquestes dues situacions.
Solomon i Wynne (1953) van dur a terme un experiment que il·lustra moltes
de les característiques del reforçament negatiu.
Van treballar amb gossos i l'aparell era una caixa d'anada i tornada (de l'anglès shuttle
box; vegeu la figura següent). Aquest aparell consta de dos compartiments separats per
una tanca d'uns centímetres d'alçària. Un animal es pot desplaçar d'un compartiment
a l'altre si salta la tanca. Cada compartiment té el terra de metall que es pot electrificar
per a dispensar estímuls aversius (descàrregues elèctriques). Finalment, cal indicar que
en cada compartiment hi ha una bombeta que pot il·luminar els dos compartiments
independentment. En cada sessió experimental, un gos rebia deu assajos en els quals
podia escapar o evitar una descàrrega si saltava a l'altre compartiment. Cada pocs
minuts, s'apagava el llum del compartiment on hi havia l'animal, mentre que el llum
de l'altre costat es mantenia encès. Si el gos es quedava en el compartiment a les
fosques, després de deu segons el terra s'electrificava i l'animal rebia la descàrrega
elèctrica que durava fins que l'animal saltava la barrera. D'aquesta manera, l'animal
podia escapar de la descàrrega. El gos també podia evitar la descàrrega si donava la
resposta abans que passessin els deu segons des que s'apagava el llum. En l'assaig
següent es procedia de la mateixa manera però la resposta consistia a tornar al primer
compartiment.
© FUOC • PID_00224015 61 Condicionament instrumental
L'animal s'ubica en un dels compartiments separats per la tanca. En un moment determinat es presenta
un estímul visual o auditiu d'uns pocs segons de durada i, a continuació, s'electrifica la reixa del terra del
compartiment on es troba l'animal, però no la del compartiment buit. Per a escapar-se de la descàrrega,
l'animal ha de saltar la tancar per tal de passar al compartiment de seguretat. Amb l'entrenament, l'animal
donarà respostes d'evitació, ja que canviarà de compartiment en el moment en què es presenta l'estímul
discriminant i abans que s'electrifiqui el terra.
En cada assaig, Solomon i Wynne van mesurar el temps que trigava l'animal a canviar
de compartiment a partir del moment en què el llum s'apagava. En els primers assajos
van poder veure que els animals trigaven més de deu segons a saltar al compartiment
del costat des de l'apagada del llum. Aquesta demora en la resposta provocava que
els pobres animals rebessin la descàrrega i, per tant, les respostes eren d'escapada.
Tanmateix, amb pocs assajos d'entrenament els animals canviaven de compartiment
abans que passessin els deu segons i, en conseqüència, evitaven la descàrrega. Cap
als 12 assajos de condicionament, la majoria de gossos evitava completament la des-
càrrega, ja que trigava de dos a tres segons a donar la resposta.
1)�Teoria�dels�dos�factors
Rescorla i LoLordo (1965) van dur a terme una sèrie experimental que dona-
va suport a la teoria dels dos factors. Atès que la clau de la teoria es troba en
el paper de l'estímul que prediu clàssicament l'EI aversiu, Rescorla i LoLordo
van manipular el significat d'un EC en aparellar-lo amb la descàrrega (condi-
cionament excitador) o amb l'absència de la descàrrega (condicionament in-
hibidor). Els resultats van mostrar que les presentacions de l'EC excitador en
una situació d'evitació incrementava la intensitat de la resposta instrumen-
tal, mentre que si es presentava l'EC inhibidor atenuava la resposta d'evitació.
Un EC inhibidor de la por s'anomena senyal�de�seguretat, ja que assenyala
l'absència d'un EI aversiu (Weisman i Litner, 1969). L'eficàcia dels senyals de
seguretat s'ha demostrat en diverses situacions. Per exemple, si es presenta un
estímul explícit cada vegada que s'acaba una descàrrega, llavors la por dels
animals a la situació experimental és atenuada (Mineka, Cook i Miller, 1984).
D'altra banda, el condicionament d'evitació és més ràpid si es presenta un es-
tímul cada vegada que l'animal duu a terme la resposta instrumental requerida
(McAllister i McAllister, 1992).
2)�Teoria�d'un�factor
Atesos els problemes de la teoria dels dos factors, no és estrany que aparegues-
sin noves teories per a explicar el condicionament d'evitació. Una d'elles rep el
nom de teoria�d'un�factor. Rep aquest nom ja que afirma que el condiciona-
ment clàssic de la por no és necessari perquè es produeixi la resposta d'evitació.
En altres paraules, l'evitació de la descàrrega és en si mateixa el reforçador.
3)�Teoria�cognitiva
Una segona alternativa a la teoria dels dos factors i, és clar, també per a la
teoria d'un factor, és la teoria�cognitiva que van proposar Seligman i Johnson
(1973). La teoria cognitiva se centra en el principi de la discrepància entre el
que succeeix i el que els organismes esperen que succeeixi. Aquesta perspectiva
segueix els postulats de la teoria de Rescorla i Wagner (1972) estudiada en el
mòdul "Condicionament clàssic pavlovià".
Reforçament negatiu
Escapada Evitació
7.2. Càstig
Quan una conducta va seguida d'un estímul aversiu podem observar un de-
crement de la conducta.
Seguint el nostre passeig pel Pirineu podem veure que un ramat de vaques pastura
tranquil·lament en un prat. Per més que busquem, no hi trobem el pastor ni el gos d'atura,
sinó un vailet elèctric que envolta el camp. Fa anys que els pastors utilitzen aquest mètode
per a mantenir els ramats controlats sense haver-hi de ser present totes les hores del dia.
Com diu el nom, el vailet elèctric és un filferro electrificat que envolta el prat
i si una vaca s'hi acosta i el toca rep una descàrrega. Els animals aprenen ràpi-
dament que no han d'intentar superar els límits de prat assenyalats pel vailet.
Ambdós casos són exemples de càstig.
Vegeu també
Experiment d'Skinner (1938)
Sobre programa IV podeu veu-
En un experiment clàssic d'Skinner (1938), es van entrenar durant tres dies dos grups re el subapartat 5.3, "Progra-
de rates amb un programa IV per a obtenir menjar si premien una palanca. Després mes d'interval", d'aquest mò-
de l'entrenament es va introduir un procediment d'extinció durant dues sessions. dul didàctic.
L'única diferència entre els dos grups va ser que per a un dels grups, durant els deu
primers minuts de la primera sessió d'extinció, quan l'animal pressionava la palanca,
aquesta saltava enlaire i colpejava les potes de l'animal. Aquest càstig lleuger va ser
suficient per a reduir la conducta d'una manera notable respecte al grup que rebia
només extinció. Tanmateix, quan va desaparèixer el càstig, la resposta va tornar a
aparèixer. Al llarg de la segona sessió les taxes de resposta dels dos grups van ser molt
similars i es van acabar extingint al mateix ritme.
Azrin (1960) va dur a terme un experiment en el qual després d'entrenar unes rates a
prémer la palanca per a obtenir menjar va introduir el càstig de manera que cada ve-
gada que premien la palanca rebien una descàrrega suau. A l'inici, la taxa de resposta
va disminuir dràsticament, però al llarg de diverses sessions, la resposta es va recupe-
rar. Tanmateix, quan la descàrrega era prou intensa, el càstig produïa un descens o la
desaparició completa de la resposta a llarg termini.
Schuster i Rachlin (1968) van dur a terme un experiment en què uns coloms podien
picotejar dues tecles de resposta per a obtenir menjar sota el mateix programa IV.
En alguns moments, s'encenia la tecla de resposta ubicada a la dreta i picotejar-la
proporcionava menjar. En d'altres, era la tecla de l'esquerra la que s'il·luminava i les
respostes a aquesta tecla també eren reforçades. Un cop els animals van aprendre la
tasca, es va introduir l'estímul aversiu. Concretament, quan s'il·luminava la tecla de
la dreta, algunes de les picades dels coloms eren seguides d'una descàrrega. En canvi,
quan s'il·luminava la tecla de l'esquerra, es presentava la descàrrega amb la mateixa
freqüència però independentment de la resposta de picotejar. Els resultats van mos-
trar que els animals van deixar de respondre quan s'il·luminava la tecla de la dreta,
però mantenien la resposta si s'il·luminava la tecla de l'esquerra. Els resultats mostren,
doncs, que la supressió de la resposta durant el càstig es deu a la contingència entre
la resposta i l'estímul aversiu (vegeu la figura següent).
La descàrrega només reduïa la resposta de pressió de palanca quan era contingent a la resposta, però no quan
no era contingent a la resposta.
D'acord amb el que hem exposat fins ara, podem concloure que el càs-
tig positiu té els efectes oposats al reforçament positiu. Mentre que el
reforçament provoca un increment de la resposta, el càstig en provoca
un descens i aquests canvis es mantindran mentre es mantingui la con-
tingència entre la resposta i l'estímul apetitiu o aversiu, respectivament.
Ara analitzarem alguns factors que influeixen en l'eficàcia del càstig positiu.
• Els programes� de� càstig, és a dir, el patró amb què s'administra el càs-
tig també té repercussions sobre la seva eficàcia. La manera més efectiva
d'eliminar una conducta és mitjançant un programa continu de càstig i
no d'un programa intermitent. Abans de presentar els estudis que mostren
alguns dels efectes dels programes de càstig cal recordar que en aquests
experiments els animals aprenen a donar la resposta per a obtenir menjar
i, posteriorment, s'introdueix el càstig de la mateixa conducta. Per tant, els
animals estan altament motivats per a executar la conducta que es casti-
ga. Amb aquest procediment, Azrin i col·laboradors (1963) van comparar
diferents programes de càstig de RF que anaven des d'una raó igual a 1 a
una raó de 1.000. Van trobar que com més petita era la raó, més eficaç
era el programa per a reduir la conducta. També s'ha trobat (Azrin, 1956)
que quan es castiga una conducta amb un programa d'IF60seg provoca un
patró de respostes desaccelerat a mesura que s'acaba l'interval (just el patró
oposat al que provoca el reforçament en què s'observa una acceleració cap
al final de l'interval). Quan s'ha utilitzat un programa de RF20, els animals
reduïen les respostes a mesura que s'apropava la resposta número 20 i que,
just després de rebre el càstig, els animals tornaven a respondre amb una
taxa alta (Hendry i VanToller, 1964). De bell nou, trobem un patró de res-
posta oposat al que provoca el reforçament amb programes de RF. Allà vè-
iem que l'RF provocava justament una pausa després del reforçament; en
el càstig, la pausa es fa abans de rebre el càstig.
volem castigar una conducta altament motivada sense haver d'utilitzar es-
tímuls aversius molt intensos. Cal identificar el reforçador que manté la
conducta i devaluar-lo. Una manera de fer-ho és dispensant-lo d'una ma-
nera no contingent a la conducta que volem castigar. Un exemple deixarà
clar aquest punt.
Imaginem uns pares que volen eliminar la conducta destructiva del seu fill. Sospiten
que la conducta destructiva del nen persegueix la finalitat de captar l'atenció dels pares.
Llavors, la manera de devaluar el reforçador seria prestar atenció al nen en altres moments
diferents de quan es porta malament.
• Relacionat amb aquest darrer punt, s'ha observat que proporcionar con-
ductes�alternatives a la conducta castigada que proporcionin el mateix
reforçador augmenta l'eficàcia del reforçador. Continuem amb l'exemple
del nen que trenca objectes per a obtenir l'atenció dels pares. Si realment
és l'única manera que té el nen de rebre atenció, el càstig no tindrà cap
efecte, ja que en si mateix implicarà l'atenció que busca el nen. Si prestem
atenció al nen per altres comportaments acceptats, com llegir, llavors li
podem proporcionar atenció i interessar-nos pel que llegeix o dedicar-li
un temps al dia per a jugar.
Azrin i Holz (1966) van presentar dades en què un colom que responia en un pro-
grama RF25 per a obtenir menjar (vegeu els programes de raó, secció 6.2 d'aquest
mòdul) i va ser castigat amb una descàrrega lleu, va reduir la taxa de resposta només
en un 10%. En canvi, un altre colom que disposava de dues tecles de resposta amb el
mateix programa RF25 en cadascuna d'elles i que només es castigava el fet de respon-
dre en una, però no en l'altra, van deixar de respondre completament a l'alternativa
castigada.
• El darrer factor que veurem que afecta l'eficàcia del càstig fa referència al
paper que té el càstig com a senyal�del�reforçador.
© FUOC • PID_00224015 70 Condicionament instrumental
Holz i Azrin (1961) van entrenar uns coloms perquè picotegessin una tecla de resposta
per a obtenir el menjar. La peculiaritat del procediment era que el menjar només
estava disponible quan es castigava la resposta de picotejar amb una descàrrega, però
no en altres moments en què no es castigava la resposta. De fet, la descàrrega feia el
paper d'un estímul discriminant que assenyalava la disponibilitat del menjar. No és
estrany, doncs, que els pobres coloms estiguessin disposats a rebre descàrregues si era
l'únic moment en què podien menjar.
Si es tenen en compte tots els factors que afecten l'eficàcia del càstig
per a suprimir conductes, podem concloure que el procediment és tan
eficaç com el reforçament per a modificar el comportament.
No obstant això, hi ha certs efectes� secundaris� del� càstig que cal tenir en
compte abans de decidir la seva utilització.
• Un segon aspecte que cal tenir en compte és que el càstig pot suprimir
altres�conductes diferents de la que es castiga.
Si un nen és reforçat per endreçar l'habitació, ell mateix estarà interessat a fer notar als
pares que ha posat en ordre l'habitació. Però si es castiga el nen per pegar el seu germà,
procurarà fer-ho quan no hi hagi adults al davant i si el germà el delata, el més probable
és que l'infractor ho negui per evident que sigui.
Relacionat amb el que acabem de dir, Azrin i Holz van descriure el comporta-
ment d'una rata força intel·ligent que rebia càstigs per algunes de les pressions
de palanca que feia amb l'objectiu d'obtenir menjar. Concretament, aquest
animal va aprendre a prémer la palanca posant-se panxa enlaire de manera
que la pell l'aïllava de les descàrregues que es dispensaven des del terra. És evi-
dent que un delinqüent intentarà amagar totes les proves possibles dels seus
delictes per tal d'escapar del càstig que comporten les seves accions.
Fins aquí, hem exposat els efectes del procediment de càstig i els factors que
influeixen en la seva eficàcia. Però, com s'explica que el càstig redueixi la con-
ducta?
Dinsmoor (1954, 1955, 1977) va assumir que qualsevol resposta és constituïda per
una cadena d'altres conductes. Prémer una palanca comença per apropar-se a l'estri,
aixecar la pota, repenjar-la damunt la palanca i fer força avall. Quan el darrer ele-
ment de la cadena provoca l'estímul aversiu, les baules prèvies de la cadena queden
associades amb l'estímul aversiu i serveixen com a senyals clàssics per a evocar por.
D'aquesta manera, apropar-se a la cadena pot activar la por de l'animal i qualsevol
resposta que interrompi la por es veurà reforçada. Així, trencar la cadena i dedicar-se
a altres conductes elimina la por i es veuen reforçades. En definitiva, els animals dei-
xen d'executar la resposta castigada perquè es reforcen altres conductes incompati-
bles amb la conducta castigada.
Tot i que és difícil poder comparar experimentalment les dues teories, la recer-
ca ha aportat més dades a favor de la teoria del factor únic. No obstant això,
els experiments més concloents a favor de la teoria del factor únic són bastant
complexes i no els exposarem aquí.
© FUOC • PID_00224015 73 Condicionament instrumental
D'altra banda, els mecanismes que permeten descobrir les relacions entre el
comportament i les seves conseqüències és el centre d'interès de la perspec-
tiva�associativa. Thorndike va ser el primer a intentar explicar el comporta-
ment instrumental per la formació d'associacions. Actualment, l'interès per
l'enfocament associatiu és influenciat pels estudis en el camp del condiciona-
ment clàssic i pren una estratègia molecular.
Thorndike va ser el primer que va descriure els elements implicats en el con- Abecé de la conducta
dicionament instrumental: la resposta (R), la conseqüència o reforçador (C) i
Skinner anomenava aquesta
els estímuls (E) en presència del quals es produeixen la resposta. estructura l'abecé de la conduc-
ta: A d'antecedents (els estí-
muls), B de behaviour ('con-
Des d'un punt de vista associatiu, l'existència dels tres elements permet pensar ducta' en anglès) i C de conse-
güents.
en la possibilitat de tres associacions diferents pel cap baix (vegeu la figura
següent). Una associació entre els estímuls i la resposta (E-R), una associació
entre la resposta i la conseqüència (R-C) i una associació entre els estímuls i
les conseqüències (E-C).
La fletxa discontínua mostra l'associació E-R corresponent a la llei de l'efecte formulada per Thorndike. Les fletxes contínues
mostren les associacions entre l'estímul discriminant i la conseqüència (associació E-C) i l'associació entre la resposta i la
conseqüència (associació R-C). (Vegeu el text per a una explicació detallada de cadascuna d'aquestes associacions.)
Segons la llei de l'efecte, quan es reforça una conducta es forma una as-
sociació entre els estímuls presents en el moment d'executar la resposta
i la resposta.
Seguint la llei de l'efecte, la presència d'un estímul que s'ha associat a una res-
posta seria suficient perquè es produís la resposta. La llei de l'efecte no preveu
que un organisme pugui tenir una expectativa del reforçador, ja que en no es-
tar associat ni als estímuls ni a la resposta, no se'n pot activar la representació
mental. Aquesta idea va contra la intuïció.
Si premem el botó de l'ascensor és perquè esperem que l'ascensor vingui al pis on ens
trobem; si introduïm unes monedes a la màquina expenedora de refrescos és perquè
tenim l'expectativa del refresc.
© FUOC • PID_00224015 75 Condicionament instrumental
No obstant això, les primeres teories entenien l'aprenentatge com una associ-
ació E-R.
1)�Motivació
El primer concepte que cal definir és la motivació. Segons Hull, els organismes
tenen necessitats biològiques com pot ser la gana, la set, la son. Qualsevol
d'aquestes necessitats impulsarà o motivarà la conducta, en principi no apresa,
que té per objectiu la reducció de la necessitat. Per tant, la motivació depèn
estretament de l'estat de l'organisme.
El menjar no seria un reforçador per si mateix, sinó el fet que en ingerir-lo permet eliminar
o reduir la sensació de gana.
No obstant això, Hull acaba admetent que hi ha alguns aspectes dels estímuls
reforçadors que poden influir en la conducta. Per exemple, veiem que la gran-
dària o la qualitat del reforçador influïa directament en el comportament dels
animals, de manera que estaven més disposats a treballar per un aliment dolç
que per un aliment àcid. Doncs bé, Hull inclou aquestes propietats motivaci-
onals del reforçadors amb el que anomena incentiu.
© FUOC • PID_00224015 76 Condicionament instrumental
2)�Aprenentatge
Les associacions E-R defensen que la conducta és controlada pels estímuls an-
tecedents, de manera que si es presenta un determinat estímul, aquest activa
la resposta amb la qual està associat. No obstant això, Skinner es va adonar que
els estímuls consegüents també tenen control sobre el comportament. Així,
si una rata prem la palanca i obté menjar, mantindrà el seu comportament,
almenys mentre tingui gana. Si en un segon moment, es deixa de presentar
el menjar, podrem observar que la conducta de prémer la palanca es redueix
i fins i tot desapareix. Si es torna a presentar el menjar contingent amb la
© FUOC • PID_00224015 77 Condicionament instrumental
En aquest treball, un grup de rates van aprendre a obtenir dos reforçadors executant
dues respostes diferents. Així, els animals obtenien boletes de menjar en prémer una
palanca i sucrosa líquida si estiraven d'una cadena que penjava del sostre de la caixa
de condicionament. L'entrenament amb cadascuna de les respostes es feia en dies al-
ternatius. Per a evitar explicacions segons les dificultats en la manipulació dels meca-
nismes de resposta o el valor dels dos reforçadors utilitzats, es va disposar que, per a la
meitat dels subjectes, les relacions entre les dues respostes i els dos reforçadors fossin
les esmentades, però per a l'altra meitat dels animals aquestes relacions s'invertien,
de manera que prémer la palanca proporcionava la sucrosa líquida, mentre que esti-
rar de la cadena produïa les boletes de menjar. Un cop els animals havien après les
relacions entre cada conducta i les seves conseqüències concretes, es va procedir a
devaluar un dels reforçadors.
cadascuna de les seves accions i, per tant, donen suport a la formació d'associacions
R-C.
Però tornem un moment enrere, quan hem dit que les proves de la formació
d'associacions E-R només eren indirectes. Si ens fixem en la condició en què
es devalua el reforçador, podem apreciar que els animals no van deixar de res-
pondre totalment. Aquesta dada no és coherent si només es formessin associ-
acions R-C, ja que els animals estarien invertint temps en una activitat que els
portaria a un aliment nociu. Per què es continua responent a R1? La resposta
és que s'han format associacions E-R. Això és, les característiques físiques de
cada mecanisme de resposta s'han associat amb la resposta corresponent, de
manera que aquestes característiques físiques poden provocar la resposta dels
animals.
Associacions E-C
Experiment de Colwill i Rescorla (1988)
Les associacions E-C permeten
En una primera fase es va entrenar els animals a executar l'R1 per obtenir la C1 en als organismes anticipar la dis-
presència de l'E1 i executar R2 per a obtenir la C2 en presència de l'E2. Igual que en ponibilitat d'un reforçador.
l'experiment que hem descrit anteriorment, les respostes, estímuls i conseqüències
concretes es van contrabalançar d'una manera adequada. D'acord amb la formació
d'associacions clàssiques entre l'estímul discriminant i les conseqüències (E-C), lla-
© FUOC • PID_00224015 79 Condicionament instrumental
vors el procediment hauria permès associacions entre l'E1 i la C1 i entre l'E2 i la C2.
Per tal de posar a prova aquestes associacions, Colwill i Rescorla van dur a terme una
segona fase en la qual els animals van aprendre dues respostes noves: l'R3 que propor-
cionava la C1, i l'R4 que proporcionava la C2. Durant aquesta fase no es va presentar
cap dels dos estímuls discriminants. Finalment, es va dur a terme la fase de prova
en la qual es presentaven assajos amb l'E1 i assajos amb l'E2. En cadascun d'aquests
assajos els animals podien escollir entre les respostes R3 i R4.
Com que les respostes R3 i R4 no s'havien executat mai en presència dels estímuls
discriminants, no s'havien pogut formar associacions E-R i, en conseqüència, els es-
tímuls discriminants no podien activar cap de les dues respostes. D'altra banda, si
l'E1 s'hagués associat amb C1 i l'E2 s'hagués associat amb C2, llavors E1 i E2 activarien
l'expectativa de C1 i de C2, respectivament. Si els animals tenien l'expectativa de C1
en presència d'E1, llavors s'esperaria que executessin la resposta que els proporciona-
ria el reforçador esperat, això és, R3, mentre que si tenien l'expectativa de C2, llavors
executarien l'R4. En altres paraules, en presència d'un estímul discriminant determi-
nat, els animals esperen que estigui disponible una conseqüència concreta i que, per
tant, executin preferentment la resposta que proporciona aquesta conseqüència.
Els resultats van ser els següents. La prova va consistir en vuit assajos i es va obtenir
una mitjana de 7,3 respostes per minut al mecanisme de resposta associat a la mateixa
conseqüència que l'estímul discriminant present, mentre que la mitjana de respostes
al mecanisme associat a la conseqüència diferent era de 5,1 respostes per minut. Per
tant, l'estímul discriminant s'hauria d'haver associat amb la conseqüència, ja que la
seva capacitat per a modular la conducta era més gran quan la conseqüència associada
a l'estímul discriminant i la resposta era la mateixa.
Tanmateix, l'anàlisi del condicionament instrumental també s'ha fet des d'una
perspectiva molar, global. S'han proposat diverses teories que s'agrupen sota
el títol de la regulació de la conducta. Algunes d'aquestes teories prenen supòsits
del camp de l'economia per a intentar explicar de quina manera es regula el
nostre comportament.
Si les rates estan privades de menjar, llavors menjar serà la conducta més freqüent i
reforçarà la conducta de baixa freqüència córrer. Si els animals no estan privats de
menjar, llavors les rates correran més i reforçarà la conducta de menjar.
Allison (1989, Timberlake i Allison, 1974) va proposar que el factor crític per-
què una conducta en reforci una altra és la restricció de la conducta amb in-
dependència de la seva freqüència d'aparició. A favor d'aquesta hipòtesi, Tim-
berlake i Allison (1974) van trobar que l'accés a una conducta de baixa proba-
bilitat es podia utilitzar com a reforçador d'una altra conducta, amb l'única
condició que els subjectes tinguessin la restricció de fer aquesta conducta.
Imaginem que el noi o la noia dedica d'una manera espontània el 60% del temps entre
l'acabament de l'institut i l'hora de sopar a veure la televisió i el 15% a estudiar (la resta
del temps el dedicarà a altres activitats). Aquesta distribució constituiria el punt de com-
plaença de la conducta. Tanmateix, en el moment en què s'introdueix una contingència
resposta reforçador, s'altera aquest punt de complaença o, el que és el mateix, el punt
d'equilibri.
Suposem que establim una contingència en la qual per cada 15 minuts d'estudi pot mirar
la televisió durant 15 minuts. És evident que aquesta nova situació trenca l'equilibri de
la distribució de les conductes i la conseqüència és que l'adolescent redistribuirà la seva
conducta de manera que s'apropi el màxim al punt de complaença.
S'entendrà millor amb una representació gràfica (vegeu la figura següent). El punt de
complaença de la conducta és representat pel cercle blanc, mentre que la contingèn-
cia establerta entre les dues conductes es representa amb la línia negra. Qualsevol punt
d'aquesta línia compliria el requisit de la contingència. En quin punt, però, se situarà la
nova distribució de les dues activitats? D'acord amb la teoria, l'adolescent buscarà el punt
© FUOC • PID_00224015 82 Condicionament instrumental
que l'apropi més al punt de complaença, és a dir, el punt de la línia que es trobi més a
prop del punt de complaença (Staddon, 1983). Suposem que l'adolescent disposa de dues
hores des que arriba a casa i l'hora de sopar. En condicions normals, dedicaria 72 minuts
a mirar la televisió i 18 minuts a estudiar. Si vol mantenir el màxim de dedicació a veure
la televisió i d'acord amb el programa establert, l'obligaria a dedicar 60 minuts a estudiar
per a poder veure 60 minuts de televisió. El més probable és que l'adolescent no estigui
disposat a pagar un "preu" tan alt. Una altra opció és que no estigués disposat a estudiar
més temps del que ja dedicava, però en aquest cas perd molt respecte a mirar la televisió,
ja que només hi podria dedicar 18 minuts. Buscar el punt que millor s'ajusti al punt de
complaença es converteix en la motivació de la conducta. En l'exemple que ens ocupa,
una solució podria ser dedicar 37,5 minuts a cada conducta de manera que aconseguiria
distribuir les dues conductes i s'allunyaria el mínim de l'equilibri. La nova distribució
implica un increment del temps d'estudi i una reducció del temps dedicat a la televisió.
El punt blanc mostra el punt de complaença o la distribució òptima quan no hi ha restriccions. La línia mostra les
diferents possibilitats de combinar les dues conductes quan s'introdueix un programa de reforçament en el qual es
demana que l'estudiant dediqui la mateixa quantitat de temps a estudiar que a veure la tele. Com es pot observar,
cap dels punts de la línia no passa pel punt de complaença. La conseqüència és que l'estudiant haurà de reajustar els
dos comportaments d'acord amb el punt de la recta que és més a prop del punt de complaença (el triangle negre).
Basades�en�els�mecanismes Basades�en�la�motivació
Resum de les teories sobre el condicionament instrumental. Cal assenyalar que les teories molars i molecular no són incompati-
bles sinó complementàries.
© FUOC • PID_00224015 83 Condicionament instrumental
9. Generalització i discriminació
Al llarg del mòdul hem pogut veure que la conducta instrumental és governa-
da pels estímuls antecedents i els estímuls consegüents. Els primers aporten in-
formació sobre la disponibilitat o no-disponibilitat dels estímuls consegüents
i sobre quines conductes els permeten controlar, mentre que els segons con-
sisteixen en situacions agradables que procurem obtenir o desagradables que
intentem aturar o impedir. En aquest apartat ens centrarem en les propietats
dels estímuls que permeten controlar la conducta. Cal tenir en compte, però,
que tot i que tractem d'aquest tema en el mòdul del condicionament instru-
mental, les característiques que veurem no es limiten a aquest tipus de condi-
cionament, sinó que s'estenen també al condicionament clàssic. Així, doncs,
el coneixement que tenim sobre la generalització i la discriminació dels es-
tímuls afecta tant els estímuls condicionats com els estímuls discriminants.
En aquest experiment es van entrenar dos coloms perquè picotegessin una tecla
il·luminada de color vermell amb un triangle blanc al centre. L'entrenament con-
sistia a proporcionar menjar si els coloms picotejaven la tecla sempre que estigués
il·luminada amb aquest dibuix, però no rebien menjar si la picotejaven quan no es-
tava il·luminada. Els animals van mostrar el seu aprenentatge, ja que van limitar la
resposta als moments en què la tecla s'il·luminava. Podem afirmar que la il·luminació
de la tecla controlava la resposta de picotejar dels coloms. Més interessant, però,
va ser la prova que va dur a terme Reynolds amb els coloms un cop havien assolit
l'aprenentatge. La prova consistia a presentar en alguns assajos el disc il·luminat de
color vermell sense el triangle, i en altres assajos presentar el triangle blanc però sense
el fons de color vermell. Durant la prova la resposta de picotejar la tecla no era segui-
da del reforçador. Quina característica de l'estímul original controlaria la resposta?
Reynolds va trobar que mentre que un dels coloms responia a la tecla de color vermell
i ignorava el triangle blanc, el segon colom responia bàsicament al triangle blanc i
ignorava la tecla de color vermell.
L'exemple que acabem d'exposar ens ha servit per a introduir els dos conceptes
de què tractarem en aquest apartat i que cal definir formalment.
En el seu experiment van manipular el color del llum d'una tecla de resposta mit-
jançant uns filtres cromàtics. L'entrenament inicial consistia a il·luminar la tecla de
resposta d'un color determinat, concretament un llum amb una longitud d'ona de
580 nanòmetres. Durant els períodes de presentació de l'estímul, de 60 segons, els
coloms tenien accés a menjar amb un programa de reforçament IV d'un minut. En
els períodes en què la tecla estava apagada no es dispensava menjar als animals. En
la prova de generalització, van presentar l'estímul d'entrenament durant períodes de
30 segons, a més d'altres deu estímuls amb una longitud d'ona inferior o superior en
l'espectre cromàtic que variaven entre els 520 nm i els 640 nm de longitud d'ona. Els
11 estímuls es van presentar un total de 12 vegades cadascun. No es va administrar
menjar durant les sessions de prova.
Els resultats van mostrar que els coloms van respondre amb la taxa de resposta més
alta davant de l'estímul d'entrenament (580 nm de longitud d'ona). També van mos-
trar taxes de resposta molt altes enfront de longituds d'ona similars (570 i 590 nm).
Les taxes de resposta van anar disminuint a mesura que la longitud d'ona dels estí-
muls de prova s'allunyava del valor de l'estímul original fins que els animals amb
prou feines responien quan les longituds d'ona eren de 520, 540, 620 i 640 nm. En
altres paraules, els gradients de generalització mostren com la generalització i la dis-
criminació depenen del grau de similitud entre els estímuls.
Es pot observar que la freqüència màxima de respostes es produeix en presència de l'estímul d'entrenament
(580 nm). També es pot veure que els estímuls de prova (570 i 590 nm) similars a l'estímul d'entrenament
provoquen una taxa de resposta molt alta, cosa que indica un grau de generalització alt. Finalment, els estímuls
de prova allunyats de l'estímul d'entrenament provoquen taxes de resposta molt baixes, la qual cosa indica una
bona discriminació respecte a l'estímul d'entrenament.
En la discriminació extradimensional, els subjectes han de discriminar entre ratlles verticals i el color verd. L'orientació de
les ratlles i el color són dues dimensions diferents dels estímuls. En la discriminació intradimensional, els subjectes han de
discriminar entre dos valors (colors) dins la mateixa dimensió estimular.
No obstant això, Kohler defensava que els animals podien manipular concep-
tes�abstractes per a resoldre problemes com el de discriminació entre les dues
tonalitats de gris. Segons Kohler els pollets haurien après a escollir el més clar
entre els dos grisos. Cal tenir en compte que aquest aprenentatge seria relacio-
nal, ja que els animals haurien d'haver descobert la relació entre els dos grisos
i que aquesta relació era la rellevant per a resoldre el problema. Més concreta-
ment, els animals haurien après a apropar-se al més clar dels dos grisos.
Evidentment, les dues explicacions poden explicar l'actuació dels pollets. Per
tal de poder determinar quines de les dues explicacions, absoluta o relacio-
nal, era la més adequada, Kohler va idear una prova força original. Després de
l'entrenament que hem descrit, Kohler va presentar als pollets una nova dis-
criminació simultània entre el gris clar que havia estat l'E+ en la primera fase i
© FUOC • PID_00224015 88 Condicionament instrumental
un segon estímul nou més clar encara (vegeu la figura següent). Durant aques-
ta prova no es reforçava cap de les eleccions dels animals per a assegurar que
la seva conducta depenia del que havien après durant l'entrenament inicial.
Durant la prova, els pollets van escollir preferentment el gris més clar malgrat que havia estat el gris més fosc el reforçat durant
l'entrenament de discriminació.
diferent longitud d'ona que variaven entre 480 nm i 620 nm. El grup de control va
mostrar un gradient de generalització normal, és a dir, amb el màxim de respostes en
presència de l'E+. En canvi, el grup que havia discriminat entre els dos llums de 550
i 590 nm va mostrar el màxim de respostes a la longitud d'ona de 540 nm, encara
que la taxa de respostes a l'E+ era molt similar. Tanmateix, el desplaçament del vèrtex
va ser més espectacular en el grup que va discriminar entre les longituds d'ona molt
semblants, 550 i 555 nm. En aquest cas, les longituds d'ona que van provocar el
màxim de respostes van ser les de 540 i 530 nm, però els animals pràcticament no
van respondre en presència de l'E+. En la figura següent es pot veure que la línia amb
quadrats negres dibuixa un gradient de generalització normal, mentre que les línies
amb quadradets i triangles blancs tenen el màxim desplaçat respecte a l'E+ (550 nm)
en direcció oposada als respectius E–.
Gràfica basada en les dades de Hanson (1959) en la qual es pot veure l'efecte del desplaçament del màxim.
D'altra banda, la posició relacional tampoc ho pot explicar d'una manera clara
les dades de Hanson. En la discriminació amb longituds d'ona de 550 i 555
nm, els colors són verd-groc, i la longitud d'ona de 550 nm és més verdosa.
Segons l'aprenentatge relacional, en la prova els animals haurien de respondre
a l'estímul més verd. Efectivament, les longituds d'ona de 540 i 530 nm són
més verdoses que l'E+ i fins aquí els resultats concorden amb l'aprenentatge
relacional. El problema és que les longituds d'ona compreses entre 500 i 520
nm són els verds purs i en l'experiment de Hanson no van provocar la taxa de
resposta màxima com prediu l'aprenentatge relacional.
Spence (1936) va elaborar una teoria absoluta que pot explicar d'una manera
elegant els fenòmens de la transposició i del desplaçament del vèrtex.
El punt de partida és que els subjectes aprenen només sobre els estímuls
d'una manera individual i no aprenen res respecte a les seves relacions.
© FUOC • PID_00224015 90 Condicionament instrumental
Representació esquemàtica dels estímuls utilitzats en l'experiment de Honig et al. (1963). Vegeu el text per a una
explicació de l'experiment.
Aquests investigadors van entrenar dos grups de coloms en una discriminació visu-
al. Un grup va rebre el reforçador per a respondre a la tecla de resposta quan estava
il·luminada de color blanc amb una línia vertical sobreposada (E+), però no era re-
forçat quan es presentava el llum blanc sense la línia (E–). El segon grup va rebre el
mateix entrenament en discriminació, però amb els estímuls intercanviats, això és,
el llum blanc sol era l'E+ i el llum blanc amb la línia negra vertical era l'E–. Un cop
els dos grups van aprendre la discriminació amb els respectius estímuls es va fer una
prova de generalització en què es presentava la tecla de resposta il·luminada de color
blanc i sobreposada una línia negra que diferia en l'angle d'inclinació respecte a la
vertical (0°). L'angle d'inclinació de la línia variava de 30 en 30 graus de manera que
les inclinacions de prova van ser de –90°, –60°, –30°, 0°, +30°, +60° i +90° (vegeu la
figura anterior).
© FUOC • PID_00224015 91 Condicionament instrumental
Els animals del grup en el qual la línia vertical actuava com a E+ van mostrar el
màxim de resposta en presència de l'E+ i a mesura que la inclinació de la línia
s'allunyava de la verticalitat les taxes de resposta van ser més baixes. Aquests
resultats són una demostració més del gradient de generalització excitador.
Pels nostres interessos actuals, són més interessants els resultats del grup en
què la línia vertical actuava com a E–. Els animals d'aquest grup van respon-
dre molt poc en presència de la línia vertical, però en el cas en què la línia
apareixia inclinada respecte a la vertical, els animals responien amb taxes més
elevades. Quan la línia apareixia horitzontal (condicions de prova –90° i +90°)
els animals van mostrar les taxes de resposta més elevades. Aquesta és una
evidència clara de l'existència dels gradients de generalització inhibidors que
necessitaven per a continuar exposant la teoria d'Spence.
Representació gràfica dels gradients excitador i inhibidor entorn dels estímuls E+ i E–, respectivament (línies puntejades). La línia
contínua representa la força excitadora neta que resulta de les forces excitadores i inhibidores.
de la longitud d'ona de 550 nm, però poca força inhibidora des de la longitud
d'ona de 555 nm. D'acord amb la teoria d'Spence, la força excitadora neta de
la longitud d'ona de 530 nm serà més gran que la força excitadora neta de
la longitud d'ona de 550 nm i provocarà, en conseqüència, més respostes i
donarà lloc al desplaçament del vèrtex. Recordem que la teoria relacional té
dificultats per a explicar perquè les longituds d'ona de 500 o 520 nm no pro-
voquen més respostes que la de 530 nm. En canvi, la teoria d'Spence no té di-
ficultats per a explicar aquestes dades. La longitud d'ona de 520 nm està molt
allunyada tant de l'E+ com de l'E–, la qual cosa implica que pot rebre una certa
força excitadora generalitzada de l'E+ però molt poca o cap força inhibidora
generalitzada des de l'E–. En tot cas, la teoria d'Spence pot assumir que la força
excitadora neta de la longitud d'ona de 520 nm serà més baixa que la de 530
nm i, per tant, també serà inferior la taxa de resposta provocada.
L'anàlisi que acabem de fer mostra que la teoria d'Spence pot explicar
els fenòmens de la transposició i del desplaçament del màxim sense
problemes.
Van utilitzar nou estímuls que consistien en quadrats de diferents grandàries. El més
petit tenia una àrea de nou polzades quadrades i el més gran tenia 27 polzades qua-
drades. Els estímuls es van numerar des de l'1 (el més petit) fins al 9 (el més gran).
Durant l'entrenament, uns ximpanzés havien d'escollir entre els estímuls 1, 5 i 9.
Els animals van rebre un reforçador sempre que escollissin el quadrat intermedi, el
número 5. (Naturalment, la posició dels tres estímuls es va anar intercanviant ale-
atòriament amb l'objectiu que els animals no utilitzessin la posició com a estímul
discriminant.)
Durant la prova, es van presentar als ximpanzés conjunts de tres estímuls i es va refor-
çar qualsevol de les seves eleccions. Suposem que en un assaig de prova es presenten
els quadrats 4, 7 i 9. Des de la teoria relacional es prediu que si els animals han après
la regla "escollir el quadrat de grandària intermèdia" ara escollirien el quadrat número
7. En canvi, la teoria d'Spence fa una predicció diferent. A causa de l'entrenament
inicial, el quadrat número 5 tindria la màxima força excitadora que es generalitzaria
a les altres grandàries, mentre que els quadrats 1 i 9 haurien adquirit força inhibidora
que també es generalitzaria als quadrats propers.
Ambdues teories, relacional i absoluta, tenen els seus punts forts i els seus
punts febles. Això fa pensar que els animals poden aprendre a partir tant de
les característiques absolutes dels estímuls com de les relacions que hi ha entre
els estímuls que cal discriminar. La qüestió és determinar en quins moments
s'imposarà una estratègia sobre l'altra. De fet, la teoria absoluta explica millor
que la relacional el desplaçament del vèrtex, en què la discriminació original és
seqüencial. Contràriament, la teoria relacional pot explicar millor el problema
de la grandària intermèdia en què la discriminació inicial és simultània.
Malgrat que la solució plantejada per a fer compatibles les teories relacionals
i absolutes de la discriminació i la generalització és coherent, Thomas (1993)
ha plantejat, a partir de la seva recerca amb estudiants universitaris, un model
relacional que pot explicar el fenomen del desplaçament del màxim i efectes
relacionats.
Thomas i Jones (1962) van dur a terme un experiment en què mostraven als partici-
pants un llum de 525 nm de longitud d'ona durant 60 segons. Passat aquest minut es
presentava un estímul de prova d'un conjunt de cinc estímuls (el mateix E+ i quatre
estímuls diferents) i els participants havien de decidir si era o no era el mateix color
que l'estímul original. L'experiment constava de cinc grups diferents que diferien en
el conjunt d'estímuls de prova que rebien. Així, el grup de control rebia un conjunt
simètric respecte a l'E+, és a dir, dos estímuls de prova amb longituds d'ona inferiors
a l'E+ i dos estímuls amb longituds d'ona superiors a l'E+ (el cinquè estímul de prova
era el mateix E+). Per a la resta de grups, els estímuls de prova es desplaçaven cap a
valors inferiors respecte de l'E+ o cap a valors superiors. Per exemple, a un dels grups
se li van presentar els quatre estímuls de prova generalitzat amb longituds d'ona que
anaven des de 485 fins a 515 nm, i a un altre dels grups els estímuls de prova gene-
ralitzats se situaven entre 535 i 565 nm.
El model de Thomas és relacional ja que defensa que els subjectes jutgen els
estímuls de prova respecte a un referent o representació subjectiva del valor
mitjà dels estímuls que experimenten. Així, en l'experiment de Thomas i Jones,
els participants del grup simètric van elaborar una representació de l'estímul
de referència similar al mateix E+ i per aquesta raó van donar el màxim de
respostes a l'E+. En canvi, quan els estímuls de prova tenien valors per sota de
l'E+, la representació de referència tenia un valor per sota del valor de l'E+ i,
per això, els participants van respondre més a la longitud d'ona de 515 nm.
(Cal advertir que a l'experiment en cada assaig es mostrava l'E+ i després un
dels estímuls de prova, cosa que implica que l'E+ es va mostrar més vegades
que la resta d'estímuls i, per això, el desplaçament del màxim és moderat.)
Aquest model fa prediccions contraintuïtives. Per exemple, si presentem una
discriminació entre un E+ i un E–, i el conjunt d'estímuls de prova de la ge-
neralització es troba desplaçat cap a l'E–, llavors la representació mitjana de
referència obtinguda de la mitjana dels estímuls experimentats se situaria més
a prop de l'E– que de l'E+ i, per tant, s'hauria d'obtenir un desplaçament del
màxim en direcció a l'E–, just el contrari que prediu la teoria d'Spence. Tho-
mas, Mood, Morrison i Wiertelak (1991) van trobar precisament els resultats
© FUOC • PID_00224015 95 Condicionament instrumental
que prediu el model de Thomas. El que no sabem és per què els coloms mos-
tren un desplaçament del màxim d'acord amb el que prediu la teoria d'Spence
i els humans no.
Imaginem que mirem un estímul que ens crida l'atenció pel seu color, però
si aquesta dimensió no és rellevant per a obtenir el reforçador, deixarem
d'atendre al color i atendrem a una altra dimensió, per exemple, la forma. Si
aquesta nova dimensió és rellevant per a obtenir el reforçador, llavors incre-
mentarem l'atenció a aquesta dimensió.
Mackintosh i Little (1969) van dur a terme un experiment en què es presentaven dos
problemes successius en els quals uns coloms havien de discriminar entre estímuls
visuals (vegeu la figura següent). Els subjectes de la condició extradimensional eren
entrenats en primer lloc per a discriminar segons l'orientació de dues línies (vertical
i horitzontal). Les línies també tenien colors diferents (groc i vermell), però aques-
ta dimensió de l'estímul era irrellevant. De fet, en la meitat dels assajos, la línia ver-
tical era groga i l'horitzontal era vermella i, en l'altra meitat dels assajos, els colors
s'invertien. Un cop els coloms havien après la discriminació d'acord amb l'orientació
de les línies, els animals havien d'aprendre una segona discriminació entre dos co-
lors (blau i verd). En aquesta segona discriminació, els dos colors es presentaven en
© FUOC • PID_00224015 96 Condicionament instrumental
dues línies obliqües l'orientació de les quals (dreta i esquerra) era irrellevant per a
resoldre el nou problema. Així, per a aquest grup, la dimensió orientació era rellevant
en la primera discriminació, mentre que la dimensió color era irrellevant. El segon
problema de discriminació implicava un canvi extradimensional, ja que la dimensió
rellevant era el color i no l'orientació de la línia. Els subjectes de la condició intradi-
mensional rebien un primer problema amb els mateixos estímuls que el grup extra-
dimensional, però amb la diferència que la dimensió rellevant era el color i la irrelle-
vant era l'orientació de la línia. El segon problema de discriminació era idèntic al del
grup extradimensional. Per tant, per al segon grup, la dimensió color era rellevant en
les dues discriminacions, mentre que la dimensió orientació de la línia era irrellevant
(vegeu la figura següent).
Esquema del disseny experimental de Mackintosh i Little (1969). El grup G1 (grup extradimensional) rebia
un canvi extradimensional entre les dues discriminacions. El grup G2 (grup intradimensional) rebia un canvi
intradimensional entre les dues discriminacions.
Gibson i Walk (1956) van demostrar per primera vegada que la mera exposició
a estímuls complexes com poden ser triangles i cercles és suficient per a facilitar
la discriminació entre els estímuls.
Gibson i Walk van presentar cercles i triangles a unes rates a les seves gàbies des que
van néixer fins que van complir 90 dies (edat en què una rata ja és adulta). Els animals
van aprendre a discriminar entre aquests estímuls amb una quantitat significativa-
ment més petita d'errors que un grup de control que no va rebre l'exposició prèvia
als estímuls.
Experiments posteriors molt més controlats han demostrat que l'efecte és ro-
bust i que no cal una exposició tan llarga ni que els animals siguin joves (per
a una revisió vegeu Hall, 1989).
Gibson (1969) va proposar que el fet que els subjectes poguessin inspeccio-
nar els estímuls abans de l'entrenament, els permetia diferenciar-los, ja que
en podien extreure les característiques diferenciadores mitjançant un procés
perceptiu.
1)�Inhibició�latent�diferenciada�dels�elements�en�comú
Trobalon, Sansa, Chamizo i Mackintosh (1991) van dur a terme una sèrie experimen-
tal en la qual es manipulava la quantitat d'elements en comú que tenien dos braços
d'un laberint en T. Per a dos grups de rates, els terres dels braços diferien en color
i textura (elements únics), mentre que les parets dels braços eren del mateix color
marró (elements en comú). Per tant, els estímuls que s'havien de discriminar eren AX
i BX, en què A i B eren els terres i X, les parets. Per a uns altres dos grups es va reduir
el nombre d'elements en comú pintant les parets d'un dels braços de color blanc i les
de l'altre braç de color negre. Per tant, podem representar la discriminació entre dos
estímuls complexos AX i BY, en què A i B serien els terres i X i Y serien les parets.
Un grup en cada tipus de discriminació va ser exposat sense reforçar als dos braços,
mentre que el segon grup de cada discriminació no va rebre l'exposició. Després de
la fase d'exposició no reforçada es va fer un entrenament en el qual un dels braços,
AX, contenia menjar com a reforçador, mentre que l'altre braç, BX o BY, en funció
de la discriminació, no contenia menjar.
Com calia esperar, el grup de control en el qual els braços diferien en el terra i les
parets, AX i BY, van aprendre la discriminació més ràpidament que el grup de control
en el qual les parets dels braços eren del mateix color, AX i BX, ja que l'element X
quedava associat amb el menjar quan els animals escollien el braç AX.
La dada més interessant, però, la van proporcionar els grups exposats prèviament als
braços. Concretament, en els grups en què les parets dels braços estaven pintades
de diferent color l'exposició va retardar la discriminació respecte al grup de control
corresponent. Contràriament, l'exposició als braços que tenien les parets pintades del
mateix color va facilitar la discriminació entre els dos braços.
Els dos tipus de presentació dels estímuls garanteixen la mateixa quantitat d'exposició als dos estímuls compostos.
L'única diferència és l'ordre en què es presenten els compostos.
2)�Connexions�inhibidores
Espinet, Iraola, Bennett i Mackintosh (1995) van dur a terme una exposició alternada
a dos compostos gustatius, AX i BX. Després van condicionar un dels compostos,
AX, amb un malestar gastrointestinal i finalment van dur a terme les proves pròpies
per a estudiar la inhibició condicionada (proves de retard estudiades en el mòdul del
condicionament clàssic). En la prova de retard, es va aparellar el compost BX amb l'EI
i el condicionament es va desenvolupar més lentament que un grup de control que
havia rebut una exposició alternada només amb els elements únics, A i B. L'exposició
dels elements únics en el grup de control assegurava la mateixa quantitat d'exposició
a A i a B i, per tant, la mateixa quantitat d'inhibició latent, però l'absència de l'element
comú, X, impedia la formació de connexions inhibidores entre A i B. Per a la prova
de la sumació van utilitzar un altre gust, Q, aparellat amb el malestar gastrointestinal
i durant la prova van presentar el compost QB. Si B inhibís la representació de l'EI
mitjançant la seva associació inhibidora amb A, hauria de contrarestar l'activació del
malestar provocada per la presència de Q. En el grup de control, el compost QB hauria
d'activar la representació del malestar amb més força ja que B no la podria inhibir.
3)�Unitització
Aquest mecanisme proposa que les connexions entre els elements únics
d'un estímul seran més fortes que les connexions entre els elements
únics i els elements comuns.
Artigas, Prados, Sansa, Blair i Hall (2006) han aportat dades a favor del meca-
nisme proposat per Hall.
En un dels seus experiments van utilitzar dos grups de rates als quals exposaven
a dos estímuls compostos amb un element en comú, AX i BX. En un dels grups
l'exposició era alternada i en l'altre grup l'exposició era per blocs. Una característica
de l'experiment era que un dels elements únics era el gust salat. La raó d'utilitzar
aquest sabor és que el procediment usat consistia a provocar una necessitat de sal
i poder utilitzar el sabor a sal com un EI potent. De fet, després de l'exposició, els
dos grups van rebre un compost format pels dos sabors únics, AB. La idea és que si
l'exposició alternada produeix connexions inhibidores entre els elements únics, A i
B, com proposen McLaren i col·laboradors, llavors seria difícil formar una associació
entre els dos elements únics. En canvi, seguint Hall, si l'exposició alternada manté
alta la saliència dels elements únics, llavors es facilitaria l'associació entre els dos ele-
ments únics, A i B. En els dos casos, el retard o la facilitació seria respecte al grup de
control que va rebre l'exposició per blocs. Per a poder mesurar la força de l'associació
AB, aquests investigadors van provocar una necessitat de sal el dia previ a la prova i
durant aquesta van presentar el sabor únic diferent de la sal.
No obstant això, Artigas, Sansa i Prados (2006) també han trobat l'efecte Espi-
net després d'exposicions alternades però no després d'exposicions per blocs.
Tanmateix, l'efecte Espinet només apareixia quan les exposicions eren llar-
gues, però no quan eren curtes. Ja hem comentat que l'efecte Espinet és una
bona demostració de l'existència d'associacions inhibidores entre els elements
únics. D'altra banda, aquesta recerca va mostrar l'aprenentatge perceptiu tant
en exposicions llargues com curtes. Les conclusions van ser que és possible que
els dos mecanismes contribueixin al fenomen de l'aprenentatge perceptiu. El
manteniment de la saliència tindria efectes a curt termini (i potser també a
llarg termini), mentre que les connexions inhibidores implicarien un procés
més lent i només es manifestarien després d'una exposició relativament llarga.
Taula�resum�de�la�generalització�i�la�discriminació
Alguns del primers psicòlegs (Baldwin, 1906; James, 1890; Morgan, 1896; Mc-
Dougall, 1908) van suggerir que les persones i altres animals tenen una ten-
dència� innata� a� imitar el comportament d'altres individus. La idea que la
imitació és innata prové, en part, de l'evidència que els bebès poden imitar
els moviments dels adults. Per exemple, McDougall (1908) descrivia com el
seu fill de quatre mesos d'edat treia la llengua quan un adult davant seu feia
el mateix. Naturalment, hi ha la possibilitat que aquest comportament fos re-
forçat si els adults somreien o reien quan l'infant feia la conducta.
Meltzoff i Moore (1977, 1983) van dur a terme experiments controlats per tal de de-
terminar si efectivament uns bebès de 12 a 21 dies d'edat podien imitar alguns mo-
viments que feien els adults. Concretament, van utilitzar quatre moviments: treure
els llavis enfora, obrir la boca, treure la llengua i el moviment seqüencial dels dits
(vegeu la figura següent). Un model executava una de les conductes i esperava per a
veure si l'infant la repetia. Les conductes dels infants van ser enregistrades en vídeo
i puntuades per persones que desconeixien quin dels quatre gestos havia observat
l'infant en un assaig determinat. Els investigadors van trobar que els infants realment
mostraven una tendència a imitar el comportament que havien vist. Atesa l'edat dels
bebès, era poc probable que aquests comportaments haguessin estat reforçats pels
seus pares. De fet, els pares van indicar que no havien observat cap tipus d'imitació
en els seus fills.
Representació de les conductes que havien d'imitar els nadons en l'experiment de Meltzoff i Moore (1977)
Els resultats de Meltzoff i Moore s'han replicat diverses vegades i avui dia que-
da bastant clar que els nadons tenen una tendència a imitar algunes gesticula-
cions dels adults, especialment treure la llengua. No obstant això, encara no hi
ha un acord absolut sobre com s'han d'interpretar aquestes dades. Per exem-
ple, Anisfeld (1991) ha proposat que treure la llengua (i possiblement altres
conductes) és un patró d'acció fix innat (un reflex) que s'activa quan l'infant
veu que una altra persona fa el mateix gest. Meltzoff i Moore (1989) no estan
© FUOC • PID_00224015 106 Condicionament instrumental
d'acord amb aquesta interpretació i mantenen que els nadons tenen la capa-
citat d'imitar moviments que veuen fer als adults. Si aquesta interpretació de
Meltzoff i Moore és correcta, llavors té repercussions importants, ja que signi-
ficaria que els humans naixem amb la capacitat d'associar determinades entra-
des sensorials (la visió d'un adult que fa un gest determinat) amb un conjunt
de moviments musculars que permeten que l'infant faci el mateix moviment
que veu. Cal tenir en compte que els nadons no tenen l'oportunitat de veure la
seva pròpia cara quan obren la boca o treuen la llengua. Encara més, la majoria
dels nadons estudiats per Meltzoff i Moore probablement no havia vist la seva
cara reflectida en un mirall. Això és, aquests infants difícilment haurien tingut
ocasió de practicar diferents postures enfront d'un mirall i associar determi-
nats moviments amb les expressions facials a les quals donen lloc. Tanmateix,
cal més recerca per a poder determinar si els nadons poden imitar un ampli
rang de moviments o només uns quants, com ara treure la llengua.
Una segona qüestió sobre la capacitat d'imitar se centra en si es tracta d'una ha-
bilitat exclusivament humana o altres espècies animals també tenen la capa-
citat d'imitar.
Thorndike (1911) no va trobar cap evidència que els seus animals aprengues-
sin a resoldre problemes mitjançant l'observació d'altres individus. Això va re-
forçar la seva llei de l'efecte i que, per tant, els animals no humans aprenien
a partir de les seves experiències directes. No obstant això, Robert (1990) ha
recollit més de 200 estudis sobre l'aprenentatge per observació en animals. Les
espècies estudiades són primats, gats, gossos, rosegadors, ocells i peixos. Les
tasques apreses variaven en complexitat.
Warden, Fjeld i Koch (1940) van entrenar unes mones a estirar d'una cadena per a
obtenir menjar com a reforçador. A continuació, es va posar una mona sense entre-
nament en una caixa idèntica propera a la caixa de la mona entrenada. Els investiga-
dors van poder constatar que la mona sense experiència observava el comportament
de la que coneixia la resposta adequada i immediatament la imitava. Probablement,
la mona ingènua hauria après la resposta per assaig i error, però el seu aprenentatge es
va veure accelerat per l'observació de la conducta de la seva companya ensinistrada.
Aquest tipus d'aprenentatge per observació també s'ha trobat en aus (per
exemple, Hogan, 1986) i, el que és més interessant, no cal que el model
i l'aprenent siguin de la mateixa espècie. Bullock i Neuringer (1977) van
trobar que uns coloms podien aprendre a executar una cadena de dues
respostes (picotejar dues tecles en un ordre concret) si observaven la mà
d'un humà que feia la seqüència correcta.
Imitació autèntica
Miller i Dollard (1941) van proposar que l'aprenentatge per observació no era
un nou tipus d'aprenentatge diferent dels condicionaments clàssic i instru-
mental, sinó que era un cas especial d'aprenentatge instrumental. Ja hem vist
que els estímuls discriminants tenien un paper important en el control de la
conducta instrumental. Segons Miller i Dollar en l'aprenentatge per observa-
© FUOC • PID_00224015 108 Condicionament instrumental
ció la conducta del model tindria el paper d'estímul discriminant amb la pe-
culiaritat que la resposta reforçada seria la mateixa o molt similar a la que fa
el model.
Els resultats d'aquest experiment són fàcilment previsible. Després d'uns quants as-
sajos, els nens del grup d'imitació feien la mateixa elecció que el seu model, mentre
que els nens del grup de no-imitació escollien la caixa contrària a la que havia escollit
el model.
Ara bé, cal ser prudents a l'hora d'acceptar aquesta explicació de l'aprenentatge
per observació ja que només és viable en situacions en què l'aprenent observa
el comportament del model, copia immediatament la conducta i rep reforça-
dor per fer-ho. Moltes conductes apreses per observació no mostren aquest
patró, com va assenyalar Bandura (1969).
Una nena petita veu que la seva mare li prepara un bol de llet amb cereals. La mare treu
el bol d'un armari i a continuació agafa la bossa de cereals d'un altre armari i n'aboca una
quantitat al bol. Acte seguit obre la nevera i pren una ampolla de llet i acaba d'omplir el
bol. Probablement, la nena pot haver atès a tota aquesta cadena de conductes però no
les executarà i, per tant, no serà reforçada. Tanmateix, l'endemà quan la mare no és a la
cuina, la nena es prepara ella sola el bol de cereals amb més o menys èxit.
Tornem a l'exemple de la nena que prepara el seu propi bol de cereals. És molt
probable que els pares reforcin els seus fills per a imitar les seves conductes. Per
exemple, podem pronunciar la paraula aigua davant del nen i si aquest emet
un so similar (abua) és molt possible que riguem, el felicitem i li fem carícies,
el que reforçarà la conducta d'imitació. D'altra banda, els components de la
conducta de preparació d'un bol de cereals es poden haver reforçat en altres
situacions. És molt probable que la nena hagués estat reforçada en el passat
per a obrir armaris, o també hauria pogut rebre reforçadors per a omplir pots
de sorra al parc o transvasar aigua d'un pot a un altre mentre jugava.
Per exemple, Baer, Peterson i Sherman (1967) van reforçar alguns nens amb retard
mental profund per a imitar diverses conductes executades pel professor (posar-se
drets, assentir amb el cap, obrir una porta). Després de l'establiment de les respostes
imitades (cosa que va necessitar diverses sessions), el professor feia ocasionalment
conductes noves i els nens també les van imitar encara que no havien estat reforçats
mai abans per a fer-les.
Posteriorment, alguns nens van veure que l'agressor rebia alguns reforçadors d'un
altre adult al temps que l'elogiava. Uns altres nens van veure que renyaven l'agressor.
Finalment, per a un tercer grup de nens, el vídeo no mostrava cap conseqüència de
la conducta agressiva del model.
© FUOC • PID_00224015 110 Condicionament instrumental
Premi Conducta agressiva Comuna als tres grups: Comuna als tres grups: els
del model → reforça- els nens tenien accés a la nens van ser reforçats per
ment nina amb la qual havia a imitar al model d'una
actuat el model d'una manera individual.
Càstig Conducta agressiva manera individual.
del model → càstig
Fins ara hem vist dos factors importants i evidents que fan més o menys pro-
bable que un observador imiti la conducta d'un model: les conseqüències que
té el comportament sobre el model i les conseqüències sobre l'observador. Els
infants són més propensos a imitar les conductes d'un model que han estat
reforçades. Els infants també tenen més probabilitat d'imitar un model quan
han estat reforçats per la seva imitació. Ara ens centrarem en altres factors que
se sap que influeixen en la imitació.
Els infants generalment tenen més contacte amb els seus pares que amb qual-
sevol altra persona, però això no treu que estiguin exposats a molts altres mo-
dels en potència. Els germans, els companys de classe, els professors, els avis,
personalitats de la televisió, personatges dels dibuixos animats, esportistes fa-
mosos, etc. Tanmateix, els infants no imiten per igual tots aquests possibles
models. Què fa que uns models siguin més imitats que uns altres?
Bandura i Huston (1961) van dur a terme un experiment en el qual una dona interac-
tuava individualment amb uns nens de llar d'infants. La dona es va mostrar afectu-
osa amb la meitat dels nens i freda i distant amb l'altra meitat. Quan més tard es
va permetre que els nens juguessin amb la dona, els qui la coneixien com a persona
afectuosa van imitar significativament més les conductes del model que els infants
que la coneixen com a persona distant.
A uns nens de llar d'infants els van presentar una dona com la nova professora, men-
tre que per a uns altres nens, la mateixa dona va ser presentada com una professora
visitant. La idea era que els nens veurien la persona que seria la seva professora com
una persona amb més poder que si només era una visitant que no tornarien a veure
en el futur. La dona va passar una estona jugant amb cada grup per separat. Posteri-
orment, i quan no hi havia la dona present, es va deixar que els nens juguessin lliu-
rement. Els resultats van mostrar més conducta d'imitació en els nens que pensaven
que la dona seria la seva nova professora que en els nens que la veien només com
una visitant.
La llista de variables no és exhaustiva, però és fàcil veure que poden ser expli-
cades sense dificultat per la teoria de Bandura i de la generalització de la imi-
tació. Un nen pot haver après que una persona dominant el podrà reforçar si
l'imita. Un nen també pot haver estat reforçat per a imitar altres persones del
mateix sexe, edat, etc. i, en canvi, pot haver estat castigat per imitar persones
de diferent sexe o edat. També és possible que un nen hagi après que és poc
aconsellable imitar persones poc sinceres. D'acord amb la teoria de la genera-
© FUOC • PID_00224015 113 Condicionament instrumental
Roberts, Boone i Wurtele (1982) van treballar amb nens en edat preescolar i els van
donar a fer una tasca de discriminació. La meitat dels nens rebia retroalimentació
positiva i l'altra meitat va rebre retroalimentació negativa.
Els resultats van mostrar més imitació d'un model en els nens que havien rebut
la retroalimentació negativa.
En la mateixa línia, Jakubczak i Walters (1959) van trobar que els nens que
mostraven independència a l'hora de resoldre un problema (això és, que no
acceptaven l'ajuda malgrat que tinguessin dificultats per a resoldre els proble-
mes) eren menys propensos a imitar un model que els nens que eren altament
dependents (que acceptaven ajuda fins i tot quan no la necessitaven).
Si les persones mostren més tendència a imitar quan estan insegures de la seva
conducta, llavors les situacions�ambigües també provocaran més inseguretat
i per tant més imitació.
© FUOC • PID_00224015 114 Condicionament instrumental
Thelen, Paul i Dollinger (1978) van manipular la incertesa d'una situació en presen-
tar als participants, nens preadolescents, tasques que tenien dues opcions (condició
d'incertesa baixa) o amb deu opcions possibles (condició d'incertesa alta). Els nens
que es trobaven amb una situació d'incertesa alta imitaven més el model que nens
que es trobaven en la condició de certesa baixa.
S'ha trobat que membres de la mateixa família mostren les mateixes fòbies, o que alguns
aviadors de la Segona Guerra Mundial desenvolupaven fòbies després de veure la por
d'alguns dels seus companys durant o després de les missions.
La primera cigarreta que fuma una persona és una experiència aversiva, llavors, com és
possible que la persona torni a fumar? De molt petitets molts nens han estat exposats
a persones que fumaven: els pares, germans més grans, personalitats de la televisió i ci-
nema, etc. La conseqüència de fumar sembla tenir algun aspecte positiu. Algunes perso-
nes han manifestat que van començar a fumar perquè els feia més madurs, sofisticats
o atractius. Podria ser que aquests "avantatges" tinguessin més força que l'experiència
aversiva de fumar. D'aquesta manera, les persones imitarien la conducta de fumar ja que
els models són ben percebuts.
Aquestes idees van ser exposades per Kozlowski (1979). Avui dia, però, la con-
ducta de fumar comença a ser mal valorada per una gran part de la societat i
els governs de molts països han començat a restringir severament la conducta
de fumar. Si el fumador es mostra com una persona que rep més càstigs que
reforços, s'espera d'acord amb la teoria de l'aprenentatge per observació, que
el nombre de joves que inicia l'hàbit es vegi reduït significativament.
Piaget (1926, 1929) va suggerir que a mesura que els infants creixen van pas-
sant per diferents etapes de desenvolupament cognitiu i que passar d'una etapa
a l'altra depèn del creixement, de la maduració i de l'experiència personal. Els
teòrics de l'aprenentatge social (per exemple, Rosenthal i Zimmerman, 1972,
1978) defensen que l'aprenentatge per observació és el principal mecanisme
per al desenvolupament de les habilitats cognitives.
© FUOC • PID_00224015 116 Condicionament instrumental
Posteriorment a l'observació del model, els dos grups van haver de resoldre
diversos problemes relacionats amb la conservació dels volums. Els resultats
van mostrar que els nens dels dos grups van millorar en la realització de la
tasca, i els qui en rebien una explicació van mostrar una millora més gran.
Una crítica a aquests resultats és que els nens podien aprendre a canviar la Aprenentatge per
seva resposta, però sense entendre el perquè (Kuhn, 1974). No obstant això, observació
hi ha evidència que els nens poden resoldre problemes diferents dels que han També s'ha trobat que
vist resoldre als models. Per exemple, Rosenthal i Zimmerman van trobar que l'aprenentatge per observació
millora l'execució en altres ti-
els nens eren capaços de resoldre un problema de conservació del nombre que pus de tasques cognitives com
l'adquisició de regles grama-
implica la comprensió que el nombre d'objectes en una línia no varia si la línia ticals, conceptes abstractes i
solució de problemes (Rivera
es fa més llarga espaiant més els objectes. Els nens eren capaços de resoldre i Smith, 1987; Zimmerman i
correctament aquesta nova tasca després d'haver vist actuar el model en la Blom, 1983).
Un nen que observa un comportament honest en els seus pares quant a qüestions finan-
ceres, pot aprendre a comportar-se de la mateixa manera. En canvi, un nen que observa
que els seus pares estafen, fan trampes en la declaració de la renda, deixen de pagar fac-
tures, poden aprendre que aquests comportaments són acceptats o fins i tot desitjables.
© FUOC • PID_00224015 117 Condicionament instrumental
Exercicis d'autoavaluació
Preguntes�d'alternatives�múltiples
a) redueix l'impuls.
b) produeix por.
c) redueix el nivell de dolor.
d) augmenta la probabilitat d'execució d'una resposta.
4. En el procediment de REC, necessitem que els animals mostrin una taxa de resposta en
la tasca instrumental alta i estable. Quin dels programes bàsics de reforç següents garanteix
una taxa de resposta alta i estable?
a) Interval fix.
b) Raó variable.
c) Raó fixa.
d) Interval variable.
5. Retirar el permís de conduir a algú per conduir sota els efectes de l'alcohol és un exemple
a) de càstig.
b) d'entrenament de recompensa.
c) d'entrenament d'evitació.
d) d'entrenament d'omissió.
11. Segons es pot observar en el gràfic, quin programa de reforçament pot estar reflectint?
a) RF10.
b) IF2''.
c) RV10.
d) Cap dels tres.
13. La llei de la igualació reflecteix un fet fonamental de la conducta d'elecció entre dues
alternatives A i B, i indica que...
14. Com podem observar en la figura, tenim una gallina sotmesa a dos programes concurrents
de reforç. Segons la llei de la igualació, quina seria la distribució de resposta esperada en les
dues tecles?
15. Què suposa per a la teoria d'Spence de l'aprenentatge discriminant el fet que es puguin
presentar gradients d'excitació i d'inhibició entorn de l'E+ i entorn de l'E–?
16. Imaginem que ensinistrem un grup de coloms a picotejar en presència d'un llum de
580nm de longitud d'ona i, posteriorment, els posem a prova en presència de llums d'altres
colors. Els resultats que observem en la gràfica mostren que les seves respostes estan en funció
del grau de semblança dels estímuls de prova amb l'estímul d'entrenament original. Aquest
tipus de resultats constitueix...
a) un contrast de conducta.
b) un desplaçament del màxim.
© FUOC • PID_00224015 122 Condicionament instrumental
c) un gradient de generalització.
d) un gradient pla de generalització.
17. En la gràfica es mostren dos gradients de generalització. Quin fenomen es pot observar?
Preguntes�obertes
1) Compareu els mètodes d'operant lliure i d'assajos discrets en la recerca del condicionament
instrumental (apartat 3).
2) Contrasteu el reforçament positiu i el negatiu (apartat 4).
3) Quins són els efectes de la demora en el reforçament i com es poden minimitzar? (apartat 5)
4) Compareu els programes de raó i d'interval (apartat 6).
5) Què ens indica la recerca amb programes concurrents i concurrents encadenats sobre la
conducta d'elecció? (apartat 6)
6) Descriviu les diferents associacions que es poden inferir en el condicionament instrumen-
tal (apartat 9).
7) Compareu la teoria de Premack i les teories sobre regulació conductual (apartat 9).
8) Descriviu el gradient de generalització i els efectes que s'hi associen (apartat 10).
9) Com pot explicar la teoria d'Spence el desplaçament del màxim (apartat 10).
10) Quins mecanismes s'han proposat per a explicar l'aprenentatge perceptiu? (apartat 10)
11) Descriviu els processos implicats en l'aprenentatge per observació proposats per Bandura
(apartat 11).
© FUOC • PID_00224015 123 Condicionament instrumental
Solucionari
Exercicis d'autoavaluació
1.�d
2.�c
3.�a
4.�b
5.�d
6.�d
7.�c
8.�b
9.�d
10.�b
11.�a
12.�c
13.�c
14.�a
15.�b
16.�c
17.�d
© FUOC • PID_00224015 124 Condicionament instrumental
Glossari
aprenentatge relacional m Concepció segons la qual la discriminació entre dos estímuls
es basa en una relació entre ells.
autocontrol m Una condició que descriu la situació en la qual un individu escull l'opció
d'una recompensa gran, però demorada en lloc d'una recompensa petita i immediata.
contrast negatiu m Una reducció de la resposta com a conseqüència d'una reducció del
valor del reforçador.
discriminació f Consisteix a respondre d'una manera diferent a dos estímuls segons les
seves diferències.
efecte del reforçament parcial m Dificultat d'extingir una resposta que ha estat refor-
çada parcialment.
força de l'hàbit f Tendència a executar una resposta en presència d'un estímul determinat.
llei de la igualació f Un enunciat matemàtic que descriu la relació entre la taxa de res-
posta i la taxa de reforçament.
reforçador condicionat m Un estímul inicialment neutre que pel seu aparellament amb
un reforçador primari adquireix la propietat de reforçar una conducta.
sin. compl. reforçador�secundari
Bibliografia
Bibliografia recomanada
Alloway, T., Wilson, G., i Graham, J. (2006). Sniffy: La rata virtual. Madrid: Thompson.
Dickinson, A. (1984). Teorías actuales del aprendizaje animal (original anglès, 1980). Madrid:
Editorial Debate.
Domjan, M. (2003). Principios de aprendizaje y conducta (original anglès, 2003). Madrid: Thom-
son.
Referències bibliogràfiques
Abramovitch, R. i Grusec, J. E. (1978). Peer imitation in a natural setting. Child Dev., 03;
49(1), 60-65.
Alloway, T., Wilson, G., i Graham, J. (2006). Sniffy: La rata virtual. Madrid: Thompson.
Amsel, A. (1992). Frustration theory: An analysis of dispositional learning and memory. Nova
York, NY, EUA: Cambridge University Press.
Artigas, A. A., Sansa, J., Blair, C. A. J., Hall, G., i Prados, J. (2006). Enhanced discrimination
between flavor stimuli: Roles of salience modulation and inhibition. J. Exp. Psychol.: Anim.
Behav. Processes, 04; 32(2), 173-177.
Artigas, A. A., Sansa, J., i Prados, J. (2006). The espinet and the perceptual learning effects
in flavour aversion conditioning: do they depend on a common inhibitory mechanism? The
Quarterly Journal of Experimental Psychology, 59, 471-481.
Azrin, N. H., Holz, W. C., i Hake, D. F. (1963). Fixed-ratio punishment. J. Exp. Anal. Behav.,
6(2), 141-148.
Azrin, N. H. (1956). Some effects of two intermittent schedules of immediate and non-
immediate punishment. Journal of Psychology: Interdisciplinary and Applied, 42, 3-21.
Baer, D. M., Peterson, R. F., i Sherman, J. A. (1967). The Development of Imitation by Rein-
forcing Behavioral Similarity to a Model. J. Exp. Anal. Behav., 10(5), 405-416.
© FUOC • PID_00224015 129 Condicionament instrumental
Balaban, M. T., Rhodes, D. L., i Neuringer, A. (1990). Orienting and defense responses to
punishment: Effects on learning. Biol. Psychol., 06; 30(3), 203-217.
Baldwin, J. M. (1906). Mental development, methods, and processes. Nova York: Macmillian.
Bandura, A. (1986). Social foundations of thought and action: A social cognitive theory. Englewood
Cliffs, NJ, EUA: Prentice Hall.
Bandura, A. (1969). Principles of behavior modification. Oxford, Anglaterra: Holt, Rinehart &
Winston.
Bandura, A. (1962). Social learning through imitation. A M. R. Jones (Ed.), Nebraska Sympo-
sium on Motivation (pp. 211-274). Oxford, Anglaterra: Univer. Nebraska Press.
Bandura, A. i Walters, R. H. (1963). Social learning and personality development. Nova York:
Holt Rinehart and Winston.
Baum, W. M. (1974). On two types of deviation from the matching law: Bias and under-
matching. J. Exp. Anal. Behav., 07; 22(1), 231-242.
Breland, K. i Breland, M. (1961). The misbehavior of organisms. Am. Psychol., 11; 16(11),
681-684.
Burnstein, E., Stotland, E., i Zander, A. (1961). Similarity to a model and self-evaluation. The
Journal of Abnormal and Social Psychology, 03; 62(2), 257-264.
Crespi, L. P. (1942). Quantitative variation of incentive and performance in the white rat.
Am.J.Psychol., 55: 467-517.
Dickinson, A., Watt, A., i Griffiths, W. J. (1992). Free-operant acquisition with delayed rein-
forcement. The Quarterly Journal of Experimental Psychology B: Comparative and Physiological
Psychology, 10; 45(3), 241-258.
Dinsmoor, J. A. (1954). Punishment: I. The avoidance hypothesis. Psychol. Rev., 01; 61(1),
34-46. Domjan
Espinet, A., Iraola, J. A., Bennett, C. H., i Mackintosh, N. J. (1995). Inhibitory associati-
on between neutral stimuli in flavor-aversion conditioning. Anim. Learn. Behav., 11; 23(4):
361-368.
Fisher, J. i Hinde, C. A. (1947). The opening of milk bottles by birds. British Birds, 42: 347-357.
Flaherty, C. F. (1996). Incentive relativity. Nova York, NY, EUA: Cambridge University Press.
Gibson, E. J. (1969). Principles of perceptual learning and development. East Norwalk, CT, EUA:
Appleton-Century-Crofts.
Gulliksen, H. (1932). Studies of transfer of response: I. Relative versus absolute factors in the
discrimination of size by the white rat. Journal of Genetic Psychology, 40: 37-51.
Hammond, L. J. (1980). The effect of contingency upon the appetitive conditioning of free-
operant behavior. J. Exp. Anal. Behav., 11; 34(3): 297-304.
Harnick, F. S. (1978). The relationship between ability level and task difficulty in producing
imitation in infants. Child Dev., 03; 49(1): 209-212.
Herrnstein, R. J. (1969). Method and theory in the study of avoidance. Psychol. Rev., 01;
76(1): 49-69.
Honig, W. K., Boneau, C. A., Burstein, K. R., i Pennypacker, H. S. (1963). Positive and nega-
tive generalization gradients obtained after equivalent training conditions. J. Comp. Physiol.
Psychol., 02; 56(1), 111-116.
© FUOC • PID_00224015 131 Condicionament instrumental
Hull, C. L. (1952). A behavior system: an introduction to behavior theory concerning the individual
organism. New Haven, CT, EUA: Yale University Press.
Hull, C. L. (1934). Learning: II. The factor of the conditioned reflex. A Handbook of General Expe-
rimental Psychology (pp. 382-455). Worcester, MA, EUA: Clark University Press,.
Hutt, P. J. (1954). Rate of bar pressing as a function of quality and quantity of food reward.
J. Comp. Physiol. Psychol., 06; 47(3), 235-239.
James W. Association (1980). A W. James (Ed.), The principles of psychology (I, pp. 550-604).
Nova York, NY, EUA: Henry Holt and Co.
Kawai, M. (1965). Newly acquired pre-cultural behavior of the natural troop of Japanese
monkeys on Koshima islet. Primates,6, 1-30.
Klass, E. T. (1979). Relative influence of sincere, insincere, and neutral symbolic models. J.
Exp. Child Psychol., 02; 27(1), 48-59.
Köhler, W. (1939). Simple structural function in the chimpanzee and the chicken. A W. D.
Ellis (Ed.), A source book of gestalt psychology. Nova York: Harcourt Brace.
Lashley, K. S. (1924). Studies of the cerebral functionin learning: V. The retention of motor
habits after destruction of so-called motor areas in primates. Archives of Neurology and Psyc-
hiatry, 12, 249-276.
Lashley, K. S. i Wade, M. (1946). The Pavlovian theory of generalization. Psychol. Rev, 03;
53(2), 72-87.
Lieberman, D. A., McIntosh, D. C., i Thomas, G. V. (1979). Learning when reward is delayed:
A marking hypothesis. J. Exp. Psychol.: Anim.Behav.Processes, 07; 5(3), 224-242.
McDougall, W. (1908). An Introduction to Social Psychology. Nova York, NY, EUA: Methuen.
McLaren, I. P. L., Kaye, H., i Mackintosh, N. (1989). J. An associative theory of the represen-
tation of stimuli: Applications to perceptual learning and latent inhibition. A R. G. M. Morris
(Ed.), Parallel distributed processing: Implications for psychology and neurobiology (pp. 102-130).
Nova York, NY, EUA: Clarendon Press/Oxford University Press.
Meltzoff, A. N. i Moore, M. K. (1983). Newborn infants imitate adult facial gestures. Child
Dev., 06; 54(3), 702-709.
Miller, N. E. i Dollard, J. (1941). Social learning and imitation. New Haven, CT, EUA: Yale
University Press.
Mineka, S., Cook, M., i Miller, S. (1984). Fear conditioned with escapable and inescapa-
ble shock: Effects of a feedback stimulus. J. Exp. Psychol.: Anim. Behav. Processes, 07; 10(3):
307-323.
Neuringer. A., Kornell, N. i Olufs, M. (2001). Stability and variability in extinction. J. Exp.
Psychol.: Anim. Behav. Processes, 01; 27(1), 79-94.
Nevin, J. A. (1988). Behavioral momentum and the partial reinforcement effect. Psychol.Bull.,
01; 103(1), 44-56.
O'Leary, D. E., O'Leary, M. R., i Donovan, D. M. (1976). Social skill acquisition and psycho-
social development of alcoholics: A review. Addict.Behav., 1(2), 111-120.
Piaget, J. (1932). The moral judgment of the child. Oxford, Anglaterra: Harcourt, Brace.
Piaget, J. (1929). The child's conception of the world. Oxford, Anglaterra: Harcourt, Brace.
Piaget, J. (1926). The language and thought of the child. Oxford, Anglaterra: Harcourt, Brace.
Premack, D. (1959). Toward empirical behavior laws: I. Positive reinforcement. Psychol. Rev.,
07; 66(4), 219-233.
Rachlin, H. i Green, L. (1972). Commitment, choice and self-control. J. Exp. Anal. Behav.,
01; 17(1), 15-22.
Raia, C. P., Shillingford, S. W., Miller, H. L. J., i Baier, P. S. (2000). Interaction of procedural
factors in human performance on yoked schedules. J. Exp. Anal. Behav., 11; 74(3), 265-281.
Rescorla, R. A. (1968). Probability of Shock in the Presence and Absence of Cs in Fear Con-
ditioning. J. Comp. Physiol. Psychol., 08; 66(1), 1-5.
Rescorla, R. A. (1967). Pavlovian Conditioning and its Proper Control Procedures. Psychol.
Rev., 01; 74(1), 71-80.
Reynolds, G. S. (1975). A primer of operant conditioning (rev. ed.). Oxford, Anglaterra: Scott,
Foresman.
Robert, M. (1990). Observational learning in fish, birds, and mammals: A classified biblio-
graphy spanning over 100 years of research. Psychol. Rec., 40(2), 289-311.
Roberts, M. C., Boone, R. R., i Wurtele, S. K. (1982). Response uncertainty and imitation:
Effects of pre-experience and vicarious consequences. British Journal of Social Psychology, 09;
21(3), 223-230.
Rosenthal, T. L. i Zimmerman, B. J. (1978). Social learning and cognition. Nova York: Academic
Press.
Schuster, R. i Rachlin, H. (1968). Indifference between punishment and free shock: Evidence
for the negative law of effect. J. Exp. Anal. Behav., 11(6), 777-786.
Spence, K. W. (1936). The nature of discrimination learning in animals. Psychol. Rev., 09;
43(5), 427-449.
Symonds, M. i Hall, G. (1995). Perceptual learning in flavor aversion learning: Roles of sti-
mulus comparison and latent inhibition of common elements. Learning and Motivation, 26,
203-219.
Thelen, M. H., Dollinger, S. J., i Kirkland, K. D. (1979). Imitation and response certainty.
Journal of Genetic Psychology, 09; 135(1), 139-152.
Thelen, M. H., Paul, S. C., Dollinger, S. J., i Roberts, M. C. (1978). Response uncertainty and
imitation: The interactive effects of age and task options. Journal of Research in Personality,
09; 12(3), 370-380.
Thomas, D. R., Mood, K., Morrison, S., i Wiertelak, E. (1991). Peak shift revisited: A test of
alternative interpretations. J. Exp. Psychol.: Anim. Behav. Processes, 04; 17(2), 130-140.
Thorpe, W. H. (1963). Learning and instinct in animals (2a ed.). Londres: Methuen.
Tomie, A., Carelli, R., i Wagner, G. C. (1993). Negative correlation between tone (S) and
water increases target biting during S in rats. Anim. Learn. Behav., 11; 21(4), 355-359.
Trobalon, J. B., Sansa, J., Chamizo, V. D., i Mackintosh, N. J. (1991). Perceptual learning
in maze discriminations. The Quarterly Journal of Experimental Psychology B: Comparative and
Physiological Psychology, 11; 43(4), 389-402.
Warden, C. J., Fjeld, H. A., i Koch, A. M. (1940). Imitative behavior in cebus and rhesus
monkeys. Journal of Genetic Psychology, 56, 311-322.
Williams, B. A. (1975). The blocking of reinforcement control. J. Exp. Anal. Behav., 09; 24(2),
215-226.