Aprenentatge I Condicionament Apunts

Tema 9: Anàlisi teòrica del condicionament clàssic
9.1 Introducció
9.2 Les condicions de l’aprenentatge. Quan s’aprèn?
- La contigüitat temporal. Per Paulov, l’EC era un “substitut” de l’EI, podrem afirmar que la
seva teoria era bàsicament mecanicista: pel simple fet de posar dos estímuls (l’EC o En amb
l’EI) temporalment junts es produïa un condicionament. Llavors, el nivell de condicionament
adquirit per l’EC depèn de:
1. La durada del interval EC - EI.

2. El nombre d’aparellaments/assaigs EC - EI (quantes vegades l’EC es seguit per l’EI)
o EC - -> EI (Adquisició; condicionament excitatori) P (EI/EC) = 1
o EC 
Limitacions (degut a fenòmens que es van descobrir als anys 60 després de Paulov) a la
contigüitat temporal com a condició:
1. Necessària: en el cas de l’aversió condicionada al gust no és necessari que es doni la

contigüitat temporal ja que es presenta el gust i en 30 minuts es dóna l’EI.
2. Suficient: en el del condicionament serial, el bloqueig i el emmascarament es dóna
contigüitat temporal però no un condicionament. El procediment simultani seria
també un exemple (no hi ha condicionament encara que els dos estímuls es presenten
a l’hora).
Robert A. Rescorla (1968): la presentació no senyalada de l’EI deteriora el
condicionament. Paulov només considerava la presentació de l’EC amb l’EI o només el
EC, en Robert tenia en compte també la presentació de l’EI sol. Lo important no és la
contigüitat temporal sinó el valor predictiu (informatiu) d’aquest.
=> p(EI/noEC), això ens informa, en un condicionament clàssic, que l’EI no està
associat amb l’EC ja que aquest primer es presenta sol, sense l’EC.
=> Valor predictiu de l’EC.
- El principi de la contingència (Rescorla, 1968)
Contingència: Probabilitat de l’EI amb presència de l’EC contrastada amb l’EI amb la no
presència de l’EC. Només hi haurà condicionament si les dues probabilitats difereixen.
1. Contingència positiva: p(EI/EC) > p’(EI/noEC).
50
 Condicionament excitatori: serà màxim quan la p sigui 1 i la p’ sigui 0. Si la p és 0’7 i
la p’ és 0’3, existirà condicionament excitatori però menys que en el primer cas. La
força del condicionament excitatori serà més fort quan més allunyades estiguin les
probabilitats.
2. Contingència negativa: p (EI/EC) < p’(EI/noEC)
 Condicionament inhibitori. Sempre que la primera probabilitat sigui menor que la
segon, l’EC predirà una absència de resposta i es produirà una inhibició (un
alleujament en el cas de la descàrrega ja que per exemple, el so pot indicar l’absència
de l’EI).
3. Contingència nul·la (o zero): P(EI/EC) = p’(EI/noEC)
 Absència de condicionament (impredictibilitat).
Espai contingencial:
P(EI/noEC) No cond (impredictibilitat)
Cond. Inh Cond. exc
P(EI/EC)
La teoria de la contingència té limitacions: el bloqueig (en l’EC2 es presenta l’EI però no hi ha

RC encara que sí que hi ha una contingència positiva), per solucionar això, afegim a la idea de
Rescorla la de Kamin, que l’EI sigui sorpresiu. (Mirar la resta de limitacions en Domjan).
Podem concloure que per a que hi hagi condicionament clàssic:
- Contigüitat temporal
- Contingència
(- El component sorpresiu en EI)
51
Exercicis
1.
Variables Hospital 1 Hospital 2 Hospital 3 Hospital 4

TLP (EI) després 70% 80% 20% 50%
abusos sexuals
(EC)
No TLP després 30% 20% 80% 50%
d’abusos sexuals
TLP sense 20% 80% 70% 30%
abusos sexuals
- Quina/es variables són necessàries per determinar la capacitat predictiva dels abusos sexuals
en la incidència de TLP? La 1 (probabilitat de patir TLP després de patir abusos) i la 3
(probabilitat de patir TLP sense abusos sexuals).
- En quin dels 4 hospitals els abusos sexuals prediuen millor la incidència de TLP? En l’hospital
1 ja que la diferència entre les dues probabilitats (presentar TLP en funció dels abusos sexuals)
és major que la resta (0’7-0’2=0’5).
- Quina conclusió podem treure pel que fa a la relació entre els abusos sexuals i la incidència
de TLP a l’hospital 2? I a l’hospital 3? En l’hospital 2, els abusos sexuals no tindrien res a veure i
la contingència seria nul·la. En el cas de l’hospital 3, la contingència seria negativa perquè la
primera probabilitat és més petita que la segona.
9.3 Els mecanismes l’aprenentatge. Com s’aprèn?
El model de Rescorla i Wagner: Parteix de la idea de Kamin de que l’efectivitat d’un EI ve

determinada pel seu grau de “sorpresivitat” .(QUANT podem aprendre: com més sorprenent
sigui la EI, més i millor serà processat pel subjecte, de manera que més força associativa
adquirirà l’EC). El que s’aprèn en un assaig de condicionament clàssic és: El que podem
aprendre (depèn de la sorpresivitat del EC)–el que sabem ja (força associativa que ja adquirit
aquest EC).
52
Increment ( ) de força associativa (V) de l’EC (A) en un assaig determinat (n). *EI:1+ *Y= el
màxim que s’aprendrà+ Els estímuls que son salients (discriminalitat i rellevància causal)
s’associen amb gran facilitat A la formula ho fa amb constants αA β1.
VAN= αA β1 (Y1 -VA ). Quan tenim tot l’aprenentatge, la diferència serà 0.
 Exemple: Seguiment del signe (llum menjar). αA= 0.5 β1= 1 i Y1= 10 (10 respostes
per minut es el màxim de respostes que es pot donar en aquesta situació.
Calcula l’increment de la força associativa del llum en els cinc primers assaig de
condicionament.
 AVAN = 0.5* 1 (10-0)=5 Va1=5
 AVAN= 0.5*1 (10-5)=2.5 Va2=7.5
 AVAN= 0.5*1 (10-7.5)= 1.25 Va3=8.75
 AVAN= 0.5*1 (10-8.75)=0.625 Va4=9.375
 AVAN=0.5*1 (10-9.375)=0.3125 Va5=9.6875
Aquest model explica molts fenòmens, com per exemple:
 El límit asimptòtic de l’aprenentatge (que arribi un moment que no es pot aprendre

més)= Quan Va = Y1.
 El bloqueig: l’EI ja resulta predit per l’estímul prèviament condicionat (VA= Y1) de
manera que, (Y1-VA+B)= 0.Com que el primer ja ha adquirit tota la força associativa, B
no es condiciona.
 L’extinció: l’EC genera excés d’expectativa de l’EI (Va> Y1= 0), de manera que l’EC perd
valor associatiu fins que aquest arriba a 0. En un primer assaig el resultat serà negatiu,
i la força associativa s’anirà reduint. EN una extinció Y1 serà 0 (mínim aprenentatge).
Però en l’extinció, mai serà 0 (no es perd l’aprenentatge del tot, perquè si el tornem a
condicionar, serà més fàcil).
Aquest model ha permès descobrir fenòmens: Per exemple, la sobreexpectativa: Ex:

Seguiment del signe (llum verd 1 bola de menjar). De forma independent, faig un altre
associació (llum vermell 1 bola de menjar). Segons la lògica, fi faig un assaig amb llum verd i
vermell, el subjecte predirà dues boles de menjar.
53
El model de Rescorla i Wagner ens prediu que quan faci un assaig amb el compost la resposta
serà 1 bola de menjar, Pero el subjecte predirà 2, i això ens donarà resultat negatiu. La força
associativa s’anirà reduint. *Reducció del valor associatiu de dos EECC, prèviament associats de
forma independent amb un mateix EI, quan aquests se segueixen presentant com a EC
compost associat a aquell mateix EI].
9.4 Els continguts de l’aprenentatge. Què s’aprèn?
Quin és el contingut que s’aprèn del condicionament clàssic? En la visió tradicional de Pavlov,
els continguts de l’aprenentatge s’expliquen d’una forma mecànica: presentem un EC seguit en
contigüitat d’un EI (de forma innata provoca una RI) i el fet de posar-los junts succeeix que les
propietats de l’EI es traslladen a l’EC, és a dir, l’EC provoca una RC.
El condicionament clàssic com a:
 Noves connexions entre estímuls i respostes (aprenentatge E-R)  Connexionisme.

 Noves associacions entre estímuls (aprenentatge E-E)  Cognitivisme. L’EC adquireix
la capacitat de generar l’expectativa de que a continuació apareixerà EI. Aquesta
expectativa genera la RC. L’EC genera una representació mental de l’EI.
Els experiments de devaluació de l’EI: Holand i Rescorla (1975) (Domjan pp. 108-109)
Grup Fase 1 Fase 2 Fase Prova

Experimental To (EC) - - > menjar (EI) Els deixem menjar To (EC) 
To (EC)  augment activitat motora (RC) el que vulguin disminució
RC?
Control To (EC) - - > menjar (EI) --- To (EC)  RC
To (EC)  augment activitat motora (RC)
Com que els so no té una ubicació espacial concreta, la forma de la rata a prestar atenció a l’E
informatiu, és moure’s. Saciant els animals (fase 2 grup experimental) fa que es predi el valor
informatiu de l’EC. Segons la RC en la fase de prova, podrem observar quin tipus d’associació
han après els animals.
 Segons el model E-E, la presentació de l’EC activa la imatge de l’EI, la qual desencadena
una resposta que, en produir-se davant la presència de l’EC, esdevé la Rc. El resultat
dels experiments sobre els efectes de la devaluació de l’EI donen suport als postulats
d’aquest model.
54
 Si han après una associació entre estímuls, si la visió cognitiva és certa, el so generarà
l’expectativa de que a continuació apareixerà menjar. Quan el menjar tenia valor, es
movien, però ara que estan saciats, els animals no es mouran.
El RC baixa, per tant: condicionament clàssic = aprenentatge E-E (cognitivisme).
Hi ha excepció: el condicionament de segon ordre. En aquest, associem Ec1 - - > EI; en la fase
22 agafem EC2 - -> Ec1; per tant EC2  RC2- Què passarà amb aquest condicionament de
segon ordre, si llavors presentem l’EC1?
- Si l’EC2  RC2 és perquè hem après que l’EC2 anticipa EC1, i aquest anticipa l’EI. Per tant,
sabem que EC2 anticipa EI. Si extingim la RC de primer ordre, també3 s’hauria d’extingir la de
segon ordre (cognitivista).
9.5 Els determinants de l’execució.
Quins factors expliquen per què apareix una RC i no una altra?
Model de substitució de l’estímul (Pavlov): l’EC es converteix en un substitut de l’EC i provoca

una RC que no és la mateixa que produïa l’EI.
D’acord amb Pavlov, quan es presenta un EI, hi ha un àrea neuronal específica que processa
aquest estímul i de forma innata (conducta reflex – Arc reflex) es processat pel sistema nerviós
i dóna lloc a una RC.
Si presentem un En, aquest serà processat per una altra àrea del cervell però no es presenta la
RI. En el cervell es formen noves connexions degut a la presentació de l’En i l’EI contigus
(recordar la contigüitat estimular) que donen com a resultat un connexió entre l’EC i la
resposta que dóna l’EI, és a dir, EC  RC.
Als anys 70, Siegel realitzà experiments amb rates aplicant morfina i produint així un efecte
incondicionat analgèsic. El que fa és, abans d’injectar la morfina, presentar a la rata un so i un
llum i tot seguit la morfina. Una vegada s’associa, fa un assaig de prova i presenta només l’EC.
El resultat és contrari a la teoria de Pavlov, és a dir, les rates presenten hiperalgesia (més dolor
enlloc de analgèsia).
El problema d’aquest experiment és que està mal definit. La psicologia estudia processos
mentals i conductes. Aquests experiments (també el de la glucosa) no es basen en processos
mentals sinó en bases fisiològiques i respostes fisiològiques. Això no és psicologia, perquè no
es basa en processos psicològics. Exemple glucosa corregit:
55
 (glucosa ) Augment de sucre (EI)  alliberació insulina i disminució de sucre (RI)
 EC  (glucosa ) Augment sucre (EI)  alliberació insulina i disminució de sucre (RI)
 EC  alliberació insulina i disminució del sucre (RC)
El condicionament farmacològic va semblar que es contraposava el model de substitució de

l’estímul, però realment, l’efecte que es produeix de forma condicionada és la resposta
fisiològica. Moltes vegades, les drogues i fàrmacs produeixen desviacions de l’equilibri
homeostàtics i el cervell produeix correccions, aquesta correcció homeostàtica seria la
resposta condicionada.
Per exemple, en el cas de les drogues: quan una persona es pren una droga en un determinat
context i ho fa de manera repetida, quan deixa de prendre la droga i es troba en el context
determinat, la resposta no serà la mateixa que el fàrmac sinó la síndrome d’abstinència.
La tolerància a les drogues, a part de tenir una base farmacològica, té base psicològica. Quan
es consumeix la droga en un ambient determinat de manera repetida, l’ambient produeix la
síndrome d’abstinència però l’efecte de la droga canviarà i acabarà sent menor si segueix
prenent la droga en aquest ambient.
Siegel va proposar: una persona consumeix heroïna en els mateixos llocs amb els mateixos
estímuls contextuals sempre, cada cop la droga produeix un efecte menor i la persona ha de
consumir més. Va comprovar que en un ambient diferent de l’habitual, amb la dosi gran, en
consumir la droga moria per sobredosis perquè no tenia els mecanismes compensatoris dels
estímuls contextuals sempre presents.
Malgrat que es coneixen diferents aspectes de l’EC i l’EI que semblen actuar com a
determinants de la forma que adquirirà la RC, cap teoria actual no pot explicar
satisfactòriament com interactuen entre si, ni tampoc no pot explicar el complex conjunt de
resultats de què disposa. Un element que pot ajudar a comprendre una mica millor per què
manifestarà una RC o una altra en un condicionament clàssic és el que s’anomena teoria dels
sistemes de conducta (Timberlake).
Segons aquesta teoria, el procediment de condicionament clàssic activa el sistema de conducta

relacionat amb l’EI que s’utilitza. Aquest enfocament posa l’èmfasi en els aspectes evolutius
(teoria ecològica i adaptatius de l’aprenentatge: un EI alimentari activarà el sistema
d’alimentació, i un EI aversiu activarà el sistema de defensa. Com que aquests sistemes
impliquen diferents conductes integrades, l’EC podrà donar lloc a una (o més) d’aquestes
conductes, en funció d’altres paràmetres com, per exemple, l’interval EC-EI. D’aquesta
56
manera, un mateix EC i un mateix EI presentats amb un interval entre estímuls diferents,
poden donar lloc a respostes condicionades diferents.
57
Tema 10: Condicionament instrumental
10.1 Introducció al condicionament instrumental
El condicionament instrumental és el segon tipus d’aprenentatge associatiu. Mentre que en el

condicionament clàssic s’aprèn, bàsicament, una associació predictiva entre l’EC i l’EI, en el
condicionament instrumental l’associació que s’estableix és entre una conducta o resposta i les
seves conseqüències (associació resposta-conseqüències). Així doncs, en el condicionament
instrumental és necessari que aparegui una conducta que faci d’instrument per aconseguir que
es donin una sèrie de fets consegüents. Per tant, el condicionament instrumental permet
aprendre a controlar l’aparició d’unes determinades conseqüències ambientals.
L’estudi del condicionament instrumental ens permetrà conèixer les particularitats d’aquestes
conseqüències i els canvies que provoquen sobre la probabilitat d’aparició de la conducta.
10.2 Antecedents històrics del condicionament instrumental: E. L. Thorndike (1874-1949) i B.

F. Skinner (1904-1990)
Thorndike i la llei de l’efecte
Thorndike va ser pioner en l’estudi experimental del condicionament instrumental amb

animals. Els seus primers estudis tenien com a objectiu demostrar que els animals no utilitzen
el raonament per sortir-se de determinades situacions, sinó que simplement aprenen per
assaig i error.
Tot i que, inicialment, en els seus treballs va utilitzar pollets que havien de resoldre laberints
construïts amb llibres, els experiments més sistemàtic els va dur a terme en les anomenades
caixes problema dissenyades per ell mateix. Eren caixes de fusta on situava un gat privat de
menjar, i aquest havia d’aprendre quina era la resposta més adequada perquè s’obrís la porta
de la caixa i en conseqüència pogués accedir al plat de menjar situat a l’exterior. Thorndike
registrava el temps que trigava l’animal a fer la resposta correcta i, a continuació, el tornava a
tancar dins de la caixa.
Els resultats van mostrar una disminució gradual de les latències de resposta, i aquest procés
gradual d’aprenentatge va se interpretat per Thorndike com un aprenentatge per assaig i error
on una de les respostes realitzades dóna lloc, per atzar, a unes conseqüències satisfactòries. A
més a més, va inferir que aquestes conseqüències satisfactòries servien per enfortir,
gradualment, una hipotètica associació entre l’estímul de l’interior de la caixa i la resposta
correcta.
58
Aquest aprenentatge associatiu entre l’estímul i la resposta configura la base de la llei de
l’efecte formulada per Thorndike l’any 1891: si una resposta executada en presència d’un
estímul va seguida d’un fet satisfactori, l’associació entre l’estímul i la resposta s’enforteix. Si la
resposta va seguida d’un fet molest, l’associació es debilita.
Skinner i la llei del reforçament
Skinner va formular a partir de la llei de l’efecte, la llei del reforçament, amb el propòsit de
mesurar i objectivar al màxim tant la resposta instrumental com les conseqüències derivades
d’aquesta. Segons aquesta llei, els organismes aprenen a fer determinades conductes en
certes situacions perquè aquestes conductes han estat seguides de conseqüències agradables
per l’organisme (reforçament). Una conducta que ha estat reforçada, augmentarà la seva
probabilitat d’ocurrència en el futur.
Skinner va posar en pràctica la llei del reforçament instaurant el procés de condicionament

operant amb la gàbia dissenyada per ell mateix i anomenada caixa d’Skinner. Aquesta gàbia
possibilitava que animals com la rata o el colom aprenguessin a executar una conducta nova
(pitjar una palanca o picotejar un disc, respectivament) sempre que la conseqüències
d’aquesta conducta fos la presentació de menjar.
Els aspectes més destacats de la caixa d’Skinner són: una palanca amb un mecanisme
incorporat el qual permetrà que, automàticament, cada cop que és accionada la palanca es
dispensi una petita fracció d’aliment que apareixerà dins de la menjadora situada al costat. La
caixa d’Skinner també disposa d’un mòdul addicional que fa el registre gràfic i acumulatiu tant
de la freqüència de resposta de l’animal, com de l’administració del menjar al llarg d’una
sessió.
10.3 Procediment de condicionament operant i la gàbia d’Skinner
La caixa d’Skinner està composada per:
 Manipulandum: la tecla o palanca que s’acciona.

 Dispensador: “pellet” (mejar-boletes).
 Menjadora.
 Registre acumulatiu: aparell fora de la gàbia que representa gràficament la taxa de
respostes per minut.
59
Les respostes es van acumulant. Podem llegir el pendent. Si la taxa de resposta és alta, la
pendent serà pronunciada (i viceversa).
Un procediment típic de condicionament operant amb una rata consta dels passos següents:
1. Privació: l’animal ha d’haver estat privat de menjar fins que es trobi al 80% del seu pes
habitual.
2. Adaptació a la gàbia: se situa l’animal dins de la gàbia d’Skinner per tal d’habituar les
respostes d’orientació, i establir una línia base operant abans de començar el
condicionament.
3. Entrenament al dispensador de menjar: en aquesta fase, l’animal aprèn una associació
clàssica entre el so (EC) que emet entre el mecanisme dispensador del menjar, i la
presència de l’aliment (EI) dins de la menjadora.
4. Moldejament per reforçament diferencial de les aproximacions successives: és el que
s’ha d’aplicar quan volem instaurar un reforçament. Des de conductes inicials (que
l’animal sí que fa), anem reforçant-se fins obtenir la conducta final desitjada.
Fem aproximacions successives (experiment rata):
a. Primer apropar-se al menjador.
b. Ficar el morro.
c. Tocar la palanca amb les potes.
d. Apretar la palanca amb prou força.
Un cop observem taxa de resposta alta en la primera (apropar-se al menjador), passem
a la segona conducta (ficar el morro). És a dir, anem realitzant aproximacions
successives.
10.4 Anàlisi dels elements del condicionament instrumental
10.4.1 La resposta instrumental: R o RC
Podem condicionar instrumentalment molts tipus de conceptes: respostes condicionades,

cognicions (imaginació), respostes fisiològiques,etc.
60
10.4.1 Les conseqüències de la resposta
Existeixen dos efectes:
- Reforçament: Els estímuls que segueixen a una resposta operant, que l’efecte que tinguin
sigui reforçar (enfortir) la resposta. Existeix, llavors, l’estímul reforçador: qualsevol
esdeveniment que augmenta la freqüència futura d’emissió de la resposta a la qual segueix.
Qualsevol estímul no és un estímul reforçador, serà reforçador quan el presentem i la
conducta posterior augmenti de freqüència.
- Càstig: En aquest cas, la presentació dels estímuls que segueixen una resposta operant
produeixen un efecte contrari al reforçament, és a dir, disminueixen la freqüència de la
resposta. Per tant, la conducta es fa menys probable.
10.4.3 Tipus d’estímuls reforçadors
- Estímuls incondicionats/primaris/innats: Existeixen estímuls que, sense necessitat de cap

aprenentatge previ, actuen com a reforçadors. Per tant, actuen de manera innata.
- Estímuls condicionats/secundaris/apresos: Aquest tipus d’estímuls provenen d’un

aprenentatge previ, és a dir, d’un condicionament clàssic a partir d’estímuls reforçadors
primaris.
- Estímuls generalitzats: són estímuls reforçadors apresos però, a diferencia dels secundaris,
no han estat a un estímuls reforçador primari sinó a més d’un.
10.5 Procediments bàsics de condicionament instrumental
Els quatre procediments bàsics de condicionament instrumental es classifiquen en funció del

tipus d’estímul que es manipuli (apetitiu o aversiu) i del fet que aquest tipus d’estímul es
presenti o es retiri com a conseqüència de la resposta realitzada (contingència positiva o
contingència negativa).
E. APETITIU (conductes E. AVERSIU (conductes de

d’apropament) rebuig)
PRESENTACIÓ (contingència Reforçament positiu (augment de la Càstig positiu (disminució de la
conducta operant) conducta operant)
positiva)
RETIRADA/NO PRESENTACIÓ Entrenament per omissió/Càstig Reforçament negatiu: Fugida o
negatiu (disminució de la conducta Evitació (augment de la conducta
(contingència negativa)
operant) operant)
61
Recordar: Un estímul pot ser aversiu o apetitiu i es pot presentar o no però, un no-E apetitiu
no vol dir un E aversiu, i un no-E aversiu no és un E apetitiu.
Exercici
- Caminar mirant a terra (conducta operant o instrumental) i trobar un bitllet de 50 €

(conseqüència).
 Contingència positiva => Reforçament positiu.
- Agafar un camí alternatiu (conducta operant o instrumental) quan sentim la ràdio que més
endavant ens trobarem un embús (el no embús és la conseqüència).
 Contingència negativa => Reforçament negatiu => Evitació.
- Fer tard (conducta operant) a una cita i trobar-nos que l’altra persona ha marxat
(conseqüència).
 Contingència negativa => càstig positiu.
- Treure un tema de conversa (conducta operant) i rebre crítiques (conseqüències).
 Contingència positiva => Càstig positiu.
- Administrar-se un heroïnòman una dosi per deixar de patir la síndrome d’abstinència.
 Contingència negativa => càstig negatiu => Fugida.
62
Tema 11: El reforçament positiu I: procediments i variables
11.1 Procediments i mesures de la resposta en el reforçament positiu
11.1.1 Procediments d’assaigs discrets
Aquest procediment es caracteritza perquè únicament permet una resposta instrumental a

cada assaig. Thorndike va ser l’autor pioner en utilitzar aquest procediment i actualment
s’aplica en determinats aparells com ara els següents:
 Corredor recte: format per un únic passadís amb una caixa de sortida en un extrem, i
una caixa d’arribada a l’extrem oposat. Un assaig s’inicia col·locant ‘animal dins de la
caixa de sortida i acaba quan entra dins de la caixa d’arribada, on, normalment, es
troba amb el reforçador.
 Laberints en forma de Y i T: estan formats per un corredor central que es bifurca en
dos braços. Un assaig s’inicia col·locant l’animal dins de la caixa de sortida i acaba
quan entra dins de la caixa d’arribada d’un dels braços del laberint. L’animal realitza
un assaig correcte quan gira cap al braç que conté el reforçador.
Mesures de la resposta:
1. Latència de resposta: temps transcorregut des que es posa l’animal a la caixa de

sortida fins que inicia el recorregut.
2. Temps de carrera.
3. Velocitat de carrera.
4. Percentatge d’assaigs amb resposta correcta (només en els laberints en forma de Y i T).
11.1.2 Procediment d’operant lliure
Procediment dissenyat per Skinner (fa servir la caixa d’Skinner) i es caracteritza perquè permet
l’execució lliure i repetida de la resposta operant. Les mesures més usuals de la gàbia d’Skinner
són:
1. Taxa de resposta: nombre de vegades que l’animal pitja la palanca per fracció de
temps.
2. Latència de resposta: des de que comença la sessió fins que emet la primera resposta.
3. Topografia de la resposta operant: forma en què l’animal pitja la palanca.
4. Intensitat de la resposta: força que aplica l’animal en accionar la palanca.
63
11.2 Variables que afecten el reforçament positiu
11.2.1 Variable relativa al subjecte: motivació
S’estableix una relació de “U” invertida entre el grau de motivació i l’aprenentatge assolit.
Aquesta motivació es determina amb el nivell de privació, és a dir, les formes més comunes i
objectives que s’utilitzen per mesurar el nivell de motivació són:
A major motivació, menor aprenentatge:
APR.
MOT.
11.2.2 Variables relatives al reforçador
 Magnitud: fa referència a la quantitat (a major quantitat de reforçador, millor

execució) i a la qualitat de l’estímul reforçador. Experiment de Hurt: rates amb
diferents quantitats i tipus de reforçadors. Les rates corren més ràpid per aconseguir
reforçadors majors i més gustosos.
 Canvis en la magnitud: l’eficàcia d’una determinada magnitud de reforçament,
presentada darrere d’una determinada conducta, està en funció de les experiències
prèvies amb altres magnituds de reforçament diferents. Aquestes experiències prèvies
determinaran que l’efecte de contrast (descrit per Crespi l’any 1942) entre la quantitat
de reforçament anterior i la quantitat actual sigui positiu (donarà lloc a un augment del
rendiment) o negatiu (amb disminució de rendiment). Perquè hi hagi un contrast
positiu, la magnitud de reforçament actual ha de ser més gran que l’anterior. En el cas
contrari, es produirà un contrast negatiu.
Petita Gran
64
11.2.3 Variables relatives a l’associació resposta-reforçador
a) Contigüitat temporal:
 Temps entre l’emissió de la resposta i l’obtenció del reforçador (demora de

reforçador). En principi s’estableix una relació negativa entre demora i nivell
d’aprenentatge.
 La introducció d’un temps de demora en la presentació de l’ER perjudica de forma clara

l’execució de la R, específicament quan:
o La magnitud de reforçament és petita;
o El cost de la resposta és alt;
o No existeixen estímuls reforçadors secundaris entre la R i el reforçador.
 El paper de les respostes competitives (aquelles que apareixen entre la resposta

operant, la que té relació de contingència amb l’aparició del menjar, i l’estímul
reforçador). Aquestes dificulten establir l’associació entre la resposta-reforçador. És
possible que l’última resposta competitiva es vegi reforçada i augmenti de freqüència.
 Les conductes supersticioses (derivades del explicat en el punt anterior de les

respostes competitives): experiment de superstició (Skinner) reforçament accidental o
adventici; creences il·lusòries.
 L’autocontrol: aprendre a esperar i preferir la conseqüència demorada sobre la

immediata.
En l’exemple del ludòpata, el que importa realment per a que la persona segueixi fent una
determinada conducta (gastar-se diners en la màquina escurabutxaques) és la immediatesa de
les conseqüències.
b) Contingència resposta operant – estímul reforçador: relació de control entre l’emissió de

resposta i el reforçador. [p(ER/R) vs. P’(ER/no R)]
 Si la primera probabilitat és més probable que la segona  Reforçament positiu
 Si la segona probabilitat és menys probable que la segona  Reforçament diferencial

d’altres conductes (RDO) (Tema 16, càstig negatiu)
65
 Si les probabilitats són iguals  absència de condicionament (manca de control).
Quan, per exemple, a un nen li regalem sempre alguna cosa quan fa o no una conducta
inapropiada
Exercici
Quatre fàbriques de joguines han contractat temporalment uns grups d'operaris (Grups 1 a 4)
per tal de col·locar el material ja fabricat dins de contenidors. La taula següent especifica el sou
que ha rebut cada grup de treballadors en les dues campanyes de Nadal en què han participat:
1. En la segona campanya de Nadal els temps que aquests grups de treballadors han trigat a
omplir cada contenidor han estat els següents: 180, 210, 240 i 270 minuts. Indica en la darrera
columna de la taula (Rendiment Final) a quin grup de treballadors correspon cadascun
d'aquests valors.
1. 180 (millor rendiment): grup 4
2. 210: grup 3
3. 240: grup 1
4. 270: grup 2
2. Quin o quins grups calen per posar de manifest la relació existent entre la magnitud del
reforçament i el rendiment? El 1 i el 3.
3. Quin o quins grups calen per posar de manifest el fenomen de Contrast Positiu? El grup 4
(com a grup experimental) amb el 3 (grup control).
4. Quin o quins grups calen per posar de manifest el fenomen de Contrast Negatiu? El 2
respecte de l’1.
66
Tema 12: El reforçament positiu II: programes de presentació del reforçament
12.1 El reforçament intermitent
- Reforçament continu (RFC), allò que s’utilitza quan s’ha d’ensenyar una nova conducta
(procés de moldejament):
 La R és seguida per l’ER cada vegada que s’emet;
 Adquisició de noves conductes;
 Baixa resistència a l’extinció;
 Taxa de resposta moderada i relativament constant, amb pauses breus i

impredictibles.
- Reforçament intermitent o parcial (exemple de les màquines escurabutxaques, no sempre

obtinc el “premi”, només a vegades):
 La R sols és seguida per l’ER en algunes ocasions;
 Manteniment de les conductes ja apreses;
 Alta resistència a l’extinció.
Aquest tipus de reforçament funciona de manera que no totes les emissions de la conducta
queden reforçades.
El programa de reforçament es la regla que especifica, en una situació de reforçament

intermitent, en quines ocasions la resposta és reforçada.
12.2 Programes simples de reforçament intermitent
- Programes simples de raó: el reforçament depèn del nombre de respostes:
 Programes de raó fixa (RF): el nombre de respostes perquè es presenti l’ER és sempre
el mateix (per exemple: RF 5  cal apretar la palanca 5 vegades per obtenir l’estímul
reforçador). Hi ha una taxa de resposta alta i sostinguda.
Pauses
67
 Programa de raó variable (RV): el nombre de respostes perquè es presenti l’ER és
variable i impredictible. El valor del programa de raó variable (per exemple RV5) indica
el nombre mitjà de respostes al llarg de la sessió. Per exemple, la persona que juga a
les màquines, la persona no sap quan surt el premi; qui programa la màquina diu que
cada 50 vegades de tirar monedes s’ha de donar un premi. El subjecte respondrà de
manera compulsiva i sense pauses si el premi surt abans de les 50 monedes que s’han
de fer servir per arribar al premi.
- Programes d’interval: el reforçament depèn del temps  per obtenir l’ER cal emetre la R
després d’un període mínim de temps des de l’anterior R reforçada. Si el subjecte respon en el
període de temps que hem determinat (l’interval), no se li presenta l’estímul; si el subjecte
respon per primera vegada després de l’interval, rebrà l’estímul reforçador.
 Programa d’interval fix (IF): el període de tremps és sempre el mateix (per exemple IF
3 min). Quan passin tres minuts i el subjecte faci la resposta operant, se li presenta el
reforçament; si es fa la resposta operant en l’interval, no es presentarà l’estímul
reforçador.
Llarga pausa postreforçament i taxa de resposta progressivament accelerada a mesura que

s’apropa la fi de l’interval (“festó” de l’interval fix).
 Programa d’interval variable (IV): el període de temps és variable i imprevisible. El

valor del programa (per exemple IV 3 min) indica el temps mitjà que ha de passar.
Potser hi ha un interval de 30 segons, un altre de 4 minuts, etc. però, en mitjana, és 3.
Taxa de resposta moderada i sense pauses (molt constant i estable).
- Programes de reforçament de taxes de resposta: en aquests programes s’exigeix una

determinada taxa de resposta per obtenir el reforç. El reforç es pot rebre per emetre taxes
elevades de conducta –reforçament diferencial de taxes altes (RDA)- o per emetre taxes
baixes de conducta –reforçament diferencial de taxes baixes (RDB).
12.3 L’extinció de la resposta reforçada positivament
El procediment d’extinció consisteix a suspendre el reforçament després d’una resposta, de

manera que el subjecte no pot obtenir recompensa, sigui quina sigui la seva conducta. Així, en
aquest cas, la probabilitat que es presenti el reforçador darrere de la resposta és igual a 0.
68
El resultat que produeix l’extinció és una disminució progressiva de la freqüència de la
resposta. Després d’un període de descans es pot produir una recuperació espontània de la
resposta, de forma similar a com s’observa a l’habituació de la resposta reflexa i a l’extinció del
condicionament clàssic. Experiment de Rescorla amb rates: el que va realitzar en el seu
experiment fou introduir un període de descans posterior a l’extinció (R-No descans) que va
produir una recuperació substancial en la resposta, il·lustrant el fenomen de la recuperació
espontània.
- Efectes de l’extinció a nivell conductual:
 Efecte paradoxal de l’extinció: La corba de l’extinció no descriu una disminució

progressiva i homogènia de la resposta instrumental, sinó que en els primers assaigs es
produeix un major nombre de respostes, que, a més a més, són més intenses. Exemple
del nen i les rebequeries.
 Més períodes de no-resposta: disminueix la taxa de resposta i apareixen pauses.
 Les respostes canvien de topografia.
- Efectes de l’extinció a nivell emocional:
 L’extinció pot induir frustració i reaccions agressives degut a l’omissió d’un

reforçament esperat. Experiment amb coloms d’Azrim (1956): En primer lloc es reforça
a un colom per picotejar una tecla de resposta, mentre que l’altre animal es troba
subjecte a una cantonada de la cambra experimental. L’ocell que picoteja la tecla
ignora pràcticament l’altre mentre se li proporcionen reforçadors però, quan
s’introdueix l’extinció i s’acaba el reforçament, l’ocell prèviament reforçat és probable
que ataqui al seu innocent company. Es dóna una agressió semblant si es situa un
model de drap en lloc d’un animal real en la gàbia d’Skinner.
12.3.1 Variables relatives a l’estímul reforçador
- Procediment del reforçament previ:
 Efecte del reforçament parcial en l’extinció: les respostes que han estat sotmeses a un
programa de reforçament intermitent presenten, posteriorment, més resistència a
l’extinció que les respostes que han estat sotmeses a un reforçament continu.
Els programes de reforçament variable generen més resistència a l’extinció.
69
- Excepcions d’aquest procediment. En general, un major nombre de reforçaments i uns
reforçaments de major magnitud provoquen més resistència a l’extinció. No obstant, la relació
entre aquestes variables pot dependre d’altres factors, com el programa de reforçament:
 Efecte de la magnitud del reforçament en l’extinció: Així, en el reforçament continu

una quantitat de recompensa elevada disminueix la resistència a l’extinció.
 Efecte del sobreentrenament en l’extinció: un major nombre d’episodis de
reforçament amb una magnitud de reforçament alta disminueix també la resistència a
l’extinció.
12.3.2 Variables relatives al subjecte (a la seva motivació)
Hi ha una relació positiva entre el nivell de privació (nivell alt => més difícil l’extinció) i la
resistència a l’extinció.
L’experiència prèvia en situacions d’extinció facilita l’extinció.
12.3.3 Variables relatives a la resposta
A major cost (l’esforç que li suposa al subjecte emetre la resposta operant), menor resistència
a l’extinció. Més alt cost de la resposta, més fàcil l’extinció (és a dir, menys resistència a
l’extinció).
12.3.4 Variables relatives al procediment
- si el procediment d’extinció es dóna en un context diferent al del condicionament

instrumental, la resposta es recuperarà quan s’exposi al subjecte de nou al context on ha rebut
el reforçament positiu. Aquest fenomen s’anomena efecte de renovació de la resposta
prèviament extingida.
- A major IEA (en els procediments d’assaigs discrets), major resistència a l’extinció.
- La pràctica massiva (tant en la fase d’aprenentatge com durant l’extinció) afavoreix l’extinció;
en canvi, la pràctica distribuïda la dificulta.
70
Tema 13: el reforçament positiu III: anàlisi teòrica
13.1 Introducció
Què és un estímul reforçador?
La definició bàsica que respon a aquesta pregunta (explicada ja anteriorment: un reforçador és

una conseqüència que incrementa la probabilitat que aparegui la conducta la qual segueix, i
aquesta increment la seva probabilitat d’aparició perquè ha estat reforçada per la presentació
d’un determinat estímul) és circular, operativa i poc satisfactòria pel que fa l’aspecte teòric. No
ens explica res, ens defineix els fets.
Des d’un punt de vista teòric, s’ha de mirar les causes i característiques de l’estímul per poder
veure i anticipar els seus possibles efectes sobre la conducta.
Existeixen diferents perspectives que donen respostes més teòriques:
- Perspectiva biològica: els reforçadors considerats com a estímuls. No tots els estímuls són
reforçadors.
- Perspectiva conductual: estímuls reforçadors com a conductes. Els estímuls reforçadors en

realitat no són estímuls, el que és reforçant és la conducta consumatòria (conductes
consumatòries: aquelles finalitzen una seqüència instintiva de conductes).
13.2 Els reforçadors considerats com a estímuls
Diferents teories ens diuen que ha de tenir un estímul per a que pugui ser estímul reforçador:
- Llei de l’efecte de Thorndike: Tipus especial d’estímuls que produeixen un “estat satisfactori”
per a l’organisme (llei de l’efecte de Thorndike). Aquesta definició té un caràcter subjectiu ja
que cada persona considera o no una determinada conducta com a satisfactòria.
- Llei de la reducció del impuls de Hull: Tots els reforçadors primaris són estímuls que
redueixen alguna necessitat biològica essencial per a la supervivència de l’organisme, i tots els
estímuls que redueixin una necessitat biològica actuaran com a reforçadors (teoria de la
reducció de l’impuls de Hull). Els estímuls reforçadors són estímuls que la propietat que tenen
és que són necessaris per a la supervivència de l’organisme. En aquesta segona afirmació
també existeixen excepcions, com, per exemple, el cas de la sacarina: segons Hull, hauria de
ser un reforçador primari però, aquest, “no alimenta”, no proporciona nutrients al cos i per
tant, no contribueix a la supervivència de l’organisme.
71
13.3 Els reforçadors considerats com a conductes
Aquest punt de vista considera que el que pot actuar com a reforçador no és l’accés a un
determinat estímul, sinó la possibilitat de fer determinades conductes. Dins d’aquesta
perspectiva, podem considerar que hi ha quatre aproximacions que donen explicacions
progressivament més complexes, però tampoc no arriben a oferir una explicació amb una
validesa universal.
13.3.1 La teoria de la resposta consumatòria (Fred Sheffield)
- El que actua com a reforçador és la possibilitat de dur a terme les respostes consumatòries
(respostes que culminen una seqüència instintiva de conductes). És a dir, el reforçador no seria
el menjar sinó la conducta de menjar.
13.3.2 El principi de Premarck (principi de la probabilitat diferencial – David Premarck)
Considera que les conductes reforçants no són un determinat tipus de conducta.
Afirma que existeixen conductes de major probabilitat que actuaran com a reforçadors de les
conductes menys probables.
R instrumental (conducta de baixa probabilitat) Reforçador (possibilitat de fer una nova

conducta d’alta probabilitat.
Si, per exemple, un nen prefereix jugar a pilota abans que fer trencaclosques i el fem fer
trencaclosques abans de jugar a pilota, la conducta de jugar a pilota (més probable) reforçarà
la conducta de fer trencaclosques (menys probable).
13.3.3 La hipòtesi de la privació de resposta (Timberlake i Allison)
Aquesta hipòtesi afina una mica més la teoria de Premarck, ja que aquests dos autors estan
d’acord en moltes de les idees de Premarck.
Afirmen que el que converteix una conducta en reforçant no és la seva alta probabilitat, sinó el
fet que es trobi privada.
És a dir, en l’exemple del nen que prefereix jugar a la pilota, quan el nen reforça la conducta de
realitzar trencaclosques es produeix aquest efecte degut que la conducta de jugar a pilota es
troba privada.
72
D’acord amb aquesta hipòtesi, la conducta de fer trencaclosques també pot arribar a ser
reforçant ja que s’acaba realitzant la conducta amb major probabilitat per tal d’aconseguir
altres conductes.
13.3.4 L’enfocament basat en la regulació conductual
Hi ha diferents punts de vista que podem agrupar sota aquest títol, atès que comparteixen una
idea en comú: L’organisme tendeix a aconseguir una homeostasi conductual, i, quan
s’introdueix una contingència instrumental que altera aquest equilibri, l’organisme
redistribueix el seu repertori conductual tractant d’apropar-se com més millor al punt preferit
d’equilibri conductual o punt òptim. El que farà l’organisme depèn de les diferents estratègies
i conductes substitutives que pugui tenir a l’abast. Si no hi ha alternatives disponibles, com
succeeix en les situacions de laboratori, la contingència instrumental pot actuar de forma molt
poderosa. Si la situació permet diferents alternatives (com succeeix habitualment fora de
laboratori, en situacions naturals), la contingència instrumental no pot regular la conducta
d¡una manera tant potent i pot ocórrer que les conductes finals no siguin, ni de bon tros, les
que les contingències resposta-reforçador volien aconseguir.
13.4 Conclusions
Com ja hem avançat a la introducció, cap dels punts de vista exposats no pot explicar tots els
fenòmens observats. Això és lògic si tenim en compte que cada plantejament parteix de
supòsits molt diferents, la qual cosa els fa arribar a conclusions molt diferents.
Malgrat tot, sembla que el plantejament que ens ofereix una visió més àmplia és el que
considera que la situació de condicionament instrumental provoca una restricció de la
conducta lliure de l’organisme, a la qual aquest respon reorganitzant els seus comportaments
tot cercant una recuperació de l’homeostasi conductual. Aquesta reorganització pot fer que
augmenti la conducta la qual la contingència de condicionament instrumental li ha atribuït el
paper de resposta instrumental. Si això té lloc en un ambient molt controlat (situació de
laboratori), serà més probable que la resposta instrumental augmenti.
73
Tema 14: El reforçament negatiu i (fugida i evitació): procediments variables
14.1 Reforçament negatiu
Procediment de condicionament instrumental en el qual la resposta augmenta com a

conseqüència de:
1. La retirada d’un estímul aversiu (ER-): FUGIDA.
2. La no presentació d’un estímul aversiu (ER-): EVITACIÓ.
14.2 Procediment de la resposta de fugida
Esquema:
E av. - -> Augmenta la probabilitat de resposta de fugida  Retirada E av.
(A mesura que passen presentacions de l’estímul av. la latència d ela resposta de fugida va
disminuint).
- Situacions experimentals en què s’estudia aquesta resposta
 Respostes locomotrius:
o Corredor recte, laberints.
o Caixa de dos compartiments: compartiment de perill i compartiment de

seguretat.
o Roda d’activitat
 Respostes manipulatives:
o Caixa de Skinner: la resposta de prémer la palanca amb l’estímul aversiu

tindria com a conseqüència la finalització de prémer la palanca.
- Estímuls aversius:
 Descàrrega elèctrica d’intensitat moderada.
 Immersió en aigua freda.
 Visió d’un depredador específic de l’espècie. Amb això busquem més valor ecològic en
l’experiment.
74
 En humans:
o Estimulació sensorial intensa o emocionalment desagradable (international

affective pictures system).
o Exposició CO2: provoca sensació molesta ja que es té la sensació de manca

d’oxigen.
14.3 Mesures de la resposta de fugida
- Percentatges d’assaigs amb resposta de fugida (NO són útils).
- Nombre de respostes de fugida.
- Latència de la resposta de fugida.
- Magnitud de la resposta: velocitat de la resposta (respostes locomotrius) i intensitat de la

resposta (resposta manipulativa).
14.4 Variables que afecten a la fugida
Variables Reforçament positiu Reforçament negatiu (fugida)
Motivació Nivell de privació del l’ER+ Com d’intens és l’estímul aversiu.
- El percentatge o grau de disminució en la
Magnitud del magnitud de l’estímul aversiu.

Quantitat i qualitat del ER+
reforçament - El temps que triga en aparèixer un altre
cop (interval entre assaigs).
Demora del Demora de la presentació de Demora en la retirada de l’estímul aversiu.

R+
reforçament l’E
- Intensitat de l’estímul (variable que determina el grau de motivació del subjecte per fer la
resposta): a major intensitat de l’estímul aversiu, menor latència de la resposta de fugida.
- Reducció de la intensitat de l’estímul rere la resposta: a major percentatge de reducció de

l’estímul aversiu, major força de la resposta de fugida. A major IEA major força de la resposta
de fugida.
75
- La demora en retirar l’estímul aversiu: a major demora en la retirada de l’estímul aversiu,
adquisició més lenta i nivell final d’execució de la resposta de fugida més baix; la presència
d’estímuls reforçadors secundaris immediats atenuen l’efecte de la demora de la retirada de
l’estímul aversiu.
14.5 Procediments de la resposta d’evitació discriminada
- Procediments d’evitació:
 Evitació discriminada (o senyalada): un estímul o senyal d’avís (o d’alarma) indica el

moment en què cal emetre la resposta (procediment amb assaigs discrets). L’estímul
d’avís NO provoca la resposta d’evitació, ja que és una resposta lliure voluntària, sinó
que indica que és un moment apropiat per fer-la. Aquest estímul és un exemple
d’estímul discriminatiu.
L’estímul discriminatiu (ED): indica que, si en la seva presència s’emet la resposta instrumental,
s’obtindrà el reforçament. Per exemple: el to del mòbil.
Esquema:
E d’avís  Augment de la probabilitat de la resposta d’evitació  No presentació de l’E av.
Aquest tipus de conductes són difícils d’aprendre (entre 40 i 80 assaigs). Alguns subjectes no
arriben a aprendre la conducta (20%).
- Si el subjecte fa la resposta d’evitació quan encara és present l’estímul aversiu, això és una
fugida de la resposta.
Primer aprenem a fugir i després a evitar.
76
- Quan fa la resposta abans de l’estímul aversiu el que passarà és que no es presentarà
l’estímul. Llavors, ja sí que seria una autèntica resposta d’evitació. A aquest tipus
d’aprenentatge també se’l pot anomenar, llavors, com aprenentatge de fugida-evitació.
 Evitació no discriminada i d’operant lliure: no hi ha estímul d’avís, sinó que la resposta

es pot emetre en qualsevol moment (procediment d’entrenament continu).
Esquema:
Aquest aprenentatge es realitza en una gàbia d’Skinner i es basa en dos tipus d’intervals:
 Interval D-D: és l’interval entre descàrregues en absència de resposta;

 Interval R-D: és l’interval entre la resposta d’evitació i la propera descàrrega
programada. Aquest és el temps de seguretat.
- Situacions experimentals d’evitació discriminada:
 Respostes locomotrius:
o Evitació de vaivé (evitació shuttle). La resposta és anar d’un costat a un altre

de la gàbia (enlloc dels dos compartiments, el de seguretat i perill).
o Roda d’activitat.
o Evitació de salt. L’animal ha de saltar en una altra plataforma lleugerament

més alta i si salta a la plataforma no es presenta la descàrrega.
o Evitació d’un sentit: caixa de dos compartiments; el posem en el de perill, es

presenta l’estímul d’avís i es presenta la descàrrega. Si quan se li presenta la
descàrrega, abans ja marxa cap a la caixa de seguretat, ha après resposta
d’evitació.
 Respostes manipulatives:
o Evitació de manipulandum.
77
14.6 Mesures de la resposta d’evitació discriminada
- Latència de la resposta d’evitació: temps transcorregut des que es presenta senyal d’alarma
fins que comença a fer la conducta d’evitació.
- Percentatge d’assaigs amb resposta d’evitació: fa referència a la proporció de respostes

d’evitació que s’han donat en una sessió o en un determinat nombre d’assaigs.
- Nombre d’assaigs consecutius amb resposta d’evitació. Així, per exemple, en la gàbia
shuttle, normalment es fixa el criteri d’aprenentatge en quatre o cinc respostes d’evitació
consecutives.
14.7 Variables que afecten l’evitació discriminada
- Nombre d’assaigs d’aprenentatge: situacions experimentals “fàcils”: evitació amb roda

d’activitat, evitació de salt, evitació d’un sentit (s’aprèn amb menys de 10 assaigs); situacions
experimentals “difícils”: evitació de vaivé, evitació de manipulandum. No tothom aprèn
conductes d’evitació, tot i que de fugida sí.
- Intensitat de l’estímul aversiu: relació directa (+/+) en l’evitació amb roda d’activitat i en
l’evitació d’un sentit; relació inversa (+/-) en l’evitació de vaivé en rates i l’evitació de
manipulandum; relació en forma d’U invertida (fins arribar a un punt que baixa) en l’evitació
de vaivé en gossos.
- Demora en la retirada de l’estímul d’avís: la demora en la retirada de l’estímul d’avís

perjudica de clara l’aprenentatge d’evitació discriminada.
14.8 Controlabilitat i interferència de l’aprenentatge: indefensió apresa
Sempre hi ha una contingència entre la conducta que fem i la conseqüència que té associada.
Què passa quan un subjecte experimenta manca de control? És a dir, unes conseqüències que
no depenen de la resposta operant (contingència entre conducta i conseqüències inexistent)?.
- Incontrolabilitat o manca de control: dificulta l’adquisició de nous aprenentatges

instrumentals. Aquest efecte s’anomena l’efecte d’indefensió apresa.
Aquest efecte fou descobert per Seligman, Overmier i Maier (1967): en gossos, l’exposició a
descàrregues elèctriques inescapables i inevitables dificulta l’adquisició posterior d’un
aprenentatge de fugida-evitació de vaivé (Domjan, pp. 152-153).
78
Segons Seligman, la indefensió apresa constituiria una síndrome que inclouria dèficits a nivell:
 D’aprenentatge
 Cognitivo-motivacional
 Emocional
Seligman va proposar la hipòtesi d’indefensió apresa: quan un subjecte experimenta una

situació de manca de contingència entre conducta i conseqüència adquirim una cognició (una
expectativa) de manca de control. Aquesta cognició seria la que explicaria que posteriorment
es donés la dificultat de l’aprenentatge instrumental.
Si una persona experimenta situacions de control no es desenvoluparà la indefensió apresa.
79
Tema 15: El reforçament negatiu II (fugida i evitació): anàlisi teòrica
15.1 Introducció
La qüestió central que ha guiat les principals teories sobre l'aprenentatge d’evitació ha estat
conèixer quines són les conseqüències que segueixen a la conducta d’evitació que
proporcionen algun tipus de reforçament instrumental responsable de l’augment d’aquesta
conducta. És a dir, esbrinar quin a és la font de reforçament o allò que motiva l’individu a fer la
conducta d'evitació. D'altra banda, aquesta qüestió queda sense interès quan es tracta de
valorar l'aprenentatge de fugida. Aquest tema se centrarà en l’anàlisi teòrica de l'evitació
discriminada i en el seu procediment d'extinció.
1. En l’evitació discriminada, quines són les conseqüències que reforcen la conducta

d’evitació? “Com s’aprèn” finalització E avís.
2. Quan s’ha adquirit la conducta d’evitació discriminada, l’estímul aversiu ja no es presenta:

perquè no s’extingeix llavors la resposta d’evitació?
Exemples d’intervenció
 Conductes d’evitació en els trastorns fòbics.
 Trastorn obsessiu-compulsiu (TOC).
15.2 Teories de l’evitació
15.2.1 Teoria bifactorial de Mowrer
- Teoria bifactorial o teoria dels dos processos.
 Mowrer (1947)
 Miller (1951)
En l’aprenentatge, un factor que intervé és un condicionament clàssic: Estímul avís associat

amb EI aversiu  procés condicionament clàssic. Predirà la presentació de la descàrrega 
provocarà resposta condicionada (R+) de por, seguidament, evitar sensació de por.
En l’evitació discriminada intervindrien 2 factors:
1. Condicionament clàssic: l’estímul d’avís (so) s’associa a la presentació de l’estímul aversiu

(EI: xoc elèctric) de manera que esdevindria un EC+ que provocaria un RC+ de por.
80
Evitar estímul d’avis, no por.
2. Condicionament instrumental: la por proporcionaria la motivació per a la resposta

d’evitació, ja que aquesta seria reforçada negativament per la finalització “de l’estímul avís”
(EC) i la no-presentació de l’EI (xoc). Quan el so desapareix, desapareix també la por
condicionada. La desaparició de la por condicionada és el reforçador que manté la conducta
d’evitació, essent considerada la no-presentació de l’EI com un fenomen secundari. Segons
això, allò que reforça l’execució de la resposta és la retirada d’un EC+ aversiu.
SUPORT EXPERIMENTAL: BROWN I JACOBS (1949) (Domjan pp. 284-288)
El que prediu la teoria bifactorial és un cicle indefinit de fases alternades d’extinció i de

recondicionament de la por i de la resposta d’evitació.
SUPORT EXPERIMENTAL
L’existència d’aquests cicles no sempre s’ha pogut confirmar empíricament. Contràriament, en

moltes ocasions, s’ha pogut observar que, encara que l’estímul aversiu ja no es presenti, la
resposta d’evitació es pot mantenir de manera indefinida. A més, en alguns casos quan la
conducta d’evitació es troba ben establerta, la por a l’estímul d’avís es pot reduir, però no
obstant es manté la resposta d’evitació.
CONCLUSIÓ: La teoria bifactorial explica de forma satisfactòria com s’adquireixen les respostes
d’evitació discriminada, però no com es mantenen una vegada apresses.
15.2.2 La hipòtesi del senyal de seguretat
- Bolles i Grossen (1969)
- Weisman i Litner (1972)
Segons la teoria bifactorial:
La resposta d’evitació seria reforçada negativament per la retirada de l’estímul d’avís (un
senyal de perill: EC+ associat a la presentació de l’EI aversiu) i la consegüent reducció de la RC+
de por.
81
Segons la hipòtesi del senyal de seguretat:
La resposta d’evitació també podria ser reforçada positivament per la presentació de senyals
de seguretat (EC- que indica l’absència de l’EI aversiu), els quals provocarien respostes
condicionades inhibitòries d’aullejament, seguretat i relaxació.
Quins estímuls podrien actuar com a senyals de seguretat?
 La finalització de l’estímul d’avís.
 Les claus retroalimentadores o propioceptives que acompanyen l’emissió de la resposta

d’evitació.
CONCLUSIÓ: la hipòtesi del senyal de seguretat complementa la teoria bifactorial explicant de

forma satisfactòria el manteniment de les respostes d’evitació discriminada quan l’estímul
aversiu ja no es presenta.
15.3 Anàlisi de l’extinció de la conducta d’evitació discriminada
Els diferents procediments emprats per extingir una conducta reforçada negativament s’han
de basar, necessàriament, en una postura teòrica sobre quin és l’element o elements que
reforcen negativament la conducta. A partir d’aquí, el procediment d’extinció que s’utilitzi ha
d’anar encaminat a retirar o no presentar l’element reforçador, tal com es fa en l’extinció del
reforçament positiu. Però, a diferència de les conductes reforçades positivament, és ben
complex identificar quin o quins són els elements reforçadors de la conducta d’evitació. Per
aquest motiu s’han dissenyat diferents procediments que presenten característiques pròpies.
15.3.1 L’extinció ordinària
La conseqüència de l’extinció de la resposta d’evitació consisteix en deixar de presentar

l’estímul aversiu. Això produeix el mateix efecte que la mateix conducta d’evitació.
No es dóna un canvi aparent de les conseqüències de la resposta, de manera que la seva

eficàcia és molt reduïda.
82
15.3.2. Càstig de la resposta d’evitació
·consisteix en presentar l’estímul aversiu quan es fa la resposta d’evitació
·tot i que pot resultar molt eficaç, presenta els inconvenients dels procediments de càstig
positiu (veure tema 16).
15.3.3. La inundació
 Es fonamenta en els supòsits de la teoria bifactorial de Mowrer.

 Consisteix en mantenir la presentació de l’estímul d’avís, és a dir, fer inoperant la
resposta d’evitació o impossibilitar-la.
Té dues variants:
1. Inundació tipus 1 o extinció verdadera de Katzev: consisteix a fer que la resposta

d’evitació no elimini l’EC i que tampoc no es presenti l’EI.
- La resposta d’evitació es pot emetre, però resulta inoperant de manera que no finalitza la
presentació de l’estímul d’avís.
- És més adequada quan els senyals d’avís són estímuls auditius i/o visuals (p.ex. evitació de
vaivé)
2. Inundació tipus 2 (bloqueig o prevenció de la resposta, comprovació de la realitat):

consisteix a, a més de no eliminar l’EC, impossibilitar la resposta d’evitació.
Evidentment, tampoc no es presenta mai al subjecte l’estímul aversiu.
- S’impossibilita “físicament” l’execució de la resposta d’evitació, presentant-se de forma

continuada l’estímul d’avís.
- És més adequada quan els estímuls d’avís són senyals de lloc o estímuls contextuals (p.ex.
evitació d’un sentit).
Els experiments o tractaments basats en la inundació inclouen 3 fases:
1. Adquisició de la resposta d’evitació (prèvia al tractament en el cas de les intervencions

terapèutiques) (nivell basal)
2. Aplicació de la inundació (intervenció)
3. Observació de l’extinció ordinària (fase de prova)
83
L’eficàcia de les tècniques d’inundació està directament relacionada amb el temps d’exposició
a l’estímul condicionat aversiu (sigui amb una pràctica massiva o distribuïda).
Els procediments d’inundació demostren una certa independència entre la conducta d’evitació
i la resposta emocional de por. En aquest sentit, s’ha vist que és més fàcil eliminar l’execució
de la resposta d’evitació que la resposta de por condicionada davant l’EC, que, d’altra banda,
s’aconsegueix fer desaparèixer amb sessions addicionals d’inundació.
84
Tema 16: El càstig: procediments i variables
16.1 Procediments de càstig: càstig positiu i càstig negatiu
Els procediments de càstig donen lloc a disminució de la conducta. Es diferencien dos tipus de
càstig en funció que s’estableixi una contingència positiva o negativa entre la conducta i les
seves conseqüències:
 Càstig positiu; s’estableix una relació positiva entre la presentació d’una conducta i
l’aparició d’un estímul aversiu. Aquesta contingència disminuirà la probabilitat
d’aparició de la conducta.
 Càstig negatiu: s’estableix una relació negativa entre la presentació d’una conducta i
l’aparició d’un estímul apetitiu. En aquest tipus de càstig, l’aparició de la conducta
provoca la retirada o la no-presentació d’un estímul apetitiu que s’esperava en aquest
moment.
Dos procediments relacionats amb el càstig negatiu són:
1. El reforçament diferencial d’altres conductes (RDO), en què una resposta que fins ara
permetia obtenir un determinat estímul reforçador deixa de tenir aquesta
conseqüència, la qual en canvi es pot continuar obtenint de forma periòdica sempre i
quan s’emetin d’altres conductes diferents. Per exemple: nen amb rebequeries amb
pares que presenten massa atenció, al retirar l’atenció el que segueixen és un
procediment d’extinció i no de càstig negatiu. En el càstig negatiu trec un reforçador
que abans no reforçava res, en l’extinció retiro el reforçador que estava reforçant.
2. El procediment de temps fora: en què la resposta té com a conseqüència un període
de temps durant el qual el subjecte no té disponibles les fonts de reforçament
habituals. Amb aquesta finalitat, a vegades el subjecte és retirat físicament de la
situació en què podia obtenir reforçadors per dur a terme determinades conductes.
16.2 Aparells experimentals i mesures
El primer que fem en un experiment és una fase I d’adquisició de la resposta mitjançant

reforçament positiu o negatiu (nivell basal). Tot seguit, una fase II: càstig de la resposta. Les
mesures per identificar l’eficàcia del càstig fem servir:
 Percentatge o grau de disminució de la probabilitat o de la taxa de resposta després

d’aplicar el càstig: és a dir, la quantitat de supressió que obtinc. Aquest percentatge de
disminució pot ser total o parcial.
85
 Temps de durada de la supressió: pot ser permanent o temporal.
En alguns casos la supressió temporal o parcial no és útil, ja que es pot produir un efecte
d’habituació degut que el subjecte s’habitua a la presentació de l’estímul aversiu. Per exemple:
nen de les rebequeries que ja no fa cas dels crits del pare.
L’efecte de facilitació és aquell efecte que es produeix quan un estímul aversiu passa a ser un
estímul reforçador de la conducta operant (en el cas del nen de les rebequeries, conducta
inapropiada).
Esquema:
Resposta operant (rebequeries nen) Estímul reforçador positiu (atenció dels pares)
Resposta operant (rebequeries nen) Estímul aversiu (crits) que inicialment suprimeix la
conducta, finalment es converteix en un estímul reforçador secundari condicionat
- Situacions experimentals de càstig:
 D’assaigs discrets:
o Corredors rectes
o Laberints simples
o Caixa de dos compartiments
o Gàbia shuttle
 Operant lliure:
o Caixa d’Skinner
16.3 Variables del càstig positiu
16.3.1 Motivació per respondre
Com més gran sigui la motivació per fer la resposta que es vol castigar, menor serà l’efectivitat
del càstig.
16.3.2 Intensitat i durada de l’estímul aversiu
Com més gran és la intensitat de l’estímul aversiu, més gran és la supressió de la conducta
observada.
En general, la durada de l’estímul aversiu no afecta de manera dràstica el grau de supressió

de la resposta.
86
Ara bé, durades molt llargues de l’estímul aversiu perjudiquen la supressió de la conducta, ja
que poden facilitar aprenentatge de fugida. En el Domjan s’explica que a més durada més
supressió, i no és així. Per exemple: nen que fica els dits a l’endoll (la presentació de l’estímul
aversiu és molt curta) i ja no els torna a ficar mai més.
16.3.3 Forma d’introducció
EL càstig és més eficaç si l’estímul punitiu es presenta en tota la seva intensitat de forma
sobtada que no pas si es presenta de forma gradual.
La forma d’introduir l’estímul aversiu pot donar lloc a dos fenòmens diferents:
 La tolerància comportamental al càstig: l’exposició inicial a un càstig suau redueix els

efectes d’un posterior càstig intens. Així doncs, els subjectes als quals se’ls va
incrementant de forma paulatina la intensitat de l’estímul aversiu que reben després
de realitzar la conducta, disminueixen menys l’execució, que els subjectes que han
rebut inicialment, i d’un sol cop, l’estímul aversiu a la seva màxima intensitat.
 Sensibilitat comportamental al càstig: l’exposició inicial (de manera sobtada) a una
estimulació aversiva abusiva augmenta els efectes supressors d’un posterior càstig
suau. Per exemple: un professor que crida fort i de manera sobtada al veure que la
gent parla; posteriorment la gent callarà simplement quan el professor els miri o avisi.
El professor que comença amb crits suaus però acaba amb un crit fort no produeix
l’efecte de sensibilització (produeix habituació).
16.3.4 Immediatesa del càstig (efectes de demora)
S’estableix una relació negativa entre la demora en presentar l’estimulació aversiva

contingentment a la resposta i el nivell de supressió de conducta que s’obté. A major demora d
ela presentació de l’estímul punitiu, menor eficàcia del càstig (molt menor eficàcia).
Conlusió de les variables
Per què un càstig sigui eficaç s’han de donar aquestes condicions sobre l’estímul aversiu:
 Intens  Immediat
 No prolongat  Consistent o continu (una
 Inescapable (no hi ha possibilitat característica nova però que també
de perdó) afecta a l’eficàcia del càstig).
 Sobtat
87
16.4 Efectes emocionals del càstig negatiu
El càstig pot donar lloc a efectes secundaris emocionals del càstig no desitjats, com per
exemple: por, angoixa, etc. Pot provocar respostes emocionals incondicionades de por o
ansietat, les quals:
 Es poden condicionat clàssicament a d’altres estímuls o persones presents la situació, i

posteriorment generalitzar-se a d’altres estímuls o persones similars;
 Poden motivar conductes de fugida i/o d’evitació no desitjades..
 També pot induir respostes emocionals incondicionades d’ira, hostilitat o agressivitat.
Per tal de minimitzar els efectes perniciosos del càstig, principalment quan s’aplica a les
persones, és recomanable, sempre que la situació ho permeti, començar per un procediment
d’extinció de la conducta. Tanmateix, també és important garantir la possibilitat de realitzar
respostes alternatives a la castigada que permetin rebre reforçament positiu; aquesta operació
provoca una major supressió de resposta castigada i permet utilitzar un estímul aversiu menys
intens i durant un temps més breu sense perdre eficàcia.
Resum d’alternatives al càstig positiu:
 Extinció
 Càstig negatiu
 RDO
 Temps fora
 Inundació (en l’evitació discriminable)
88

Aprenentatge I Condicionament Apunts

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aprenentatge I Condicionament Apunts

Uploaded by

Copyright:

Available Formats

Tema 9: Anàlisi teòrica del condicionament clàssic

9.2 Les condicions de l’aprenentatge. Quan s’aprèn?

1. La durada del interval EC - EI.

1. Necessària: en el cas de l’aversió condicionada al gust no és necessari que es doni la

- El principi de la contingència (Rescorla, 1968)

1. Contingència positiva: p(EI/EC) > p’(EI/noEC).

P(EI/noEC) No cond (impredictibilitat)

Cond. Inh Cond. exc

La teoria de la contingència té limitacions: el bloqueig (en l’EC2 es presenta l’EI però no hi ha

Podem concloure que per a que hi hagi condicionament clàssic:

(- El component sorpresiu en EI)

Variables Hospital 1 Hospital 2 Hospital 3 Hospital 4

9.3 Els mecanismes l’aprenentatge. Com s’aprèn?

El model de Rescorla i Wagner: Parteix de la idea de Kamin de que l’efectivitat d’un EI ve

VAN= αA β1 (Y1 -VA ). Quan tenim tot l’aprenentatge, la diferència serà 0.

 AVAN = 0.5* 1 (10-0)=5 Va1=5

 AVAN= 0.5*1 (10-5)=2.5 Va2=7.5

 AVAN= 0.5*1 (10-7.5)= 1.25 Va3=8.75

 AVAN= 0.5*1 (10-8.75)=0.625 Va4=9.375

 AVAN=0.5*1 (10-9.375)=0.3125 Va5=9.6875

Aquest model explica molts fenòmens, com per exemple:

 El límit asimptòtic de l’aprenentatge (que arribi un moment que no es pot aprendre

Aquest model ha permès descobrir fenòmens: Per exemple, la sobreexpectativa: Ex:

9.4 Els continguts de l’aprenentatge. Què s’aprèn?

El condicionament clàssic com a:

 Noves connexions entre estímuls i respostes (aprenentatge E-R)  Connexionisme.

Grup Fase 1 Fase 2 Fase Prova

El RC baixa, per tant: condicionament clàssic = aprenentatge E-E (cognitivisme).

9.5 Els determinants de l’execució.

Quins factors expliquen per què apareix una RC i no una altra?

Model de substitució de l’estímul (Pavlov): l’EC es converteix en un substitut de l’EC i provoca

El condicionament farmacològic va semblar que es contraposava el model de substitució de

Segons aquesta teoria, el procediment de condicionament clàssic activa el sistema de conducta

10.1 Introducció al condicionament instrumental

El condicionament instrumental és el segon tipus d’aprenentatge associatiu. Mentre que en el

10.2 Antecedents històrics del condicionament instrumental: E. L. Thorndike (1874-1949) i B.

Thorndike i la llei de l’efecte

Thorndike va ser pioner en l’estudi experimental del condicionament instrumental amb

Skinner i la llei del reforçament

Skinner va posar en pràctica la llei del reforçament instaurant el procés de condicionament

10.3 Procediment de condicionament operant i la gàbia d’Skinner

La caixa d’Skinner està composada per:

 Manipulandum: la tecla o palanca que s’acciona.

10.4 Anàlisi dels elements del condicionament instrumental

10.4.1 La resposta instrumental: R o RC

Podem condicionar instrumentalment molts tipus de conceptes: respostes condicionades,

Existeixen dos efectes:

10.4.3 Tipus d’estímuls reforçadors

- Estímuls incondicionats/primaris/innats: Existeixen estímuls que, sense necessitat de cap

- Estímuls condicionats/secundaris/apresos: Aquest tipus d’estímuls provenen d’un

10.5 Procediments bàsics de condicionament instrumental

Els quatre procediments bàsics de condicionament instrumental es classifiquen en funció del

E. APETITIU (conductes E. AVERSIU (conductes de

- Caminar mirant a terra (conducta operant o instrumental) i trobar un bitllet de 50 €

 Contingència positiva => Reforçament positiu.

 Contingència negativa => Reforçament negatiu => Evitació.

 Contingència negativa => càstig positiu.

- Treure un tema de conversa (conducta operant) i rebre crítiques (conseqüències).

 Contingència positiva => Càstig positiu.

- Administrar-se un heroïnòman una dosi per deixar de patir la síndrome d’abstinència.

 Contingència negativa => càstig negatiu => Fugida.

11.1 Procediments i mesures de la resposta en el reforçament positiu

11.1.1 Procediments d’assaigs discrets