You are on page 1of 10

TEMA-9-i-resum-lectura-domjan.

pdf

AndreaBat

Procesos Psicológicos: Aprendizaje y Condicionamiento

2º Grado en Psicología

Facultad de Psicología
Universidad Autónoma de Barcelona

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
APRENENTATGE I CONDICIONAMENT

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 9: REFORÇAMENT POSITIU I:
PROCEDIMENTS I VARIABLES
1. PROCEDIMENTS I MESURES DE LA RESPOSTA EN EL REFORÇAMENT POSITIU

→ Procediments d’assaigs discrets (assaig per assaig)

Únicament es pot fer una resposta a cada assaig. És el típicament anomenat condicionament
instrumental i es fan servir els corredors rectes (runaways) i laberints (en forma de T, de Y...).

Per mesurar la força de la resposta ens fixem en: latència, temps de carrera, velocitat de carrera i
percentatge d’assaigs amb resposta correcta (en laberints).

Reservados todos los derechos.


→ Procediment d’operant lliure (d’entrenament continu):

Permet que s’executi lliure i repetidament la resposta. És l’anomenat condicionament operant. Es fa


servir la caixa de Skinner.

Per mesurar la força de resposta ens fixem en: freqüència o taxa de resposta (respostes/temps),
latència de resposta, topografia/morfologia i intensitat.

2. VARIABLES QUE AFECTEN EL REFORÇAMENT POSITIU

1. Variable relativa al subjecte: motivació

El nivell de privació de Estímul reforçador (ex: menjar) modularà la motivació de cada subjecte. Es
mesura per hores de privació i per percentatge de pèrdua de pes (habitualment entre 80 i 85% del pes
normal). La relació és en forma de U invertida (convexa) entre la privació (motivació) i l’aprenentatge
o rendiment.

2. Variables relatives a l’estímul reforçador

Afecta la magnitud que té l’estímul: quantitat (a major quantitat de reforçament, major rendiment en
relació amb el cost de resposta (dificultat per emetre la resposta operant → si varia triem l’opció on
el quocient reforçament/cost de resposta sigui més
alt)) i qualitat. En tots els experiments que es fan
amb els pelets de menjar en caixa d’Skinner són
iguals perquè si no no funcionaria de la mateixa
força.

Els canvis en la magnitud també tenen un efecte en


l’aprenentatge. Es defineixen en els efectes de
contrast o efectes Crespi.

És un fenomen observat a un experiment on dos


grups rebien una quantitat de reforçament petita i
els altres dos gran. A un grup de cada parella es
disminuïa o augmentava la quantitat (de gran a petit
i de petit a gran).

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6725901
Els resultats que s’observen és que el grup que passa de petit a gran augmenta el seu rendiment i
acaba sent major que el gran - gran (hi ha més motivació) → efecte de contrast positiu o elació.

En canvi, el grup que passa de gran a petit disminueix el seu rendiment i és menor que el que sempre
ha tingut recompensa petita (disminueix la motivació) → efecte de contrast negatiu o depressió.

Aquest efecte té implicacions pràctiques:

- Per obtenir un màxim rendiment en un subjecte (laboral, acadèmic, esportiu…) s’ha d'anar
augmentant el reforçament de forma gradual.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- L’eficàcia d’una determinada magnitiud de reforçament depèn de l’experiència prèvia del
subjecte, rebre un reforçament positiu que no s’obtenia anteriorment en altres contextos o
en el mateix, hi haurà un augment del rendiment per augment de la motivació.

L’efecte de contrast s’ha observat en base fisiològica, hi ha més alliberament de dopamina o menys
en funció de si s’ha augmentat o disminuit el reforçament. Això es dona en les addiccions, per això
persones addictes no troben reforçament en activitats generalment plaents.

3. Variables relatives a l’associació resposta-reforçador: contigüitat temporal

Es tracta del temps que transcorre entre l'emissió de la resposta operant fins la presentació de

Reservados todos los derechos.


l’estímul reforçador.

La demora del reforçador perjudica de forma dràstica l’execució de la resposta (no és immediat). Per
tal que el reforçador sigui eficaç ha d’haver-hi immediatesa (això ocorre amb els reforçadors i els
càstigs). És un fenomen que es dona perquè la conducta no desapareix just en fer la resposta operant,
sinó que continuem fent altres conductes (anomenades respostes competitives); quan es rep el
reforçador hi ha una dificultat d’associació a la conducta. En canvi, si el reforçador es dona de forma
immediata a al conducta no hi ha dubte de quina de les conductes genera l’estímul reforçador.

Es tracta d’un reforçament accidental o adventici. És un fenòmen que explica les conductes
supersticioses → s’observa en un experiment amb coloms, rebien menjar cada 15” independentment
de la conducta que feien; després d’alguns assaigs es va obtenir la conducta supersiticioses.

Per tal d’atenuar l’efecte perjudicial de la demora del reforçador del rendiment es pot fer de diferents
formes:

- Amb magnitud de reforçament alta → si el reforçament és demorat però és de magnitud gran


és més probable que s’associï

- Amb un cost de resposta baix

- Amb la presentació d’estímuls reforçadors secundaris immediats (Hull)

Quan el estímul reforçador primari (incondicionat com el menjar) és demorat l’aprenentatge


es dificulta. En canvi, es pot presentar un estímul reforçador secundari (condicionat al primari,
ex: llum) de forma immediata. Prémer palanca → So - - > Menjar. Una aplicació d’aquest
fenomen és l’economia de fitxes, es tracta de donar una fitxa/gomet… quan fas una conducta

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6725901
apropiada, en obtenir un cert nombre hi ha un estímul reforçador primari (ex: més nota a
l’avaluació).

Quan hi ha possibilitat de reforçament immediat petit o demorat gran, tant animals com humans,
tendim a escollir el reforçament immediat, tot i que tingui magnitud inferior → és l’explicació de molts
trastorns de la conducta.

Tot i això, hi ha la capacitat de autocontrol, on es pot adquirir la capacitat d’elecció d’una recompensa
gran demorada enfront el benefici menor immediat. És un fenomen que està facilitat quan les

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
decisions es prenen de manera anticipada i es pot adquirir per entrenament amb reforçament
demorat.

Reservados todos los derechos.

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6725901
RESUM LECTURA DOMJAN

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
PÀGINES 148-151, 153-154, 163-172, 182, 210-211, 214-215
ENFOCAMENTS MODERNS EN L’ESTUDI DEL CONDICIONAMENT INSTRUMENTAL

Inicialment Thorndike va fer servir 15 caixes problema diferent, a mesura que s’avançava en la
investigació es va anar fent una estandardització de les tasques per tenir més facilitat en la comparació
de resultats de diferents laboratoris.

→ Procediments d’assaigs discret

És el mètode que utilitzava Thorndike, cada assaig acaba amb la sortida de la caixa i la resposta operant
només es dona un cop. S’acostuma a fer servir laberints perquè són similars als camins que fan les
pròpies rates en el seu hàbit natural. Actualment es fan servir el passadís recte: a un extrem està el

Reservados todos los derechos.


reforçador; i un laberint en forma de T: a cada extrem de cada braç està la meta, per tant és més
complex i pot servir per estudiar l’aprenentatge de les senyals de l’ambient (per exemple, un braç fosc
i un clar, només al clar hi ha recompensa, aprendran a escollir el clar).

Per quantificar la resposta es pot mesurar la velocitat de la carrera (quant triga des de l’inici fins la
caixa meta) que acostuma a disminuir després de fer assaigs; també es pot mesurar la latència (quant
triga en començar a moure’s); per últim, es pot mesurar el percentatge d’eleccions correctes (en el
cas del laberint T).

→ Procediments d’operant lliure

És un procediment desenvolupar per Skinner, permet al subjecte repetir la resposta instrumental tants
cops com vulgui, per tant es pot fer un estudi molt més continu de la conducta. El concepte de
conducta operant fa referència a una forma de dividir la conducta en conjunt, de forma que es pot
analitzar i mesurar.

Skinner va fer servir una caixa que li permetia fer estudi d’aquesta conducta, es tracta d’una caixa
petita on hi ha una palanca que pot pressionar repetidament i un mecanisme que entrega un
reforçador (generalment aigua o menjar).

La resposta operant té efectes sobre l’ambient i són aquests efectes els que determinen que una
resposta és operant, no els moviments o patró muscular que es desenvolupa (en el cas de la caixa,
prémer la palanca dona la recompensa, no importa la pota amb la que ho faci o la pressió que posi).

Podem dir que en la resposta operant el resultat operacional és la mesura crítica de l’èxit (és igual com
ho hagis fet mentre s’hagi aconseguit); en canvi, en les respostes instrumentals sí que hi ha una forma
concreta de realitzar la conducta per tal que hi hagi un resultat satisfactori.

- Taxa de resposta com a mesura de la conducta operant

L’estudi amb procediments d’operant lliure permet una observació constant, és el subjecte el que
determina la freqüència de resposta. Per tant es pot mesurar el canvi de probabilitat que una resposta
es repeteixi, per fer-ho Skinner va proposar la taxa d’ocurrència (freq. resposta per minut).

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6725901
EL REFORÇADOR INSTRUMENTAL

→ Quantitat i qualitat del reforçador

Si un reforçador és petit i de baixa qualitat no augmentarà la resposta instrumental i serà més lenta
l’adquisició d’aquesta. Quan parlem de resposta operant lliure és més complicat, ja que si rep un
reforçador molt gran després d’una única resposta (per exemple, dona un cop a la palanca i rep el
menjar d’una setmana) és difícil que faci la resposta de forma freqüent. Per tant, la quantitat i qualitat
ha de dependre de factors com la quantitat de respostes necessàries per rebre el reforçador.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Hi ha diversos estudis on es veu aquest fenomen, un exemple és el cas de la investigació amb Chad,
un nen de 5 anys. El reforçador que se li donava era atenció (durant 10, 105 o 120 segons) i la resposta
instrumental era pressionar un botó fins que hi hagués un so. Inicialment es fa una proba i s’observa
que prefereix el reforçador de 120 segons.

Es va fer servir un programa de raó progressiva, on cada cop era necessari més resposta instrumental
per rebre el reforçador. Inicialment rebia reforçador amb 1 sola resposta, a mesura que avançaven els
assaigs es requerien més respostes fins arribar a les 40. Es va observar que quan el reforçador era de
120 segons feia durant més temps les repeticions necessàries i continuava rebent el reforçador, en
canvi si el reforçador era més petit hi havia una caiguda més ràpida i evident.

Reservados todos los derechos.


Aquest principi s’utilitza en teràpies de desintoxicació, es donava recompensa econòmica si la persona
es mantenia neta. Es va observar que la recompensa que millor funcionava eren 10 dòlars diaris
(davant quantitats més baixes) i especialment si es donava la recompensa just després de l’examen
toxicològic (efecte de la immediatesa).

→ Canvis en la qualitat o quantitat del reforçador

El que s’ha rebut anteriorment afecta al que s’espera rebre després i a la seva eficàcia. Un reforçador
gran es considera especialment bo després d’un reforçador petit i un petit es considera especialment
dolent després d’un reforçador gran (com passa en el condi clàssic → un EI més gran de l’esperat
afavoreix a l’aprenentatge excitatori, un més baix a l’inhibitori).

Un experiment de Mellgren ho demostra amb un experiment amb 4 grups de rates:

- Fase I: dos grups reben recompensa petita quan arriben al final del passadís i els altres dos
una gran.
- Fase II: dos dels grups (un de cada situació) es canvien a la recompensa contrària; els altres
dos es mantenen amb la mateixa.

Els que es van mantenir no van mostrar gaire canvi, els que passaven de gran a petita van disminuir
la seva velocitat i els de petit a gran la van augmentar notablement. Els que canviaven a petit
mostraven menys velocitat que els que sempre havien sigut petit, i els de gran mostraven més
resposta que els que sempre havien estat en gran.

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6725901
A partir d’aquest estudi es van definir els fenòmens de contrast positiu (resposta elevada per una
recompensa bona en comparació amb la rebuda anteriorment) i contrast negatiu (disminució de la
resposta per una recompensa dolenta en comparació amb la rebuda anteriorment).

Aquests fenòmens podrien explicar els efectes paradoxals de l’abús de drogues, es va fer un
experiment on es proporcionava cocaïna a unes rates i es va observar com les rates que havien
consumit preferien el lloc on se’ls havia administrat que una altra càmera, per tant es conclou que la
cocaïna és reforçant. La paradoxa arriba quan abans de la cocaïna s’ofereix aigua amb sacarina
(estímul apetitiu), s’observa que després de prendre la cocaïna les rates rebutgen la sacarina, com si

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
s’hagués generat una aversió a aquesta (quan no hauria de generar-se perquè la cocaïna també és
apetitiva i es presentava després de la sacarina). Es va torbar que el fenomen es podria explicar per
contrast negatiu, és a dir, la sacarina té un valor menys apetitiu que la cocaïna, per tant la rebutgen.

LA RELACIÓ ENTRE RESPOSTA I REFORÇADOR

Hi ha conductes que produeixen conseqüències (conducta instrumental), per contra, hi ha conductes


que no tenen relació amb el resultat o aquesta és probabilística. Per ser eficient és necessari saber en
quins moments s’ha de fer una conducta per obtenir el reforçador i en quins casos no.

Es pot diferenciar entre una relació temporal que és el temps entre resposta i reforçador (contigüitat
temporal si el reforçador apareix immediatament després de la resposta) i la relació causal o
contingència entre resposta i reforçador que fa referència al grau en que la resposta instrumental és

Reservados todos los derechos.


necessària i suficient perquè es presenti el reforçador. Són dos tipus de relació independents: relació
causal forta entre presentar la sol·licitud i ser acceptat, però relació temporal dèbil (pots trigar molt
en ser acceptat).

→ Efectes de la relació temporal

És molt important que hi hagi una contigüitat temporal en l’aprenentatge instrumental, la presentació
del reforçador s’ha de donar immediatament després de la resposta per tenir bons resultats (Grice
indica que demores de 0,5s ja pot obstaculitzar l’aprenentatge). Hi ha experiments on no s’ha vist
aprenentatge si l’interval entre la resposta i el reforçador era alta (64segons).

Hi ha diversos factors que influeixen en aquest fet, el primer és que la conducta és continua, no es fa
una activitat i s’atura, sinó que es fan més. Si el reforçador no es presenta immediatament després de
la que ens interessa el subjecte no l’associarà a aquella, sinó que l’associarà a la última realitzada.

Com no sempre es pot presentar el reforçador immediatament després de la resposta que ens
interessa, es poden fer servir reforçadors secundaris o condicionats. Són estímuls que es condicionen
al reforçador i es presenten immediatament després de la resposta, de forma que s’omple el buit de
la demora fins que es presenta el reforçador.

També s’utilitza el procediment de marcat (demostrat per David Liberman), en aquest cas es marca
la resposta amb un estímul com una llum o un so o es retira al subjecte a una caixa d’espera després
d’haver fet la resposta. Un experiment va mostra l’efectivitat d’aquest procediment: es van fer 3 grups
a tots ells se’ls presentava el reforçador 30s després de la resposta, al 1r grup es presentava una llum
després de la resposta, al 2n no es presentava llum i al 3r es presentava abans del reforçador. El
resultat va ser que el 1r grup sí que va generar un aprenentatge instrumental, el 2n era molt feble i el
3r no va mostrar cap tipus d’aprenentatge instrumental, sinó que era una mostra de bloqueig (havia
condicionat la llum al menjar com un condicionament clàssic).

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6725901
→ Contingència entre resposta i reforçador

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
És el grau en el que la presentació del reforçador depèn de la resposta, quan hi ha demora
l’aprenentatge es veu obstaculitzat tot i que la contingència sigui absoluta. Per tant, aquest factor és
menys important.

→ Experiment de superstició de Skinner

Es va fer per determinar la importància de la contigüitat i la contingència. El procés va ser el següent:


es van col·locar coloms a una càmera, rebrien menjar cada 15s independentment de les seves
conductes. Després d’alguns assaigs, Skinner va observar el comportament dels coloms i va veure com
cada subjecte s’havia condicionat a una conducta com si el menjar es presentés per la realització
d’aquesta. Va anomenar a aquest fenomen conducta supersticiosa i es basa en el reforçament
accidental o adventici, es dona una associació accidental d’una resposta amb l’entrega del reforçador.
Amb aquest experiment sembla demostrar-se que el més primordial és la contigüitat i no la

Reservados todos los derechos.


contingència.

→ Contigüitat i contingència: comentaris finals

La contingència assegura que el reforçador només s’entrega després de la resposta instrumental


específica, la contigüitat garanteix que altres activitats no obstaculitzin l’associació entre la resposta i
el reforçador.

ESTUDIS SOBRE L’AUTOCONTROL

És el que determina si escollir una recompensa gran en demora o una petita però immediata. Escollir
la demorada és difícil, especialment si és una decisió que s’ha de fer tenint el reforçador davant, per
això és favorable prendre la decisió abans d’estar exposat a l’estímul (abans d’anar al restaurant
decideixo que no menjaré pastís).

Es va fer un estudi amb coloms sobre l’autocontrol: cada resposta donava accés a una petita quantitat
de menjar immediatament (A) o a una quantitat més gran després de 4 segons (B). La resposta
instrumental era picotejar una tecla (A o B respectivament). Es van fer dos condicions:

- Procediment d’elecció directa: les dos recompenses es donaven amb un únic picoteig. Es va
observar que els coloms no tenien autocontrol i preferien la recompensa petita i immediata.
- Procediment encadenat concorrent: hi havia demora en totes dos recompenses perquè
s’havia d’arribar al component del programa. Es va observar que preferien la recompensa gran
tot i que suposés més demora.

Per tant, si hi ha demora es prefereix la recompensa gran (tot i que l’espera sigui major que amb la
petita); si només hi ha demora amb la gran, prefereixen la petita. S’ha observat aquest fenomen amb
altres animals de laboratori i en humans.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6725901
→ Es pot ensenyar l’autocontrol?

L’autocontrol pot ser molt afavoridor en diverses situacions socials i personals, per tant és interessant
que pugui ser après. Es pot entrenar a persones amb recompenses demorades per incrementar la
tolerància. Un estudi va avaluar l’autocontrol d’estudiants de primària:

- Es pregunta als infants si volen 2 cèntims en aquell moment o 3 cèntims en acabar el dia i es
dona el que decideixen.
- Es fan tres sessions d’entrenament amb la recompensa immediata o la demorada.
L’entrenament tractava de fer problemes matemàtics senzills, si la resposta era correcta a la

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
meitat dels estudiants se’ls reforçava immediatament amb dos cèntims i a l’altre es guardaven
3 cèntims i al final del dia li donaven.
- Com les tasques eren senzilles, els nens van acabar preferint el reforçador demorat que era
major. Per tant, es va aconseguir un autocontrol generalitzat.

Reservados todos los derechos.

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6725901

You might also like