You are on page 1of 50

Aprendizaje mediante condicionamiento

Tema 4 instrumental de recompensa


Bloque 2: Aprendizaje asociativo mediante condicionamiento
Tema 3: APRENDIZAJE ASOCIATIVO MEDIANTE CONDICIONAMIENTO CLSICO
Tema 4: APRENDIZAJE ASOCIATIVO MEDIANTE CONDICIONAMIENTO INSTRUMENTAL DE RECOMPENSA
Tema 5: CONDICIONAMIENTO INSTRUMENTAL: CONTROL DE ESTMULO Y CONDICIONAMIENTO CON ESTIMULACIN AVERSIVA

Indice del Captulo

1. DESCRIPCIN Y TIPOS DE PROCEDIMIENTOS ................................................................................................................. 187


1.1. Definicin e historia .......................................................................................................................................................... 187
1.2. Operacin experimental y fases del experimento bsico ................................................................................................. 190
1.3. Elementos (estmulos y respuestas) principales .............................................................................................................. 191
1.4. Procedimientos y tcnicas experimentales para la adquisicin de la respuesta instrumental ......................................... 193
1.4.1. Medida de la respuesta instrumental ........................................................................................................................ 193
1.4.2. Tcnicas de adquisicin rpida de la respuesta instrumental .................................................................................. 194
1.4.3. Mtodos de estudio en humanos .............................................................................................................................. 195
1.5. Clasificacin de tipos de procedimientos ......................................................................................................................... 196
1.5.1. Segn el tipo de consecuencia y segn la contingencia R - consecuencia .............................................................. 196
1.5.2. Segn la probabilidad R-C o intermitencia del refuerzo............................................................................................ 197
1.5.3. Segn la estimulacin antecedente .......................................................................................................................... 197
1.6. Comparacion entre condicionamiento clasico e instrumental .......................................................................................... 198
1.7. Procesos y cambios cognitivos ........................................................................................................................................ 198
1.7.1. Mecanismos o procesos relacionadores de eventos ................................................................................................ 198
1.7.2. Contenido del aprendizaje: Representaciones asociativas ...................................................................................... 199
2. CONDICIONES PARA LA ADQUISICION EN EL CONDICIONAMIENTO DE RECOMPENSA ............................................ 202
2.1. Condiciones generales para la adquisicion ...................................................................................................................... 202
2.1.1. Probabilidad de emparejamiento R-C: Correlacin accin-consecuencia ................................................................ 202
2.1.2. Contigidad temporal entre accin y consecuencia: La conducta supersticiosa ...................................................... 202
2.2. El refuerzo ........................................................................................................................................................................ 204
2.2.1. Definicin, tipos de refuerzo y teoras en torno a su influencia en el condicionamiento ........................................... 204
2.2.2. Condiciones para la efectividad del refuerzo segn su tipo, intensidad, demora y contraste de intensidad y demora208
2.2.3. Efecto de emparejar estmulos con el refuerzo: los refuerzos condicionados o secundarios .................................. 210
2.3. Efecto de la situacin motivacional .................................................................................................................................. 211
2.4. Tipo de respuesta ............................................................................................................................................................. 211
3. CONDICIONES PARA EL MANTENIMIENTO DE LA TASA DE RESPUESTA: PROGRAMAS DE REFUERZO ................ 212
3.1. Distribucin temporal del refuerzo: Refuerzo continuo vs. refuerzo parcial o intermitente ............................................... 212
3.2. Programas para una misma respuesta instrumental ........................................................................................................ 214
3.2.1. Programas simples de refuerzo: tipos y efectos conductuales ................................................................................. 214
3.2.2. Programas de refuerzo compuestos ......................................................................................................................... 216
3.2.3. Programas de refuerzo sealizados ......................................................................................................................... 218
3.3. Programas para diferentes respuestas: Programas concurrentes y conducta de eleccin ............................................. 219
3.3.1. Programas concurrentes ........................................................................................................................................... 219
3.3.2. Contingencias concurrentes: Conducta de eleccin ................................................................................................. 219
3.4. Condiciones especificas de refuerzo parcial en humanos................................................................................................ 221
3.4.1. Reglas verbales ........................................................................................................................................................ 221
3.4.2. Efecto de las instrucciones verbales ......................................................................................................................... 221
3.4.3. Experiencia previa de reforzamiento......................................................................................................................... 221
3.4.4. Valor informativo del refuerzo ................................................................................................................................... 222
4. CONDICIONES PARA LA EXTINCIN ................................................................................................................................... 222
4.1. Operaciones, consecuencias y parmetros ..................................................................................................................... 222
4.1.1. Operacin experimental y procedimientos de extincin ............................................................................................ 222
4.1.2. Consecuencias o efectos generales ......................................................................................................................... 222
4.1.3. Parmetros................................................................................................................................................................ 223
4.2. Condiciones generales durante la adquisicin que afectan a la extincin en el condicionamiento de recompensa ....... 224
4.2.1. Factores motivacionales ........................................................................................................................................... 224
4.2.2. Factores de entrenamiento ....................................................................................................................................... 224
4.3. La extincin tras adquisicin con refuerzo parcial ............................................................................................................ 225
4.3.1. Condiciones especficas ........................................................................................................................................... 225
4.3.2. Teoras del efecto de refuerzo parcial....................................................................................................................... 226
5. PRINCIPALES APLICACIONES ............................................................................................................................................. 228
5.1. Condicionamiento instrumental y clnica .......................................................................................................................... 228
5.1.1. Procedimientos de modificacin de conducta ........................................................................................................... 228
5.1.2. Condicionamiento instrumental de respuestas autonmicas: Biofeedback .............................................................. 230
- 185 -

Asignatura: Aprendizaje (6 crditos). Obl. de 2 curso Grado Psicologa, Curso 2010/2011


Profesores: Dr. Agustn Romero Medina (agustinr@um.es) y Ldo. Pedro Jara Vera (pjara@um.es). Dept Ps. Bsica y Metodologa. Univ. de Murcia. Fac.
Psicologa; En Aula Virtual Fac. Psicologa en http://avpsi.inf.um.es/moodle/ (usuario: dni sin letra; contrasea: dni sin letra); y en SUMA campus virtual
186 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

5.2. Condicionamiento instrumental y enseanza ................................................................................................................... 232


5.2.1. Mtodos aplicados al proceso didctico ................................................................................................................... 232
5.2.2. Mtodos aplicados a la organizacin y manejo de la clase ...................................................................................... 233
6. PRCTICAS DE AUTOEVALUACIN DEL TEMA 4 ............................................................................................................. 233

Resumen del tema

Con este tema, entramos en otro tipo de aprendizaje asociativo bsico consistente en aprender a partir de las consecuencias de la
accin (aprendizaje instrumental) en un contexto determinado. En este captulo comenzamos con una descripcin de sus caractersti-
cas, procedimientos principales, clasificacin de los principales tipos de condicionamiento instrumental y una comparacin con el
condicionamiento clsico, los efectos de las condiciones ms generales de adquisicin y, por ltimo, los procesos o cambios a nivel
representacional que produce este tipo de aprendizaje.
Estudiaremos en este tema las condiciones ms comunes del aprendizaje mediante condicionamiento instrumental con eventos re-
forzantes. De este modo analizamos en profundidad las condiciones de adquisicin centradas en las consecuencias positivas (el re-
fuerzo) y su relacin con la respuesta. De estas cuestiones, las ms estudiadas han sido las referentes a las condiciones de adquisi-
cin mediante refuerzo parcial: programas de refuerzo, y las condiciones especficas en humanos. Tambin se analizan las condicio-
nes de extincin y por ltimo, se mencionan algunas de las principales aplicaciones, entre las cuales destacan las tcnicas de modifi-
cacin de conducta y el biofeedback.

Lecturas complementarias

Las obras de Dickinson (1980; trad. 1984), Tarpy (1981; trad. 1986), Mackintosh (1983; trad. 1988) y Domjan y Burkhard (1986;
trad. 1990) son las imprescindibles para ampliar los contenidos de este captulo. Otras obras de consulta pueden ser: Fernndez
Trespalacios (1985), Hulse et al. (1980; trad. 1982), Pelechano (1980, caps. 8 a 10), Rachlin (1976; trad. 1979), Honig (1966; trad.
1975) y las compilaciones de Aguado (1983) y Anguera y Ve (1984) y algunos de los trabajos de Rescorla y colaboradores (por
ejemplo, Rescorla, 1980, 1985; Rescorla y Holland, 1982) y Estes (1978).
Pueden consultarse como mnimo: Fernndez Trespalacios (1985; cap. 17), Hulse et al. (1980; trad. 1982, cap. 5), Pelechano
(1980; cap. 9); para la conducta de eleccin vase el captulo 10 de Rachlin (1976; trad. 1979), el de Arambarri y Benjumea (1997) y
el de Maldonado (1998) para programas de refuerzo Reynolds (1968; trad. 1977) y Schoenfeld (1970; trad. 1979); sobre automoldea-
miento el libro editado por Locurto, Terrace y Gibbon (1981).
Puesto que se trata de las aportaciones aplicadas ms conocidas de la psicologa del aprendizaje, para una revisin ms amplia y
completa el lector debera consultar, sobre todo manuales de modificacin y terapia de conducta (por ejemplo, Mayor y Labrador,
1984; Carrobles, 1986; Leitenberg, 1976; Craighead, Kazdin y Mahoney, 1976; Izquierdo, 1988; Caballo (1991), Buela-Casal y Caba-
llo (1991), etc.) y algn libro de psicologa educativa (por ejemplo, Woolfolk y McCune, 1980; Beltrn et al., 1987; etc.). Sobre anlisis
funcional de la conducta vase Segura, Snchez y Barbado (1991).
Manuales tiles sobre biofeedback son los de Carrobles y Godoy (1987), Villanueva (1988) y Simn (1989: sobre aplicacin a la re-
habilitacin fsica). Una buena gua bibliogrfica sobre este tema puede encontrarse en el nmero 14/15 de la revista Estudios de Psi-
cologa ("Gua documental del biofeedback", pp. 151-165, 1983).
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 187

1. DESCRIPCIN Y TIPOS DE PROCEDIMIENTOS

1.1. Definicin e historia

El condicionamiento instrumental se considera el segundo tipo de aprendizaje asociativo predictivo


y consiste en aprender a predecir sucesos derivados de nuestras acciones, aprender por las conse-
cuencias de la accin, por ello Tarpy (1981) lo considera un "aprendizaje de respuestas": aprender a
hacer o no hacer cosas en funcin de las consecuencias que estas acciones tienen para el mismo orga-
nismo.
El descubrimiento cientfico de este tipo de aprendizaje tiene lugar a finales del siglo XIX. Aunque
algunos de los principios del condicionamiento instrumental ya aparecen en las observaciones del
psiclogo britnico C. Lloyd Morgan en 1894 (conductas de ensayo y error observadas en su perro),
es slo cuatro aos despus cuando se describe ms sistemticamente. En efecto, en 1898 Thorndike
public un libro titulado Inteligencia animal (1898), donde expone los resultados de su tesis doctoral
sobre experimentos con animales en situaciones de cajas-problema (ver Figura 1).

En uno de estos experimentos, un gato hambriento era introducido en una jaula que dispona de una
especie de palanca para abrir la puerta; fuera de la jaula haba comida, de modo que el animal tena
que aprender a abrir la puerta para conseguirla; una vez que por ensayo y error el animal lograba abrir
la jaula y comer, en sucesivas ocasiones esta accin era realizada con mayor rapidez. La Figura 2 ilus-
tra esta situacin.

Figura 1: Dibujo esquemtico de una caja-problema como la de Thorndike.

Tiempo
requerido
para
escape
(segs.)

Ensayos sucesivos en la caja-problema

Figura 2: Curva de aprendizaje en las cajas-problema de Thorndike.

Thorndike utiliz como variable dependiente el tiempo para escapar de la jaula (definicin opera-
cional de aprendizaje) y como variable independiente los ensayos. La curva de aprendizaje fue gradual
y ondulada (ver Figura 2) y con escasa evidencia de comprensin del problema (insight) en los prime-
188 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

ros ensayos. Sin embargo, despus de 30 ensayos, los gatos presionaban la palanca tan pronto como
eran colocados en la caja. Thorndike concluyo que los animales aprendan por "ensayo y error".
En 1911, le dio una interpretacin terica a estos hallazgos empricos proponiendo la que deno-
min "Ley del Efecto", tanto en sus versiones positiva como negativa:
- La ley del efecto positivo postula que se puede conseguir una conexin entre una situacin ambiental
y una accin del sujeto siempre y cuando esa accin proporcione consecuencias satisfactorias o agra-
dables. Esta asociacin entre situacin, respuesta y consecuencia satisfactoria tiene el efecto de
aumentar la probabilidad de respuesta. Dicho ms brevemente, cuando una accin va seguida de una
recompensa tiende a repetirse.
- La ley del efecto negativo dice que cuando las consecuencias son desagradables para el sujeto, en el
futuro tender a disminuir esa respuesta. Esta ley, que bsicamente hace referencia a lo que tcnica-
mente llamamos "castigo" (ver Tema 5), fue inicialmente propuesta como simtrica a la anterior, pe-
ro fue retirada por el propio autor al no cumplirse en ciertas condiciones.

El siguiente momento importante se da con Skinner y sobre todo a partir de la publicacin de su


primer libro La conducta de los organismos (1938). De hecho, como dice Cruz (1989, p. 161), "la con-
tribucin de Thorndike empez a ser plenamente reconocida unos treinta aos despus de la presenta-
cin de su tesis doctoral, cuando Skinner la enmarc dentro de un cuerpo terico ms amplio". Como
seala Mackintosh (1983), fue Skinner (1938) quien estableci la diferenciacin entre dos tipos de
aprendizaje mediante condicionamiento: uno regido por el principio de sustitucin (el condiciona-
miento pavloviano) y otro gobernado por la ley del efecto (el condicionamieto instrumental). Skinner
los denomin, respectivamente, condicionamiento respondiente y operante.
Se inaugura as un nuevo enfoque en el condicionamiento instrumental en cuanto a mtodo y teora.
Skinner parte de un conductismo radical, por el cual slo se pueden estudiar las conductas observables
y las relaciones funcionales entre la situacin previa o antecedentes y la situacin posterior o conse-
cuentes de la conducta. Obviamente en este esquema sobre lo "mental" es innecesario para explicar la
conducta y el aprendizaje; adems, la conexin mental entre estmulos y respuestas tampoco se puede
observar y con ello no se puede hablar de "finalidad" de una conducta. Conducta "instrumental" alude
a esa finalidad inobservable y por ello prefiere la denominacin de condicionamiento operante por-
que lo que se aprende es una operante o respuesta que opera sobre el medio. No es instrumental, pues
no se sabe o no se puede observar su finalidad.

As pues, el condicionamiento operante no se debe confundir con el condicionamiento instrumen-


tal: el operante es el desarrollo skinneriano del condicionamiento instrumental. El condicionamiento
operante define el refuerzo en funcin de la tasa de respuestas que consigue, y no en funcin de la "sa-
tisfaccin" que produce. Con esta diferenciacin, Skinner pretende evitar cualquier presuposicin
acerca de lo que puede constituir o no un reforzador, de lo que a priori parece bueno o malo para el
sujeto. Por ejemplo, cuando un nio acta de forma traviesa puede que sus padres le rian y llamen la
atencin continuamente para que deje de comportarse as, presuponiendo que la ria es un castigo para
el nio; sin embargo, aunque en algunos momentos y para algunos nios pueda ser as, quiz en este
caso particular las reprimendas slo consigan que el nio siga comportndose de forma traviesa, e in-
cluso que sea ms travieso todava (puesto que el nio persigue que le presten atencin, independien-
temente de que sea con reprimendas o sin ellas), con lo que en realidad se le est reforzando y no cas-
tigando. En definitiva, desde un punto de vista skinneriano, en este caso la ria es un reforzador para
la conducta traviesa puesto que aumenta la frecuencia de la misma1.

1
Recurdese lo que dijimos en el Tema 2 acerca del trmino refuerzo. Como vimos, este trmino puede emplearse para aludir a cualquier
estmulo que, siguiendo al EC (el el caso del condicionamiento clsico) o siguiendo a una conducta (en el caso del condicionamiento ins-
trumental) fortalece (refuerza) el aprendizaje. Desde este punto de vista, un estmulo aversivo y uno apetitivo son ambos refuerzos. Sin
embargo, en el contexto del condicionamiento instrumental, lo ms habitual es reservar el trmino refuerzo para los estmulos apetitivos
(que son los que refuerzan la conducta) y emplear el trmino castigo para los estmulos aversivos (que disminuyen la conducta).
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 189

Siendo el aprendizaje el tema central del conductismo, el condicionamiento instrumental fue desde
su aparicin el tipo de aprendizaje ms estudiado, relegando al CC (de hecho, el CC fue utilizado por
Watson en un mbito ms bien terico) ante el gran inters prctico despertado por el condicionamien-
to instrumental, sobre todo desde Skinner y a partir de los aos 30.
El desarrollo aplicado del condicionamiento instrumental ha sido uno de sus logros ms destacados
y relevantes, con mtodos objetivos y cuantificables, con el planteamiento de principios y leyes que
siempre apelan a la actividad o conducta observable. La investigacin y la tecnologa que ha generado
el condicionamiento instrumental ha sido considerable; la bibliografa, especialmente sobre condicio-
namiento operante, es tambin amplsima (programas de refuerzo, control de estmulo, etc.); adems,
ha desarrollado una tecnologa que ha tenido xito en muchsimas aplicaciones: se modifican conduc-
tas y se obtienen aumentos y decrementos en la tasa de respuestas en distintos mbitos e incluso con
consecuencias de tipo poltico, sociocultural e ideolgico (vease la clebre novela de Skinner Walden
dos). En determinadas condiciones, el control sobre la conducta que pueden ejercer estas tcnicas es
considerable. De ah la configuracin de toda una especialidad denominada Anlisis Aplicado de la
Conducta (vase Baer, 1982, para revisin) o Ingeniera Conductual o Tecnologa conductual.
Sin embargo, este enfoque conductista no ha podido profundizar en los procesos mentales del
aprendizaje hasta la reciente aportacin de las teoras cognitivas del aprendizaje animal, centradas en
los procesos y los contenidos mentales del aprendizaje. Segn este nuevo enfoque, el sujeto aprende a
tener expectativas sobre las posibles consecuencias de su accin, de modo que la respuesta dada en un
determinado contexto predice una consecuencia: la aparicin de un evento significativo para el sujeto
(por ejemplo, el refuerzo).

En el condicionamiento instrumental, el resultado principal que se logra con esta prctica es la ad-
quisicin de dos tipos de asociaciones:
- asociacin entre la conducta y su consecuencia (asociacin respuesta - consecuencia o R-C).
- asociacin entre un estmulo y el compuesto respuesta-consecuencia (E-[R-C])

Se trata pues de la asociacin entre la accin del sujeto y las consecuencias de dicha accin, produ-
ciendo as una asociacin R (respuesta) - C (consecuencia). Tambin es importante la asociacin entre la si-
tuacin ambiental que existe al emitir la respuesta (ambiente o contexto en el que ocurre la accin) y la
misma asociacin E (estmulo) - R. Para Rescorla (1991), adems de estas asociaciones R-C y E-R, lo
fundamental es la asociacin entre E y el conjunto R-C, o sea, E - (R-C), una asociacin jerrquica que
requiere un proceso de adquisicin en dos fases: primero asociar R y C, y despus asociar E al conjun-
to R-C.

As pues, la propia accin del sujeto es aqu lo importante, pues segn lo que hacemos y las conse-
cuencias que eso tiene, as actuaremos en el futuro. Tambin es importante el contexto en el que ocurre
la accin: determinados estmulos del ambiente se condicionan a la accin, de modo que se convierten
en seal para actuar.

PorDesarrollemos ahora el ejemplo de condicionamiento instrumental presentado anteriormente


(Tema 3, apartado 1). Como se recordar, hablamos de un perro al que su amo golpeaba con un peri-
dico cada vez que se suba al silln del comedor. Podemos decir que el animal ha adquirido el condi-
cionamiento cuando aprende la relacin que existe entre una de sus conductas (subirse al silln) y el
estmulo que lo sigue (el golpe con el peridico), esto es: cuando aprende la relacin R-C. Comoquiera
que el golpe es un estmulo aversivo desagradable para el animal (es un castigo), el cambio conductual
derivado del condicionamiento es que el animal deja de subirse en el silln (o lo hace menos frecuen-
temente). Imaginemos ahora que el dueo del perro sale todas las maanas a trabajar y deja al perro
solo en la casa; en este caso, el perro podr subirse al silln tranquilamente a pelechar a sus anchas sin
recibir castigo alguno. La presencia del amo en la casa, por lo tanto, puede actuar como un estmulo
discriminativo: el animal slo recibe el castigo al subirse al silln cuando el amo est presente, apren-
190 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

de la relacin E-[R-C] y, por lo tanto, slo evitar el silln en presencia de su dueo (en este ejemplo,
E = amo, R = subir al silln, C = golpe con el peridico -castigo-).

1.2. Operacin experimental y fases del experimento bsico

Cuando se investiga en laboratorio, la operacin experimental bsica del condicionamiento instru-


mental, es decir, la frmula que lo rige, es del tipo E-R-E, donde el primer estmulo o grupo de estmu-
los son los antecedentes -el contexto o el estmulo discriminativo-, en presencia de lo cual ocurre una
respuesta voluntaria del sujeto, y tras sta aparece una consecuencia o evento significativo (apetitivo o
aversivo).

El procedimiento para lograr la adquisicin mediante condicionamiento instrumental tendra las


siguientes fases:
I) El sujeto se halla inmerso en una situacin determinada -que contiene una serie de estmulos am-
bientales2- en la cual est realizando actividades -relacionadas o no con los estmulos-. En esta fase,
los estmulos y las respuestas se consideran independientes entre s.
II) Una de dichas actividades debe producir una consecuencia significativa (C)3 para el sujeto (si la
consecuencia es positiva la denominaremos refuerzo, Eref, si es negativa, castigo). De este modo se
produce la secuencia: E - R - C.
III) La fase anterior se repite varias veces.
IV) Siempre y cuando E - R - C se haya repetido varias veces, el sujeto se encuentra con que R tiene
consecuencias significativas y otras respuestas no las tienen; si la consecuencia de R es positiva, se
producir un aumento en la probabilidad de ocurrencia de dicha respuesta y no de las dems, in-
cluso aunque no aparezca siempre el refuerzo o consecuencia. Si la consecuencia es negativa, se
producir una disminucin de la probabilidad de ocurrencia de R.

Con ratas, el procedimiento tpico de laboratorio para la adquisicin de respuestas instrumentales se


suele realizar en la Caja de Skinner (ver Figura 3) y tiene varias fases. El Cuadro 1 (adaptado de la
descripcin de Cruz, 1989, p. 162) nos lo ilustra.

Cuadro 1: Fases del procedimiento standard de laboratorio para el condicionamiento instrumental en ratas

- Fase de preparacin del animal: Se escoge una rata de tres meses, durante una semana se pesa diariamente y se le da
la comida que requiera; despus se le da menos comida y cuando pierda un 20% de su peso ya se puede comenzar la
siguiente fase.

- Adaptacin a la caja de Skinner: En las primeras sesiones, el animal emite diversas conductas pero hay una baja fre-
cuencia de la conducta objetivo consistente en apretar la palanca. Se anota el nivel operante o lnea de base de frecuen-
cia de respuestas antes de iniciar el entrenamiento.

- Adaptacin al sonido del comedero (magazine training): Se hace coincidir repetidas veces la emisin de un sonido con la
aparicin de bolitas de comida en el comedero (el animal aprende as cundo hay comida, y el sonido se convierte en
ED)

- Eleccin de una respuesta: Cuando se emita la conducta objetivo (apretar la palanca) entonces se proporciona el refuer-
zo (bolitas de comida). Se observar un incremento en la frecuencia de respuesta.

2
Tngase en cuenta que esos "estmulos ambientales" ya afectan de por s al sujeto en mayor o menor medida. Pueden ser aversivos (ruido
intenso, fro, calor, etc.), slo molestos, indiferentes o agradables.
3
Esta consecuencia significativa de la accin suele tener relacin tambin con la estimulacin ambiental; por ejemplo, cuando la estimula-
cin previa es aversiva y la accin logra que cese dicha estimulacin aversiva.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 191

Palanca Seal luminosa

Dispensador de comida Suelo de parrilla


(recompensa)

Figura 3: Fotografa de una caja de Skinner actual (con un lateral abierto para poder ver el interior).

Cuando se ha establecido un CI reforzando una R, para que disminuya o desaparezca esta respues-
ta, es decir, para que se produzca la extincin, el procedimiento principal consiste en no presentar el
refuerzo tras la respuesta; esta ausencia de refuerzo tiene que ocurrir durante mucho tiempo y en todas
las ocasiones en que se produzca la respuesta. La consecuencia observada tras la aplicacin de este
procedimiento es la disminucin de la tasa de la respuesta (adems de otros efectos descritos en el
captulo siguiente).

1.3. Elementos (estmulos y respuestas) principales


a) Consecuencias o eventos significativos

Son los eventos que aparecen contingentemente4 a la respuesta (tras la respuesta, como consecuen-
cia de la respuesta y slo si se da la respuesta). Son significativos porque tienen algn valor motiva-
cional o informativo para el sujeto y son equiparables al EI del CC. Pueden ser de tipo apetitivo o
agradable (refuerzo) o de efecto desagradable o aversivo (castigo). La Tabla 1 esquematiza todo esto.
En cualquier caso, al ocurrir este evento significativo tras la respuesta siempre tendr un efecto futuro
sobre ella pues conseguir elicitarla aumentando, manteniendo o disminuyendo su tasa (nmero de
respuestas en un determinado tiempo).

4
En aprendizaje, el trmino 'contingente' (que encontramos habitualmente en los manuales de condicionamiento en castellano pero traduci-
dos del ingls) tiene un significado tcnico diferente al uso cotidiano o incluso filosfico. Segn el Diccionario de uso del espaol de Mar-
a Moliner (1986), 'contingente' "se aplica a las cosas que pueden suceder y no suceder: no seguras o no necesarias". 'Contingente' es pues
"no necesario" y, sin embargo, en aprendizaje es justo lo contrario. El problema tal vez radica en una mala traduccin del ingls. En efecto,
'contingency', que es el trmino ingls del cual se ha traducido, tiene el mismo significado (eventualidad, algo fortuito), pero 'contingent on'
o 'contingent upon' es "dependiente de" y esto es precisamente lo que ocurre en aprendizaje instrumental: la aparicin del refuerzo (B) de-
pende de la elicitacin de la respuesta (A). Hay una relacin condicional del tipo "Si A entonces B". As pues, cuando leamos "contingen-
temente a la respuesta" deberemos entender dependiendo de la respuesta.
192 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

Tabla 1: Descripcin de tipos de consecuencias de la respuesta en el condicionamiento instrumental.

Tipo de consecuencia Accin Denominacin


Consecuencias positivas Presentacin de un estmulo apetitivo refuerzo positivo
(refuerzos) Cese de una estimulacin aversiva refuerzo negativo
Consecuencias negativas Presentacin de un estmulo aversivo castigo por aplicacin
(castigos) Cese de una estimulacin apetitiva castigo por supresin

b) Respuesta instrumental

Es la que se produce con este procedimiento y es distinta a la respuesta del CC, ya que no es una
respuesta refleja, sino que es una actividad generalmente de tipo voluntario (regida por la musculatura
estriada -excepto en el biofeedback o condicionamiento instrumental de respuestas vegetativas o auto-
nmicas-). Es cualquier conducta que le permite al sujeto manipular, influir o interactuar con el am-
biente; son pues actividades funcionales o instrumentales para el sujeto (coger un libro, abrir una puer-
ta, prestar atencin, hablar, etc.).
En el condicionamiento instrumental lo importante que se adquiere no es la respuesta (hay muchas
respuestas tales como presionar una palanca, mover una mano o un brazo, que ya figuraban en el re-
pertorio de respuestas del sujeto) sino emitirla en el momento adecuado, o incrementar o disminuir su
frecuencia: por tanto se aprende a realizar conductas "prcticas", o sea, acciones deliberadas que resul-
tan funcionales para conseguir algn tipo de reforzador (la conducta es un instrumento, un medio para
lograr algo, con lo que opera sobre el medio por las consecuencias que obtiene de ello). Adems, la
respuesta instrumental ha de ser pertinente y relevante para el organismo que ha de ejecutarla, es decir,
tiene que ser factible y no sobrepasar los lmites biolgicos de la especie, o dicho de otro modo, estar
incluida dentro de las respuestas naturales y biolgicamente posibles para la especie. De lo contrario,
por mucho refuerzo que se le proporcione al sujeto, no estar en disposicin de realizar la conducta.

c) Estimulacin o situacin antecedente a la conducta

En el paradigma del condicionamiento instrumental, la situacin en la que ocurre la conducta tiene


una misin sealizadora al estilo del EC: Los repetidos emparejamientos de la situacin con las res-
puestas seguidas de consecuencias significativas provocan que en el futuro, cuando aparezca dicha si-
tuacin antecedente ser ms probable que se suscite la respuesta instrumental, pues ser la seal que
activa en el sujeto la expectativa de obtener algo favorable si realiza la respuesta. Expresado metafri-
camente, la situacin antecedente es como el gatillo que detona la conducta cuando el objetivo (re-
forzador) es asequible.

Pero hay varios tipos de situaciones antecedentes y cada una tendr un efecto distinto sobre la res-
puesta:
- Un primer tipo es la situacin ambiental en general, que es el contexto presente en el momento de
emitir la respuesta. En este caso, la respuesta es relativamente independiente de la situacin.
- Un segundo tipo es la situacin de estmulo discriminativo (ED), que es aquella en que la respuesta es
reforzada en presencia de dicho estmulo (y no aparece refuerzo cuando la respuesta no ocurre en
presencia de ste). Es por tanto, un estmulo seal ms especfico que la situacin ambiental y similar
al EC+ del condicionamiento clsico, pero con la diferencia de que en este caso no predice al EI sino
al par R-C (respuesta-consecuencia).
- Y el tercer tipo sera el estmulo "delta" (E ), que es aquel en cuya presencia nunca es reforzada la
respuesta. El E ser seal para el sujeto de que no va a aparecer un evento significativo tras su res-
puesta (y, por tanto, tiende a no hacerla). Como vemos, es similar al EC- del condicionamiento clsi-
co y su resultado ms frecuente ser la extincin de la respuesta instrumental.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 193

Los estmulos discriminativos tienen tambin gran importancia en contextos aplicados, hasta el
punto que el aprendizaje fundamental radica no tanto en la respuesta como en percibir el estmulo dis-
criminativo con la suficiente destreza como para que sirva de seal para la respuesta. Por ejemplo, en
el aprendizaje inicial de la lectura, al nio se le pone delante un smbolo grfico escrito (E D) ante el
cual tiene que emitir una respuesta determinada (su pronunciacin); si lo logra habr una consecuencia
positiva (elogios por parte del profesor, etc.) y un afianzamiento o automatizacin de la asociacin ED-
R. Esa respuesta tiene que situarse pues bajo el control del estmulo. Cmo conseguir situar la res-
puesta bajo el control del estmulo correspondiente? Se trata de conseguir que el nio d, por ejemplo,
la respuesta "E" (sonido) cuando vea el estmulo escrito "E"; para ello las tcnicas de discriminacin y
control de estmulos (vase Tema 5) podran ayudar considerablemente: primero se empieza con ins-
trucciones verbales o con imitacin, etc.
Siguiendo el ejemplo y para precisar los conceptos anteriores, la situacin ambiental o contexto ge-
neral en el que se da el estmulo discriminativo podra ser el aula de clase, mientras que un estmulo
delta para, por ejemplo, la respuesta de pronunciar el fonema P sera el grafismo B o cualquier
otro distinto al grafismo P, el cual es el estmulo discriminativo. As pues, en el aprendizaje instru-
mental, no basta slo con dar respuesta para conseguir algo, sino tambin dar la respuesta adecuada
precisamente en determinada situacin.

1.4. Procedimientos y tcnicas experimentales para la adquisicin de la res-


puesta instrumental

1.4.1. Medida de la respuesta instrumental

Los procedimientos y tcnicas conductuales tpicos inciden bsicamente en lograr una variacin
significativa en la frecuencia o tasa de la respuesta instrumental.
La medida o variable dependiente ms utilizada suele ser la tasa de respuesta, es decir, el numero
de veces que se repite una respuesta durante un perodo de tiempo concreto o especfico. Hay alguna
otra medida como puede ser la latencia de respuesta, que se usa cuando se especifican estmulos ante-
cedentes y sera el tiempo transcurrido desde que el sujeto se introduce en una situacin determinada
hasta que da la respuesta o, lo que es lo mismo, desde que aparece el ED hasta que da la respuesta.
En el contexto experimental, la tasa de respuesta dentro de cmaras operantes tales como la "Caja
de Skinner" o la "caja de saltos", se suele medir mediante instrumentos de registro acumulativo, dispo-
sitivos bastante automatizados que liberan al experimentador, entre otras, de la tarea de anotar el
nmero de respuestas dadas por el sujeto. El registro acumulativo mide no slo la tasa de respuesta
media despus de un tiempo determinado de exposicin al ambiente, sino tambin permite registrar la
velocidad de variacin de la tasa de respuesta desde el principio del ensayo hasta el final. Como se
puede apreciar en la Figura 4, al representar grficamente la acumulacin de respuestas a lo largo del
tiempo, permite tener una apreciacin visual de dichas tasas.

Figura 4: Esquema del registro acumulativo utilizado en los experimentos de condicionamiento instrumental.
194 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

1.4.2. Tcnicas de adquisicin rpida de la respuesta instrumental

En una situacin experimental de Caja de Skinner hay que esperar a que el animal emita la respues-
ta objetivo para que se administre refuerzo y haya por tanto la posibilidad de que se incremente su fre-
cuencia. Esta espera se puede acortar mediante el procedimiento de moldeamiento o aproximaciones
sucesivas.

a) Moldeamiento o tcnica de aproximaciones sucesivas

El moldeamiento (shaping) o tcnica de aproximaciones sucesivas se define, en palabras de Cruz


(1989, p. 164), como "la consecucin gradual de una conducta final o comportamiento meta, que no
existe en el repertorio de respuestas de un organismo o que se emite con una baja probabilidad".
A lo largo de la sesin se va aplicando un refuerzo diferencial y progresivo de las conductas que
ms se aproximan o se parecen a la respuesta objetivo. La respuesta que es reforzada inicialmente deja
de reforzarse cuando el animal realiza una respuesta ms prxima al objetivo la cual es reforzada y as
sucesivamente. As, en una situacin de caja de Skinner, la conducta objetivo que queremos que
aprenda la rata es la de apretar la palanca. Como eso es difcil que ocurra al principio, lo que se hace es
reforzar conductas de acercarse a la zona donde est la palanca; una vez que logramos esa conducta,
dejaremos de reforzarla si el animal da un paso ms y roza la palanca, en cuyo caso reforzaremos slo
esa conducta. Cuando presione con fuerza la palanca (conducta objetivo) slo reforzaremos esta con-
ducta y no la de mero roce de la palanca.

En humanos, segn Fernndez Castro (1993, p. 208), el moldeamiento se aplica siguiendo cuatro
pasos:
1. La especificacin clara del objetivo final que se pretende conseguir. Es decir, qu se debe hacer, cundo y cmo.
2. La determinacin del nivel inicial del sujeto o punto de partida. El nivel inicial consiste en la conducta ms parecida a la del objetivo
final que ya sepa realizar el sujeto. No importa que este nivel inicial est muy alejado del final, lo importante es que sea una conducta
bien adquirida y habitual.
3. El establecimiento de pasos graduales que vayan desde la conducta inicial hasta la conducta final.
4. La aplicacin del moldeamiento, mediante el reforzamiento de las aproximaciones sucesivas. Esto consiste en reforzar el paso siguien-
te al punto en el que se halla el sujeto; cuando ste se ha adquirido, se refuerza solamente el paso siguiente pero no el que ya se ha su-
perado, y as sucesivamente.

Fuera del mbito experimental, esta tcnica ha sido muy utilizada para instaurar conductas nuevas.
En contextos aplicados la encontramos como tcnica de doma y adiestramiento de animales (adiestra-
dores y domadores de circo); en humanos, profesores de educacin especial, reeducadores, etc., con el
objeto de conseguir diversas conductas nuevas, por ejemplo, nuevas destrezas motrices en contextos
deportivos y de educacin fsica, respuestas asertivas en el mbito de las relaciones sociales, etc.

Como tcnica experimental de adquisicin rpida de operantes presenta dos problemas, segn Cruz
(1989):
1) Exige la presencia y atencin activa del experimentador as como una gran habilidad por su parte
para ir variando el criterio de refuerzo.
2) Adems puede ser un mtodo lento.
En cualquier caso, resulta una tcnica muy frecuentemente utilizada. Ntese el ejemplo de un chico
con una conducta social bastante inhibida y que sin embargo pretendemos estimular; si esta inhibicin
conductual se debe al escaso poder reforzante que para este chico tiene el contacto social habr que es-
tablecer reforzadores complementarios y apetecibles para l (el sujeto est dotado de las habilidades
sociales necesarias pero no existe suficiente refuerzo para activarlas), pero si la inhibicin se debe ms
bien a una falta de habilidades sociales, stas debern ser moldeadas (tomando forma) mediante el re-
forzamiento de las mejoras progresivas en la habilidad. En este ltimo caso se trata por tanto de cons-
truir una respuesta nueva en el repertorio del sujeto.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 195

b) Automoldeamiento

Tambin denominada tcnica de seguimiento de seal, es un procedimiento de condicionamiento


clsico (vase Tema 3, aptdo. 3.5.3) que puede servir para la adquisicin de condicionamiento instru-
mental. En el contexto de ste ltimo, permite una mayor automatizacin y estandarizacin experi-
mental y requiere una respuesta especfica ante un estmulo relevante. Recordando lo ya tratado en el
Captulo 3, se trata de un procedimiento experimental elaborado por Brown y Jenkins (1968) aplicado
principalmente en palomas. En el procedimiento original, en un dispositivo tipo caja de Skinner se
haba dispuesto en una pared un disco que el animal poda picotear y que se iluminaba por dentro du-
rante 8 segundos. Al final de los 8 segundos apareca el refuerzo, consistente en bolitas de comida. El
disco permaneca iluminado el tiempo prefijado y el refuerzo apareca independientemente de que lo
picara la paloma. Esta situacin se repeta a intervalos regulares y se observaba, tras unos 40 o 50 en-
sayos, un rpido aumento de la conducta de picotear el disco que se iluminaba.

Pero su inters no slo es metodolgico (una tcnica para acelerar experimentalmente la adquisi-
cin de respuesta) sino tambin terico, siendo fuente de discusiones tericas sobre las distinciones en-
tre condicionamiento clsico e instrumental.
En efecto, el automoldeamiento parece una situacin de condicionamiento clsico pues la ilumina-
cin del disco (EC) va seguida de la aparicin de comida (EI). Pero con el entrenamiento se aade
rpidamente una situacin instrumental de estmulo discriminativo-respuesta-estmulo reforzante (ED-
R-C). Adems, se observ que los animales no podan aprender a inhibir la respuesta de picotear me-
diante entrenamiento de omisin (no aparicin de refuerzo al final del estmulo discriminativo sino en
otros momentos) y que la relacin se aprenda aunque el disco estuviera situado lo ms lejos posible
del dispensador de comida. Hay dos tipos de explicaciones a la eficacia del procedimiento:
- La respuesta nueva que apareca era la respuesta natural ante el refuerzo: el picoteo ante la comida.
De hecho, el picoteo era distinto segn se tratase de bebida o comida.
- La contingencia entre el EC (iluminacin) y el refuerzo es crtica para que se incremente la respuesta
en cuestin.

1.4.3. Mtodos de estudio en humanos

Las tcnicas ms frecuentes de estudio del aprendizaje instrumental en humanos han incluido di-
versas condiciones y tipos de refuerzo. Segn Fernndez Castro (1993, p. 193), se distinguen dos tipos
de estudio: en laboratorio y en contextos naturales.
- En laboratorio: Los tipos de respuesta ms comunes son motrices, perceptivas y verbales. Los tipos
de refuerzo ms empleados van desde refuerzos sociales tales como la aprobacin o desaprobacin
(ya utilizado desde Thorndike), pasando por la obtencin de algn tipo de conocimiento de resulta-
dos, informacin o feedback (saber que se ha realizado correctamente la tarea) o incluso la obtencin
de puntos canjeables por dinero u otro beneficio.
- En contextos naturales: Se siguen dos pasos:
1, identificar la respuesta o conducta objeto de estudio.
2, registrar el nmero de veces que se da dicha respuesta, los antecedentes o estmulos discriminati-
vos ante los cuales ocurre y los consecuentes (refuerzos, consecuencias punitivas, etc.) de la mis-
ma. En definitiva, lo que conocemos como el anlisis funcional de la conducta.
Estos son los dos primeros pasos de lo que en contextos aplicados se denomina evaluacin conduc-
tual, los cuales a su vez sirven para proseguir posteriormente el tratamiento de modificacin de con-
ducta.
196 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

Otro procedimiento tpico en humanos es el de estudios con juicios de contingencia. Por ejemplo,
en Shanks y Dickinson (1991), se le presenta al sujeto en pantalla de ordenador una especie de video-
juego: un tanque va cruzando la pantalla y el sujeto puede dispararle (R); el tanque puede explosionar
(consecuencia) por los disparos del sujeto [p(C/R)] o por causas no relacionadas con la conducta del
sujeto (por minas en el suelo) y por tanto p(C/no R). Finalmente se le pide al sujeto que juzgue la efec-
tividad de sus disparos; los resultados son que ajustarn sus juicios segn la contingencia real progra-
mada por el experimentador.

1.5. Clasificacin de tipos de procedimientos

Existen varias clasificaciones de procedimientos de condicionamiento instrumental. Todas ellas


estn basadas en las principales condiciones que hacen posible este aprendizaje y que se refieren a:
- Condiciones que afectan a las consecuencias de la respuesta (positivas o apetitivas y negativas o
aversivas)
- Condiciones de la relacin respuesta - consecuencia (contingencia R-C y probabilidad R-C), que
puede ser de contingencia positiva (la R produce la consecuencia), negativa (R elimina la conse-
cuencia que se vena teniendo) y no contingencia.
- Condiciones antecedentes a la respuesta (presencia o ausencia de estmulos discriminativos).

Segn esto, hemos seleccionado tres clasificaciones:

1.5.1. Segn el tipo de consecuencia y segn la contingencia R - consecuencia

A partir de esquemas de clasificacin como los de Tarpy (1981), hemos elaborado una clasifica-
cin que desarrolla detalladamente el tipo de consecuencia y el tipo de relacin R C en el condicio-
namiento instrumental (vase la Tabla 2).
Tabla 2: Tipos de condicionamiento instrumental en funcin de los tipos de consecuencias y del tipo de relacin R-C.

CONSECUENCIAS / resultados
P O S I T I V A S (apetitivas) N E G A T I V A S (aversivas)
Resultados de adquIsIcIn de R Resultados de extIncIn de R
Por aplicacin Por cese de Por Por cese
(ref. positivo) estimulacin aplicacin del reforzador
aversiva
(ref. negativo)
SI positiva Condicionamiento - Castigo -
Relacin de de recompensa (castigo positivo)
contingencia S negativa - Escape - Entrenamiento
R-C Evitacin de omisin
(castigo negativo)
NO - - Indefensin -
aprendida

Segn esta clasificacin, los tipos resultantes son los siguientes:

Cuando a la respuesta le sigue la consecuencia, tenemos el condicionamiento de recompensa, el es-


cape, la evitacin y el castigo:
- En el condicionamiento de recompensa, tras la respuesta aparece un evento apetitivo (refuerzo) y
por tanto aumenta la tasa de respuesta (se estudia ms adelante).
- En el escape, si actuamos desaparece algo desagradable. En la evitacin actuamos antes de que
aprezca lo desagradable. La evitacin implica una primera fase en que un ED es emparejado inicial-
mente con la estimulacin aversiva y una segunda en que slo se presenta el ED; en cualquier caso, la
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 197

respuesta impide la exposicin al ED aversivo en la evitacin, y a los estmulos aversivos en el esca-


pe, lo cual supone una consecuencia positiva por cese de estimulacin aversiva. En esta situacin se
trata de un refuerzo negativo: refuerzo por hacer aumentar la tasa de respuesta y negativo porque su-
pone un cese de estimulacin, en este caso aversiva. Es decir, el refuerzo, por definicin, siempre
hace aumentar la probabilidad de la conducta y supone una consecuencia apetitiva; el ser positivo
(como en la recompensa) o negativo (como en la evitacin y el escape) se refiere a que se produzca
por aplicacin (por ejemplo, dar dinero) o por supresin (por ejemplo, levantar un arresto), respecti-
vamente.
- Sin embargo, en el castigo se aplica estimulacin aversiva tras la respuesta y con ello disminuye su
tasa. Hay dos tipos de castigo segn el tipo de consecuencia negativa: castigo por aplicacin (si es
estimulacin aversiva directa, como en el caso del castigo fsico) y castigo negativo o por supresin,
tambin entrenamiento de omisin (si la consecuencia es la supresin de un reforzador, como dejar-
nos sin postre); en este caso puede aparecer el refuerzo en otros momentos o con otras respuestas, pe-
ro nunca tras R; este procedimiento se denomina reforzamiento diferencial de otra conducta (RDO).

Cuando la consecuencia no es contingente, es decir, cuando el hecho motivacionalmente significa-


tivo ocurre pero sin contigidad con R, tenemos la indefensin aprendida, en la cual la estimulacin
aversiva independientemente de su conducta. Ntese que en este caso s hablamos de una autntica au-
sencia de contingencia entre la respuesta y su consecuencia, mientras que en el entrenamiento de omi-
sin se trata en realidad de una relacin negativa entre la respuesta y la consecuencia, ms que de una
no-relacin.

1.5.2. Segn la probabilidad R-C o intermitencia del refuerzo

Otro criterio de clasificacin, dentro de los casos de condicionamiento en que existe una relacin
de contingencia R-C, hace referencia a la probabilidad de aparicin de consecuencia dentro de la fase
de adquisicin y en los sucesivos ensayos.
Cuando tenemos en cuenta tan slo consecuencias positivas, surgen dos grandes tipos, a saber:
- El condicionamiento de recompensa continuo (se refuerza cada respuesta ), y
- el condicionamiento de recompensa parcial, en el que se intercalan ensayos R - no C y ensayos
R - C, es decir, se refuerzan slo algunas respuestas, con arreglo a algn criterio o programa de re-
fuerzo. Segn el programa de refuerzo que se establezca, la variacin en la tasa de respuestas ser di-
ferente, tal y como veremos en el prximo captulo.

Tambin puede darse diferente probabilidad R-C cuando las consecuencias son negativas. Es decir,
se pueden aplicar programas de castigo cuando el estmulo aversivo contingente a la respuesta no se
aplique siempre tras ella sino slo en algunas ocasiones y segn cada programa.

1.5.3. Segn la estimulacin antecedente

Dadas unas consecuencias positivas tras la respuesta, en la adquisicin hay dos grandes tipos de
condiciones antecedentes:
- Estmulos seal o discriminativos: Suponen una asociacin del tipo E - (R-C) y un entrenamiento en
discriminacin o generalizacin hasta que el estmulo "controle" o active la respuesta. Se trata pues
de aprender a realizar acciones precisas y que exijan lo que desde el mbito aplicado se denomina
"coordinacin sensorio-motriz", es decir, respuestas especficas tras seales especficas condiciona-
das. A esta situacin la podramos llamar de condicionamiento instrumental sealizado y se expli-
ca ms adelante en esta obra.
- Contexto: Aqu no son precisas seales especficas sino slo un contexto determinado para que se
produzca la asociacin R-C.
198 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

1.6. Comparacion entre condicionamiento clasico e instrumental

Hay bastantes autores que han investigado la posible relacin entre estos dos tipos de aprendizaje e
incluso se han realizado experimentos con procedimientos combinados de CC y CI. En los aos 40-50
hubo una gran polmica en el mbito terico entre los que defendan que cada tipo de condicionamien-
to implicaba un proceso diferente de aprendizaje -por ejemplo, la teora biproceso del aprendizaje
(Mowrer y otros)- y los que decan que haba un proceso subyacente a los dos tipos de condiciona-
miento. La conclusin final fue que cada procedimiento de condicionamiento pone en juego distintos
mecanismos de aprendizaje y de ellos algunos son comunes a los dos. Gray (1988; trad. cast. de 1993,
p. 159) precisa un poco ms esta conclusin: La relacin entre ambos tipos de condicionamiento
es un problema central y difcil de la teora del aprendizaje. No obstante, se est de acuerdo en que, en principio, ninguno de estos dos
procesos de aprendizaje puede ser reducido al otro, aunque ambos pueden reflejar algn mecanismo ms general de aprendizaje, y que en
parte la conducta est determinada por los dos.

En concreto, en el CC se relacionan eventos ambientales o estmulos y con ello, el sujeto aprende a


relacionar unos estmulos con otros, de modo que unos hagan de seal de otros activando expectativas
de aparicin de otros estmulos; por ello el CC parece estar ms relacionado con los procesos percepti-
vos. Tambin, la respuesta que se produce en el CC no es voluntaria sino refleja.
En el CI lo que se aprende es una relacin, no entre eventos sino entre la propia accin y sus conse-
cuencias en un contexto dado. El sujeto tiene que hacer algo para obtener una consecuencia, por tanto,
es necesaria la existencia de los procesos perceptivos, pero en el CI van a ser ms importantes los pro-
cesos de respuesta, de recuperacin o actuacin. En cualquier caso, habr procesos o mecanismos co-
munes porque inevitablemente sern necesarios los procesos de memoria y de representacin del co-
nocimiento (en el sujeto se almacena la informacin sobre la correlacin entre eventos o entre acciones
y consecuencias), etc.
Las diferencias no son tan tajantes como pretendan los neoconductistas; incluso hay cierta simili-
tud en cuanto a los procedimientos citados en el CC y en el CI. Tarpy (1981) efecta una nueva clasi-
ficacin de tipos de condicionamiento en la que relaciona tipos de CC con tipos de CI. Dicha clasifica-
cin aparece en la Figura 5.
Segn esta Figura, los condicionamientos se pueden distribuir en funcin de dos dimensiones:
- la dimensin vertical excitatorio-inhibitorio, sita los componentes excitatorios en la parte superior y
los componentes inhibitorios en la parte inferior y
- en el eje horizontal apetitivo-aversivo, se sitan a la izquierda los componentes apetitivos y a la dere-
cha los aversivos o de evitacin.
Hay un tercer elemento atribuible a los tipos de condicionamiento: el estado emocional y afectivo
(emocin condicionada) resultante de la aplicacin de los cuatro tipos de condicionamiento.

1.7. Procesos y cambios cognitivos

Al igual que en el condicionamiento clsico, tambin en este caso los procesos y cambios cogniti-
vos implicados en situaciones de condicionamiento instrumental hacen referencia a mecanismos o pro-
cesos de formacin de asociaciones entre eventos y contenidos asociativos.

1.7.1. Mecanismos o procesos relacionadores de eventos

Lo ms estudiado en el condicionamiento de recompensa, igual que en el CC, son las condiciones y


los procesos y resultados externos. Cuando se aprende en estas condiciones con un entrenamiento de-
terminado se produce un cambio no slo en la ejecucin, sino tambin en el mbito cognitivo y en dos
sentidos:
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 199

- Se activan mecanismos capaces de asociar en el nivel interno los eventos de esta situacin de condi-
cionamiento; y
- Se forman interiormente unos nuevos contenidos del aprendizaje en forma de representaciones men-
tales de algo nuevo, que no son otra cosa que representaciones asociativas de acciones y eventos re-
lacionados.

EXCITATORIO

CC: Condicionamiento
excitatorio apetitivo CC: Condicionamiento
excitatorio aversivo
CI: Condicionamiento
de recompensa CI: Castigo

Emocin
de:expectativa positiva Emocin de:
EXPECTATIVA POSITIVA MIEDO

APETITIVO O DE AVERSIVO
APROXIMACIN
Emocin de:
Emocin de: ALIVIO O RELAJACIN
FRUSTRACIN
CC: Condicionamiento
CC: Condicionamiento inhibitorio aversivo
inhibitorio apetitivo
CI: Evitacin y escape
CI: Entrenamiento de
omisin

INHIBITORIO

Figura 5: Tipos de condicionamiento y emocin correspondiente segn ejes excitatorio-inhibitorio y apetitivo-aversivo.

El primer mecanismo, al igual que en el CC, es de tipo fisiolgico. En el nivel cerebral, las sensa-
ciones provenientes de la accin realizada y de la consecuencia obtenida son asociadas por mecanis-
mos como los de excitacin neuronal, por ejemplo.

Otros mecanismos tambin son similares a los explicados en el CC: unos son capaces de formar ex-
pectativas de relacin entre la accin y la consecuencia (en la lnea de Tarpy) y tambin hay otros me-
canismos de relacin causal entre eventos (en la lnea de Dickinson). Los primeros mecanismos son
fundamentalmente de memoria y hacen que la representacin interna de la accin se relacione con la
representacin interna de la consecuencia (o sea, del refuerzo). Para los segundos se activa una repre-
sentacin mental con dos elementos: accin y refuerzo, la accin es la causa del refuerzo.

1.7.2. Contenido del aprendizaje: Representaciones asociativas

En el nivel externo, mediante el condicionamiento de recompensa se consigue un aumento en la ta-


sa de respuestas. En el nivel interno o cognitivo decimos que se producen representaciones asociati-
vas. De un modo similar al CC, en el condicionamiento instrumental se postulan parecidas representa-
ciones. Citaremos dos teoras complementarias: La de representaciones declarativas y procedimentales
de Dickinson (1980) y la de estructura asociativa jerrquica de Rescorla (1991).
200 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

a) Representaciones asociativas declarativas y procedimentales

En concreto, Dickinson explica el contenido de este tipo de aprendizaje de modo similar al CC, o
sea mediante representaciones declarativas y procedimentales:
- En la representacin declarativa el conocimiento se representa de forma equivalente a un enunciado
o proposicin que describe una relacin entre hechos ("cuando aparece la palanca la pulso para obte-
ner comida", en situacin de caja de Skinner). La representacin declarativa es una informacin que
no necesariamente ha de utilizarse; es, en general, la relacin abstracta entre accin y consecuencia.
Naturalmente, para que dicha representacin sea efectiva y lleve a la accin son necesarios otros me-
canismos internos que traduzcan ese conocimiento o informacin en accin, tales como los meca-
nismos efectores del sistema motor. Lo fundamental de la representacin declarativa es que consiste
en algo ms general: Como es una informacin, va muy ligada a acciones concretas y pueden adems
integrarse otros elementos a la relacin esencial entre la accin y la consecuencia, como pueden ser
los estmulos discriminativos.
- Sin embargo, la representacin procedimental se utiliza fundamentalmente para la accin y refleja
directamente el modo en que el conocimiento o informacin adquirida durante el entrenamiento de
condicionamiento de recompensa sirve para el control de la conducta del sujeto ("aprieto la palan-
ca").

Dadas estas dos posibles representaciones, en el condicionamiento instrumental est claro que la
representacin ms usual o predominante es la de tipo procedimental, en el sentido de activar progra-
mas motores para la realizacin de la respuesta. Pero tambin se da una representacin de tipo declara-
tivo. Dickinson ha establecido un modelo en el que se puede expresar la interaccin de estos dos tipos
de representaciones por medio de un diagrama de flujo, tal y como se observa en Figura 6.
Dickinson distingue entre lo que es la percepcin del lugar donde debe darse la respuesta y la ac-
cin misma o respuesta del sujeto. La percepcin del lugar donde debe darse la respuesta es algo pare-
cido a los estmulos antecedentes. Estos llegan al registro sensorial y penetran en la reserva de memo-
ria y una vez que se ha familiarizado (despus del entrenamiento) se asocian unos con otros as como
con otros eventos tales como el refuerzo o la respuesta, formando redes o nexos asociativos. El sujeto
tiene representado el lugar donde va a dar la respuesta (palanca) y, por otro lado, tiene representado el
refuerzo y tambin la respuesta. Los nexos asociativos se establecen entre:
- la respuesta y la consecuencia (el refuerzo),
- el estmulo discriminativo y el refuerzo (nexo de tipo E-E) y, tambin,
- entre el estmulo discriminativo (visin de la palanca) y la respuesta (apretar la palanca) (nexo de ti-
po E-R).
Segn Dickinson, el nexo asociativo E-R es de tipo procedimental, porque implica un procedimien-
to y est ligado a la accin pues llega al sistema motor, a partir del cual surgir la respuesta.

Reserva de Sistema
Registro
memoria motor
sensorial

EC EC
(tecla)
Nexo Nexo Output
E-E E-R conductual
(picoteo de la
R tecla)
EI
(comida)
EI picoteo

Figura 6: Modelo terico de Dickinson sobre las representaciones asociativas en el condicionamiento (adaptado de Dickinson, 1980; trad.
1984, p. 154).
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 201

b) Estructura asociativa jerrquica

Estos nexos asociativos han sido matizados y ampliados recientemente por Rescorla (1991). Segn
este autor, en el aprendizaje instrumental lo que se forman son estructuras asociativas jerrquicas. No
es correcto pensar que dicho aprendizaje sea un ensamblaje de asociaciones binarias de cualquiera de
las tres posibles: E-R, R-C o E-C (E = estmulo antecedente, R = respuesta, C = consecuencia). No es
simplemente que R produce C o que E seala esa C, sino ms bien que E seala la relacin entre R y
C. Como dice Rescorla (1991, p. 6), el organismo representa la situacin en la forma de una estructura
asociativa jerrquica de modo que E termina asocindose con la relacin R-C. Para ello, la adquisicin
de estas asociaciones necesita dos fases: Primero, el organismo aprende la relacin R-C y, una vez
aprendida, introduce una nueva asociacin con E. Es por tanto una estructura asociativa E - (R-C). La
Figura 7 contrapone estas dos concepciones: la incompleta de asociaciones binarias y la ms adecuada
de asociacin jerrquica.
Segn el enfoque conductista tradicional, la asociacin principal que se hace en el aprendizaje ins-
trumental es del tipo E-R. La consecuencia (C) tena como misin el servir de "reforzador", ayudar a
forjar esa asociacin. Pero eso implica una asociacin binaria simple E-R cuyo desarrollo depende
tambin de la presencia de C. La estructura jerrquica de esta trada de elementos es mucho ms preci-
sa e incluso sugiere una idea interesante que el mismo Rescorla se encarga de mencionar: la relacin
R-C puede entenderse como un asociado pavloviano de E. Es decir, el condicionamiento instrumental
parecera as un tipo de condicionamiento clsico: El EC permanece igual (el hecho de que aqu lo
llamemos "estmulo discriminativo", ED, no implica diferencias conceptuales) y el EI, o sea el evento
significativo (C en el aprendizaje instrumental), ahora va ligado a la accin, co-ocurre con ella.

E R
R

C C
(a) Asociaciones binarias (b) Asociaciones jerrquicas

Figura 7: Estructuras asociativas del aprendizaje instrumental: (a) binarias, (b) jerrquica segn Rescorla (1991).
202 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

2. CONDICIONES PARA LA ADQUISICION EN EL CONDICIONAMIENTO DE


RECOMPENSA

Se pueden mencionar dos grandes condiciones generales del condicionamiento instrumental y tres
especficas del condicionamiento de recompensa: el refuerzo, la situacin motivacional y el tipo de
respuesta.

2.1. Condiciones generales para la adquisicion

En este apartado vamos a analizar las condiciones para la adquisicin de la respuesta y sus corres-
pondientes efectos o resultados externos. Al igual que en el CC, los tipos de resultados externos son
similares (adquisicin, extincin, generalizacin y discriminacin). Trataremos aqu las condiciones de
adquisicin y en el siguiente captulo las de extincin.

2.1.1. Probabilidad de emparejamiento R-C: Correlacin accin-consecuencia

Para conseguir un aprendizaje instrumental o, lo que es lo mismo, un cambio de conducta debido a


las consecuencias de la propia conducta, es fundamental la correlacin accin-consecuencia. Esta es
similar a la correlacin estmulo-consecuencia del CC, pero lo importante es no slo que la respuesta
vaya siempre seguida de una consecuencia favorable, sino que ese emparejamiento entre accin y con-
secuencia sea ms probable o se d ms veces que dichos eventos por separado.
Tenemos aqu unos resultados similares a los del CC. El emparejamiento continuo o reforzamiento
produce una tasa de adquisicin ms rpida que el parcial. La adquisicin es posible si la probabilidad
de ensayos emparejados (respuesta - consecuencia positiva, R-C+) es mayor que la de no emparejados:

p (R/C+) > p (R / no C+)

Esto tambin ocurre si se emplea refuerzo negativo como consecuencia, tal y como se observa en los
paradigmas de escape y evitacin (vase Tema 5).

Una diferencia con el condicionamiento clsico se da en la relacin inversa, es decir cuando

p (R/C+) < p (R / no C+)

El resultado debera ser la extincin, pero ello slo ocurre con p (R/C+) = 0, es decir, si tras R nunca
aparece el refuerzo puesto que si aparece alguna vez en el entrenamiento, aunque sea menor el nmero
de veces que R va seguida de refuerzo que el de R no seguida del mismo, an as se mantendr la con-
ducta (vase el apartado sobre programas de refuerzo en el siguiente captulo).

2.1.2. Contigidad temporal entre accin y consecuencia: La conducta supers-


ticiosa

Aunque la contingencia es lo ms importante, la contigidad tambin tiene relevancia, hasta el pun-


to que en determinadas circunstancias cualquier accin fortuita, por extraa que parezca, puede condi-
cionarse si va seguida de una consecuencia muy favorable para el individuo. Tal es el caso de lo que
denominamos "conducta supersticiosa".
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 203

En 1948 Skinner realiz un experimento con palomas, a las cuales se les someta a un programa de
refuerzo tipo IF (programa de Intervalo Fijo: una vez situadas las palomas en la caja, los refuerzos
aparecan a intervalos fijos de 15 segundos). A lo largo del entrenamiento se observ que la conducta
de los animales con el paso del tiempo cada vez se haca ms especfica y cada animal emita progresi-
vamente un solo tipo de respuesta (este tipo de conducta ocurra en 6 de las 8 palomas que utiliz para
el experimento). Se trataba de conductas raras del tipo de dar vueltas en torno a la caja en sentido in-
verso al de las agujas del reloj, meter la cabeza en un ngulo concreto de la cmara experimental, ba-
lancear la cabeza, etc. Se observ que dichas conductas raras eran ms frecuentes conforme se acer-
caba el momento del intervalo en el que apareca el refuerzo. A esta posibilidad de incrementar la tasa
de determinadas respuestas es a lo que Skinner denomin conducta supersticiosa, ya que eran respues-
tas que aparecan de forma simultnea o anterior a las primeras apariciones de refuerzo. Con ello,
Skinner quera demostrar que se poda incrementar cualquier conducta que fuese contingente o depen-
diente de la recompensa.
Se puede denominar conducta supersticiosa por analoga a lo que es la supersticin en el ser huma-
no: si hacemos algo que tenga consecuencias muy favorables estableceremos una especie de relacin
causal entre esa respuesta y la consecuencia, una expectativa de relacin causal que no existe en la
realidad (o al menos no est cientficamente demostrada). Esta conducta supersticiosa surge tanto ante
los refuerzos positivos como ante los refuerzos negativos (conducta de evitacin) y, a diferencia de lo
que ocurre en animales, se puede adquirir sin experiencia directa de refuerzo "accidental" (basta con
observarlo en otros).
No obstante, anlisis e investigaciones posteriores (por ejemplo, Staddon y Simmelhag, 1971) su-
gieren que la conducta se hace frecuente no por refuerzo "accidental" sino por la facilidad para prede-
cir la aparicin del refuerzo (ello ocurra cada 15 segundos en el experimento de Skinner). Sin duda, se
trata de un fenmeno complejo que tal vez se mantenga por otros factores tales como las seales del
entorno en presencia de las cuales ocurre la "conducta" reforzada. As, por ejemplo, los momentos
previos a la corrida de toros hacen que algn torero se rodee de imgenes de santos y vrgenes y reali-
ce un ritual sistemtico de rezos y gestos; esas conductas no "causan" una buena corrida (o evitan una
cornada) pero la expectativa esta activa y funciona y mantiene dicha conducta supersticiosa. Proba-
blemente hubo un condicionamiento previo directo (quizs de un solo ensayo): una vez que hizo el ri-
tual hizo una gran "faena" y tuvo mucho xito (o una vez que se le olvid tuvo una cornada o una
mala tarde). sta sera un tipo de supersticin que Herrnstein (1966) denomin idiosincrsica o por
experiencia personal; tambin hay otras que denomin compartidas por la comunidad (mala suerte
viernes y 13, etc.) que se adquieren por aprendizaje observacional.
Uno de los problemas de la conducta supersticiosa es que las expectativas de resultado que el sujeto
mantiene sobre las mismas tienden a actuar como profecas autoconfirmadoras, por lo que resulta dif-
cil distinguir las relaciones causales objetivas conducta - ambiente y las relaciones meramente subjeti-
vas pero reificadas por el propio sujeto (por ejemplo, si creo que jugar un partido de ftbol con cierta
camiseta me dar buena suerte, es posible que la confianza y tranquilidad que me inspira me permitan
ciertamente una mejor ejecucin, reforzando as la relacin supersticiosa). En definitiva, las creencias
y expectativas que se generan con el aprendizaje de una conducta supersticiosa constituyen filtros en
el procesamiento de la informacin que tienden a reforzar la conducta. Ello queda tambin reflejado en
la historia de aquel hombre que se encontraba en la calle dando palmadas al aire afanosamente y en
todas direcciones, cuando una persona que lo miraba extraada le pregunta:
- Seor, le importa decirme qu est haciendo?
- Estoy espantando elefantes
- Pero, si aqu no hay ningn elefante
- Y pues!, lo ve usted?.

La historia refleja una situacin de evitacin de tipo supersticioso de evidente dificultad de extincin,
muy similar a lo que ocurre en cualquier tipo de fobia. En el Tema 5 nos extenderemos ms amplia-
mente en este tipo de procesos referentes especficamente a la evitacin y los miedos.
204 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

2.2. El refuerzo

Que aparezca el refuerzo tras la respuesta, y por tanto que el refuerzo sea consecuencia positiva de
la respuesta, es una de las condiciones fundamentales y ms estudiadas del condicionamiento de re-
compensa. En la concepcin clsica del condicionamiento instrumental todo giraba en torno al refuer-
zo (su aparicin dependiente de la respuesta) pero recordemos que el conductismo slo tena en cuenta
el resultado externo o el cambio de conducta que produca el refuerzo, y para ello bastaba con estudiar
las condiciones que favorecen ese cambio de conducta.

Dentro de este apartado vamos a considerar las siguientes puntos:


- Definicin, tipos de refuerzo y teoras en torno a su influencia en el condicionamiento.
- Efectos del refuerzo segn su tipo, intensidad, demora y contraste de intensidad y demora.
- El efecto de emparejar estmulos con el refuerzo (refuerzos secundarios o condicionados).

2.2.1. Definicin, tipos de refuerzo y teoras en torno a su influencia en el condi-


cionamiento
a) Definicin del refuerzo

El refuerzo puede entenderse, de una manera funcional u operacional, como cualquier evento que
presentado tras la respuesta hace aumentar su probabilidad futura de ocurrencia. En una situacin tpi-
ca de caja de Skinner, con la experiencia de recibir refuerzo tras realizar una determinada conducta, el
animal tiende en el futuro a repetirla para conseguir el refuerzo (por ejemplo, comida). Tambin podra
describirse el refuerzo de forma ms explicativa como cualquier evento con propiedades motivaciona-
les positivas y que hace aumentar la probabilidad de ocurrencia de una respuesta cuando se presenta
contingentemente a ella. El refuerzo sera asimilable al EI del CC o, ms especficamente, al EI apeti-
tivo.

Segn Catania (1992, p. 71), deben darse tres condiciones para que se pueda hablar de refuerzo:
- que una respuesta produzca consecuencias,
- que la respuesta ocurra ms a menudo que cuando no produce dichas consecuencias, y
- que el incremento en la respuesta ocurra debido a que la respuesta tenga dichas consecuencias.

Es importante recordar aqu que, de acuerdo con el enfoque de Skinner, el refuerzo queda definido
por su efecto fortalecedor de la conducta, independientemente de su aparente carcter agradable o des-
agradable para el sujeto desde el punto de vista motivacional - afectivo. Esto es as porque el carcter
apetitivo o aversivo de las consecuencias de la conducta puede ser, en muchos casos, ms aparente que
real y, desde luego, bastante ambiguo y a menudo difcil de detectar en la prctica. Pongamos algunos
ejemplos: La conducta de fumar tiene importantes consecuencias aversivas a medio y largo plazo, pero
las consecuencias agradables ms inmediatas que algunas personas pueden hallar (ayudar a relajarse,
concentrarse o relacionarse) mantienen la conducta de fumar, incluso cuando el sujeto ya se est en-
frentando palpablemente a sus consecuencias aversivas. En otro caso, una persona puede mostrar fre-
cuentes conductas de enfado porque, aunque eso le proporciona consecuencias desagradables (rechazo,
prdida o deterioro de relaciones, disputas) tambin consigue con frecuencia cambios a su favor en las
dems personas (cesiones o concesiones), adems de una inmediata descarga o relajamiento emocio-
nal, aunque se siga un poco ms tarde de un arrepentimiento y autoculpabilizacin.
En definitiva, con mucha frecuencia el comportamiento tiene consecuencias variadas y a menudo
conflictivas y, en menos ocasiones, estas consecuencias son unilateralmente "buenas o malas" para el
sujeto. Ante tal situacin, la eleccin de la conducta se vuelve un asunto complejo para el que, entre
otras cosas, resultan decisivas las habilidades cognitivas de "conexin - desconexin" con las conse-
cuencias positivas vs. negativas e inmediatas vs. demoradas de cada opcin de conducta disponible; es-
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 205

tas consideraciones sobre aspectos cognitivos, sin embargo, si bien son fundamentales en la psicologa
actual para la comprensin del comportamiento, quedan un tanto alejadas de nuestras pretensiones en
este lugar para la comprensin de los mecanismos del refuerzo segn la tradicin conductista y de la
psicologa experimental. Quede simplemente ahora de manifiesto la importancia de una definicin
operacional del refuerzo, como fortalecedor de la conducta que lo produce, independientemente de las
confusas consideraciones apriorsticas sobre su significado motivacional - afectivo
De todas maneras, siguiendo a Pelechano (1980, p. 198) y tambin a Catania (1992, p. 71), el con-
cepto de "refuerzo" puede aparecer con distintos nombres y con significados diferenciados:

1) Como reforzamiento (del ingls reinforcement), se trata de un sustantivo que hace referencia a un
proceso y a una operacin:
- Como proceso se tratara de la cadena de actos por los que se fortalece la respuesta, es decir, toda
la secuencia de hechos que transcurren desde que el sujeto emite la respuesta y tras ella aparece el
estmulo reforzante, con el consiguiente aumento en la probabilidad de ocurrencia de la respuesta.
- Como operacin, el reforzamiento consiste en proporcionar las "consecuencias" tras la ocurrencia
de la respuesta.

2) El estado en que queda el organismo al aplicarle el refuerzo, es decir, las consecuencias de la apli-
cacin del refuerzo al organismo. En este sentido se dice, por ejemplo, que el organismo "ha que-
dado reforzado" por emitir la respuesta.

3) Lo que fortalece la respuesta, o sea, el evento ambiental que se presenta tras la respuesta. Esto es lo
que propiamente se llama refuerzo (un sustantivo que hace referencia a un tipo de estmulo) o est-
mulo reforzante (un adjetivo como propiedad de un estmulo de esas caractersticas). En ingls, se
trata de reinforcer, o refuerzo, uno de cuyos tipos puede ser la "recompensa" (reward) o premio.

b) Tipos de refuerzo

Se han analizado varios tipos de refuerzo tanto en investigacin bsica como en su aplicacin
clnica. Se han propuesto varias clasificaciones:

1) Refuerzo positivo y negativo. El refuerzo positivo es equiparable al EI apetitivo, sin embargo, no es


idntico a la recompensa; es todo evento que hace aumentar la probabilidad de ocurrencia de la
respuesta y puede ser una actividad, un refuerzo social, presentacin de elogios, comida, sonrisas,
objetos agradables, etc. El refuerzo negativo es la desaparicin de un estmulo aversivo con la res-
puesta o la ausencia de estimulacin aversiva tras ella (supresin de ruido, dolor, olores molestos,
objetos desagradables, etc.).

2) Refuerzo primario y secundario. Los refuerzos primarios son aquellos que poseen valor reforzante
por determinacin biolgica: satisfacen una necesidad o producen una reduccin del impulso (co-
mida, aire, etc). Los refuerzos secundarios o condicionados son eventos inicialmente neutros (en el
sentido de no producir cambios en la respuesta) y adquieren valor reforzante por asociacin o em-
parejamiento con refuerzos primarios:

R Refuerzo secundario Refuerzo primario


Esto da lugar a:
R Refuerzo secundario

Por ejemplo, la madre que tras realizar su hijo los deberes le dice muy bien, seguido de la entrega
de una chocolatina; esas palabras adquieren as un significado positivo, reforzante, en esas y en
otras situaciones.
206 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

3) Refuerzos de estmulo y de respuesta. No slo hay refuerzos estimulares: tambin hay respuestas
que actan con la funcionalidad del refuerzo. La respuesta refuerzo consiste en realizar actividades
agradables, interesantes o positivas despus de la respuesta que interesa que el sujeto aprenda. Da-
vid Premack recogi y sistematiz esta idea (Premack, 1965), conocindose ms tarde como el
Principio de Premack (muy utilizado en modificacin de conducta), el cual establece que las acti-
vidades que realiza con mucha probabilidad un sujeto, si son contingentes a actividades menos
probables harn que aumente la probabilidad de ocurrencia de estas ltimas. Por ejemplo, en un ni-
o es muy probable la actividad de jugar o ver la televisin, y menos probable la actividad de es-
tudiar o realizar los deberes; si despus de realizar los deberes se le permite jugar o ver TV, esta
ltima actividad reforzar a la primera.
En definitiva, la existencia de respuestas o actividades intrnsecamente gratificantes permite que
puedan ser estratgicamente conectadas de forma consecuente con otras respuestas no tan gratifi-
cantes per se para el sujeto y que queremos aparezcan con mayor frecuencia. Esta ltima conducta
se convierte en una condicin inexcusable para poder poner en marcha la conducta reforzante.
Ntese la importante diferencia estratgica y motivacional entre un planteamiento basado en el cas-
tigo del tipo "si no haces los deberes no sales en toda la tarde", y un planteamiento basado en el re-
fuerzo tipo respuesta del tipo "despus de hacer los deberes podrs salir a jugar".

4) Refuerzos exteriores e intraorgnicos. Los exteriores son refuerzos, ya sean estmulos o respuestas,
y son eventos externos al organismo; y los intraorgnicos son los que se aplican directamente a es-
tructuras biolgicas (aplicacin de electrodos a centros cerebrales de placer, etc.).

5) Refuerzos extrnsecos e intrnsecos. Aunque sta no es una distincin habitual en el estudio de los
condicionamientos, consideramos que supone una expansin til y lgica de los conceptos conduc-
tistas al mbito de lo cognitivo. Refuerzos extrnsecos seran todos los que hasta ahora hemos con-
siderado; de hecho, los nicos vlidos desde el conductismo tradicional por su carcter medible y
operativo. Los refuerzos intrnsecos son aquellos que el sujeto se proporciona a s mismo en fun-
cin de su personal modelo de creencias y valores, en trminos de sentimientos de orgullo, compe-
tencia, vala, etc.; seran la contrapartida de los castigos intrnsecos (sentimientos de culpa e inade-
cuacin personal). Podramos decir que toda accin que el sujeto realiza habitualmente obtiene
algn tipo de reforzamiento, ya sea extrnseco y/o intrnseco, y por tanto, est orientada hacia la sa-
tisfaccin de algn tipo de necesidad personal. Los refuerzos intrnsecos estn ms conectados con
la satisfaccin de necesidades superiores de autoestima y autorrealizacin. El aprendizaje determi-
na qu tipo de acciones se conectarn con esos sentimientos y necesidades superiores y, por tanto,
qu acciones generarn consecuentemente un refuerzo intrnseco. As, por ejemplo, ms all de los
refuerzos extrnsecos, el modelo de creencias y valores aprendido por una persona puede hacer que
su esfuerzo por ayudar a las personas necesitadas genere un poderoso refuerzo intrnseco en trmi-
nos de sentimientos de congruencia y autorrealizacin personal, mientras que la renuncia a esa
ayuda puede generar sentimientos intensos de culpa. El aprendizaje ha hecho que, en la bsqueda
de su satisfaccin personal, esta persona se oriente decididamente a ayudar a otros.
La distincin entre refuerzos extrnsecos e intrnsecos es lgicamente privativa de los seres
humanos y sus peculiaridades cognitivas y emocionales, por lo que en el contexto de este manual
tampoco ahondaremos ni polemizaremos ms con tal distincin.

6) Hay otras clasificaciones pero quizs la ms prctica es la propuesta por Sulzer-Azaroff y Mayer
(1977), referente a refuerzos utilizados en modificacin de conducta. Distinguen entre:
- reforzadores comestibles,
- reforzadores tangibles (objetos en s mismos gratificantes para el sujeto: juguetes, revistas, dinero,
etc),
- reforzadores cambiables (fichas, etc),
- reforzadores de actividad (utilizacin del principio de Premack),
- reforzadores sociales (alabanzas, elogios, contingencias reforzadoras de los compaeros, etc).
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 207

c) Por qu influye el refuerzo en el condicionamiento instrumental (teoras explicati-


vas)

Como se aprecia en el Cuadro 2, hay muchsimas teoras al respecto. Una primera clasificacin in-
cluye una distincin entre dos aspectos:
- teoras del aprendizaje que consideran al refuerzo como factor irrelevante o que al menos hay otros
factores ms importantes para lograr la adquisicin, y
- teoras que consideran al refuerzo como factor influyente en el aprendizaje.

Dentro del primer grupo habra que citar:


- las teoras de la contigidad (Guthrie, 1935, 1952; Estes, 1969, 1971, 1978),
- la teora de signos de Tolman (1932, 1951, 1959), y
- la teora de las expectativas -primero Bolles (1972) y ms recientemente Tarpy (1981).
Cuadro 2: Clasificacin de las principales teoras sobre el refuerzo.

1. Teoras que consideran irrelevante al refuerzo:


- Teora de la contigidad (GUTHRIE, ESTES)
- Teora de signos (TOLMAN)
- Teora de las expectativas (BOLLES, TARPY)

2. Teoras del refuerzo como factor principal:

2.1. Teoras de los mecanismos subyacentes del refuerzo

A. Teoras de los mecanismos funcionales:


* Teoras del refuerzo como estmulo:
- T. de los "estmulos satisfactorios" (THORNDIKE)
- T. de la "reduccin de impulso" (HULL)
- T. de la estimulacin sensorial (feedback) (BANDURA)
* Teoras del refuerzo como respuesta:
- T. de las respuestas consumatorias (SHEFFIELD)
- T. de las respuestas probables (PREMACK)

B. Teoras de los mecanismos fisiolgicos (OLDS Y MILNER)

2.2. Teoras descriptivas o funcionales (SKINNER)

Por otro lado, estn los que consideran que el refuerzo es el factor principal del aprendizaje en ge-
neral y no slo del condicionamiento de recompensa, hasta el extremo de que si al realizar una con-
ducta no hay ninguna consecuencia entonces no se aprende. Estas teoras se subdividen, a su vez, en
dos grupos: las teoras de los mecanismos subyacentes del refuerzo y las teoras descriptivas o funcio-
nales.

- Teoras de los mecanismos subyacentes del refuerzo, que intentan explicar la naturaleza del re-
fuerzo en funcin de sus mecanismos internos en el sujeto, ya sean mecanismos funcionales o fi-
siolgicos. Cuando estas teoras se han centrado en los mecanismos funcionales del refuerzo, tene-
mos a su vez dos grupos de teoras:
* Teoras del refuerzo como estmulo: La primera teora de este tipo es la del refuerzo como "estmu-
lo satisfactorio" de Thorndike. La segunda teora y quizs la ms importante en este aspecto duran-
te mucho tiempo fue la teora de la reduccin de impulso de Hull (1943, 1952). Tambin hay que
citar como tercera teora la de estimulacin sensorial o feedback (Bandura, 1969; trad. cast. de
1983, p. 229), en la que se considera reforzante la estimulacin visual o auditiva resultante de la
respuesta.
208 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

* Dentro de las teoras del refuerzo y sus mecanismos funcionales, el segundo grupo sera el de las
teoras que consideran al refuerzo como respuesta. Aqu tendramos en primer lugar, la teora que
considera que lo que refuerza la conducta son las respuestas consumatorias (Sheffield, 1966;
Glickman y Schiff, 1967). Y en segundo lugar, la teora de Premack (1965) segn la cual, las res-
puestas ms probables refuerzan a las menos probables.

Adems de teoras sobre mecanismos funcionales, estn las teoras que han tenido en cuenta los
mecanismos fisiolgicos. Aqu la aportacin clsica ms relevante ha sido la de Olds y Milner
(1954), quienes mediante tcnicas de implantacin quirrgica de electrodos en cerebros de ratas, in-
tentaron averiguar la existencia de posibles centros cerebrales responsables de los mecanismos fi-
siolgicos del refuerzo.

- Por ltimo, las teoras funcionales o descriptivas, tambin llamadas "predictivas" (Tarpy y Mayer,
1978), las cuales, basadas en Skinner y dems tericos del condicionamiento operante, no se intere-
san por los mecanismos que subyacen al refuerzo sino por su efecto o funcin sobre la conducta y
por tanto su posibilidad de prediccin, es decir, que solamente describen lo que ocurre en la situacin
cuando el sujeto recibe un/os estmulo/s y realiza determinada conducta.

Aun sin citar las teoras ms recientes, como podemos apreciar el panorama es bastante complejo y
sera excesivamente prolijo profundizar en dichas teoras. No obstante, para un anlisis detallado se
pueden consultar en castellano los manuales de Pelechano (1980), Tarpy (1975), Hulse, Egeth y Deese
(1982) o el enfoque actual en el libro de Mackintosh (1983, traducido en 1988) o el de Domjan y Bur-
khard (1986, trad. 1990); en ingls las monografas de Glaser (1971), Gilbert y Millenson (1972) y
Tapp (1969), as como los manuales de Tarpy y Mayer (1978), Hintzman (1978) y Catania (1992).

2.2.2. Condiciones para la efectividad del refuerzo segn su tipo, intensidad,


demora y contraste de intensidad y demora
a) Tipo de refuerzo empleado

En la investigacin experimental no se ha considerado mucho esta variable pues, generalmente, se


han utilizado reforzadores muy potentes, todos tiles para el aprendizaje. Sin embargo, se ha observa-
do que existe un tipo de estmulos tambin con propiedades reforzadoras, por ejemplo, el reforzamien-
to sensorial (experimentos en los cuales tras la emisin de la respuesta lo nico que se haca era cam-
biar la intensidad de la luz, lo cual tambin permita reforzar la conducta). Otro tipo de reforzadores
son las pautas naturales de refuerzo en algunas especies animales: hay especies muy sensibles a de-
terminados estmulos naturales (en experimentos con ratas, la conducta de apretar la palanca puede ser
reforzada simplemente con el olor de la comida, ya que el olfato en las ratas est muy desarrollado).

b) Intensidad o magnitud del refuerzo

Es una de las variables ms estudiadas. Como podemos suponer, a mayor intensidad del reforzador,
mejor aprendizaje. El aprendizaje est positivamente relacionado con la cantidad de refuerzo tanto en
lo referido a una mayor tasa de adquisicin (aumento ms rpido en la tasa de respuestas) como en lo
que se refiere al nivel asinttico (nivel mximo de ejecucin cuando se aplica el refuerzo). Sin embar-
go, una dosis alta de refuerzo produce saciedad en el sujeto y por tanto puede perder motivacin (para
evitar este problema son tiles los refuerzos secundarios). Podramos considerar en tal sentido el
ejemplo de la persona que se satura tanto de su comida favorita que llega a perder el inters o incluso a
aborrecerla, por un efecto de saciacin.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 209

c) Demora del reforzamiento

Cuanto ms tarde aparezca el refuerzo tras la respuesta peor ejecucin y peor aprendizaje. El sujeto
slo podr asociar su accin a la consecuencia positiva si sta aparece inmediatamente despus de la
accin. Adems, se ha visto que es mejor un refuerzo dbil pero administrado inmediatamente despus
de la respuesta que un refuerzo fuerte pero presentado con demora con respecto a dicha respuesta. Por
ejemplo, la clsica promesa que hace el padre al hijo de regalarle una moto o un perro si aprueba el
curso (imaginemos que se lo promete en octubre, justo 8-9 meses antes de recibirlo) es menos efectiva
para la conducta de estudio que pequeas recompensas cada vez que se le ve estudiando.
La demora del refuerzo es similar al intervalo entre el EC y el EI del CC. Si el refuerzo tarda mu-
cho tiempo en aparecer entonces se debilita la asociacin entre la respuesta y ste; e incluso la demora
puede hacer tambin, si es muy larga, que se pierda el recuerdo o representacin activa de la respuesta
que hemos realizado; es decir, si el refuerzo no aparece mientras dura ese recuerdo o representacin
activa de la respuesta entonces ser imposible la asociacin entre dichos eventos.
Al igual que en el CC, se ha intentado investigar el intervalo ptimo a partir del cual la demora es
perjudicial para el aprendizaje. En experimentos con ratas en laberintos se ha visto que s era posible
una demora considerable, debido a que para estos animales no slo era importante el refuerzo, sino
que tambin eran capaces de relacionar estmulos discriminativos del refuerzo (claves secundarias de
olor de la comida, etc.).

d) Experiencia previa de recompensa: El efecto de contraste

La variacin de las magnitudes de recompensa a lo largo del entrenamiento afecta al aprendizaje.


La prctica o experiencia previa incluye tambin el recuerdo del nivel de recompensa y si ste contras-
ta o se diferencia del nivel actual de recompensa, esto tendr repercusiones en la ejecucin. As pues,
este efecto de contraste estudia cmo afecta la experiencia previa de recompensa en el aprendizaje con
diferentes condiciones de recompensa.
El contraste se refiere a las variaciones relativamente considerables y sorpresivas que a lo largo del
entrenamiento se pueden hacer sobre la magnitud o la demora de recompensa.
La investigacin emprica que se hizo para descubrir qu ocurra fue la siguiente: Se formaron cua-
tro grupos de ratas, de tal manera que los primeros grupos (A y B) recibieran un nivel alto de recom-
pensa y los otros dos (C y D) un nivel bajo de recompensa. Los resultados se expresan grficamente en
la Figura 8. A partir del momento t del entrenamiento, se modific el nivel de recompensa en los gru-
pos A y C intercambiando los niveles de recompensa que reciban ambos grupos; de esta manera el
grupo A pas a recibir un nivel bajo de recompensa y el C un nivel alto de recompensa. Los grupos B
y D sirvieron de grupos de control y los grupos A y C fueron los grupos experimentales de variacin
de la magnitud de recompensa. Los grupos de control (B y D) evolucionaron con el mismo nivel de
ejecucin anterior al momento t. El grupo C increment su ejecucin por encima de los niveles de los
grupos que reciban mayor nivel de recompensa y luego tenda a tener la misma ejecucin que el grupo
de control del nivel alto de recompensa (contraste positivo (1)), sucediendo algo similar pero a la in-
versa, como se observa en el grfico, en el grupo A (contraste negativo (2)).
210 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

(1)

EJECUCIN
(Por ej., velocidad de
carrera) (2)
A
B

D C

t
TIEMPO

Figura 8: Representacin grfica del efecto de contraste segn magnitud de recompensa.

Para explicar este fenmeno del contraste algunos dicen que lo importante es la motivacin: Al re-
ducirse el nivel de recompensa (y de forma brusca), esto tiene un valor aversivo para el sujeto y, por
tanto, disminuye paulatinamente la motivacin "de incentivo". El contraste positivo lo ha intentado
explicar, sobre todo, Tarpy con su Teora de la Expectativa: El grupo aprende a esperar el nivel de re-
compensa que estaba recibiendo hasta el momento, pero si se produce un incremento en dicho nivel,
paulatinamente se produce un incremento motivacional y emocional y, por tanto, la ejecucin se hace
muy alta.
Con la demora del refuerzo sucedera algo similar al contraste de intensidad.

2.2.3. Efecto de emparejar estmulos con el refuerzo: los refuerzos condiciona-


dos o secundarios

Tambin es posible el condicionamiento instrumental de recompensa con consecuencias que se


hacen significativas por aprendizaje previo, o por alguna equivalencia o relacin aprendida con refor-
zadores naturales. Se trata del refuerzo condicionado o secundario.
Siguiendo a Reynolds (1968; trad. 1977, p. 68), algunos estmulos se convierten en refuerzo para
una conducta debido a que en la historia previa del organismo han estado de algn modo asociados
con algn refuerzo natural (que no necesita ninguna experiencia o aprendizaje previo para que sea
efectivo).
No es lo mismo un estmulo discriminativo que un refuerzo condicionado o secundario: Ambos
comparten el poder adquirido de incrementar la probabilidad de ocurrencia de una respuesta, pero los
ED preceden o acompaan a la respuesta y los refuerzos condicionados aparecen tras ella como pro-
ductos o consecuencias.

Se pueden distinguir dos tipos de refuerzos condicionados: positivos y negativos, y tienen el mismo
significado que los primarios o naturales positivos o negativos.

Como se ha visto antes al mencionar los refuerzos secundarios, la formacin o adquisicin de los
refuerzos secundarios o condicionados se basa, entre otras cosas, en las propiedades discriminativas de
los estmulos: un estmulo cuya aparicin o eliminacin posterior a una respuesta no incrementa su
probabilidad de ocurrencia, al asociarse con un refuerzo primario (presentarse prximo a ste), des-
pus l slo tendr propiedades reforzantes, y ello porque dichos estmulos funcionan como ED para
las respuestas posteriores, las cuales estn mantenidas por el refuerzo que ocurre en presencia de di-
chos estmulos. Ser pues un proceso gradual.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 211

Los refuerzos condicionados son asimilables a los estmulos condicionados que en el condiciona-
miento de segundo orden tenan el poder, gracias a su condicionamiento previo, de condicionar a otros
estmulos nuevos. El poder de los refuerzos condicionados reside en que estn asociados a los refuer-
zos primarios (biolgicamente significativos) y son intercambiables por ellos. El refuerzo condiciona-
do ms universalmente empleado es el dinero, que no posee ningn valor biolgico significativo pero
que precede a la posesin de muchos refuerzos primarios.

La fuerza de un refuerzo condicionado se puede medir en trminos de durabilidad y potencia:


- La durabilidad es el nmero de respuestas que un refuerzo condicionado es capaz de seguir refor-
zando despus de que se elimina el refuerzo primario sobre el que est basado.
- La potencia es la tasa de respuesta que es capaz de mantener.

Los refuerzos condicionados son muy utilizados en la vida cotidiana. En modificacin de conducta
tienen su expresin ms extendida en los refuerzos intercambiables, las fichas, puntos, estrellitas, etc.
que gana el sujeto por realizar determinadas conductas y cuya acumulacin permitir la obtencin ul-
terior de refuerzos tangibles o primarios. Tambin la alabanza o elogio puede entenderse como refuer-
zo condicionado.

2.3. Efecto de la situacin motivacional

A idnticas magnitudes de refuerzo (o intervalos entre respuesta y refuerzo) se ha observado que el


resultado en la ejecucin puede variar en funcin de la situacin motivacional del sujeto. El efecto de
la situacin motivacional se ha estudiado atendiendo a dos conceptos: el impulso y el incentivo.

En cuanto al impulso (drive), como vimos en el Captulo 1, se trata del efecto del estado interno en
que se halla el sujeto segn su nivel de necesidad biolgica (necesidad de comida, bebida, etc.) medi-
do, adems, objetivamente. Segn distintos niveles de necesidad, el nivel de impulso va a ser diferen-
te. A mayor nivel de necesidad va a corresponder un mayor nivel de impulso y, por tanto, va a haber
una mayor motivacin o activacin que se traduce en una mejor ejecucin. Esto explicara situaciones
como que en tiempos de crisis econmica puede aumentar el ndice de participacin de la gente en
juegos de azar, porque la necesidad de una rpida ganancia econmica es ms apremiante. El impulso
tiene un efecto energizante de la conducta. Adems se ha observado que los hbitos aprendidos bajo
una condicin de alto impulso son ms fuertes (se retienen mejor, son ms resistentes a la extincin,
etc.) que los aprendidos con un bajo nivel de impulso (en trminos de Hull).

El incentivo sin embargo no est tan relacionado con la reduccin de impulso o necesidad biolgi-
ca como con las propiedades motivacionales de los objetos o eventos recompensantes. Los refuerzos
tienen una propiedad motivacional en el sentido de activar la ejecucin. El impulso, en realidad, no es
algo aprendido y est basado en necesidades biolgicas; sin embargo, el incentivo s es aprendido, es
decir, que un objeto no reforzante de una manera primaria tenga un valor motivacional es por aprendi-
zaje y esto est basado en la historia pasada del sujeto. Con ello concluimos, por tanto, que a mayor
nivel de incentivo, tambin, mejor aprendizaje.

2.4. Tipo de respuesta

La tercera condicin que mencionbamos al principio era el tipo de respuesta. El condicionamiento


ser mejor o peor segn el tipo de respuesta que emplea el sujeto y que pretendemos que aprenda.
Cuatro condiciones o factores se pueden mencionar:
212 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

- Adecuacin de la respuesta a la constitucin fsica del sujeto: Si es una respuesta que por su consti-
tucin fsica el sujeto puede realizar, el condicionamiento ser mejor que si se trata de respuestas que
el sujeto tambin puede realizar pero con una mayor dificultad.
- Adecuacin de la respuesta a la preparacin biolgica de la especie: El condicionamiento tambin
depende de la especie que lo realiza (vase Captulo 1): hay respuestas para las que una rata est mu-
cho menos capacitada o preparada para realizarlas que otra especie y, por lo tanto, su condiciona-
miento ser peor.
- Cantidad de respuestas para el refuerzo: El condicionamiento tambin depende de la cantidad de
respuestas exigidas para la obtencin del refuerzo: el sujeto quiere conseguir el mximo de recom-
pensa con el mnimo costo de respuesta.
- Esfuerzo de respuestas para el refuerzo: Igual que con la cantidad de respuestas, el esfuerzo que exi-
ge cada respuesta para obtener el refuerzo tambin influye del mismo modo: a menor esfuerzo mejor
aprendizaje.

3. CONDICIONES PARA EL MANTENIMIENTO DE LA TASA DE RESPUESTA:


PROGRAMAS DE REFUERZO
Con el fenmeno de constraste ya hemos podido observar hasta qu punto las variaciones en mag-
nitud o demora del refuerzo afectan al aprendizaje instrumental. Pues bien, cuando se manipulan sis-
temticamente las condiciones de refuerzo en sus diversas posibilidades, en particular la contingencia
R-C a travs de distintos programas o criterios, el efecto en el aprendizaje tambin es notorio.

3.1. Distribucin temporal del refuerzo: Refuerzo continuo vs. refuerzo par-
cial o intermitente

Las pautas de presentacin del refuerzo se refieren a su distribucin temporal en una situacin de
entrenamiento o de condicionamiento instrumental. Se pueden distinguir dos grandes tipos de pautas
de presentacin del refuerzo:
- cuando el refuerzo es administrado siempre despus de cada respuesta emitida por el sujeto (situa-
cin de refuerzo continuo); y
- cuando el refuerzo slo aparece contingentemente a algunas respuestas pero no a todas (situacin de
refuerzo intermitente o parcial).

Es lgico pensar que cuando el refuerzo es continuo, el aprendizaje o la ejecucin ser mejor que si
el refuerzo fuera parcial, porque la correlacin entre accin y consecuencia (positiva, en este caso) es
menor en situacin de refuerzo parcial que en una situacin de refuerzo continuo. En trminos de Tar-
py, es ms difcil que se forme una expectativa de accin-consecuencia en una situacin de refuerzo
parcial pues para el sujeto es ms difcil predecir con qu accin se obtendr la consecuencia favora-
ble. De todas formas, incluso en situacin de refuerzo parcial, tambin se formarn expectativas de ac-
cin-consecuencia y tambin podr haber correlacin entre los eventos y, por tanto, tambin aprendi-
zaje.
El inters del estudio de las pautas de presentacin del refuerzo es de tipo prctico. Lo normal en la
vida cotidiana no es la situacin de refuerzo continuo, sino la de refuerzo parcial. Por realizar una
misma tarea unas veces obtendr una consecuencia favorable y otras veces menos; muchas situaciones
cotidianas son azarosas e impredecibles, si nos interesa mucho obtener algo a travs de determinada
accin persistiremos, incluso aunque inicialmente no obtengamos ningn resultado. No siempre que se
pone uno a pescar con una caa pica el pez y sin embargo persistimos en ello y somos muy aficiona-
dos a esa actividad. Las mquinas tragaperras siempre nos invitan a dar una respuesta (introducir la
moneda) pero la mayor parte de las veces que hacemos dicha accin la consecuencia deseada (el pre-
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 213

mio) no aparece y no por ello se hace menos frecuente ese entretenimiento (incluso en algunos es pa-
tolgicamente frecuente).

Se han estudiado distintas condiciones de refuerzo parcial. Las dos ms importantes son la varia-
cin en la magnitud de recompensa y la variacin en la correlacin accin-consecuencia (refuerzo par-
cial con arreglo a programas de refuerzo):
- En cuanto a la variacin en la magnitud de recompensa, se han llevado a cabo experimentos en los
que tras la respuesta (apretar la palanca) se iba variando la magnitud de recompensa recibida (bolitas
de comida) de forma totalmente aleatoria en algunos grupos y de variacin peridica en otros, repi-
tindose este ciclo a lo largo de la sesin. Un ejemplo de variacin peridica sera la secuencia R-1,
R-5, R-3 (que se repite a lo largo de la sesin, siendo R la respuesta y el nmero que aparece tras ca-
da respuesta sera el nmero de bolitas de comida que se dispensa como refuerzo).
El resultado fue que cuanto ms discriminable era la pauta de refuerzo ms rpido era el aprendiza-
je. Las series peridicas de refuerzo eran mejores que las aleatorias. Esto significa que las series pe-
ridicas ayudan a anticipar la magnitud de la recompensa y, por tanto, los sujetos responden de
acuerdo a ello.

- No obstante, lo ms estudiado ha sido la variacin en la correlacin o probabilidad respuesta - re-


fuerzo a travs de los programas de refuerzo. Como dice Cruz (1989, p. 176), un programa de re-
fuerzo no es ms que "una regla que determina las condiciones en las que la emisin de una respuesta
ir seguida por la presentacin de un reforzador o, dicho de otro modo, el programa de reforzamiento
especifica las ocasiones en que se reforzarn las respuestas de un organismo".
Adems de los programas simples de refuerzo que hacen intervenir un solo criterio para la probabi-
lidad R - C (respuesta - consecuencia), se han estudiado los efectos conductuales resultantes de la
combinacin de ms de un criterio y/o de ms de un programa.

En general, los programas de refuerzo podran clasificarse con arreglo a los diferentes criterios. El
criterio ms general se refiere a programas que refuercen una sola respuesta o varias.

- Como programas para reforzar una sola respuesta instrumental tenemos tres tipos de programas:
simples, compuestos y sealizados:
* Los programas simples hacen intervenir un slo criterio (de razn o intervalo, fijo o variable) ca-
da vez.
* Los programas compuestos combinan programas simples. Estos, a su vez se subdividen en dos:
. Si se combinan en funcin del tipo de tasa de respuesta que muestra el sujeto a lo largo de la eje-
cucin tenemos, entre otros, los programas conjuntivos, alternativos, RDB y RDA.
. Si se combinan en funcin de criterios externos o de programacin previa tenemos los programas
tndem, mixtos y entrelazados.
* Los programas sealizados son los que ocurren en presencia de algn ED y, entre otros, tenemos
los programas mltiples y encadenados.

- Como programas para reforzar diferentes respuestas instrumentales tenemos los programas concu-
rrentes.

El Cuadro 3 nos resume esta clasificacin. Dentro de estos programas vamos a analizar aqu slo
los que mayor aplicacin puedan tener en contextos aplicados.
214 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

Cuadro 3: Clasificacin de los programas de refuerzo.

De razn RF
RV
Prog. simples
De intervalo IF
IV

Prog. conjuntivos
PARA UNA Prog. alternativos
MISMA R Segn tasa de R Prog. RDB
INSTRUMENTAL Prog. RDA
Prog. compuestos
Prog. tndem
Segn criterios externos Prog. mixtos
Prog. entrelazados

Prog. mltiples
Prog. sealizados Prog. encadenados

PARA
DIFERENTES Prog. concurrentes
R INSTRUM.

3.2. Programas para una misma respuesta instrumental

3.2.1. Programas simples de refuerzo: tipos y efectos conductuales


a) Tipos

As pues, lo ms usual en la experimentacin es la situacin de refuerzo parcial sin variar la magni-


tud de recompensa, es decir, variando solamente la correlacin respuesta-refuerzo, y con ello la distri-
bucin temporal del refuerzo para examinar cmo afectan a la conducta los distintos programas de re-
fuerzo que podemos condicionar.
Dentro de los programas simples de refuerzo se pueden establecer cuatro grupos en funcin de la
interaccin de dos criterios:
- Segn el nmero de veces que se administra el refuerzo en funcin del nmero de respuestas (criterio
de razn), y
- Segn el tiempo que transcurre de refuerzo a refuerzo, independientemente del nmero de respuestas
que d el sujeto (criterio de intervalo).

Hay dos tipos de criterios de razn: fija o variable:


- Si es una razn fija (RF), se trata de que siempre aparezca el refuerzo tras la realizacin de un nme-
ro constante o fijo de respuestas. Por ejemplo, si a un sujeto se le refuerza cada 10 respuestas, esta-
mos ante un programa RF 10: El nmero de respuestas sin refuerzo es constante en todo el entrena-
miento. Cuando estamos en la situacin de refuerzo continuo se tratara de un programa RF 1.
- Si es de razn variable (RV), el nmero de respuestas entre refuerzo y refuerzo vara por lo general
aleatoriamente o siguiendo pautas complejas. Por ejemplo, RV 7 implica que la media de respuestas
sin refuerzo es 7, pero el nmero de respuestas para obtener refuerzo es variable; el programa RV 7,
6, 11, 3, 8 indica que la razn variable se repite segn este ciclo de nmero de respuestas sin re-
fuerzo.

En cuanto a los criterios de intervalo ocurre exactamente lo mismo:


Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 215

- Cuando el tiempo entre refuerzo y refuerzo es constante entonces nos encontramos ante un programa
de intervalo fijo (IF). Por ejemplo, IF 6': cada seis minutos se refuerza siempre contingentemente a
la respuesta ms prxima a este intervalo.
- Cuando el intervalo entre refuerzo y refuerzo vara de un modo aleatorio entonces estamos ante un
programa de intervalo variable (IV).

La Tabla 3 nos resume esta clasificacin de tipos de programas simples de refuerzo (adaptada de
Cruz, 1989, p. 178).

Tabla 3: Tipos de programas simples de refuerzo.

RAZN INTERVALO
N de respuestas Periodo de tiempo
emitidas transcurrido

Fija RF IF
Contingencia
de refuerzo
Variable RV IV

b) Resultados o efectos conductuales

Lo interesante es el efecto que produce en la respuesta la aplicacin de cada uno de estos pro-
gramas. En la Figura 9. tenemos la representacin en registro acumulativo de la conducta tpica al
aplicar estos programas simples. Como vemos en la Figura, cada programa produce un perfil conduc-
tual diferente.
RV
RF

IV
Respuestas
acumuladas
IF

Refuerzos

Tiempo
Figura 9: Representacin grfica de la adquisicin con cada programa de refuerzo simple.

Con los programas de razn:


- Se consigue un nivel de ejecucin (expresado en tasa de respuestas), generalmente superior al obte-
nido con los programas de intervalo, son ms motivantes pues depende de cunto responde (no de
cundo).
- El programa que consigue la tasa ms alta es el programa de razn variable siendo adems muy esta-
ble.
- Otra caracterstica importante de los programas de razn es que la propia conducta del sujeto contro-
la la frecuencia de recompensa: El sujeto se da cuenta que dando ms respuestas obtiene antes el re-
fuerzo, por tanto incrementa la tasa de respuesta si est interesado en obtener ms refuerzos en me-
nos tiempo.
216 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

Con los programas de intervalo:


- Se produce una tasa de respuestas inferior a la conseguida con los programas de razn.
- Los programas IF producen una ejecucin "en festoneado": la tasa de respuestas aumenta hasta que
llega el momento en que se proporciona el refuerzo y, una vez logrado ste, la ejecucin disminuye
para progresivamente volver a aumentar hasta la aparicin del siguiente refuerzo. Algunos autores
dicen que este tipo de programa desarrolla en el sujeto un sentido del intervalo temporal entre las
recompensas, por tanto, siguiendo a Tarpy, esta ejecucin se basa en una expectativa de estmulo,
siendo en este caso el estmulo el intervalo temporal, el cual acta como estmulo discriminativo que
le indica al sujeto cundo debe responder.
- Los programas IV producen una tasa estable de respuestas, pero relativamente baja, ya que el sujeto
no puede valerse del intervalo temporal para predecir la aparicin de la recompensa, pues el refuer-
zo aparece siguiendo unos intervalos temporales de duracin aleatoria.

As pues, la mayor diferencia entre los programas de razn y los de intervalo radica en que en los
programas de razn el sujeto puede controlar la aparicin del refuerzo, mientras que en los programas
de intervalo la frecuencia de la recompensa no depende tanto de la ejecucin, sino de factores externos
a sta.

Estos resultados son los obtenidos en experimentos de laboratorio. Tambin se han intentado apli-
car estos modelos a la vida cotidiana. Hay determinadas conductas cotidianas que podran explicarse
por estas contingencias de refuerzo al tener una ejecucin parecida. Ejemplos de cada programa simple
seran:
RF: Trabajo a destajo.
IF: El sueldo mensual.
RV: Conducta ante una mquina tragaperras o conducta de juego en general.
IV: Conducta de pescar o cazar.

No obstante, el problema en la vida cotidiana est en especificar claramente cul es exactamente la


respuesta o qu componente de la misma se refuerza o incluso qu es lo que refuerza a cada sujeto.
As, la conducta de pescar puede ser la de tirar la caa o el tiempo que est echada.

3.2.2. Programas de refuerzo compuestos

Son aquellos que refuerzan una respuesta de acuerdo con los requisitos de dos o ms programas
operando al mismo tiempo -una descripcin ms detallada la tenemos en Ferster y Skinner (1957) y
Reynolds (1968). Se subdividen en dos tipos:

a) En funcin de la tasa de respuesta

PROGRAMAS DE REFUERZO CONJUNTIVOS

En estos programas deben cumplirse las condiciones de los programas implicados (dos, general-
mente) para que el sujeto reciba el refuerzo. En la Figura 10 podemos observar la representacin grfi-
ca caracterstica de los puntos o lneas de refuerzo con todos estos programas. En caso de lneas verti-
cales hay un criterio temporal para obtener el refuerzo; en caso de lneas horizontales es un criterio de
nmero de respuestas.
Un ejemplo sera CONJ RF 10 IF 5'. Esto indica que para la primera vez que se da el refuerzo debe
cumplirse que, como mnimo, el sujeto haya dado 10 respuestas y como mnimo hayan transcurrido 5'.
Cuando el sujeto llegue a la lnea de refuerzo marcada es cuando se le refuerza y este punto va a ser el
eje de coordenadas para la administracin del siguiente refuerzo.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 217

PROGRAMAS DE REFUERZO ALTERNATIVOS

Basta con que se cumpla uno de los programas para que se administre el refuerzo. Ejemplo: ALT
RF 10 IF 5'. Se refuerza al sujeto cuando llegue a cualquiera de las dos lneas y este punto va a ser,
como en el caso anterior, el vrtice de los ejes de coordenadas para la administracin del subsiguiente
refuerzo.
PROGRAMAS DE REFUERZO DIFERENCIALES (RDB Y RDA)

Estos programas se dedican a reforzar segn los tiempos entre respuestas (TER) y bsicamente hay
dos tipos: RDA (programa diferencial de tasas altas) y RDB (programa diferencial de tasas bajas):
- Con TER cortos tenemos los programas diferenciales de tasas altas o programas RDA (tal y como se
denominan en modificacin de conducta). El RDA es parecido al programa alternativo, pero en el
RDA slo se refuerza un programa que, adems, es de razn (lnea horizontal del grfico correspon-
diente de la Figura 10) mientras que el programa de refuerzo alternativo reforzara tambin en la
lnea vertical de dicha Figura. Esto obliga al sujeto a mantener una tasa de respuestas alta. Por ejem-
plo, un RDA 25 segs. 40 respuestas, implica que para obtener refuerzo el sujeto tiene que dar al me-
nos 40 respuestas antes de que transcurra ese tiempo desde la ltima respuesta reforzada. Es pues un
programa que se utiliza cuando se pretende mantener una tasa alta de respuesta. En el ejemplo de un
nio que come con mucha lentitud, se le est aplicando RDA cuando se le permite tomar dulce (re-
fuerzo) si se come todas las patatas del plato (criterio de razn) en no ms de diez minutos (criterio
de intervalo). En este caso no slo nos interesa que el sujeto haga algo, sino que la haga con cierta
rapidez o frecuencia.
- Otro programa diferencial es el programa diferencial de tasas bajas o programa RDB -tambin muy
utilizado en modificacin de conducta-. Segn este programa, se refuerza cuando pasa cierto tiempo
y no se sobrepasa un nmero predeterminado de respuestas (se refuerza en la lnea horizontal siem-
pre que la tasa de respuesta no pase por la horizontal). As por ejemplo, un programa RDB 40 segs.
15 respuestas, implica que desde la ltima respuesta reforzada el sujeto debe dar menos de 15 res-
puestas en ese tiempo si quiere obtener refuerzo. Al final del entrenamiento RDB el sujeto, por decir-
lo de un modo coloquial, intuye que debe responder pocas veces para recibir refuerzo. Este programa
es utilizado para corregir los excesos conductuales (hiperactividad, disfemia, etc.).

b) En funcin de criterios externos

PROGRAMAS TNDEM

Se utilizan dos programas simples que se presentan siempre en el mismo orden. Deben satisfacerse
los requisitos del primer programa para iniciar el segundo y el refuerzo slo se da tras el segundo. Por
ejemplo, Tndem IF 1' RF5, supone que el refuerzo se da tras la quinta respuesta si ha pasado un mi-
nuto. Es parecido al conjuntivo con la diferencia de que en ste hay un orden secuencial de los dos
programas y en aquel no.
PROGRAMAS MIXTOS

Hay dos o ms programas alternndose segn un orden aleatorio pero al acabar cada programa el
sujeto recibe refuerzo. Por ejemplo, Mixto IF1' RF5 consistira en que se puede reforzar tras un minuto
o por cinco respuestas, dependiendo del programa que el experimentador tenga en vigor. Es igual que
el alternativo excepto en que es el experimentador el que determina el orden de programa en vigor.
218 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

Entrelazado Entrelazado
Conjuntivo decreciente
creciente

RDB RDA
Alternativo

Figura 10: Representacin grfica de la ejecucin con alguno de los programas de refuerzo compuestos.

PROGRAMAS DE REFUERZO ENTRELAZADOS

En estos programas lo caracterstico es que a lo largo del entrenamiento vara el nmero de res-
puestas necesario para obtener refuerzo. Se refuerza tras la realizacin de un nmero determinado de
respuestas, pero para el siguiente refuerzo se aumenta o disminuye el nmero de respuestas necesarias
para la obtencin del refuerzo.

Cuando se aumenta el nmero de respuestas hablamos de un programa entrelazado creciente y, ob-


viamente, cuando se disminuye estamos ante un programa entrelazado decreciente. Un ejemplo coti-
diano de programa entrelazado creciente sera el que se da en las asignaturas de bachillerato y EGB
que son acumulativas, es decir, que los conocimientos adquiridos en cursos inferiores son imprescin-
dibles para adquirir los de cursos siguientes (matemticas, idiomas, etc.). Con estos programas se corre
el riesgo de llegar a una extincin si el sujeto no llegara a recibir nunca el refuerzo como consecuencia
del aumento progresivo del nmero de respuestas necesarias para recibir dicho refuerzo. En el progra-
ma entrelazado decreciente el nmero de respuestas necesarias para obtener refuerzo cada vez es me-
nor con el paso del tiempo.

3.2.3. Programas de refuerzo sealizados

PROGRAMAS DE REFUERZO MLTIPLES

Son aquellos en los que se hacen intervenir dos o ms programas de refuerzo simples, presentados
en forma sucesiva y, generalmente, cada uno de ellos en presencia de un estmulo discriminativo dife-
rente. Podramos poner como ejemplo un programa RF cuyo ED fuese una luz verde; pasado un tiempo
determinado se sigue un programa RV con una luz amarilla y, finalmente, un programa IF con una luz
roja como ED. Lo que se observa es que el sujeto adapta su ejecucin a la tasa de cada uno de esos
programas. Ms tarde, ante la sola aparicin del ED, el sujeto es capaz de manifestar la ejecucin co-
rrespondiente al programa con el que estaba vinculado. El nico inconveniente de estos programas es
que en la transicin de un programa a otro la ejecucin no cambia inmediatamente y por tanto se pre-
sentan interacciones o interferencias entre ellos. Es similar al programa mixto pero con E D para cada
programa.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 219

PROGRAMAS DE REFUERZO ENCADENADOS

Son parecidos al programa tndem pero se intercala un ED entre ambos programas. Por ejemplo,
encadenado IF1' RF5 supone que tras un minuto aparece ED y en su presencia la quinta respuesta es
reforzada.

3.3. Programas para diferentes respuestas: Programas concurrentes y con-


ducta de eleccin

3.3.1. Programas concurrentes

Se trata de reforzar dos o ms respuestas diferentes, cada una siguiendo un programa de refuerzo
distinto, a su vez, con un estmulo discriminativo distinto y operando al mismo tiempo todos los pro-
gramas como en casos anteriores. La ejecucin en cada respuesta se adecua a cada uno de estos pro-
gramas. En modificacin de conducta puede ser til la combinacin concurrente de programas de re-
fuerzo junto con programas de extincin; as, en el tratamiento de los alcohlicos, proporcionar refuer-
zo social al no beber y ausencia de refuerzo al beber.

3.3.2. Contingencias concurrentes: Conducta de eleccin

Dentro del condicionamiento instrumental de recompensa, se han realizado una serie de interesan-
tes investigaciones sobre lo que se denomina "conducta de eleccin" (choice behavior) en situaciones
de programas concurrentes. Cuando a un sujeto se le da la posibilidad de dar ms de una respuesta pa-
ra obtener el refuerzo, se trata de averiguar los factores y la forma en que elige dar una u otra respuesta
o la forma en que la tasa de respuestas difiere en un caso o en otro.
En mbito experimental, la conducta de eleccin entre dos programas se ha estudiado en laberintos
en forma de T con ratas o en cajas de Skinner con dos palancas. En estas situaciones, descritas por va-
rios autores (entre otros, Rachlin, 1976), se lleg a establecer lo que se denomina la ley de la iguala-
cin -propuesta inicialmente por Herrnstein en 1961-. Segn esta ley, los sujetos tienden a equiparar la
tasa a la que emiten una determinada respuesta con la tasa relativa de refuerzo contingente a dicha res-
puesta. Si un sujeto se encuentra ante dos respuestas, cada una de las cuales se somete a programas que
difieren en la frecuencia de refuerzo, no se limita a responder al programa ms favorable sino que dis-
tribuye sus respuestas de tal forma que el nmero relativo de respuestas a uno de los programas igua-
lar al nmero relativo de reforzadores obtenidos con ese programa. La razn entre las tasas de res-
puesta a cada programa igualar a la razn entre las tasas de refuerzo. Es una ley cuantitativa y predice
la tasa de respuestas en funcin de la tasa de refuerzo y viceversa; se expresa de la forma siguiente:
Ra ra donde, R = tasa de respuestas,
= r = tasa de refuerzos recibidos,
Ra + Rb ra + r b a y b = programas o situaciones.

De este modo, si la tasa relativa de respuestas es igual con ambos programas de refuerzo la razn re-
sultante de Ra /(Ra + Rb) ser de 0.5. Si es ms favorable el programa a, la razn ser superior a 0.5 e
inferior en el caso contrario. El mismo clculo se puede hacer para la tasa relativa de refuerzo. Por
tanto, conociendo tres de las cuatro variables, mediante la Ley de Igualacin podremos averiguar la
cuarta variable.
El ejemplo del Cuadro 5 nos ilustra esta Ley.
220 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

As pues, podemos predecir la tasa de respuestas esperada en distintas situaciones a partir de las
contingencias de refuerzo previstas para cada una de ellas; y viceversa: nos puede interesar predecir
las contingencias de refuerzo que se han de disponer para una ejecucin determinada en distintas si-
tuaciones.

Una consecuencia aplicada de estas investigaciones es que se puede predecir que el sujeto dedica
ms tiempo a las alternativas mas favorables, ya que cuanto mayor es el valor reforzante de una res-
puesta por comparacin con otras respuestas alternativas, mayor ser el tiempo invertido en la ejecu-
cin de dicha respuesta. Por lo tanto, la ley de la igualacin proporciona una informacin decisiva so-
bre el valor de la recompensa: permite estimar la potencia de un reforzador en relacin con otros re-
forzadores.
Cuadro 5: Ejemplo de aplicacin de la Ley de Igualacin.

Veamos un caso en que conocemos ra, rb y Ra, y queremos averiguar Rb. Supongamos, siguiendo el ejemplo de Herrns-
tein, un programa a de IV 6' y un programa b IV 2'. Si conocemos la tasa de respuesta con uno de esos programas (por
ejemplo, Ra= 40), podremos hallar la que se puede obtener con el otro. Esto requiere aplicar la Ley de la igualacin y para
ello, seguiremos los siguientes pasos:

1) Primero hay que transformar los programas de refuerzo en tasa de refuerzos recibidos en una unidad de tiempo comn.
En este ejemplo:
- Con un programa a del tipo IV 6' se recibe un refuerzo cada 6 minutos, o sea, 10 refuerzos por hora; es decir, se recibe
una tasa mxima de refuerzo (ra) de 10 por hora.
- En un programa b del tipo IV 2' se recibe un refuerzo cada dos minutos, o sea, una tasa de refuerzo (rb) de 30 por hora.
ra 10
2) Sustituir los datos de tasa de refuerzo recibidos en la ecuacin: = = 0.25
ra + rb 10 + 30

Vemos que la razn resultante es inferior a 0.5 y por tanto favorable al programa b pues ste tiene una tasa de refuerzo
mayor.

3) Sustituir la tasa de respuesta conocida en la ecuacin y despejar la incgnita correspondiente a la tasa de respuesta
desconocida: Dado que Ra= 40, entonces,

Ra 40
Como ra /(ra + rb )= 0.25, pasando este
=
dato a la frmula principal, tenemos:
Ra + Rb 40 + Rb

40 = 0.25 (40 + Rb); 40 = 10 + 0.25 Rb; Rb = (40-10)/0.25 = 120.

Vemos pues que la tasa de respuestas en el programa b es ms alta que en el programa a, lo cual es lgico pues b est
sometido a una tasa de refuerzo ms favorable.

Tambin se ha demostrado que no slo se ajusta la ejecucin a la frecuencia de refuerzo, sino a la


cualidad o tipo de recompensa y a la cantidad, demora y duracin del refuerzo. Adems, la ley de
igualacin no es exclusiva de elecciones entre dos alternativas sino que se da tambin en situaciones
con ms de dos alternativas, con estimulacin aversiva e incluso cuando hay un slo programa simple
en vigor pero otras actividades a la vez. Esto tiene inters aplicado en modificacin de conducta pues,
por ejemplo ante conductas problemticas no slo hay que tener en cuenta la frecuencia de su refor-
zamiento sino la frecuencia de reforzamiento de otras actividades (si es mayor la primera que las se-
gundas el sujeto seguir con mayor probabilidad esas conductas problema). Para averiguarlo, basta
con comparar las tasas de respuesta (Ra) y refuerzo (ra) con la conducta objetivo y las de otras activi-
dades (Ro y ro):

Ra ra
=
Ra + R0 ra + r 0

La ley de igualacin se cumple sobre todo con programas de intervalo, en los cuales el sujeto suele
escoger el programa con intervalo de refuerzo ms corto. Cuando se trata de programas de razn, el
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 221

sujeto escoge el que implique menos respuestas por refuerzo, es decir, maximizan la ejecucin (si se
quiere una terminologa ms coloquial, siguen la ley del mnimo esfuerzo).

3.4. Condiciones especificas de refuerzo parcial en humanos

Segn la revisin efectuada por Huertas (1992) -vase tambin Benjumea, 1994, para revisin-, hay
algunas condiciones para la adquisicin del condicionamiento de recompensa que slo se dan en
humanos y que difieren de las condiciones y resultados en animales. Estas diferencias se producen en
virtud de nuestras posibilidades o capacidades relacionadas con:
- formular reglas verbales que gobiernen nuestra conducta,
- aprovecharnos de las instrucciones verbales que recibimos,
- aprovechar la experiencia previa de reforzamiento, y
- darle valor informativo (y no slo hednico) a los reforzadores.

3.4.1. Reglas verbales

La conducta resultante de la aplicacin de programas de refuerzo puede depender de las expectati-


vas o reglas verbales implcitas que establece el sujeto. Se ha demostrado en este sentido una alta co-
rrelacin entre cmo creen los sujetos que son las contingencias de refuerzo (en entrevistas post-
experimento) y el patrn de respuestas que muestran. As, por ejemplo, si se les aplica un programa IF
pero los sujetos creen que la aparicin del refuerzo depende del nmero de respuestas (programa RF),
mostrarn una tasa alta de respuestas como si fuera un programa de razn; y por el contrario, los que
crean que depende del tiempo transcurrido mostrarn una tasa tipo IF. Como recordamos, en animales
la ejecucin resultante de un programa IF era en festoneado (cosa que no ocurre en humanos, excepto
en nios menores de cinco aos). La influencia del lenguaje es pues decisiva puesto que puede alterar
las expectativas y representaciones asociativas que la mera experiencia directa podra generar en los
sujetos.

3.4.2. Efecto de las instrucciones verbales

Las instrucciones verbales inducen expectativas y pueden modificar completamente la ejecucin.


En el experimento citado anteriormente y en otros, fueron las instrucciones verbales las que modifica-
ron los resultados:
- Aplicando un programa IF a los sujetos que se les dijo que la aparicin del refuerzo dependa del n-
mero de respuestas obtenan una ejecucin tipo RF.
- Aplicando un programa IV cuando se les dio instrucciones falsas de que iban a seguir un programa
IF mostraron inicialmente una tasa baja (aunque luego fue aumentando).

3.4.3. Experiencia previa de reforzamiento

En humanos, sta es una condicin considerada decisiva y fuente de la gran variabilidad obtenida
en los experimentos. As,
- se ha observado que sujetos sometidos previamente a programas RF, con programas IF mostraban ta-
sas altas de respuesta;
- sin embargo, sujetos sometidos previamente a programas RDB, con IF exhiban tasas bajas de res-
puesta.
222 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

En definitiva, la experiencia previa crea unas expectativas sobre cules son las reglas del experi-
mento, dndose cierta resistencia al cambio.

3.4.4. Valor informativo del refuerzo

En humanos el refuerzo no slo tiene un valor motivacional hednico sino tambin informativo, en
trminos de retroalimentacin o de solucin positiva de un problema. En animales, los reforzadores
suelen ser primarios mientras que en humanos tienen ms valor informativo que hednico, aportan in-
formacin sobre lo apropiado o inapropiado de la conducta.
Algunos programas de refuerzo como el IV son poco informativos (variaciones importantes en la
ejecucin apenas producen cambios en el nmero de refuerzos) y es por esto por lo que hay grandes
variaciones en la ejecucin. Sin embargo, en programas como el RDB hay menos diferencias indivi-
duales.
Cuando el refuerzo acta ms en su sentido informativo o de retroalimentacin (feedback) de la
conducta que en su sentido de recompensa, funcionar ms claramente fortaleciendo la motivacin
intrnseca del sujeto. El refuerzo no ser tanto un premio como una indicacin de la competencia y
buen hacer del sujeto. Hay que notar que el mismo tipo de consecuencia puede cumplir una funcin
esencialmente de control sobre la conducta (segn el significado tradicional del refuerzo) o ms bien
una funcin informativa, lo cual va a depender en buena medida de la manera de administrar ese re-
fuerzo y el acompaamiento verbal con que se hace.

4. CONDICIONES PARA LA EXTINCIN

4.1. Operaciones, consecuencias y parmetros

4.1.1. Operacin experimental y procedimientos de extincin

La extincin consiste en la reduccin o eliminacin de la respuesta al retirar el reforzador que apa-


reca tras la misma durante la adquisicin. Se pasa pues de la operacin experimental E-R-E a la de E-
R (ver Tema 1). Si en el condicionamiento clsico se eliminaba la contingencia o correlacin entre
estmulo y consecuencia, aqu se hace entre respuesta y consecuencia. Tambin aqu se aprecia el
fenmeno de la recuperacin espontnea (y por tanto la inhibicin condicionada).

Se han descrito varios procedimientos que inducen la extincin en el condicionamiento de recom-


pensa:
1) Supresin de la recompensa en los ensayos de extincin (es el procedimiento ms usual y tpico);
2) Presentacin aleatoria (habindose dado o no la respuesta) de la recompensa (produce peor extin-
cin o incluso ninguna extincin);
3) Entrenamiento de omisin o presentar la recompensa en momentos en que el sujeto no responde (se
da recompensa por no responder). Produce peor extincin que el mtodo 1;
4) Contracondicionamiento de respuesta, en el que se da la recompensa slo tras respuestas incompa-
tibles con la que se quiere extinguir; produce buena extincin comparable con la del mtodo 1.

4.1.2. Consecuencias o efectos generales

Citaremos en primer lugar los efectos conductuales u operacionales concretos, y en segundo lugar,
los efectos generales sobre el proceso de aprendizaje instrumental.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 223

Durante los ensayos de extincin se aprecian generalmente en la conducta los siguientes efectos:
1) Al comienzo de los ensayos de extincin se suele registrar un paradjico incremento breve de la
tasa de respuesta, tal vez, como dice Bandura (1969; trad. 1983, p. 369), "en un intento por pro-
ducir los reforzamientos a los que estaba acostumbrado". As por ejemplo, un nio est acostum-
brado a recibir lo que quiere tras una rabieta. Si la madre decide no darle lo que pide (si insiste en
no reforzarlo), con toda seguridad la rabieta aumentar hasta hacerse insoportable.
2) Tambin al comienzo puede ocurrir un cambio en la topografa de respuesta, por tanto un incre-
mento de otras respuestas alternativas. De aqu se deduce que al comenzar la extincin la forma de
la conducta se hace ms variable. Si con la rabieta no obtiene lo que busca, intentar otras respues-
tas (dar patadas, salir corriendo, etc.).
3) Tras estos momentos iniciales se produce una reduccin gradual en la frecuencia de respuesta
hasta tasas muy bajas. En el ejemplo mencionado, todo es cuestin de que resista la persona encar-
gada de no proporcionar el refuerzo (veremos que hay procedimientos alternativos menos duros pa-
ra esas personas, por ejemplo, refuerzo de conductas alternativas, etc.).

Otro ejemplo: Si al girar el pomo de una puerta (R) sta se sola abrir en el pasado (E ref) pero no
ahora (y sin causa justificada), intentaremos varias veces girar el pomo de la puerta (incremento en la
tasa de respuesta), empujaremos, tiraremos del pomo, incluso podramos tener reacciones ms violen-
tas con la puerta (cambio en la topografa de respuesta) hasta que al final desistimos (extincin de res-
puesta).

En cuanto a los efectos sobre el proceso de aprendizaje, segn Tarpy (1981; trad. 1986, p. 228), la
disminucin de la aparicin de la respuesta ocurre por dos motivos:
- por la reduccin de la correlacin R-C (respuesta-consecuencia) y
- por la adquisicin de una nueva expectativa basada en la nueva correlacin R - no C (respuesta-no
consecuencia).

4.1.3. Parmetros

Tres de los parmetros ms usados en experimentacin, descritos grficamente en la Figura 11, son
los siguientes:

(2) Nmero
de
respuestas

Extincin
Adquisicin

(1) (3) TIEMPO

Figura 11: Representacin grfica de un ejemplo de aplicacin de los tres parmetros de medida de la extincin en el condicionamiento de
recompensa.
224 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

1) Tasa a la que llega a bajar la respuesta tras un tiempo determinado (prefijado por el experimenta-
dor) despus de iniciar los ensayos de extincin.

2) El nmero total de respuestas emitidas desde que se inicia la extincin hasta que cesa la accin de
responder.

3) Tiempo desde el inicio de los ensayos de extincin hasta que, o bien cesa la respuesta o bien llega
a una tasa muy baja por debajo de la cual ni descender ni aumentar durante un perodo relati-
vamente largo.

4.2. Condiciones generales durante la adquisicin que afectan a la extincin


en el condicionamiento de recompensa

Se citan diversos factores o variables que favorecen la extincin (Garca Sevilla, 1987). Aqu cita-
remos slo las condiciones generales que aplicadas durante la adquisicin del condicionamiento de re-
compensa afectan posteriormente a la extincin y las resumiremos en dos grupos: factores motivacio-
nales y factores de entrenamiento.

4.2.1. Factores motivacionales

1) Magnitud del reforzador. Nos referimos tanto al nmero de reforzadores como a la cantidad de ca-
da reforzamiento. En cualquier caso, a mayor magnitud ms rpida es la extincin posterior, siem-
pre y cuando no se vare la magnitud de la recompensa a lo largo de los ensayos de adquisicin (si
ocurriera esto ltimo, entonces la extincin se hace mucho ms lenta).

2) Demora de la recompensa: En trminos generales, la demora entre la respuesta y el reforzador du-


rante la adquisicin dificulta la extincin (aumenta la resistencia a la extincin). Ahora bien, segn
resume Tarpy (1981; trad. 1986, p. 256), una demora constante en los ensayos de adquisicin ape-
nas afecta a la extincin (provoca una extincin similar a la que se da sin demora en la recompen-
sa), pero si la demora ocurre slo en algunos ensayos, la extincin es ms lenta.

3) Nivel de privacin: A mayor nivel de privacin (por ejemplo, ms hambre o ms sed) mayor resis-
tencia a la extincin (Cruz, 1989).

4.2.2. Factores de entrenamiento

4) Duracin y nmero de ensayos de adquisicin: Si el reforzamiento es continuo, al aumentar la du-


racin y nmero de ensayos de adquisicin, aumentar tambin la velocidad de extincin, y slo se
produce una mayor resistencia a la extincin al aumentar el nmero de ensayos si se proporcionan
pequeas dosis de recompensa durante la adquisicin (que mantenga niveles altos de impulso).

5) Esfuerzo de respuesta: Se trata del esfuerzo fsico que requiere la respuesta que se ha de extinguir.
La extincin es ms rpida cuando se exige un mayor esfuerzo para emitir la respuesta en los ensa-
yos de extincin. En mbitos experimentales esta variable se manipula inclinando el corredor recto
o aumentando el contrapeso de la palanca en la Caja de Skinner (Cruz, 1989).

6) Experiencia previa de entrenamiento en extincin: Cuantas ms veces haya tenido el organismo


experiencia en extincin, dichas experiencias pasadas harn que la extincin sea ms rpida.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 225

4.3. La extincin tras adquisicin con refuerzo parcial

Cuando slo se refuerzan algunas respuestas durante la adquisicin, la extincin sigue las pautas
marcadas por el efecto del refuerzo parcial de Humphreys, o sea, una determinada conducta es ms re-
sistente a la extincin si se aprende mediante refuerzo parcial. Bajo condiciones de refuerzo parcial
durante la adquisicin, los factores citados afectan de modo diferente a la extincin y aparecen otros
factores importantes. Vemoslos:

4.3.1. Condiciones especficas

Al igual que en el condicionamiento clsico, el refuerzo parcial durante la adquisicin har aumen-
tar la resistencia a la extincin. Pero hay condiciones especficas de esta situacin que afectan a los re-
sultados en la extincin:

1) Magnitud de recompensa: Al utilizar refuerzo continuo la extincin era ms rpida al aumentar la


magnitud de la recompensa. Sin embargo, ocurre lo contrario con refuerzo parcial: aumenta la re-
sistencia a la extincin si se aumenta la magnitud de recompensa. Tambin, cuanto mayor es el
nmero de reforzamientos mayor resistencia a la extincin.

2) Nmero de ensayos de adquisicin: La resistencia a la extincin que sigue al refuerzo parcial au-
menta segn aumenta el nmero de ensayos de adquisicin.

3) Porcentaje de ensayos de recompensa (durante la adquisicin): Es uno de los parmetros que ms


afecta, y mantiene con la resistencia a la extincin una funcin en forma de U invertida, de tal mo-
do que la extincin es ms rpida cuando el porcentaje de ensayos reforzados durante la adquisi-
cin es muy alto o muy bajo. Vase este efecto en la Figura 12.

Resistencia a
la extincin

-
- % Recompensa +
Figura 12: Relacin entre nivel resistencia a la extincin y nivel de recompensa durante la adquisicin.

4) Orden de aplicacin de refuerzo continuo y parcial: Aumenta la resistencia a la extincin cuando el


refuerzo parcial sigue al refuerzo continuo durante la adquisicin.

5) Pautas o programas de refuerzo: El refuerzo alternativo (sucesin de ensayos reforzados y no re-


forzados) es menos resistente a la extincin (produce extincin ms rpida) que el refuerzo aleato-
rio (Capaldi, 1958; Rudy, 1971; cit. por Tarpy, 1981), pero si el entrenamiento es muy reducido se
invierte este principio (Capaldi y Hart, 1962; cit. por Tarpy, 1981).
226 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

El tipo de extincin resultante tras adquisicin con programas de refuerzo simple vara con los
programas utilizados. En la Figura 13 podemos observar el registro acumulativo resultante durante
la extincin de los cuatro programas simples.

Programas IF: Producen una tasa de respuesta inicial alta, reduccin rpida de la ejecucin, rea-
nudacin festoneada de la misma cada vez ms breve y pausas cada vez ms largas.

Programas RF: Pausas repentinas cada vez ms largas, tasa elevada de respuesta igual que en la
adquisicin pero con la diferencia de que aqu cada vez duran menos los perodos de res-
puesta.

Programas RV: Al principio tasa alta de respuesta, luego perodos repentinos cada vez mayores de
descanso. Muy resistente a la extincin.

Programa IV: Reduccin constante en la tasa de respuesta sin que se registren pausas repentinas.
Mximo tiempo hasta lograr la extincin.

Adquisicin Extincin

RV

RF
Respuestas
acumuladas

IV
IF

Tiempo

Figura 13: Representacin grfica de la extincin segn adquisicin mediante programas simples de refuerzo.

4.3.2. Teoras del efecto de refuerzo parcial

Vamos a considerar las tres principales teoras al respecto. Fueron propuestas en distinas pocas y
con distinta fuerza predictiva y operativa, pero siguen teniendo cierta vigencia desde la perspectiva in-
tegradora del enfoque de Tarpy (1981).

a) Hiptesis de la discriminacin y la expectativa

Segn Humphreys (1939), el refuerzo hace aumentar la fuerza de la respuesta instrumental y pro-
duce anticipacin o expectativas aprendidas de reforzamiento, lo cual favorece la adquisicin. Durante
la adquisicin, el sujeto tiene expectativas de recibir la recompensa; durante la extincin se crea una
contraexpectativa o expectativa de no recompensa, la cual tarda ms tiempo en formarse cuando se uti-
liza refuerzo parcial durante la adquisicin. Esto hace que la extincin sea ms lenta. Sin embargo, es-
ta hiptesis se abandon durante mucho tiempo por la dificultad en el tratamiento experimental.
El mismo Humphreys propuso otra hiptesis segn la cual la discriminacin de las condiciones de
extincin es mejor tras la adquisicin con el 100 % de ensayos recompensados. Con refuerzo parcial
en la adquisicin, los ensayos sin refuerzo son semejantes a los de extincin, por lo cual el sujeto tiene
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 227

dificultad para distinguir ensayos de adquisicin y extincin. Sin embargo, no se pudo confirmar esta
hiptesis pues cuando se hizo un experimento intercalando una fase de ensayos con refuerzo continuo
entre la fase de adquisicin con refuerzo parcial y la fase de extincin no mejor esta ltima.

b) Hiptesis de la frustracin

En realidad, la teora general de la extincin basada en la interferencia por frustracin propuesta


inicialmente por Amsel se elabor para explicar el efecto de refuerzo parcial.
Con refuerzo continuo en los ensayos de adquisicin el sujeto no tiene experiencia de frustracin.
S con refuerzo parcial, pues los ensayos no reforzados generan en el sujeto un estado motivacional o
impulso de frustracin de ndole aversiva, con lo cual al llegar a la fase de extincin la frustracin
forma parte del contexto estimular previo y por tanto la respuesta se prolonga y se hace ms resistente
a la extincin. Las claves ambientales de frustracin forman parte del complejo estimular de la adqui-
sicin y por tanto durante la extincin el sujeto tolerar mejor la frustracin y la extincin ser ms
lenta.

c) Hiptesis secuencial de Capaldi

Capaldi (1966, 1967), reelaborando la teora de los post-efectos de Sheffield (1949) -segn la cual
los ensayos reforzados o no reforzados producen post-efectos (o sea, estmulos internos distintivos
memorizados) que persisten hasta el ensayo siguiente-, viene a decir que en la adquisicin con refuer-
zo parcial tambin se generan post-efectos de no recompensa. En muchos ensayos en que la respuesta
es recompensada, entre los estmulos que la preceden se encuentra el de los post-efectos (el recuerdo)
de ensayos previos no recompensados y cuanto ms larga es la secuencia de ensayos no reforzados,
previos a cualquier ensayo reforzado, mejor se puede establecer el post-efecto mnemnico de la no re-
compensa, con lo cual este complejo estimular no diferir mucho del presente en la extincin y as sta
ser mucho ms lenta.
Segn Capaldi, los factores principales (durante la adquisicin con refuerzo parcial) que permitirn
una extincin ms lenta son tres (llamando R a los ensayos reforzados y N a los no reforzados):
- La longitud N o nmero de ensayos no recompensados que preceden a cada ensayo R (en este caso a
mayor longitud N corresponden una extincin ms lenta); o sea, cuanto ms largas sean las secuen-
cias N menor porcentaje de ensayos reforzados y mayor resistencia a la extincin.
- Nmero de veces que ocurre una longitud N, es decir, nmero de transiciones N-R (a mayor diferen-
cia entre las diversas secuencia N extincin ms lenta).
- Nmero de longitudes N diferentes (a mayor diferencia entre las diversas secuencias N extincin ms
lenta).

d) Integracin terica de Tarpy

En realidad, todas estas aproximaciones tericas no son incompatibles pues, segn Tarpy (1981),
en el contexto estimular de la adquisicin con refuerzo parcial se incluyen tanto los post-efectos
mnemnicos de no recompensa como los motivacionales-emocionales de frustracin, todo lo cual hace
que la formacin de contraexpectativas (expectativas de no recompensa) durante la extincin sea mu-
cho ms lenta pues las claves ms sobresalientes de esta fase (post-efectos de no recompensa y de frus-
tracin) ya estaban presentes en la fase de adquisicin en la que apareca recompensa y as es ms dif-
cil para el sujeto discriminar entre ambas fases, con lo cual la extincin se enlentece.
228 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

5. PRINCIPALES APLICACIONES

5.1. Condicionamiento instrumental y clnica

5.1.1. Procedimientos de modificacin de conducta

Milby (1982) propone una clasificacin de las tcnicas operantes de modificacin de conducta en la
cual se incluyen mtodos para iniciar nuevas conductas, para incrementar o mantenerlas, reducirlas o
eliminarlas, restringirlas a ciertas situaciones y estrategias combinadas. Aadimos un ltimo apartado
respecto al procedimiento general de manejo de contingencias.

a) Mtodos para iniciar nuevas conductas: Moldeamiento y modelado

Para iniciar nuevas conductas las tcnicas ms usadas son el moldeamiento (shaping) o mtodo de
aproximaciones sucesivas y el modelado (modeling):
- El moldeamiento (vase aptdo. 1.4.2.a) supone reforzar conductas que se asemejen a la conducta ob-
jetivo y no reforzar las que menos se asemejen; conforme avanza el entrenamiento progresivamente
se irn reforzando las conductas ms similares a la objetivo y se irn extinguiendo por no reforza-
miento el resto.
- El modelado es aprendizaje observacional o vicario: se observa el condicionamiento efectuado en
modelos o a travs de demostraciones. Es un mtodo similar al citado en el prximo Captulo 7, refe-
rente a control de estmulos con instigadores de demostracin.

b) Mtodos para incrementar o mantener conductas

Los mtodos ms conocidos para incrementar o mantener conductas implican el uso del refuerzo
positivo (recompensas) y del refuerzo condicionado (por ejemplo, economa de fichas, contratos de
contingencias, etc.). Se procura en estos casos iniciar el entrenamiento con refuerzo casi continuo y
progresivamente hacerlo parcial con los programas de refuerzo recomendados en este captulo. Otra
tcnica para el mismo objetivo es el refuerzo negativo mediante procedimientos de escape o evitacin
(ver Tema 5). Tambin los procedimientos de control de estmulo (ver Tema 5) y de control ambien-
tal (permitir la conducta slo en presencia de determinados estmulos o en determinado ambiente) en-
tran dentro de este grupo.

c) Mtodos para reducir o eliminar conductas

Para reducir o eliminar conductas se emplean tcnicas de:

- Saciacin (exposicin masiva a los estmulos reforzantes),

- Prctica negativa (repeticin masiva de la respuesta problema), como por ejemplo realizar delibera-
damente un tic nervioso durante 30 minutos seguidos todos los das.

- Procedimientos de castigo por aplicacin de estimulacin punitiva (sern expuestos en el Captulo


8).

- Procedimientos de extincin, que algunos autores (por ejemplo, Drabman, 1977) los consideran
tambin de castigo por supresin de reforzadores. Como tcnicas aplicadas de extincin tendramos:
- Mtodos de uso exclusivo de extincin:
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 229

- Extincin simple, en la que slo se retira el reforzador. Las principales desventajas de este mto-
do radica en que posee unos efectos retrasados (es un procedimiento lento) y produce un incre-
mento inicial temporal en la tasa e intensidad de la respuesta que se desea extinguir (con la consi-
guiente frustracin por parte del que aplica el procedimiento, si no est advertido de ello).
- Costo de respuesta: Supresin contingente de reforzadores previamente adquiridos respecto a
una respuesta. Si se est siguiendo un sistema de fichas, se trata de perder fichas contingentemen-
te a la conducta inapropiada.
- Tiempo-fuera (time-out): Supresin contingente de la oportunidad de lograr refuerzo positivo
mediante aislamiento social contingente. Por ejemplo, tras la conducta no deseada se lleva al su-
jeto a otro lugar aislado durante un perodo de tiempo mnimo (10 minutos). Combina supresin
de refuerzo con cambio estimular, retirando pues reforzadores y estmulos discriminativos.

- Combinados con refuerzo diferencial, tales como las tcnicas:


- Refuerzo diferencial de omisin, o tambin llamado entrenamiento de omisin, consistente en
proporcionar el refuerzo en cualquier otro momento que no sea contingente a la respuesta, y pre-
ferentemente cuando el sujeto no est emitiendo ninguna respuesta.
- Refuerzo diferencial de otras conductas (RDO): Tiene una variante que es el refuerzo dife-
rencial de conductas incompatibles (RDI) y consiste en reforzar selectivamente aquellas que no se
pueden realizar cuando se ejecuta la que se trata de omitir.
- RDB (refuerzo diferencial de tasas bajas -descrito en este captulo-).

En conjunto, las tcnicas de extincin y sobre todo de refuerzo diferencial, tienen ventajas sobre las
que aplican estimulacin aversiva directa pues producen un efecto duradero de reduccin conduc-
tual. Para su uso, tal y como indican Sulzer-Azaroff y Mayer (1977), hay tres requisitos importan-
tes:
- deben identificarse todas y cada una de las fuentes de reforzamiento,
- deben mantenerse las condiciones de extincin durante un tiempo suficiente, y
- deben combinarse con el refuerzo de las conductas deseables.

d) Mtodos para restringir conductas a ciertas situaciones y tcnicas combinadas

Las ms tiles son las tcnicas de control de estmulo (vase el Tema 5). Cualesquiera de las
tcnicas anteriores pueden combinarse entre s para casos concretos.

e) El manejo de contingencias

El procedimiento general aplicado para incrementar, mantener, reducir o eliminar conductas, en


modificacin de conducta se denomina manejo de contingencias. El terapeuta de conducta suele seguir
tres fases (Rimm y Masters, 1979; Klein, 1991; trad. esp. 1994, p. 189):
I) Evaluacin.- Medir la frecuencia de las conductas inapropiadas y apropiadas, especificar las condi-
ciones en las que se producen e identificar los reforzadores que mantienen la conducta problema y
los que pueden servir para las conductas adecuadas.
II) Contrato de contingencias.- Se establecen las nuevas relaciones entre respuestas y reforzadores y el
mtodo para la administracin de los mismos.
III) Intervencin y evaluacin de resultados.- Se aplica el tratamiento y se evalan los cambios produ-
cidos.
230 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

5.1.2. Condicionamiento instrumental de respuestas autonmicas: Biofeedback


a) Los primeros experimentos de Miller y colaboradores

En los aos 60, dentro de las teoras conductistas de aprendizaje, se plante la polmica de si el CC
era un proceso o tipo de aprendizaje totalmente distinto al condicionamiento instrumental o si eran me-
ramente dos manifestaciones de un mismo proceso de aprendizaje. Efectivamente, eran reconocidas
varias diferencias de procedimiento entre los dos tipos de condicionamiento, pero a nivel terico la
polmica era mayor. Uno de los argumentos era que no haba en realidad tantas diferencias y que si
subyace un solo proceso de aprendizaje se podra efectuar un condicionamiento instrumental de las
respuestas tpicas del CC, o sea, las fisiolgicas, neurovegetativas o autonmicas, que son respuestas
involuntarias. Como contrapartida tambin sera posible un CC de respuestas instrumentales. Algunos
autores intentaron en el mbito experimental desarrollar la primera hiptesis: el condicionamiento ins-
trumental de respuestas autonmicas.

Neal Miller y colaboradores y Kimmel fueron, entre otros, los que iniciaron este tipo de investiga-
cin. Estos autores hicieron sus estudios experimentales con animales y la investigacin pionera es la
de Miller y Dicara, realizada en 1967 y en la que se logr condicionar la tasa cardiaca de ratas median-
te tcnicas de recompensa y discriminacin. El Cuadro 6 describe detalladamente este experimento.
Cuadro 6: Experimento de Miller y Dicara (1967) de condicionamiento instrumental de tasa cardaca en ratas.

Fases

I) La primera fase fue la preparacin quirrgica de las ratas, mediante la implantacin de electrodos conectados a un elec-
trocardiograma. Se implantaron electrodos tambin en el cerebro en la zona de recompensa enceflica (efecto placente-
ro). Paralizaron la musculatura voluntaria o esqueltica del animal (ya que la tasa cardaca podra verse alterada por sus
movimientos), para lo cual emplearon curare (droga con lo que el animal se mantena consciente y con los rganos sen-
soriales funcionales pero que paraliza su musculatura esqueltica).

II) A continuacin, se iniciaba el condicionamiento instrumental del ritmo cardaco y para ello hacan aparecer un estmulo
discriminativo compuesto de luz y sonido. Observaban el ritmo cardaco y esperaban a que se produjera un cambio es-
pontneo en el ritmo cardaco segn un criterio determinado y contingentemente se administraba la recompensa. Duran-
te todo este tiempo estuvo activo el estmulo discriminativo, el cual se suprima durante 20 segundos, una vez asignada
la recompensa al animal; pasado este tiempo se volva a activar y se iniciaba otra vez el proceso y as sucesivamente
repetidas veces.
A medida que avanzaba el entrenamiento se iban incrementando el nmero de latidos necesarios para obtener re-
fuerzo. La sesin duraba 90 minutos y se utilizaron dos grupos de sujetos: A un grupo se le recompensaba por acelerar
el ritmo cardaco y a otro por disminuirlo.

Al final, al exponer a los animales solamente al estmulo discriminativo (sin recompensa) se produca la respuesta
vegetativa.

Resultados

La ejecucin resultante fue la que se expresa en la Figura 14.


500
Promedio en ltidos / min.

450 Recompensa por


aceleracin
RITMO CARDIACO

400

350

300 Recompensa por


aceleracin

0 30 60 90
MINUTOS DE ADIESTRAMIENTO

Figura 14: Resultados del experimento de Miller y Dicara (1967).


Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 231

Esto fue un descubrimiento muy importante y gener al principio una gran cantidad de investiga-
cin experimental bsica que rpidamente pasara a la investigacin aplicada clnica. En un principio a
este fenmeno se le denomin condicionamiento instrumental de respuestas autonmicas, pero poste-
riormente pas a llamarse biofeedback, cuya traduccin literal sera bio-retro-alimentacin. La investi-
gacin en este rea ha sido sumamente extensa y ha llevado a configurar toda un rea de aplicacin: la
medicina conductual o comportamental; en este rea, estas tcnicas han llegado a ser las ms frecuen-
temente utilizadas, ya que son tcnicas que permiten modificar (voluntariamente) respuestas fisiolgi-
cas, cosa no factible mediante CC. Tampoco ha de entenderse como una panacea aplicable a todo tipo
de problemas clnicos psicosomticos.

Pese al entusiasmo inicial, en el mbito experimental no dejaron de aparecer problemas. As, estos
experimentos de Miller eran difciles de replicar, lo cual hizo dudar un poco respecto a su validez. No
obstante, la necesidad prctica fue tal que, a pesar de estos impedimentos, se pas directamente a su
aplicacin.

b) Las tcnicas aplicadas de biofeedback

El biofeedback se puede definir como la utilizacin de tcnicas de condicionamiento instrumental


para la produccin de cambios en respuestas fisiolgicas internas, del tipo del ritmo cardaco, activi-
dad electrodrmica, presin sangunea, actividad elctrica cerebral (ondas "alfa"), temperatura corporal
o basal, pH estomacal, actividad electromiogrfica, etc. El nombre de biofeedback se debe a que esta
tcnica o conjunto de tcnicas recompensan al sujeto o le proporcionan artificialmente feedback (o co-
nocimiento de resultados) acerca de la realizacin de alguna respuesta biolgica (generalmente de tipo
autonmico) que de un modo natural no podra obtener.

Hay dos enfoques tericos en cuanto a la explicacin de por qu se modifica la conducta vegetativa
mediante biofeedback:
- El feedback como recompensa: Lo que permite la modificacin de las respuestas autonmicas es la
influencia directa de la recompensa.
- El feedback como informacin: Lo que permite la modificacin de dichas respuestas es meramente el
valor informativo de la retroalimentacin. Lo que se le permite al sujeto en estas situaciones es tener
un feedback sobre sus respuestas autonmicas que antes no posea: una serie de aparatos permiten
una retroalimentacin artificial de esas respuestas.

Para que estas tcnicas sean efectivas lo ideal es que se den las dos circunstancias: que haya un fe-
edback visual o auditivo proporcionado por el mismo aparato y, por otro lado, que exista algn tipo de
recompensa. Las recompensas ms utilizadas dentro de estas tcnicas, segn Tarpy, son: la alabanza o
elogio verbal, dinero (sobre todo en experimentos financiados), refuerzo negativo o evitacin de des-
cargas o sonidos molestos, etc.

El problema de estas tcnicas, todava no resuelto, atae a la generalizacin o transferencia de estos


cambios o nuevo control del sujeto sobre este tipo de respuestas, del laboratorio o gabinete clnico a la
vida real, en la que no van a estar presentes los aparatos utilizados.

La tcnica bsica del biofeedback aplicado tiene segn Carrobles y Godoy (1987), cinco fases una
vez conectado el aparato para detectar las variaciones fisiolgicas:
1) Deteccin y transformacin de la seal (desde los electrodos a la unidad central de registro y medi-
da)
2) Amplificacin (se procesa y analiza la seal en el aparato de biofeedback correspondiente)
3) Procesamiento y simplificacin (filtrado) de la seal.
4) Conversin a seales auditivas o visuales
232 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

5) Informacin al sujeto (feedback)

Los trastornos a los que ms se han aplicado estas tcnicas son los siguientes: trastornos musculares
(rehabilitacin motora), problemas vasculares (hipertensin, arritmias cardacas, etc), problemas de
ansiedad (sobre todo con AED y electromiografa), asma y problemas respiratorios, insomnio, trastor-
nos sexuales y trastornos gastrointestinales.

5.2. Condicionamiento instrumental y enseanza

Aunque en la actualidad los mtodos basados en el condicionamiento han dejado paso a mtodos
ms activos de tipo cognitivo, su inters sigue radicando en dos reas de la enseanza: el proceso
didctico y la organizacin y manejo de la clase.

5.2.1. Mtodos aplicados al proceso didctico

Cuando hablamos del proceso didctico nos referimos a determinados aspectos de la situacin
didctica, en particular a la disposicin adecuada del material que el sujeto debe aprender. Una mues-
tra de ello es la enseanza programada de Skinner y sus ramificaciones tecnolgicas posteriores en la
enseanza asistida por ordenador y en la enseanza personalizada.

La enseanza programada (Skinner, 1954) propone un conjunto de tcnicas y reglas para dispo-
ner los materiales didcticos de modo que los alumnos pueden emplearlos para autoensearse en un
determinado tema. Se dispone el material mediante preguntas y respuestas con confirmacin inmediata
(refuerzo contingente) y prctica distribuida en pequeas unidades; previamente el sujeto conoce los
objetivos de cada unidad, comprueba el material y fija su propio ritmo de aprendizaje. Siguiendo estos
principios ya en los aos 30 se idearon las primeras "mquinas de ensear", precedentes de la actual
enseanza asistida por ordenador (EAO). En cualquier caso, se elaboraron dos tipos de programas:
Los programas lineales, iniciados por Skinner y segn los cuales los alumnos deben elaborar activa-
mente una respuesta y no simplemente optar por una preestablecida, Si los alumnos formulaban una
respuesta errnea conocan el error inmediatamente viendo despus la respuesta correcta. En los pro-
gramas ramificados o de opciones mltiples, a los alumnos se les ofrece diversas opciones de respues-
ta.
La enseanza programada tiene la utilidad de que al fragmentar el material en pequeas unidades,
el profesor entiende mejor todos los objetivos de la docencia y el alumno tiene feedback inmediato de
su respuesta. Adems permite individualizar o personalizar la enseanza al llevar cada alumno su pro-
pio ritmo.
Uno de los primeros sistemas personalizados de enseanza fue propuesto por Keller (1966), un
psiclogo de orientacin conductista que desarroll un sistema de enseanza individualizada para uni-
versitarios que no se basaba en mquinas o materiales especiales sino en fragmentar los materiales y
aprender en pequeas unidades con unos objetivos y orientaciones especficos para su estudio. Los
alumnos estudian por su cuenta y peridicamente son examinados de modo que han de superar las
pruebas para seguir a las etapas siguientes. Hay textos y manuales confeccionados con arreglo a estas
normas de enseanza programada, incluso textos de psicologa. De stos uno de los ms antiguos es el
manual de psicologa conductista Anlisis de la conducta, de Holland y Skinner (1961).

La reciente introduccin del ordenador en la escuela optimiza al mximo todas estas posibilidades
de la enseanza programada (ver Solomon, 1986; para revisin). En general, el ordenador potencia
enormemente los logros de la enseanza programada. Por ejemplo, la tecnologa multimedia, con los
materiales didcticos elaborados para dispositivos tipo CD-ROM, permiten una enseanza multimedia
que combina textos, imgenes (estticas o dinmicas) e incluso hipertexto, que favorecen la inmedia-
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa 233

tez e interaccin con el material didctico. La ms reciente todava (finales de los 90) expansin acele-
rada de las telecomunicaciones a travs de Internet, potencia mucho ms esas posibilidades por su in-
mediatez, accesibilidad y bajo coste.

5.2.2. Mtodos aplicados a la organizacin y manejo de la clase

Los ms relacionados con el condicionamiento son los derivados del condicionamiento operante.
Los podemos clasificar en: mtodos centrados en la conducta positiva, mtodos de desarrollo de nue-
vas conductas, mtodos para hacer frente a conductas indeseables y mtodos grupales (vase Marcos,
1994b, para ampliacin de aplicaciones).

a) Mtodos centrados en la conducta positiva

Siguen obviamente los principios de refuerzo. En el contexto educativo uno de los reforzadores
ms poderosos es la atencin del profesor, la cual puede adoptar formas diversas: que el profesor est
pendiente, que muestre aprobacin, que elogie verbalmente o con gestos al alumno por lo que hace,
etc. Estas formas positivas son siempre ms eficaces que las formas aversivas tal y como ha quedado
suficientemente demostrado en diversos estudios.
Adems puede ser ms eficaz el refuerzo de la conducta deseable acompaado del no refuerzo de la
conducta indeseable. Se trata de cualquiera de los mtodos de refuerzo diferencial reseados en apar-
tados precedentes.
En clase puede ser tambin muy eficaz el refuerzo vicario. Al tratarse de una situacin grupal, el
refuerzo de la conducta deseable de otro, es decir, el refuerzo del modelo ejerce sobre la misma con-
ducta del observador una influencia positiva.

b) Mtodos para desarrollar nuevas conductas

Para desarrollar nuevas conductas y para hacer frente a conductas indeseables son indispensables
los procedimientos citados anteriormente, o sea, moldeamiento, modelado y control de estmulos, por
un lado, y extincin, castigo y saciacin por otro.

c) Los mtodos grupales

Se basan en el refuerzo de la conducta del grupo como conjunto. Hay dos posibilidades: refuerzo
de toda la clase en funcin de la conducta de un slo alumno y refuerzo de cada alumno premiando a
todos y cada uno en funcin de la conducta. En estos casos pueden utilizarse refuerzos positivos o re-
fuerzos secundarios mediante fichas o contratos de contingencias.
Los mtodos grupales tienen especial inters cuando se quiere fortalecer conductas de apoyo mutuo
entre los alumnos y aumentar la experiencia de interdependencia.

6. PRCTICAS DE AUTOEVALUACIN DEL TEMA 4


4-1: Las caas de pescar construidas con fibra de carbono atraen fuertemente los rayos en las tormentas, as que un pescador recoge y
guarda su caa en cuanto ve los primeros relmpagos en el cielo. La conducta de recoger y guardar la caa es:
a) Una conducta de escape.
b) Una conducta de evitacin.
c) Una conducta reforzada positivamente.
d) Una respuesta condicionada clsicamente.
234 Universidad de Murcia. Grado Psicologa. Asignatura: Aprendizaje, 6 cr. 2 curso, 1. cuatr., curso 2010/11

4-2: A un atleta se le exige, temporada tras temporada, una cierta mejora de sus marcas personales para poder seguir disfrutando de una
beca. Con l se est aplicando:
a) El automoldeamiento.
b) El moldeamiento.
c) El castigo por supresin.
d) El castigo por aplicacin.

4-3: El entrenamiento de omisin provocar una emocin de:


a) Alivio o relajacin.
b) Expectacin positiva.
c) Miedo.
d) Frustracin.

4-4: Para ensear a un nio a vestirse solo, la madre le da estrellas doradas de cartulina (intercambiables por un regalo), una por cada
prenda que el nio se pone solo. La madre proporciona:
a) Refuerzos primarios, en programa de razn variable (RV).
b) Refuerzos condicionados, segn un reforzamiento parcial.
c) Refuerzos condicionados, segn un reforzamiento continuo.
d) Refuerzos sociales, segn un reforzamiento continuo.

4-5: A un nio que est aprendiendo a no mojar la cama por las noches, sus padres le permiten ver un video de dibujos animados cada da
que se despierta con la cama seca. Los padres estn aplicando:
a) El principio de inhibicin reactiva.
b) El principio de inhibicin recproca.
c) El efecto de refuerzo parcial.
d) El principio de Premack.

4-6: Como administradora de un restaurante de comida rpida, Teresa sabe que un representante de la compaa puede visitarla en cual-
quier momento, hacindose pasar por cliente, y evaluar la calidad de la comida y el servicio. Como resultado, ella elabora un plan perma-
nente de mantenimiento y limpieza al cual se cie cada da, cul es el programa de refuerzo que est empleando la compaa para ase-
gurar una ejecucin adecuada?:
a) IF
b) IV
c) RF
d) RV

Anotaciones y observaciones

You might also like