You are on page 1of 10

TEMA 4: CONDICIONAMIENTO OPERANTE

1.- Introducción

El condicionamiento operante constituye uno de los mecanismos de aprendizaje de mayor


importancia teórica y práctica: por una parte, es seguramente el más investigado y mejor
comprendido, y por otra es fuente de algunas de las más significativas aplicaciones de la
psicología a problemas concretos.

En una primera aproximación, se diferencia del CC en un aspecto esencial: En el CO, la


secuencia de sucesos depende de la conducta del organismo. En el CC, lo que sucede a lo largo
de una sesión está prefijado por el psicólogo, y la secuencia de estímulos que se administran es
independiente de que el organismo responda o no.

Los mecanismos que hemos estudiado hasta ahora permiten a un organismo aprender acerca de
aspectos de su entorno que no resultan controlables. El CO permite a un organismo aprender a
controlar ciertos aspectos del medio mediante su conducta.

En sentido estricto, el C. Operante es un caso particular de C. Instrumental. El C. Instrumental se


refiere a los mecanismos por los cuales un organismo aprende a dar una respuesta más
frecuentemente (o menos) en virtud de los eventos(o “consecuencias”) que siguen
sistemáticamente a dicha respuesta. El C. Operante se refiere a los casos en los que dicha
respuesta se define como un operante, es decir, en virtud de sus propiedades funcionales. Sin
embargo, la importancia relativa del C.operante es tan grande que a menudo ambos términos
(“operante” e “instrumental”) se emplean como sinónimos.

1.1.- Antecedentes
1.1.1.- Thorndike:

Interesado en la inteligencia animal, a partir de presupuestos darwinianos, presenta en su tesis


doctoral (1898) un estudio sobre el comportamiento de animales en situaciones-problema muy
simples. Utilizando estas situaciones (mediante las llamadas "cajas-problema") comprueba que
los animales aprenden a solucionar el problema por ensayo y error: al principio, su conducta es
caótica y dan con la solución (accionar el mecanismo de apertura de la caja de forma que puedan
salir y alcanzar la comida) por pura casualidad, pero en sucesivos ensayos el tiempo que tarda el
animal en dar la respuesta relevante disminuye de forma progresiva y sistemática, y las
respuestas erráticas se reducen hasta casi desaparecer.

A partir de esta clase de estudios, Thorndike formula en 1911 la Ley del Efecto:

Si una respuesta en una situación estimular dada es seguida por un suceso satisfactorio o
placentero, la relación entre la situación y la respuesta se fortalece, de forma que el
organismo tendrá más tendencia a dar esa respuesta en esa situación. Si por el contrario va
seguida de un suceso nocivo o desagradable, la respuesta tenderá a no darse.

1.1.2.- Primeros conductistas

Desde el punto de vista del conductismo watsoniano, la anterior formulación resultaba muy
inadecuada, ya que se basa en estados internos del organismo ("satisfactorio", "desagradable",
etc.) inobservables y dudosos. Por otra parte, el intento de Thorndike de definir los “estados
satisfactorios” como aquellos que el organismo no hacía nada por evitar, etc., incurría en
circularidades que los críticos señalaron en repetidas ocasiones.

1
Esquema Tema 4

1.1.3.- Skinner

En los años 30-40, Skinner, adoptando un marco teórico más amplio, consistente y operativo,
reformula la ley del efecto como "ley de refuerzo":

Ciertos sucesos (refuerzos), cuando siguen consistentemente a una respuesta de un


organismo, aumentan su probabilidad

Desentendiéndose de las interpretaciones asociacionistas y, en gran medida, de los antecedentes


estimulares de la conducta, pone el énfasis en la relación entre la respuesta y los eventos que la
siguen consistentemente.

Una de las aportaciones teóricas más significativas de Skinner es la reconceptualización de la


respuesta como "operante", es decir, definida exclusivamente por sus propiedades funcionales
(en contraposición a otros aspectos, como la topografía o la intensidad – ver Tema 1)

Desde el punto de vista de la metodología de investigación, Skinner se decanta por los


procedimientos de “operante libre”, en contraposición a los de “ensayo discreto”.

Procedimientos de ensayo discreto:

• El organismo es sometido a sucesivos “ensayos”, entre los cuales normalmente es


necesario manipularlo físicamente (por ejemplo, volver a meter el gato en la caja problema).
• Son ventajosos para estudiar bastantes cuestiones, pero presentan dos inconvenientes: la
manipulación del organismo puede interferir con el proceso natural de aprendizaje (por
ejemplo, si le resulta estresante); y no nos da ninguna información sobre lo que haría el
organismo si pudiera emitir la respuesta tan a menudo como quisiera (es decir, no podemos
utilizar la tasa de R como variable dependiente).
• Ejemplos de dispositivos: laberintos, corredores, las cajas-problema de Thorndike, etc.

Procedimientos de operante libre:

• Las sesiones no se dividen en ensayos, sino que el O. está en una situación en la que
puede emitir la respuesta en cualquier momento y con cualquier frecuencia.
• Se han mostrado óptimos para el estudio de muchos aspectos generales del C.O.
• El dispositivo más típico es la Caja de Skinner, junto con el registro acumulativo, que
permiten estudiar detalladamente la evolución de la tasa de respuesta bajo las situaciones de
aprendizaje.

1.2.- El fenómeno/procedimiento básico

El fenómeno nuclear del CO consiste en la implantación de una contingencia entre una respuesta
emitida por un organismo y un suceso ambiental (“consecuente” o “consecuencia”) que sigue
consistentemente a esa respuesta. Como resultado, la probabilidad de la respuesta se ve
sistemáticamente modificada a medida que la situación se repite.

[ R. Op.  Consecuencia ambiental ]  ∆P(R)

En el caso más sencillo, se sitúa a un organimo en una determinada situación controlada (e.g., en
una caja de Skinner y con cierto grado de privación previa de alimento), y se le suministra como
consecuente (reforzador) una cierta cantidad de comida cada vez que emite una respuesta
concreta y predeterminada por el psicólogo (apretar una palanca, picotear un disco, etc.). Se
comprueba que la frecuencia de la respuesta elegida aumenta sistemáticamente a medida que
transcurre el tiempo (recuérdese que en esta clase de experimentos, de "operante libre", no cabe

2
Esquema Tema 4

hablar de ensayos propiamente dichos, sino que se trata de una situación contínua en la que el
organismo lleva la iniciativa).

1.3.- Conceptos principales

1.3.1.- Respuesta

• Puede ser cualquier respuesta incluida en el repertorio conductual del organismo,


seleccionada arbitrariamente por el psicólogo.
• Operante o respuesta operante: es el caso más frecuente. Se define por los efectos que
opera en el ambiente (de ahí su nombre). Así, por ejemplo, cualquiera de las formas en que
un organismo puede accionar una palanca se consideran como casos de una misma
respuesta u operante. Es decir, puede hacerse abstracción de la topografía concreta de la
respuesta (que se ejecute con un miembro u otro, con movimientos diferentes, etc.), aunque
ésto va a depender en cada caso de lo que al psicólogo le interese que el organismo aprenda.
• Típicamente, es una respuesta motora voluntaria, aunque puede tratarse también de una
respuesta autonómica o visceral (e.g., aumento de la tasa cardiaca), e incluso de una acción
de carácter lingüístico o cognitivo.

1.3.2.- Consecuente, consecuencia

• Suceso que afecta sistemáticamente a la probabilidad de la respuesta a la que sigue


consistentemente.
• Reforzador o refuerzo: es un consecuente que aumenta la frecuencia de R a la que sigue.

• Un refuerzo puede ser positivo (p.ej. aparición de un E apetitivo) o negativo (no-aparición o


retirada de un E aversivo).

• Castigo: es un consecuente que reduce la frecuencia de R a la que sigue.

• Un castigo puede también ser positivo (p.ej. aparición de un suceso aversivo) o negativo (no-
aparición o retirada de un suceso apetitivo).

• Es muy importante no confundir un reforzador con un “estímulo o suceso agradable”. Un


estímulo es un reforzador, por definición, en virtud de su efecto en el aumento de la respuesta
a la que sigue, y no por su supuesta inducción de un estado subjetivo en un organismo

• Asimismo, es importante observar que el refuerzo o el castigo no tienen por qué ser
necesariamente “estímulos” en sentido estricto. Por ejemplo, el permitir o impedir al
organismo realizar determinadas conductas pueden actuar como refuerzos o castigos
respectivamente.

1.3.3.- Contingencia

• Es la relación estadística entre la emisión de un operante y la administración de una


consecuencia. A menudo se emplea la expresión "contingencias de refuerzo" o "contingencias
de reforzamiento" para referirse al proceso por el cual un organismo ha adquirido una
determinada respuesta (e.g. "la presencia de patrones de retraimiento social que llamamos
timidez depende de las contingencias de refuerzo" significa que se atribuye la frecuencia
diferencial de un conjunto de respuestas al vínculo estadístico que han tenido en el historial
del sujeto con cierto tipo de consecuencias).

3
Esquema Tema 4

• Por lo tanto, contingencia significa aquí lo mismo que en CC, sólo que ahora se establece
entre una respuesta y un suceso ambiental, en vez de entre dos sucesos ambientales.

1.3.4.- Estímulo discriminativo

• Estímulo cuya presencia es informativa sobre la disponibilidad de un consecuente.


• Es opcional: no tiene por qué haber un E discriminativo explícito.
• Se suele denotar ED o E+ a los estímulos que indican la disponibilidad de un consecuente, y
E∆ o E- a los que informan de su no-disponibilidad.

1.3.5.- Respuesta incondicionada

• Es la respuesta natural del organismo al reforzador (por ejemplo, la salivación, deglución,etc.


en el caso en que el reforzador es un trozo de alimento).
• En general, no juega ningún papel en el condicionamiento operante.

1.3.6.- Adquisición

• Procedimiento y proceso en el cual se establece una contingencia entre un operante y un


reforzador, de forma que la frecuencia de aquél aumenta.
• Significado análogo al del CC

1.3.7.- Extinción

• Procedimiento y proceso en el cual se elimina una contingencia entre un operante y un


reforzador, de forma que la frecuencia de aquél decae.
• Significado análogo al del CC

1.3.8.- Moldeado o moldeamiento (shaping)

• Consecución gradual de una R que no estaba presente en el repertorio conductual del


organismo (o lo estaba con una probabilidad muy baja) mediante reforzamiento de respuestas
que suponen aproximaciones sucesivas a la R deseada.
• Tiene gran importancia práctica, ya que es el principal procedimiento de aprendizaje de Rs
nuevas.

2.- Tipos básicos de condicionamiento operante

Los cuatro tipos básicos de condicionamiento operante se producen como resultado del
entrenamiento de un organismo mediante el establecimiento de una contingencia entre una R.
operante y uno de los cuatro consecuentes básicos.

• Reforzamiento positivo: Administración de un evento siguiendo contingentemente a una R


dada, que tiene como efecto un aumento en la fuerza, la probabilidad o la tasa de ésta.
Normalmente se trata de un estímulo apetitivo o de la posibilidad de realizar una conducta de
alta probabilidad..

4
Esquema Tema 4

Ejemplo: cada vez que una rata presiona una palanca (R), se le administra como
consecuente un trozo de comida; se puede observar que la rata cada vez presiona más
frecuentemente la palanca

El tipo de CO que resulta de aplicar sistemáticamente reforzadores positivos a una respuesta se


conoce como entrenamiento de recompensa.

• Reforzamiento negativo: Omisión o interrupción de un suceso (típicamente, un E aversivo)


de forma contingente con la emisión de una R, a resultas de lo cual se produce un aumento en
la fuerza, la probabilidad o la tasa de ésta.

Ejemplo: cada vez que una rata se desplaza al lado opuesto de la jaula (R), como
consecuente se interrumpe una descarga eléctrica que se le estaba aplicando; se puede
observar que la rata cada vez cambia de lado más frecuentemente.

La aplicación sistemática de reforzadores negativos a una R se conoce como entrenamiento de


evitación o entrenamiento de escape, dependiendo de si el organismo puede mediante la R
llegar a “prevenir” la aparición del E. aversivo (evitación) o sólo puede interrumpirlo, acortando su
duración, una vez administrado (escape)

• Castigo positivo: Administración de un suceso (en el caso típico, un E aversivo) siguiendo


contingentemente a una R dada, que tiene como efecto una disminución en la fuerza, la
probabilidad o la tasa de ésta.
Ejemplo: cada vez que una oveja entra en contacto con la cerca en la que está encerrada
(R), como consecuente se le administra una descarga eléctrica; se puede observar que la
oveja cada vez toca menos frecuentemente la cerca.

La aplicación sistemática de castigos positivos a una R se conoce como entrenamiento de


castigo.

Castigo negativo: Omisión o interrupción de un estímulo de forma contingente con la emisión de


una R, a resultas de lo cual se produce una disminución en la fuerza, la probabilidad o la tasa de
ésta.
Ejemplo: cada vez que una rata que está recibiendo pequeños fragmentos de comida cada
15 segundos toca la pared del fondo de la jaula, se le elimina la siguiente administración de
comida que correspondiera; se puede observar que cada vez se acerca menos a dicha
pared.

La aplicación sistemática de castigos negativos a una R se conoce como entrenamiento


de omisión.

5
Esquema Tema 4

REFORZADOR : Tiende CASTIGO :


a aumentar la fuerza de Tiende a disminuir la
la R a la que sigue fuerza de la R a la que
sigue
POSITIVO : Se Reforzamiento positivo Castigo positivo
administra un estímulo
Entrenamiento de Entrenamiento de
recompensa. castigo.
Ej. : Administrar comida Ej. : Administrar descarga
tras la respuesta. tras la respuesta.
R aumenta. R disminuye.
Se usa una recompensa Se usa un estímulo
(estímulo o suceso aversivo
apetitivo).
NEGATIVO :Se omite un Reforzamiento negativo Castigo negativo
estímulo
Entrenamiento de Entrenamiento de
escape omisión
Ej. : Detener una Ej. : Se deja de dar
descarga eléctrica tras la comida al organismo
respuesta cada vez que da R.

Entrenamiento de R. Disminuye
evitación
Ej. : Si se da R, omitir Se usa estímulo apetitivo
una descarga que se
hubiera dado en caso
contrario.

R aumenta.
Se usa un estímulo
aversivo

3.- Entrenamiento de recompensa: Principales factores


3.1.1.- Magnitud del reforzador

l Aumentos en la cantidad de la recompensa mejoran la actuación.


l Aumentos en la calidad producen el mismo efecto. Por ejemplo, usando como reforzador agua
azucarada se mejora el nivel de ejecución respecto al uso de agua pura. Caso extremo: los
experimentos de Olds con estimulación directa de los centros cerebrales del placer.

3.1.2.- Demora de la recompensa

l Es el intervalo respuesta-recompensa. Afecta drásticamente al aprendizaje, en el sentido de


que a mayor demora, menos RC. A partir de un determinado punto, el organismo no aprende.
l Demoras superiores a unos 30 sg. parecen no producir ya CO, aunque hay variaciones entre
especies y sistemas de respuesta. Por ejemplo: con ratas, laberintos y comida, la demora
tolerada por los organismos para lograr un nivel alto de aprendizaje se sitúa entre 2 sg. y 5 sg.
l Sin embargo, en la mayoría de las situaciones se consiguen incluso niveles altos de
aprendizaje con demoras mayores, debido a la acción de claves estimulares (e.g., el 'clic' de
la palanca) que actúan como reforzadores secundarios o reforzadores condicionados
(ver más adelante).

3.1.3.- Impulso

6
Esquema Tema 4

l Es un constructo teórico que se refiere al estado motivacional del organismo respecto a


aquello que vamos a usar como recompensa.
l Se mide en términos de porcentaje del peso perdido, nº de horas de privación de agua, etc.
l El resultado general es que la actuación es tanto mejor cuanto mayor es el impulso (más peso
perdido, más horas de privación, etc.), salvo en casos extremos.

4.- Programas de refuerzo

Hasta ahora hemos considerado sólo el caso en que la realización por parte del organismo de la
conducta elegida va siempre seguida de la consecuencia establecida (la probabilidad del estímulo
reforzador dada la respuesta operante es igual a 1). Esto (que constituye una contingencia total)
es lo que se denomina refuerzo continuo

El refuerzo contínuo no es la única (ni la más eficaz) alternativa para el aprendizaje por CO; por el
contrario, constituye sólo un caso muy particular. Los casos en que la relación respuesta-
consecuente no es completa (es decir, no cualquier emisión de la respuesta va seguida del
consecuente) se denominan situaciones de refuerzo parcial (. Es fácil ver que el refuerzo parcial
es lo más común en situaciones naturales (ajenas al laboratorio o la clínica).

Un programa de refuerzo es una regla que especifica exactamente bajo qué condiciones la
emisión de la respuesta va a ser seguida del reforzador.

Los programas de reforzamiento son, según muchos autores, una de las variables independientes
más poderosas de la psicología, en el sentido de que conociendo el programa concreto
administrado a un organismo, se pueden predecir confiablemente muchas cosas respecto a la
conducta adquirida.

4.1.- Programas básicos.

Los programas básicos (también llamados "simples") pueden ser

• De razón: se administra el reforzador sólo tras la emisión de un número determinado de


respuestas.
• De intervalo: se administra el reforzador a la primera respuesta que se produce una vez
transcurrido un intervalo de tiempo establecido, contado desde el último reforzador.

A su vez, la razón o el intervalo pueden ser

• Fijos : con el mismo valor a lo largo de toda la adquisición


• Variables: con distintos valores a lo largo de la sesión, que oscilan en torno a un promedio.

Esto da lugar a los cuatro tipos de programas básicos: RF-n, IF-n, RV-n e IV-n, donde n es el
valor de la razón o el intervalo (o su promedio, si es un programa variable).

En la aplicación de un programa de reforzamiento a un organismo que no ha sido objeto de


aprendizaje previo, normalmente se comienza por un proceso de moldeado, luego se sigue con
reforzamiento contínuo y finalmente se va progresivamente aumentando las exigencias hasta
llegar al programa deseado.

4.1.1.- Razón fija

Se administra un estímulo reforzador por cada n respuestas. En un programa RF-10, cada décima
emisión de la R va seguida de una recompensa.

7
Esquema Tema 4

Este programa produce una tasa de respuesta típicamente alta y estable. Si la razón es alta, a
menudo el organismo se toma pausas inmediatamente a continuación de la administración del
reforzador.
RF-10 RF-20

Respuestas Pausas
emitidas
acumuladas

Tiempo -->
Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RF-10 (izda.) y un programa RF-20 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa

4.1.2.- Razón variable

Los programas de razón variable son especialmente importantes, ya que (dentro de los simples)
son los que más se aproximan a las situaciones naturales.

Un programa RV especifica que el reforzador se administra tras un número de respuestas que


varía a cada vez. Así, por ejemplo, en un RV-5 la recompensa se puede administrar tras 7, 3, 11,
2, 3, 5... respuestas, de forma que el promedio total sea 5 respuestas a lo largo de la sesión.

Los programas RV generan la tasa de respuestas más alta (lo que se manifiesta en el registro
acumulativo por una gran pendiente) y constante (no aparecen pausas, excepto en el caso de
razones muy grandes).

8
Esquema Tema 4

RV-10 RV-20

Respuestas
emitidas
acumuladas

Tiempo -->
Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RF-10 (izda.) y un programa RF-20 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa

4.1.3.- Intervalo fijo

En los programas IF se administra el reforzador a la primera emisión de la respuesta una vez


transcurrido un intervalo desde la anterior emisión del reforzador. Es decir, cada reforzador inicia
un intervalo en el cual las Rs no son recompensadas.

El organismo aprende a anticipar cuándo va a estar disponible el siguiente reforzador, y


progresivamente disminuye su tasa de respuestas al principio del intervalo y la aumenta hacia el
final del mismo. Por ello, estos programas terminan por producir un carácterístico registro
acumulativo festoneado:

IF-30sg.

Respuestas
emitidas Pocas Rs en el
acumuladas principio del
intervalo

Muchas Rs al
final del
intervalo

Tiempo

Registro acumulativo típico de una rata sometida a IF-30sg.

Los programas IF producen una tasa de respuesta global más baja que los de razón, y menos
estable debido a las variaciones dentro de cada intervalo.

4.1.4.- Intervalo variable

9
Esquema Tema 4

Los programas de intervalo variable son como los anteriores, sólo que el intervalo oscila en torno
a un valor promedio.

IV-30sg.
Respuestas
emitidas
acumuladas

Tiempo

Registro acumulativo típico de una rata sometida a IV-30sg.


.

Dan lugar a una tasa de respuesta moderada que, globalmente, es más o menos igual que la de
IF, pero mucho más estable. Al no ser predecible por el organismo la duración del intervalo, no
hay diferencias locales de tasa de respuesta (el organismo responde a un ritmo sostenido).

Por este motivo, es un programa idóneo para establecer Rs que se van a emplear como línea
base de ulteriores tratamientos o experimentos (en particular, se emplean muy a menudo como
punto de partida para el estudio de condicionamiento clásico mediante supresión condicionada –
ver tema 3).

En líneas generales, cabe formular las siguientes conclusiones sobre los cuatro programas
básicos:

1) Los programas de razón dan lugar a tasas de respuesta más altas.


2) Los programas variables dan lugar a tasas de respuestas más estables (contínuas).
3) En general, los resultados de la investigación con los distintos programas son bastante
consistentes de unas especies a otras.

10