You are on page 1of 8

http://apuntesgradopsicologia.wordpress.

com

Principios de Aprendizaje y Conducta

PRINCIPIOS DE APRENDIZAJE Y CONDUCTA


TEMA 6

PROGRAMAS DE REFORZAMIENTO Y CONDUCTA DE ELECCIN


Objetivo
Los programas de reforzamiento son importantes porque determinan la tasa y el patrn de las respuestas instrumentales. En primer lugar se describen los programas simples de razn fija y variable, y los de intervalo fijo y variable, as como los patrones de respuesta instrumental producidos por estos programas. Despus se describen los programas de reforzamiento de tasas de respuesta, para continuar con el anlisis de la conducta de eleccin.

INTRODUCCIN
Una forma particularmente interesante de eleccin es la que se da entre beneficios modestos a corto plazo frente a beneficios mayores a largo plazo, debido a que estas alternativas representan el dilema del autocontrol. Un programa de reforzamiento es un programa, o regla que determina cmo y cundo la ocurrencia de una respuesta ir seguida de un reforzador. Los programas de reforzamiento que incluyen relaciones similares entre los estmulos, las respuestas y los reforzadores, normalmente producen patrones similares de conducta. Los programas de reforzamiento influyen tanto en la forma de aprender una respuesta instrumental como en la forma en que se mantiene por el reforzamiento. Los programas de reforzamiento se investigan normalmente en cajas de Skinner que permiten una observacin continua de la conducta, por lo que pueden observarse y analizarse realmente los cambios en la tasa de respuesta.

PROGRAMAS SIMPLES DE REFORZAMIENTO INTERMITENTE


En los programas simples, un factor determina qu ocurrencia de la respuesta instrumental se refuerza. PROGRAMAS DE RAZN La caracterstica definitoria de un programa de razn es que el reforzamiento depende slo del nmero de respuestas que el organismo realiza. Si este nmero es uno, cada ocurrencia de la respuesta instrumental provocar la entrega del reforzador. Este tipo de programa se denomina tcnicamente Reforzamiento Continuo RFC. El reforzamiento continuo no suele suceder fuera del laboratorio. Las situaciones en las que la respuesta se refuerza slo alguna vez involucran un Reforzamiento Parcial o Intermitente. Razn Fija. En un programa como ste, hay una razn fija entre el nmero de respuestas que la rata realiza y el nmero de reforzadores que consigue. Por ejemplo, siempre se dan 10 respuestas por cada reforzador.
2ER SEMESTRE Miguel ngel Llamas Romero Pgina 1

http://apuntesgradopsicologia.wordpress.com

Principios de Aprendizaje y Conducta

Los programas de razn fija se dan en la vida cotidiana siempre que es necesario un nmero fijo de respuestas para conseguir el reforzamiento. Un programa de reforzamiento continuo constituye tambin un programa de razn fija. El reforzamiento continuo es una razn fija de una respuesta por reforzador. En un programa de reforzamiento intermitente de razn fija se da una tasa constante y alta, una vez que la conducta se ha iniciado, pero se puede tardar un tiempo antes de comenzar el nmero requerido de respuestas. La tasa cero de respuesta que se observa justo despus del reforzamiento se denomina Pausa Posreforzamiento. La tasa de respuesta alta y estable que completa cada requerimiento de la razn se denomina Carrera de la Razn. El efecto Tensin de la Razn, hace referencia al deterioro en la respuesta que sucede cuando el requerimiento de respuesta de una razn fija se incremente demasiado rpido. La pausa Posreforzamiento podra recibir la etiqueta ms apropiada de pausa prerazn. Razn Variable. Un procedimiento en que se necesita un nmero de respuestas distinto para la entrega de cada recompensa se denomina Procedimiento de Razn Variable RV. Los investigadores pueden, por ejemplo, entrenar a una paloma para realizar 10 respuestas para conseguir la primera recompensa, 13 para conseguir la segunda, y as sucesivamente. El valor numrico del programa de razn variable indica el nmero medio de respuestas requerido para conseguir el reforzador. Los programas de razn variable se encuentran en la vida cotidiana siempre y cuando se requiera una cantidad impredecible de esfuerzo para obtener un reforzador. Los jugadores empedernidos tienen que jugar a la mquina para ganar, pero nunca saben cuntas jugadas producirn la combinacin ganadora. Debido a que el nmero de respuestas necesario para conseguir el reforzamiento no es predecible, las pausas predecibles en la tasa de respuesta son menos probables con los programas de RV que con los programas de RF. PROGRAMAS DE INTERVALO En los programas de razn, el reforzamiento depende slo del nmero de respuestas que el organismo ha realizado. En los programas de intervalo, las respuestas son reforzadas slo si ocurren cuando ha transcurrido una cierta cantidad de tiempo y el sujeto ha realizado la conducta instrumental requerida. Intervalo Fijo. En un programa simple de intervalo, una respuesta se refuerza slo si se da despus de que haya transcurrido un tiempo desde la ltima entrega del reforzador. En un Programa de Intervalo Fijo IF, el tiempo establecido no vara de una ocasin a la siguiente. A medida que el tiempo para la disponibilidad del prximo reforzador se acerca, la tasa de respuesta aumenta. Este aumento en la tasa de respuesta se manifiesta como una aceleracin en el registro acumulativo hacia el final del IF. El patrn de respuesta que se desarrolla con los programas de reforzamiento de IF se denomina Festn del Intervalo Fijo.

2ER SEMESTRE

Miguel ngel Llamas Romero

Pgina 2

http://apuntesgradopsicologia.wordpress.com

Principios de Aprendizaje y Conducta

Es importante darse cuenta de que un programa de IF no garantiza que el reforzador se proporcionar en algn momento a lo largo del intervalo de tiempo. Se requieren respuestas instrumentales para conseguir el reforzador en los programas de intervalo, del mismo modo que en los programas de razn. El intervalo determina slo cundo el reforzador est disponible, no cundo se entrega. Intervalo Variable. En un Programa de Intervalo Variable IV, las respuestas se refuerzan si se dan tras haber transcurrido un intervalo variable desde la administracin del reforzador previo o desde el comienzo del programa. Los programas de intervalo variable se hallan en situaciones donde se requiere una cantidad de tiempo impredecible para preparar o dispensar el reforzador. Un mecnico que no dice cundo tendr a punto el coche impone un programa de IV. El tiempo que tiene que pasar antes de que el coche est listo es impredecible. Como en los programas de intervalo fijo, el sujeto tiene que realizar la respuesta instrumental para obtener el reforzador. COMPARACIN DE LOS PROGRAMAS DE RAZN Y DE INTERVALO Existen notables similitudes, tanto los programas de razn fija como los de intervalo fijo producen una pausa Posreforzamiento despus de la administracin de cada reforzador. Adems, tanto los programas de RF como los de IF producen altas tasas de respuesta justo antes de la administracin del siguiente reforzador. Por el contrario, los programas de razn variable y de intervalo variable mantienen tasas estables de respuesta, sin pausas predecibles. En cambio, los programas de intervalo y de razn activan diferentes cambios neuroqumicos en el cerebro. La conducta mantenida por programas de intervalo est mediada por el sentido temporal del organismo, mientras que los mecanismos temporales no estn involucrados en la actuacin con los programas de razn. La primera evidencia sobre las diferencias fundamentales entre los programas de razn y de intervalo fue proporcionada por un importante experimento de Reynolds. La paloma reforzada con el programa de RV respondi a una tasa mucho ms alta que la paloma reforzada con el programa de IV. El programa de RV motiv una conducta instrumental mucho ms vigorosa. Reforzamiento Diferencial del Tiempo Interrespuesta. Por qu los programas de razn son capaces de producir tasas de respuesta ms altas que los programas de intervalo? El factor crtico es el espaciamiento entre respuestas que se da justo antes del reforzamiento. El intervalo entre una respuesta y la siguiente se denomina Tiempo Interrespuesta o TIR. El intervalo entre sucesivas respuestas es tambin un parmetro conductual que puede moldearse mediante el reforzamiento. Si se refuerzan TIRs cortos, ser ms probable que el sujeto realice TIRs cortos. Un sujeto que produce sobre todo tiempos Interrespuesta cortos responder a una tasa alta. Por el contrario, un sujeto que produce sobre todo tiempos Interrespuesta largos, responder a una tasa baja. Cmo determinan los programas de intervalo y de razn el reforzamiento de los tiempos Interrespuesta? En un programa de razn, no existen restricciones acerca de cundo cuentan las respuestas para conseguir el reforzador. De hecho, cuanto ms rpido complete el sujeto el requerimiento de la razn, ms rpido recibir el reforzador. Un programa de razn favorece tiempos interrespuesta cortos. Contrariamente, los programas de intervalo no favorecen los
2ER SEMESTRE Miguel ngel Llamas Romero Pgina 3

http://apuntesgradopsicologia.wordpress.com

Principios de Aprendizaje y Conducta

tiempos Interrespuesta cortos, sino una ejecucin con TIRs largos. Esto deriva en tasas de respuesta ms bajas que las que se observan en los programas de razn. PROGRAMAS DE REFORZAMIENTO DE TASAS DE RESPUESTA A pesar de que los programas de razn producen tasas de respuesta mayores que los programas de intervalo comparables, ni uno ni otro requieren una tasa especfica d respuesta para conseguir el reforzamiento. Por el contrario, los Programas de Tasas de Respuesta requieren especficamente que el organismo responda a una tasa particular para obtener el reforzador. En los programas de tasas de respuesta, el reforzamiento de una respuesta particular depende de cun pronto ocurra tras la respuesta precedente. Puede establecerse un programa de reforzamiento, por ejemplo, en el que una respuesta se refuerce slo si ocurre dentro de los 5 segundos siguientes a la respuesta precedente. Si el animal realiza una respuesta cada 5 segundos, su tasa de respuesta ser de 12 por minuto. Por tanto, el programa proporciona reforzamiento si la tasa de respuesta es de 12 por minuto o mayor. El organismo no ser reforzado si su tasa de respuesta se encuentra por debajo de 12 por minuto. Este procedimiento fomenta tasas altas de respuesta. Se denomina Reforzamiento Diferencial de Tasas Altas, o RDA. En los programas de RDA, una respuesta se refuerza slo si ocurre antes de que haya transcurrido cierta cantidad de tiempo tras la respuesta precedente. Se consigue el resultado opuesto si se refuerza una respuesta slo si ocurre despus de que haya trascurrido cierta cantidad de tiempo desde la respuesta previa. Este tipo de procedimiento se denomina Reforzamiento Diferencial de Tasas Bajas, o RDB. Los programas RDB fomentan que los sujetos respondan lentamente. Los programas de tasas de respuestas se encuentran fuera del laboratorio.

CONDUCTA DE ELECCIN: PROGRAMAS CONCURRENTES


Los programas de reforzamiento que se han descrito hasta ahora, incluyen una nica respuesta y el reforzamiento de esa respuesta. La conducta es algo ms que la repeticin de respuestas individuales. Las situaciones de eleccin pueden ser bastante complicadas. La situacin de eleccin ms simple consta de dos respuestas alternativas, cada una de stas seguida por un reforzador de acuerdo con su propio programa de reforzamiento. Las aproximaciones recientes al estudio de la conducta de eleccin utilizan cajas de Skinner equipadas con dos manipulandos, como dos teclas. En el experimento tpico, responder en cada tecla es reforzado segn algn programa de reforzamiento. Los dos programas funcionan al mismo tiempo, y el sujeto es libre de cambiar de una tecla de respuesta a la otra. Este tipo de procedimiento se denomina Programa Concurrente. MEDIDAS DE LA CONDUCTA DE ELECCIN La conducta de eleccin de un individuo en un programa concurrente se refleja en la distribucin de su conducta entre dos respuestas alternativas. Esto se puede medir de varias formas. Una tcnica comn es calcular la Tasa Relativa de Respuesta de cada alternativa. La tasa relativa de respuesta en la tecla A, por ejemplo, se calcula dividiendo la tasa de respuesta en la tecla A por la tasa total de respuesta, donde RA es la tasa de respuesta en la tecla A y RB es la tasa en la tecla B. RA/(RA + RB)

2ER SEMESTRE

Miguel ngel Llamas Romero

Pgina 4

http://apuntesgradopsicologia.wordpress.com

Principios de Aprendizaje y Conducta

La tasa relativa de reforzamiento conseguido para cada alternativa de respuesta pude calcularse de una manera semejante a la tasa relativa de respuesta. Por ejemplo, la tasa relativa de reforzamiento para la alternativa A es la tasa de reforzamiento de la respuesta A dividida por la tasa total de reforzamiento (la suma de la tasa de recompensa conseguida en el lado A ms la tasa de recompensa conseguida en el lado B), donde rA y rB representan las tasas de reforzamiento obtenidas en cada alternativa de respuesta.
rA/(rA + rB)

LA LEY DE LA IGUALACIN La tasa relativa de respuesta en una alternativa se iguala con la tasa relativa de reforzamiento en esa alternativa. Herrnstein estableci la Ley de la Igualacin. Hay dos expresiones matemticas comunes de la ley de la igualacin. En una formulacin, las tasas de respuesta y de reforzamiento en una alternativa se expresan como una proporcin de las tasas de respuesta y de reforzamiento totales, como sigue:
RA/(RA + RB) = rA/(rA + rB)

Como antes, RA y RB en esta ecuacin representan las tasas de respuesta en las teclas A y B, y rA y rB representan las tasas de reforzamiento conseguidas en cada alternativa de respuesta. La segunda formulacin de la ley de la igualacin es ms simple, las tasas de respuesta y de reforzamiento en una alternativa se expresan como una proporcin de las tasas de respuesta y reforzamiento en la otra alternativa, como sigue:
RA/RB = rA/rB

Ambas expresiones matemticas representan el mismo principio bsico, que las tasas relativas de respuesta se igualan con las tasas relativas de reforzamiento. Infraigualacin, Supraigualacin y Sesgo de Respuesta La ley de igualacin indica que las elecciones son una funcin ordenada de las tasas de reforzamiento. Las tasas relativas de respuesta no siempre se igualan exactamente con las tasas relativas de reforzamiento. La mayora de los ejemplos en los que la conducta de eleccin no se corresponde perfectamente con la relacin de igualacin pueden acomodarse aadiendo los parmetros, b y s. RA/RB = b (rA/rB)s El parmetro s representa la sensibilidad de la conducta de eleccin a las tasas relativas de reforzamiento para las alternativas de respuesta. Cuando ocurre una igualacin perfecta, s es igual a 1,0, en cuyo caso las tasas relativas de respuesta son una funcin directa de las tasas relativas de reforzamiento. Un tipo de desviacin de la igualacin perfecta incluye una sensibilidad reducida de la conducta de eleccin a las tasas relativas de reforzamiento. Estos resultados se refieren a la
2ER SEMESTRE Miguel ngel Llamas Romero Pgina 5

http://apuntesgradopsicologia.wordpress.com

Principios de Aprendizaje y Conducta

Infraigualacin y pueden acomodarse mediante la ecuacin anterior dotando al exponente s de un valor menor que 1,0. En otros ejemplos, la tasa relativa de respuesta es ms sensible a la tasa relativa de reforzamiento de lo que se predice para una igualacin perfecta. stos resultados se denominan Supraigualacin y pueden acomodarse en la ecuacin anterior dotando al exponente de un valor mayor que 1,0. Es ms probable que las elecciones muestren sensibilidad reducida a las tasas relativas de reforzamiento que sensibilidad elevada las mismas. En consecuencia, la infraigualacin se encuentra ms a menudo que la supraigualacin. El parmetro de sensibilidad puede estar influido por numerosas variables, incluyendo la especie animal, el esfuerzo o la dificultad incluida en el cambio de una alternativa a la otra, y los detalles de cmo se construyen las alternativas del programa. En general, hacer ms difcil el cambio de una alternativa de respuesta a la otra incrementa el parmetro de sensibilidad; cuando cambiar es ms difcil, los organismos son ms sensibles a las tasas relativas de reforzamiento para las alternativas de respuesta. El parmetro b de la ecuacin anterior representa el sesgo de respuesta. En el experimento original de Herrnstein, los animales eligen entre dos respuestas del mismo tipo (picotear una tecla de respuesta), y cada respuesta se refuerza con el mismo tipo de reforzador (un corto periodo de acceso a la comida). Los sesgos de respuesta influyen en la eleccin cuando las alternativas de respuesta son diferentes (por ejemplo, picotear una tecla y presionar con la pata en un pedal). El parmetro b es tambin importante cuando el reforzador proporcionado para las dos respuestas es diferente. Una preferencia (o sesgo) por una respuesta o un reforzador sobre la otra influye en el parmetro del sesgo b. En ausencia de sesgos, b es igual a 1,0. La Ley de la Igualacin y el Valor del Reforzador Se ha encontrado que la tasa relativa de respuesta es una funcin de la cantidad relativa de cada reforzador, as como la demora relativa de reforzamiento. Tambin se ha hallado que las tasas relativas de respuesta estn determinadas por la patabilidad de los reforzadores. La Ley de la Igualacin en los Programas Simples de Reforzamiento Cmo puede una ley que describe la distribucin de respuesta entre varias alternativas ser aplicada una sola respuesta? Incluso las situaciones de respuesta nica pueden involucrar una eleccin. En un programa simple, el sujeto recibe no slo reforzamiento explcito por realizar una respuesta operante especfica, sino tambin recompensas intrnsecas de las otras actividades que puede realizar. Por tanto, el reforzamiento total incluye las recompensas extrnsecas programadas tanto como las fuentes de reforzamiento no programadas. Este tipo de anlisis permite la aplicacin de la ley de la igualacin a programas de reforzamiento de respuesta nica. La tasa de respuesta estar directamente relacionada con la tasa de reforzamiento para esa respuesta de una forma negativamente acelerada. La tasa de respuesta disminuir a medida que aumente la tasa de las otras fuentes de reforzamiento. Dos maneras de modificar la tasa de una respuesta son mediante el cambio de su tasa de reforzamiento o mediante el cambio de la tasa de las otras fuentes de reforzamiento. Es ampliamente aceptado que responder en una situacin de respuesta nica es una funcin negativamente acelerada de la tasa de reforzamiento para esa respuesta. La utilidad
2ER SEMESTRE Miguel ngel Llamas Romero Pgina 6

http://apuntesgradopsicologia.wordpress.com

Principios de Aprendizaje y Conducta

de la igualacin como una teora de la conducta en situaciones operantes de respuesta nica se ha puesto recientemente en duda. MECANISMOS DE LA LEY DE LA IGUALACIN La ley de la igualacin est establecida en funcin de las tasas de respuesta y de reforzamiento prometidas sobre la duracin total de las sesiones experimentales. Ignora cuando se realizan las respuestas individuales. Igualmente, las teoras molares de la igualacin ignoran qu podra ocurrir a nivel de las respuestas individuales. Las teoras molares explican agregados de respuesta y se relacionan con la distribucin total de respuestas y reforzadores en las situaciones de eleccin. En contraste con las teoras molares, las teoras moleculares se centran en lo que ocurre a nivel de las respuestas individuales y consideran la relacin de igualacin como resultado neto de estas elecciones individuales. Otras teoras proporcionan caracterizaciones de la conducta que no son molares ni moleculares, sino algo intermedio entre ellas; una de estas teoras es el mejoramiento. Igualacin y Maximizacin de las Tareas de Reforzamiento Los animales cambian una y otra vez entre las alternativas para recibir tantos reforzadores como le sea posible. La idea de que los organismos maximizan el reforzamiento ha sido utilizada para explicar la conducta de eleccin en los niveles de anlisis tanto molecular como molar. Maximizacin Molecular: los organismos siempre eligen cualquier alternativa de respuesta con mejores probabilidades de que sea reforzada en ese momento. Consideremos, por ejemplo, una paloma. Cuanto ms tiempo permanezca la paloma en la tecla A, ms probabilidad habr de que transcurra el requisito de intervalo para la tecla B, y que el reforzamiento est disponible por el picoteo de B. Al alternar, la paloma puede obtener el reforzador en la tecla B. Ahora, cuanto ms tiempo continu picoteando en la tecla B, ms probable ser que la tecla A est lista para el reforzamiento. Shimp propuso que la relacin de igualacin es un subproducto de una alternancia prudente cuando la probabilidad de reforzamiento en la tecla de respuesta alternativa es mayor que la probabilidad de reforzamiento en la tecla de respuesta actual. Maximizacin Molar: las teoras molares de la maximizacin presuponen que el organismo distribuye sus respuestas entre las varias alternativas a fin de maximizar la cantidad de reforzamiento que consiguen a la larga. Las teoras molares se centran en agregados de conducta sobre algn perodo de tiempo ms que en las respuestas de eleccin individual. La teora de la maximizacin molar fue originalmente formulada para explicar la eleccin en programas concurrentes construidos con componentes de razn. En los programas concurrentes de razn, los animales responden exclusivamente en el componente de razn que requiere el menor nmero de respuestas. Debido a que otras distribuciones de respuesta pueden dar como resultado cantidades semejantes de recompensa, la maximizacin molar no puede explicar por qu la conducta de eleccin se distribuye de forma tan cercana la relacin de igualacin en los programas concurrentes IV-IV y no de otras formas igualmente efectivas. Otro desafo para la igualacin molar lo proporcionan los resultados de estudios en los cuales hay una eleccin entre un programa de razn variable y uno de intervalo variable. En un programa de razn variable, el organismo puede obtener reforzamiento en cualquier momento realizando el nmero requerido de respuestas. Por contra, en un
2ER SEMESTRE Miguel ngel Llamas Romero Pgina 7

http://apuntesgradopsicologia.wordpress.com

Principios de Aprendizaje y Conducta

programa de intervalo variable, el sujeto tiene que responder slo de vez en cuando para obtener casi el mximo nmero de recompensas posibles. Dadas estas diferencias, para el mximo beneficio de un programa concurrente RV-IV, los sujetos deberan concentrar sus respuestas en la alternativa de razn variable y responder slo ocasionalmente en el componente de intervalo variable. La evidencia muestra que los animales favorecen el componente de RV pero no de forma tan fuerte como predice la maximizacin molar. Mejoramiento: los mecanismos de mejoramiento operan en una escala temporal que est entre la escala temporal de las teoras molar y molecular. Advirtase que el mejoramiento no se refiere a elegir la mejor alternativa en ese momento (maximizacin molecular) o hacer que a largo plazo algo sea tan bueno como se pueda (maximizacin molar). El mejoramiento se refiere a la meta ms modesta (o "inocente") de slo hacer que la situacin sea mejor. Las teoras molares se centran en las tasas globales de respuesta y reforzamiento, calculadas sobre la duracin total de una sesin experimental. Por contra, las tasas locales estn calculadas slo sobre el periodo de tiempo que un sujeto dedica a una alternativa particular de respuesta. Por ejemplo, si la situacin incluye dos opciones, A y B, la tasa local de respuesta en A se calcula dividiendo la frecuencia de respuesta en A por el tiempo que el sujeto dedica a responder en A. La tasa local de una respuesta es siempre mayor que su tasa global. La teora del mejoramiento asume que los organismos cambian de una alternativa de respuesta a otra para mejorar la tasa local de reforzamiento que estn recibiendo. Se asume que los ajustes de la distribucin de la conducta entre las alternativas continan hasta que el organismo est obteniendo la misma tasa local de recompensa en todas las alternativas.

2ER SEMESTRE

Miguel ngel Llamas Romero

Pgina 8