You are on page 1of 16

TEMA 14 EL CONDICIONAMIENTO OPERANTE. PARADIGMA Y MODELOS 1. EL ENSAYO Y ERROR.

LA LEY DEL EFECTO • En el condic clásico la causalidad es lineal, el refuerzo (EI) aparece antes de la RC. • En el condic operante la causalidad es circular, hay un feedback o retroalimentación el refuerzo aparece después de la RC; esto supone un nivel superior en el aprendizaje. • Thorndike señaló que lo que se producía en el condic era una conexión a nivel neural entre un estímulo y una respuesta (E-R), en lugar de conexión entre estímulos. • Construía “cajas problemas” especie de jaulas cuya puerta tenía que abrir el animal, manipulando un resorte, para salir y conseguir la comida que se le colocaba en el exterior. • Después, enunció la ley del efecto indicando que: cuanto mayor es la satisfacción o desagrado que acompaña a la conducta de un sujeto, mayor será el fortalecimiento o debilitación del vínculo (conexión E-R). • Cayó en la cuenta de que la segunda parte de la ley no era cierta. La consecuencia de desagrado no produce debilitación de la conexión. • Esta ley fue muy criticada por Skinner, ya que no le interesaban las conexiones neurales en el cerebro sino la respuesta operante, entendida como acto del organismo que produce un efecto específico en el ambiente. • Si para Thordike aprender es reforzar la conexión E-R, para Skinner es aumentar la probabilidad de que el organismo emita la respuesta. Según éste, lo que se refuerza no es la conexión E-R, sino la respuesta operante; así, transforma la ley del efecto en la ley del refuerzo. • Si Thorndike había convertido el ensayo y error en condic instrumental, Skinner convierte el condic instrumental en condic operante. Thorndike enseña que de todos los movimientos que ensaya el animal se condiciona aquel que es “instrumento” para conseguir el refuerzo (la comida). Para Skinner, en cambio, una operante que se emite libremente y es reforzada se condiciona, sin que entren en consideración ninguna conexión ni ninguna finalidad. 2. ¿CONDICIONAMIENTO INSTRUMENTAL O CONDIC.OPERANTE? • Se llama condicionamiento instrumental, porque convierte a la respuesta (conducta) en un instrumento para conseguir una consecuencia, ya que la respuesta no es elicitada sino emitida voluntariamente. La emite el organismo espontáneamente y nada más: es como una conducta voluntaria. En el caso de la respuesta elicitada la iniciativa la tiene el estímulo, en el caso de la respuesta emitida la iniciativa la tiene el organismo. • Thorndike usó la técnica de los ensayos discretos (emitir una sola respuesta en cada ensayo). • Otro aparato utilizado con la técnica de ensayos discretos es el laberinto de dos brazos o laberinto en T y el corredor recto, en cuyos costados hay células fotoeléctricas que ponen en funcionamiento y que paran el cronómetro. • Skinner llamó a cada realización de una especie de conducta una operante. Así la conducta de pulsar una palanca espontáneamente es una operante, cada picoteo de una paloma en el estímulo determinado es una operante.

las respuestas operantes se llegaron a utilizar habitualmente en el estudio del condic instrumental. cada vez que el animal presiona la palanca.refuerzo negativo:si se da una respuesta desaparece el reforzador (contingencia negativa) • Reforzamiento: proceso interior de fortalecer la conexión entre un estímulo y la respuesta • Tudela señala que reforzamiento se refiere al proceso subyacente de lacrado que se supone que fortalece o aumenta la probabilidad de una respuesta.la situación o procedimiento experimental • Reforzamiento---------. Así: . En la caja de Skinner no hay ensayos discretos. 4. Por otra parte. la conducta es registrada por un aparato llamado “registrador acumulativo”. • Reforzador---------se refiere a --------estímulo • Refuerzo------------------“------------. permitiendo estudiar una conducta de una manera continua. a través de registros acumulativos. y éste pasó a denominarse: condicionamiento operante. El uso de la palanca se hace con ratas y el uso de un disco donde picotear con palomas. que tiene en su interior una palanca que cuando el animal la presiona hace que un dispositivo automático suministre en su comedero una cantidad fija de comida. Una aguja que traza continuamente una línea sobre el papel pautado. con lo que se obtiene lo que se llama un registro acumulativo. pero con cada respuesta se produce un escalón.refuerzo positivo: si se da una respuesta aparece el reforzador (contingencia positiva) . que igualmente se pueden medir.• • • • • Skinner ideó la técnica de operante libre (emitir cuantas respuestas desee en cada ensayo). 3. no es el proceso de refuerzo. De este modo. Cuando no hay respuestas la línea que marca la aguja es recta. El aparato posee un rollo de papel que lo va suministrando de una manera continua y con una velocidad constante. número de ensayos. • La contingencia sólo indica la situación de relación entre una conducta y el estímulo que le sigue. Skinner ideó una situación experimental especial mediante la creación de su célebre “caja de Skinner”. No hay pues.“--------------fortalecimiento de un proceso interior • En el castigo se debilita la respuesta o se anula. CONTIGÚIDAD Y CONTINGENCIA • Si el condic clásico es expresado en términos de contigüidad (simultaneidad). sino tasa de respuestas. facilitando la división de la misma en unidades significativas. • Refuerzo (o reforzar): es la situación o procedimiento experimental de presentar o hacer desaparecer un reforzador si se emite una condcuta determinada. REFUERZO Y REFORZAMIENTO • Reforzador: estímulo apetitivo o premio (comida) que aparece o al estímulo aversivo (shock eléctrico) que desaparece cuando se ejecuta una conducta operante. el condic operante se expresa en términos de contingencia (probabilidad). REFORZADOR.dos sucesos son contiguos cuando ocurren simultáneamente o en rápida sucesión dentro de un determinado período temporal . se desplaza y marca en el papel cada respuesta. Puede ser de dos tipos: .

Reforzar: aumentar la probabilidad de una respuesta. y la omisión es castigante porque es la consecución del “no premio”. hay que conjugar dos variables: . + Recompensa (Refuerzo positivo) Castigo (Castigo positivo) . . OPERANTE • Es conocido como: paradigma E-R. . • En el paradigma del condic operante se pueden realizar sólo dos acciones: .la contingencia respuesta-reforzador: positiva o negativa . EL PARADIGMA DEL CONDIC. porque es la consecución del “no castigo”.Condicionamiento de evitación (refurezo negativo): se refuerza la aparición o vigor de una conducta negativamente. pues en la omisión el reforzador está presente en el ambiente y la respuesta lo omite.Castigar: disminuir la probabilidad de una respuesta. • Es el tipo de reforzador (premio o estímulo aversivo) y la presencia o ausencia de él lo que determina los cuatro modelos del condic operante. aprendizaje por relación de un estímulo con una respuesta.Condicionamiento de omisión (castigo negativo): la emisión de la respuesta es contingente con la ausencia del premio. Se establecen cuatro modelos o subparadigmas del condic operante: .Condicionamiento de recompensa (refuerzo positivo): es el modelo más tradicional y típico del condic operante. .la naturaleza del reforzador: agradable (premio) o aversivo (nocivo). Su función es aumentar el vigor de una respuesta por ser ésta contingente con un premio. • El condic operante es aprendizaje. . Su función es la debilitación o desaparición de la respuesta.- dos sucesos son contingentes cuando ocurren conjuntamente según una cierta probabilidad. Su función es la desaparición de una respuesta por ser ésta contingente con el estímulo aversivo. 5. No debe confundirse con la extinción del condic de recompensa. porque es un cambio de la conducta como fruto de la experiencia. en la extinción el reforzador no está presente en el ambiente y la respuesta no hace que aparezca. La evitación es reforzante. • Positivo significa que está el estímulo que refuerza o que castiga una conducta (contingencia positiva) • Negativo significa que no está el estímulo que refuerza o que castiga una conducta (contingencia negativa) • Para determinar los modelos o subparadigmas del condic operante. • Tanto el refuerzo como el castigo pueden ser positivos o negativos.Castigo (castigo positivo): es el condic con estímulo aversivo presente. Presenta dos modalidades:  Evitación: la emisión de la respuesta hace que no aparezca el estímulo aversivo  Escape: la emisión de la respuesta hace que desaparezca el estímulo aversivo.

• El estímulo discriminativo: es la clave explícita que se destaca en la situación. existen limitaciones filogenéticas. . cuando se suministra el reforzador con independiencia de la conducta que realiza el animal. OPERANTE • El reforzador: es cualquier estímulo apetitivo o aversivo que hace aumentar la probabilidad de emisión de una respuesta o el vigor de la misma.la polidipsia: es el fenómeno que presentan algunos animales. de consumir una extraordinaria cantidad de agua cuando estando hambrientas reciben comida. sólo informa de ella. sino la direccionalidad de la conducta. según un programa de intervalo fijo . ene ste caso. No provoca la respuesta.Respuesta/ReforzadorContingencia - Omisión Evitación (Castigo (Refuerzo negativo) negativo) Apetitivo Aversivo Naturaleza del Reforzador 6. sino que es la conexión de la percepción de la palanca con la respuesta de presionarla. no provoca el aumento de probabilidad de una respuesta. esta concepción no explica los siguientes fenómenos: . palomas.la conducta supersticiosa: es un fenómeno que muestran algunos animales. • La respuesta: es una conducta espontánea y activa.No todas las respuestas pueden condicionarse. Skinner lo define en función de su efecto sobre la respuesta contigua anterior. Sin embargo. . cada cierto tiempo. . indicando únicamente cuando está o no disponible el refuerzo. VARIABLES EN EL CONDIC. como. como las ratas. consistente en la aparición de unas conductas personales (cada uno la suya). no una conducta respondiente y pasiva. La conexión E-R en el condic operante no es la conexión de la luz (estímulo discriminativo) y oprimir la palanca (respuesta operante).El concepto de preparación de Seligman indica que la conducta que tiene preparación filogenética se condiciona con mucha mayor facilidad. El refuerzo.

- - Programa de razón variable (RV): se refuerza según un índice de razón también. quiere decir que se refuerza siempre la respuesta número 3. Es el tiempo que pasa desde que el sujeto se encuentra en la situación hasta que emite la respuesta. La latencia de la respuesta disminuye. porque la variabilidad del programa hace que sea difícil descubrir la respuesta que será premiada. En la caja de Skinner la tasa de respuestas es el número de veces que se presiona la palanca durante un período. Cuando se trata de medir una respuesta continua. Alta porque cuanto más rápido se responde más pronto se recibe el refuerzo.latencia de la respuesta. (en el corredor recto la tasa de respuesta es el tiempo que tarda el animal en recorrer el pasillo hasta llegar a la meta). sino una serie aleatoria con una razón media definida. OPERANTE • La medida de la respuesta se realiza fundamentalmente por dos parámetros: .  si ponemos RF 3. aunque éste no es fijo.Programa de razón fija (RF): se refuerza la primera respuesta después de emitir un número predeterminadas de ellas.  al símbolo RV se le añade el número que indica el índice de razón media. La tasa de respuesta por tanto.  se aumenta la velocidad con que se emiten las respuestas. Es un concepto genérico. También es tasa de respuesta la medida de la velocidad con que un sujeto ejecuta una operación. magnitud y demora del refuerzo. como la actividad de deambular un animal el instrumento más usual es la rueda de actividad. * la velocidad de realizar una conducta. puede significar: * el número de veces que se ejecuta una conducta. 7. Programa de intervalo fijo (IF): se refuerza la primera respuesta que ocurre después de un intervalo fijo de tiempo transcurrido a partir del último refuerzo suministrado. * el espacio a lo largo del cual se ejecuta una conducta. privar de alimento unas horas). por tanto se responde constantemente. Los más tradicionales son: .• El tiempo de privación: es la variable más utilizada para motivas al animal.  IF 5 significa que se refuerza la primera respuesta después de haber pasado cinco minutos desde el refuerzo anterior .  se produce tasa de respuestas alta y estable. una rueda en la que deambula el animal y que va girando conforme el animal camina. 8. PROGRAMAS DE REFUERZO O CASTIGO • Son una pauta para presentar el premio o el estímulo aversivo. LA MEDIDA DE LA RESPUESTA EN EL CONDIC. • Existen otros parámetros: número de ensayos. intervalo entre ensayos. Estable . siendo necesaria para que un estímulo reforzante cumpla con su condición de ser refuerzo (ej. desde el último refuerzo suministrado. .tasa de respuestas en un período de tiempo dado.

dos programas de refuerzo ante situaciones complejas: . • Se han utilizado. cuando escoge una. en un período de tiempo. siempre presentes. de tal manera que globalmente. Con este tipo de programas se ha puesto de manifiesto la importancia que tiene la inmediatez en la obtención del refuerzo.la hipótesis de la mejora: lo que hace que el animal cambie de alternativa entre una conducta y otra es la mejora de la tasa puntual de refuerzo que están recibiendo. así.Programas concurrentes: se permite al organismo escoger entre alternativas. midiendo: la tasa relativa de respuestas y la tasa relativa de refuerzos. se obtenga la mayor cantidad de refuerzo  optimización molecular (momentánea): se escoge siempre la alternativa con más probabilidades de ser reforzada en ese momento. EL ESTUDIO DE LA CONDUCTA DE ELECCIÓN • En estudio experimental de los programas de refuerzo ante situaciones complejas se realiza a través de la conducta de elección. que puede ser de dos maneras:  optimización global (molar): se escoge distribuyendo las respuestas entre varias alternativas. fundamentalmente. por lo que la tasa de respuesta es constante. ya que el animal elige este programa aunque con otros se dispensaran a la larga más reforzadores. . se le permite una nueva elección.. • Los programas concurrentes permiten estudiar la elección más frecuente que hace el animal y la influencia que tiene el programa de refuerzo en la elección.Programas encadenados: se presentan al animal varias alternativas. que llevan cada una a un programa de refuerzo por un tiempo determinado. nueve. la conducta del organismo queda encadenada durante un tiempo a un programa de refuerzo. cuya duración es aleatoria (variable). PROGRAMAS DE REFUERZO CONCURRENTES Y PROGRAMAS DE REFUERZO ENCADENADOS. estando cada una de ellas sustentada por un programa de refuerzo. la conducta de elección se realiza según la tasa relativa de refuerzos. siendo su valor medio constante.  IV 5 significa que el intervalo medio entre dos refuerzos es de cinco minutos.etc)  no se puede averiguar el momento en que el refuerzo está disponible. Programa de intervalo variable (IV): se refuerza la primera respuesta después de transcurrido un tiempo.la hipótesis de la optimización del refuerzo. Esta hipótesis sí explicaría el mecanismo que subyace a la ley de la igualación. pero los intervalos reales son diferentes (tres. pero baja. una vez finalizado éste. ALGUNA CONSIDERACIÓN SOBRE LAS TEORÍAS DEL REFUERZO . existen dos hipótesis: . 9. Para explicar esta ley.-  produce una pausa en la emisión de la respuesta después de haber conseguido el refuerzo y un aumento significativo de la tasa de respuestas cuando se acerca al final del intervalo. • Para la ley de la igualación de Herrnstein. • Se entiende por conducta de elección aquella en que se deja al animal elegir entre varias opciones. cinco. . 10. la tasa relativa de respuestas a una alternativa es igual a la tasa relativa de refuerzos que se recibe en esa alternativa.

Tiene dos acepciones:  cantidad de reforzador: el condic es mejor conforme es mayor la cantidad y calidad del reforzador  la tasa de refuerzo que se suministra: en general. que permite cambiar respuestas simples ya existentes en respuestas nuevas más complejas. Si cambiamos de poca a mucha recompensa. Ésta es la parte observable de una función ps activadora compleja que se conoce como motivación.Cantidad de refuerzo. . Así.Efecto de contraste: consiste en varias la magnitud de la recompensa durante el período de adquisición. o . y lo llamamos depresión. el condic mejorará. ADQUISICIÓN DEL APRENDIZAJE INSTRUMENTAL DE RECOMPENSA • La adquisición en el condic de recompensa consiste en: .La teoría de la estimulación cerebral (Olds y Milner) en conexión con estas teorías motivacionales . La deprivación afecta tanto a la ejecución como al aprendizaje. de ella podemos medir varios parámetros: . para que después pueda ser reforzada . así explica que el refuerzo refuerce.Frente a todas ellas está la teoría de la prepotencia de la respuesta (Premack): sostiene que el reforzador es una respuesta que tiene más probabilidad de ser emitida que la respuesta reforzable.La teoría de la expectativa (Bolles): se centra en el incentivo que produce la mayor cantidad de comida o su mejor calidad en el animal.• Entre las teorías sobre el refuerzo.crearla a través del procedimiento de modelado (shaping) usando una combinación de refuerzo y no-refuerzo. 2. no programadora de la conducta como lo es el aprendizaje . y lo llamamos elación  negativos.un aumento de la frecuencia con que se emite una conducta operante. • Lo característico de la adquisición es: . la motivación es:  el impulso que el animal siente.esperar a que dicha conducta ocurra. las más importantes son: .en la aparición de una nueva conducta operante que no existía con anterioridad.La teoría de la reducción del impulso (Hull): hace referencia a la motivación señalando que la consecución de la comida reduce su impulso de hambre. al aumentar la tasa de refuerzo aumenta la tasa de respuesta . TEMA 15 CONDICIONAMIENTO OPERANTE DE RECOMPENSA 1. PARÁMETROS EN LA RECOMPENSA • La variable más importante es el reforzador. La razón del modelado o shaping es que cuando reforzamos una respuesta reforzamos indirectamente otras actividades en conexión con esa respuesta.Deprivación: cuanto más deprivado esté un organismo mayor será la acción de reforzamiento que produzca el reforzador. . . Los efectos de contraste pueden ser:  positivos. por la necesidad provocada con la privación  una función activadora.

LA EXTINCIÓN DEL CONDICIONAMIENTO OPERANTE DE RECOMPENSA • Entendemos por extinción en el condic de recompensa a la acción de suprimir el refuerzo a una conducta. controlamos. son: . • Existen dos fenómenos generales de la extinción: .número de refuerzos recibidos: a más esfuerzos durante la adquisición. la ponemos bajo el control de los estímulos presentes durante el refuerzo.magnitud del reforzador: a mayor magnitud durante la adquisición. Inmediatamente después de este corto período la tasa de respuesta comienza a declinar . • El aprendizaje discriminativo es el realizado mediante la discriminación de estímulos.magnitud de la motivación durante la extinción: a mayor motivación mayor resistencia 4. sólo indican que el refuerzo está o no disponible si se ejecuta la respuesta. mayor resistencia . Así.esfuerzo requerido para realizar la respuesta: cuanto más esfuerzo. obtener dicho refuerzo. APRENDIZAJE DISCRIMINATIVO Y CONTROL DE ESTÍMULOS • Al reforzar una respuesta.-  un impulso autorregulativo del organismo que activa la conducta para conseguir un equilibrio Demora del refuerzo. a su vez. la respuesta bajo control se generaliza a otras respuestas. ésta provoca tres tipos de efectos:  existe un límite de tiempo máximo de demora.al inicio de la extinción. • Las variables que afectan a la extinción. . porque si controlamos esos estímulos. con el fin de que el sujeto no pueda. • Los estímulos discriminativos son aquellos que controlan una conducta. en el que ya no se produce el aprendizaje  retrasa la adquisición del aprendizaje  disminuye el rendimiento en la ejecución del aprendizaje ya adquirido. los programas de refuerzo parcial producen mucha mayor resistencia a la extinción que los programas de refuerzo continuo . la tasa de respuesta aumenta y se hace más vigorosa. • La generalización y discriminación de estímulos son procesos complementarios. • El poner una respuesta bajo control de un estímulo produce un proceso de generalización de estímulos parecidos. mayor resistencia . mayor resistencia . de ninguna manera.programa de refuerzo: en general. que sólo se diferencian en su valor. la generalización es el punto de partida para la discriminación • El aprendizaje realizado mediante los procesos de discriminación de estímulos se llama aprendizaje discriminativo. No provocan o elicitan una conducta. la conducta. esto es muy importante.el fenómeno de la recuperación espontánea o aumento de la tasa de respuesta en la sesión posterior. 3. Igualmente. se relacionan con la resistencia a la extinción.

el escape y la evitación tienen como efecto aumentar la posibilidad de la conducta de escape o de evitación del estímulo aversivo. Depende de varios factores:  número de veces que se aparea con el reforzador primario  nivel de motivación bajo el que se produce el apareamiento con el reforzador primario  distancia entre el reforzador condicionado y el reforzador primario en una cadena de conducta • Siempre la potencia de un reforzador secundario es menor que la de un reforzador primario.es necesario que esta experiencia de aparecer asociado el estímulo ineficaz con el reforzador primario se produzca repetidas veces .5. OPERANTE CON ESTÍMULO AVERSIVO 1. al condic que se establece mediante estos reforzadores secundarios se le llama condicionamiento de segundo orden.  es refuerzo.el castigo tiene por efecto el que no emitamos una conducta: en él no hay reforzamiento . y por eso reciben ambas el nombre de refuerzo negativo. podemos decir que: . hay reforzamiento. • La medida de la fuerza de un reforzador secundario se establece por su: . • Pasos del proceso: . se dice que está basado en el reforzador primario experimentado por el organismo. INTRODUCCIÓN • Hay tres situaciones de condic en que se utiliza el estímulo aversivo: .este reforzador condicionado.potencia: magnitud relativa en mantener una conducta. TEMA 16 CONDIC.Castigo: la emisión de una respuesta hace aparecer el estímulo aversivo de manera ineludible e inescapable.existe un estímulo que no tiene consecuencia sobre la conducta anterior contingente con él . . . CONDICIONAMIENTO OPERANTE DE SEGUNDO ORDEN • Los reforzadores secundarios (o condicionados) son estímulos contiguos a un reforzador primario que se condicionan clásicamente para producir sus mismos efectos de reforzamiento. por tanto. • Con respecto al efecto que estas situaciones producen en la conducta.durabilidad: veces que el reforzador condicionado tiene efectos de reforzador primario . porque lo que se refuerza es la conducta que hace que no esté el estímulo (reforzador) 2. REFUERZO NEGATIVO .Escape: la emisión de una respuesta permite huir del estímulo aversivo que estaba presente. • Así. porque el estímulo aversivo incrementa o mantiene la respuesta de escape o evitación  es negativo.Evitación: la emisión de una respuesta tiene como consecuencia que no aparezca el estímulo aversivo.

 En el primer programa. • • El paradigma de evitación de Sidman es un paradigma experimental (no teórico) que utiliza un procedimiento con dos programas de intervalos para conseguir un aprendizaje de evitación sin estímulo discriminativo. pero si antes de esto el animal presiona de nuevo la palanca. viene una nueva demora del estímulo aversivo de diez segundos. sino que es reforzada. señalando que lo que primero ocurre es un proceso de condic clásico de respuesta emocional de miedo a un EC y.  El paradigma de evitación de Sidman se trata de un aprendizaje de evitación sin estímulo discriminativo. produce indefensión en el animal y un decremento de la respuesta de escape lento y errático. éste último no aparecerá.no se presenta el estímulo aversivo. como señala Reynolds . . programa A. produce una extinción más rápida. 2. • La evitación es más eficaz para establecer una conducta motora que el condic clásico de defensa. aunque se emita la conducta de escape. con lo cual el animal puede llegar a evitar duraderamente la aparición del estímulo aversivo. diez segundos). en que esta última es una conducta respondiente. • En el condic de escape el estímulo discriminativo es el mismo estímulo aversivo. el intervalo es fijo y aparece el estímulo aversivo cada x tiempo (un segundo o dos). . una vez que éste ha comenzado a estar presente . Si el animal emite entonces una conducta de evitación (por ejemplo. es el refuerzo de la respuesta de escape lo que reduce ese miedo.no hay castigo porque huímos del estímulo aversivo y hay un incremento o mantenimiento de una conducta: la conducta de escapar. según el cual el estímulo aversivo se retrasa (por ejemplo.1. el programa B.impedir la conducta de evitación no dejando al animal dar la respuesta. Al cabo de esos diez segundos aparecería de nuevo el programa A. porque el estímulo aversivo siempre se presenta. presionar una palanca) se interrumpe este programa y aparece el segundo programa.tampoco hay evitación. condicionada clásicamente y evocada por el estímulo. Existen dos procedimientos de extinción en el condic de evitación: . Escape • Consiste en dar una respuesta que haga desaparecer un estímulo aversivo. aunque luego escapemos de él. mientras que el escape es una conducta operante que no es evocada o elicitada.2. • Mowrer elabora una teoría para explicar el aprendizaje de evitación: la teoría de los dos procesos. • Hay dos situaciones de provocar extinción en el condic de escape: .2. con lo que el animal puede asociar la no emisión de la respuesta de evitación y la no presentación del estímulo aversivo. Evitación • Consiste en que si el sujeto emite una respuesta cuando aparece el estímulo discriminativo. después. previo al estímulo aversivo. • Se diferencia de la conducta de defensa.se mantiene presente el estímulo aversivo. • La adquisición y mantenimiento del condic de escape sigue las mismas reglas que el condic de recompensa.

Con ellos se da paso a un nivel de conducta más superior: el nivel cognitivo. en este caso. la extinción tiende a ser más lenta. cognitivos o emocionales que actúan como auténticos estímulos consiguiendo hacer aparecer. Su principal efecto es la supresión de una conducta operante.su demora tiene los mismos efectos atenuantes que la demora del refuerzo en la recompensa. • En él no hay refuerzo. TEMA 18 ASPECTOS COGNITIVOS EN EL CONDIC OPERANTE: Procesos interiores en el refuerzo parcial. si se suprime. las investigaciones actuales indican que no produce neurosis de modo necesario. • La versión no discriminativa del condic de omisión no ha sido muy utilizada. son hechos o eventos de conciencia. • Su objetivo es entrenar a los sujetos a que no den una respuesta concreta.para ser eficaz tiene que ser continuado.- suministrar el estímulo aversivo aunque el animal emita la conducta de evitación. Actualmente. la moderna investigación demuestra de modo innegable la eficacia del castigo. CASTIGO • Es el proceso por el que un estímulo aversivo es contingente con la emisión de la respuesta. LOS ESTÍMULOS INTERIORES O PROCESOS INTERIORES EN EL REFUERZO PARCIAL • Los estímulos interiores. es castigo no refuerzo. creándose situaciones perturbadoras de indefensión. 3.los castigos de más duración suprimen la conducta más que los castigos de corta duración . se tiende a explicarlo en interacción con las respuestas específicas innatas de los organismos antes los estímulos aversivos. la supresión de la conducta castigada es mayor . incluso con mayor frecuencia . por lo que se denomina. .conforme el castigo es más fuerte. • Thorndike consideraba que el castigo no era eficaz. aunque puede producir síntomas neuróticos en situaciones de mala aplicación. que son diferentes de los estímulos internos o interoceptivos. en cambio. El entrenamiento de omisión • Consiste en que la emisión de una respuesta impide la aparición de un premio. también: castigo negativo. cuyo efecto es la supresión de la respuesta cuando un estímulo discriminativo señala que el premio no está disponible.1. • Sobre los efectos perjudiciales del castigo. El aprendizaje observacional 1. • Ha sido muy utilizado el enfoque discriminativo de la omisión o de período de tiempo fuera. por eso. porque su efecto es la disminución o supresión de la respuesta. 3. mantener y controlar una conducta. • Las principales características del castigo como aprendizaje operante son: . la conducta tiende a aparecer de nuevo. en esta situación no hay reforzamiento.

Su estudio es importante porque lleva también a la admisión de procesos cognitivos:  se considera efecto. Estas teorías discrepan en cuál es el mecanismo que interioriza o hace las veces del estímulo reforzante y en la naturaleza de los estímulos reforzantes interiorizados: .para la teoría secuencial de Capaldi.no hay apelación a algún proceso cognitivo . En él se invierte la ley general del aprendizaje instrumental.la resistencia a la extinción en el refuerzo parcial es mucho mayor que con refuerzo continuo. .los resultados del proceso de interiorización son de naturaleza sensorial las interpretaciones teóricas de la resistencia a la extinción en el refuerzo parcial son cuatro: .el efecto patterning . porque el refuerzo ® y no refuerzo (N) siguen un determinado patrón.decremento por generalización: con el refuerzo parcial los sujetos aprenden en situaciones similares a la extinción y. por tanto. sino que la respuesta es una al conjunto de la secuencia refuerzo no-refuerzo. por la presencia de éstos . de tal manera que a un refuerzo sigue una menor probabilidad de la respuesta. . los dos autores que postulan dos teorías que explican el proceso de la interiorización del estímulo reforzante.los estímulos reforzantes interiorizados son de naturaleza emocional . Consiste en que si sometemos a un sujeto experimental a un programa de refuerzo parcial en secuencia alternativa regular N R N R N R.hipótesis de los refuerzos condicionados: al estar presentes los refuerzos condicionados en todos los ensayos. generalizan menos el decremento de la respuesta ante el no-refuerzo. .• • • En los programas de aprendizaje con refuerzo parcial aparecen dos fenómenos que se explican por la existencia de un proceso interior que hace las veces de reforzador.para la teoría de la frustración condicionada (Amsel). Del estudio de ambos fenómenos ha surgido la controversia Amsel-Capaldi. cuando el estímulo externo ha dejado ya de actuar. Según Mackintosh esta . porque en él se invierte la ley general del aprendizaje instrumental  se considera patterning. encontramos que el animal corre más después de los ensayos N que tras los ensayos R.hipótesis de la unidad de respuesta: lo explica suponiendo que lo que se aprende no es a contestar después de cada refuerzo. el mecanismo que interioriza el estímulo es un mecanismo de aprendizaje. el mecanismo interiorizador del estímulo reforzante se trata de un proceso cognitivo . por eso los estudios sobre la resistencia a la extinción sirven tanto para distinguir el condic clásico del operante como para separar el condic operante del modelo de aprendizaje con estímulo o procesos interiores . porque los animales no discriminarían entre el proceso de adquisición y el de extinción . según los modelos clásico e instrumental.hipótesis de la discriminación: explicaría la resistencia a la extinción en el refuerzo parcial. donde N indica ensayo no reforzado y R indica ensayo reforzado. el animal contesta en los ensayos norefuerzo.

como efecto patterning. con lo que el animal la aprende. • Se llama observacional porque se fundamenta en la observación. Este mecanismo presenta muchas dificultades b) la hipótesis secuencial (Capaldi): lo explica porque los postefectos que produce la carrera N no son la frustración condicionada. • Este aprendizaje no consiste en la formación de una asociación E-R.acudiendo a los estímulos interiores o procesos cognitivos. a continuación la N produce la frustración que energetiza la conducta y la R siguiente refuerza esa frustración. aunque con diferentes explicaciones. sino trazos de memoria que perduran en el siguiente ensayo R.acudiendo a estímulos externos. Esta hipótesis presenta dos tipos de defectos:  metodológico: consiste en computar los daatos de las dos primeras carreras N-R. enfatiza los aspectos cognitivos. por eso es muy lento en su carrera. produciéndose un condic por el que el trazo de memoria se convierte en estímulo discriminativo. sino que la tardanza en la carrera N y la posterior velocidad en la carrera R. aprendizaje vicario. se deben a un cambio en las motivaciones del animal. que señala que en la carrera siguiente está disponible el refuerzo. aprendizaje social. sino su aprendizaje en un plano cognitivo. hay otras tres explicaciones: 1) el animal huele la comida en la caja-meta antes de realizar una carrera reforzada 2) actúan las feromonas que los animales irían dejando en el recorrido (feromonas son sustancias que dejan los animales y que informan a éstos de ciertos hechos) 3) los postefectos del refuerzo o restos de comida que quedarían en la boca del animal . sino en la adquisición de representaciones cognitivas de la conducta del modelo. cuando en la realidad no lo son. En la primera carrera. la primera R produce una expectativa en el animal. • También es conocido como: modelado. El estímulo (conducta del modelo) no provoca la ejecución de la imitación. dos personas: el modelo y el observador. el animal explora. pues se hace una referencia a la memoria muy vaga y general. Esta hipótesis desarrolla la teoría anticipatoria de Hull. y se llama social porque requiere la participación de.  de conceptualización. Se han dado dos tipos de explicaciones del efecto patterning: . al menos. estarían las hipótesis: a) la hipótesis de la frustración (Ansel): cuando hay una secuencia N R N R.• hipótesis está a la base de las posiciones de Amsel y Capaldi. aprendizaje por imitación. señalando que el mecanismo que hipotetiza es un mecanismo de aprendizaje. . no un proceso cognitivo.EL APRENDIZAJE OBSERVACIONAL • Definición de aprendizaje observacional según Bandura: “aprendizaje sobre una base vicaria. Esta frustración aprendida en las carreras N hace que el animal corra más en las carreras R que le siguen secuencialmente. 2. por medio de la observación de la conducta de otra persona y de las consecuencias que dicha conducta tiene sobre ella”.

que los aspectos relevantes de la conducta del modelo sean fácilmente discriminales . TEMA 19 PANORAMA ACTUAL DE LA PS DEL APRENDIZAJE 1.que la conducta del modelo sea expuesta de modo real.  proceso de retención o registro. El refuerzo del modelo hace las veces del refuerzo del observador.el nivel de inteligencia de la persona que observa . En general. constituye un modelo muy adecuado para el aprendizaje humano en el que se evitan muchas dificultades propias del condic clásico y operante. LA COGNICIÓN ANIMAL . Lo mismo que el observador recibe refuerzo de la conducta imitada en virtud del refuerzo que recibe el modelo.que sea del mismo sexo que el observador y edad semejante .procesos de refuerzo.su educación anterior o historia de aprendizaje .sus características afectivas o emocionales  características estimulares: .trato afectivo que el modelo establece con el observador  características del observador: .su competencia y experiencia en la conducta que realiza . Las variables que influyen fundamentalmente los procesos de reproducción motora son las capacidades físicas de los sujetos . El aprendizaje por el modelo observacional recibe el nombre de “modelado” (no confundir con el shaping)y es un aprendizaje social. Los procesos básicos de la ejecución del aprendizaje por observación son : .procesos de reproducción motora.• • • • Los procesos básicos en el aprendizaje observacional son tres:  atención y discriminación.sexo y edad . también la conducta a imitar puede ser castigada vicariamente. mediante imágenes o por descripción verbal. Se puede realizar por imágenes o símbolos verbales  procesos de elaboración cognitiva. Esta reelaboración puede consistir en realizar un esquema general de la conducta observada. Este proceso atencional es influenciado por:  las características del modelo: . Para que se produzca este aprendizaje es necesario que el observador atienda a la conducta que realiza el sujeto que hace de modelo y que el observador discrimine los aspectos más relevantes de dicha conducta. El nombre de condic vicario consiste en que se recibe el refuerzo en virtud del refuerzo que recibe el modelo en la conducta que ejecuta. Consiste en el almacenaje y recuperación del material perceptual adquirido por la observación. en virtud del castigo que recibe el modelo por ejecutar esa determinada conducta. Es la reelaboración que hace el sujeto del material que ha observado. estado y poder social del modelo . aunque todo lo que se puede aprender por estos condic se puede aprender también por aprendizaje observacional.el prestigio.

se han centrado en el pensamiento. dentro de la ps del aprendizaje. La memoria espacial en los animales. Fue Tolman el primero en hablar del aprendizaje espacial en términos de mapas cognitivos. como una representación neurológica bien a través de registros o de imágenes mentales que puede explicar una conducta. sino que hace falta representaciones mentales de esas asociaciones.cómo es el mecanismo que las almacena. que pretenden estudiar diversos procesos cognitivos como: memoria. La memoria es el proceso que permite el almacenaje y la reproducción de lo adquirido en el aprendizaje. Estas investigaciones han dado lugar a diversos paradigmas experimentales. según un mapa cognitivo. De este modo. su duración es corta . es hoy en día un campo de investigación dentro de la cognición animal. ya que se sabe que los . y con la metodología del análisis experimental de la conducta. investigando la formación de conceptos perceptuales. Otros estudios sobre cognición animal. a través de su aprendizaje perceptivo u observacional. se pretende conocer la evolución de la cognición humana. concretamente las inferencias proactiva y retroactiva o aquellos acontecimientos y/o procesos que provocan que olvidemos lo anterior o posteriormente aprendido.qué información representan. no estudian los procesos en sí. que es igual que conectar un signo con su memoria de referencia. En general. que se concreta en la representación o mapas cognitivos.cómo guían posteriormente la conducta. que sirve para localizar un lugar determinado en un espacio complejo.cómo se forman esas representaciones neurológicas. . el animal reacciona instrumentalmente. es de larga duración. el estudio de la cognición animal tiene como objetivo el conocimiento de la conducta animal. Para él. inferidos desde la conducta que hacen referencia a procesos de pensamiento.memoria de trabajo: se trata de una retención en la memoria de un estímulo o relación. La mayor parte de las investigaciones sobre memoria de trabajo se refieren al estudio de la memoria espacial. formación de conceptos. sólo para la ejecución de una tarea determinada. lo que el animal aprende es a poner en relación una configuración estimular con otra. sino los procesos básicos del aprendizaje a los que pretende dar una interpretación cognitiva. La cognición animal comenzó con el estudio de la memoria. ya que no son suficientes las cadenas de estímulos para explicarlo. Por tanto. En los estudios sobre memoria animal se consideran dos tipos: .memoria de referencia: se trata de un almacenamiento a largo plazo para una ejecución acertada de la información que el animal acaba de aprender. y a través de ello. Estos estudios pretenden investigar: . y . . Se han estudiado las alteraciones de la memoria en los animales. Se centran en el estudio de procesos interiores.• • • • • • • • • • • • • • Los estudios de cognición animal son el estudio de procesos cognitivos en animales. razonamiento y lenguaje en las especies animales. que no se explicaría por los estímulos externos sólo. El tiempo por sí mismo no produce olvido.

• Para dilucidar cómo es la accesibilidad a la conciencia de un conocimiento implícito y cuál es su naturaleza. Otra investigación sobre cognición animal es el estudio del aprendizaje de pautas seriales. porque parece que los amnésicos mantienen la habilidad del aprendizaje procedimental pero no la del declarativo. para luego cambiar por la estimulación percibida conscientemente. sin tener que considerar una característica determinada. siendo el conocimiento de esa regla lo que explica que responda correctamente a las diferentes pautas de estímulos. • Existe otros dos tipos de aprendizaje: . • La distinción entre ambos ha sido utilizada para explicar disociaciones en la ejecución de sujetos amnésicos en algunas tareas de memoria. Lo fácil sería que el sujeto manifestase si es consciente de esa relación o no. pero en el aprendizaje implícito no es posible. Se ha señalado que los animales para formar tales conceptos perceptuales. Actualmente Capaldi. se ha utilizado el aprendizaje de gramáticas artificiales y el aprendizaje de secuencias. • Lo implícito no está en el conocimiento consciente del estímulo en sí. Explica la adquisición de diferentes habilidades: motoras. • Para el estudio del aprendizaje implícito se acudió primero a la estimulación subliminal. aplican reglas que les permiten identificar las características del estímulo.otro implícito en el que actúan mecanismos no conscientes. ESTUDIOS DE APRENDIZAJE HUMANO • Dentro de los estudios de aprendizaje con experimentación en humanos. 2. haciendo la abstracción de una regla a partir de una secuencia de estímulos. dentro de su teoría secuencial. .el aprendizaje procedimental que hace referencia a la adquisición de reglas de condición-acción. por eso su evaluación es tan complicada.• • • • animales pueden organizar la percepción de los estímulos en categorías y responder a un estímulo que pertenezca a una determinada. sino de la adquisición del conocimiento de las relaciones del estímulo con otros. señala que el animal aprende pautas seriales de refuerzo.uno explícito en que actúan mecanismos conscientes .el aprendizaje declarativo que tiene que ver con la adquisición de conocimientos de hechos o proposiciones. el problema está en la existencia o no de dos sistemas de aprendizaje: . sociales y cognitivas . Las representaciones de las categorías de estímulos perceptuales son los conceptos perceptuales.