Professional Documents
Culture Documents
Prompt Engineering
Prompt Engineering
ENGINEERING
Descubre cómo el uso de modelos
generativos de texto e imágenes
puede potenciar tus habilidades
1
Temario del
curso
2
Clase 1
¿Qué es el Prompt
Engineering?
• Conceptos generales.
• Instalación del entorno de trabajo.
• Tu primera conversación con ChatGPT.
• Escritura de prompts.
• Cómo hablarle a ChatGPT: estructura de un prompt.
• La tecnología detrás del prompt engineering.
• Conceptos básicos de Inteligencia Artificial
• Aprendizaje automático.
• Redes neuronales.
• Modelos secuenciales.
• Modelos de atención.
• Transformers.
3
INTRODUCCIÓN
• Conceptos generales.
• Qué es ChatGPT.
• ¿Para qué podemos aprovecharlo?
• Escritura de prompts.
• ¿Qué es un prompt?
4
Cómo hablarle a ChatGPT:
estructura de un prompt.
“La fórmula mágica”
1. Rol
2. Resultado
3. Objetivo
4. Contexto o audiencia
5. Limitaciones
Extra:
“Me harás preguntas una por una, para
generarme la mejor respuesta posible.
Hasta que no responda una pregunta, no
harás la otra. ¿Entendido?”
5
INTELIGENCIA ARTIFICIAL.
PROCESAMIENTO DE
LENGUAJE NATURAL
6
La tecnología detrás del
Prompt Engineering.
• OpenAI
• Entrenamiento
7
La tecnología detrás del Prompt Engineering.
• OpenAI
Creadora de Chat-GPT
Fundada en Diciembre de 2015
Sede en San Francisco, California, EEUU
375 empleados
Investigación y desarrollo de I.A. con el objetivo de promover y asegurar
su desarrollo seguro y beneficioso.
• Entrenamiento
• Clasificación
• Tipos de aprendizaje
• Tipos de datos
9
Conceptos básicos de Inteligencia Artificial
Clasificación
Inteligencia Artificial
General (IAG) Supervisado
No
Supervisado
I.A.
Reforzado
Inteligencia
Aprendizaje Automático Profundo
Artificial
(Machine Learning) (Deep Learning)
Específica (IAE)
10
Conceptos básicos de Inteligencia Artificial
Tipos de aprendizaje
Etiquetas de salida
Regresión Clasificación
Supervisado X (m**2) Y (precio) Puntaje Y (aprobado)
99% de las 50 100.000 85 1
aplicaciones 80 140.000 55 0
130 180.000 72 1
Clustering
No supervisado
Sin etiquetas de salida.
Encuentra patrones por su cuenta
Estado,
recompensa
Reforzado Ambiente
Acción
Conceptos básicos de Inteligencia Artificial
Tipos de datos
Estructurados
X (m**2) Y (precio) Puntaje Y (aprobado)
50 100.000 85 1
80 140.000 55 0
130 180.000 72 1
No estructurados
• Nociones básicas
• Tipos de modelos
• Entrenamiento
13
Aprendizaje automático
Tipos de modelos
• Regresión
• Lineal
• Polinomial
• Clasificación
• Regresión logística
• Árboles de decisión
• Aprendizaje no
supervisado
• Clustering
• Detección de anomalías
• Sistemas de
recomendación
• Aprendizaje reforzado
• Aprendizaje profundo
• Redes neuronales
14
Aprendizaje automático
Entrenamiento
Gradient descent / Descenso del gradiente
𝑦^ = 𝑤𝑡𝑥 + 𝑏
Error: 𝑦 ^ − 𝑦
Etiqueta vs estimación del modelo
Costo: suma de todos los errores
𝑚 Una vez entrenados w y b,
1
J(w,b)= (𝑦 ^(𝑖) −𝑦 (𝑖) )2 podemos usar el modelo
2𝑚 para hacer “inferencia”
𝑖=1
¡99% de la IA se reduce
Algoritmo iterativo a esto!
w y b tal que J es mínimo (Con más variables)
𝑑𝐽(𝑤, 𝑏)
𝑤𝑗 =𝑤𝑗 − α
𝑑𝑤
𝑑𝐽(𝑤, 𝑏)
𝑏𝑗 =𝑏𝑗 − α
𝑑𝑏
15
Redes
neuronales.
• ¿Qué son?
• Ventajas
• Estructuras básicas
16
Redes neuronales.
¿Qué son?
Modelos matemáticos con más variables, mejor rendimiento, mayor costo de
procesamiento y mayor requerimiento de datos
17
Redes neuronales.
Ventajas
¡Mucho mejor rendimiento para tareas más complejas!
18
Redes neuronales.
Estructuras básicas
Casos complejos de
regresión o
clasificación, casos
Totalmente conectadas simples de clasificación
de imágenes,
entrenamiento de
embeddings
Computer
Convolucionales vision
Recurrentes
19
Procesamiento de lenguaje natural (NLP)
NLP
• ¿Qué es?
• Modelos secuenciales
• Modelos de atención
• Transformers
20
¿Qué es el NLP?
Busca comprender, interpretar y generar texto o habla de manera similar a como lo hacen
los seres humanos.
Ejemplos de aplicaciones:
• Chatbots.
• Reconocimiento de voz.
• Análisis de sentimientos.
• Traducción.
• Clasificación y resumen de textos.
• Reconocimiento de entidades.
21
Interpretación
El Lenguaje Natural puede ser visto como una secuencia de palabras o sonidos que
se organizan y estructuran de cierta manera para formar un mensaje coherente.
Tokenizar: separar palabras del texto en entidades llamadas tokens. Deberemos pensar si
utilizaremos los signos de puntuación como token, si daremos importancia o no a las
mayúsculas y si unificamos palabras similares en un mismo token.
“Creoquevaallover,mejormellevoel…”
𝑥 <1> 𝑥 <2> …
22
Modelos secuenciales
Las Redes Neuronales Recurrentes, (o RNN, por sus siglas en inglés) se utilizan en el
procesamiento de secuencias de datos, como texto, habla, señales de tiempo o datos
secuenciales en general, en los que existen dependencias temporales o de contexto.
A lo largo del tiempo fueron surgiendo variaciones de este tipo de Redes Recurrentes.
Como las RNN Bidireccionales, GRU ( Gated Recurrent Units ) o LSTM Long Short Term
Memory
23
Codificación y embeddings
“Creo que va a llover , mejor me llevo el paraguas”
𝑥 <1> … 𝑥 <10> 𝑇𝑋 = 10
VOCABULARIO = [a, … , <EOS>, <UNK>]
Cada elemento del vocabulario tiene una numeración. P.E, “Creo” = 341
Entonces podemos interpretar la oración como vectores y con la numeración del
vocabulario
𝑥 <1> = O341 = (1 0 0 0 0 0 0 0 0 0) → Codificación One-hot
Los mecanismos de atención son una técnica que permite a los modelos de lenguaje
asignar diferentes pesos o niveles de importancia a diferentes partes de una secuencia de
palabras o texto, en función de su relevancia para la tarea específica en cuestión. Estos
mecanismos simulan el proceso de atención humano, en el cual nuestro cerebro se enfoca
en ciertas partes de la información que recibimos, ignorando otras partes menos
relevantes en ese momento.
“Elperroestabaenelsalóndurmiendotranquilo”
El color más oscuro
marca que con que
palabras tiene mas
relación
25
Transformers
FuepropuestaporVaswanietal.ensuartículo"AttentionisAllYouNeed“en2017,y
desde entonces se ha convertido en una de las arquitecturas más utilizadas y exitosas
en el NLP, especialmente en tareas de traducción de idiomas, generación de texto y
otras aplicaciones de procesamiento de secuencias de palabras.
Decodificador
Codificador
Mecanismo de
atención Embedding
(salida)
Posicionamiento
de cada palabra
Embedding
(entrada)
26
Modelo de Año de Cantidad de
Organización Características Principales
Lenguaje presentación Parámetros
Elman RNN 1990 John Elman Variable Primer modelo de RNN
Sepp Hochreiter y Jürgen
LSTM 1997 Millones RNN con celdas de memoria
Schmidhuber
RNN simplificada con celdas
GRU 2014 Kyunghyun Cho et al. Millones
de memoria
Modelo de incrustación de
Word2Vec 2013 Tomas Mikolov et al. 3-4 Millones
palabras basado en vectores
Modelo de lenguaje
110 Millones
BERT 2018 Google Research bidireccional preentrenado
(BERT Base)
con enmascaramiento
117 Millones Modelo de lenguaje
GPT-1 2018 OpenAI
(GPT-1 Small) autónomo y generativo
1.5 mil millones Modelo de lenguaje
GPT-2 2019 OpenAI
(GPT-2 1.5B) autónomo y generativo
Modelo de lenguaje
T5 2019 Google Research 220 Millones multitarea para transferencia
de aprendizaje
Modelo de lenguaje
175 Mil Millones
GPT-3 2020 OpenAI autónomo y generativo con
(GPT-3 175B)
gran cantidad de parámetros