TRADUCCION - GPT - Una Mirada Preliminar Al Potencial de Impacto en El Mercado Laboral de Los Grandes Modelos Lingüísticos - En.es

Traducido del inglés al español - www.onlinedoctranslator.
com
HOJA DE TRABAJO
Los GPT son GPT: una mirada preliminar al impacto en el mercado laboral
Potencial de los modelos de lenguaje grande
Tyna Eloundou1, SamManning1,2, Pamela Mishkin∗1y Daniel Roca3
1IA abierta
arXiv:2303.10130v4 [econ.GN] 23 de marzo de 2023
2investigación abierta
3Universidad de Pennsylvania
27 de marzo de 2023
Abstracto
Investigamos las implicaciones potenciales de los modelos de lenguaje grande (LLM), como los transformadores preentrenados generativos (GPT), en el mercado laboral de los EE. Usando una nueva rúbrica,
evaluamos las ocupaciones en función de su alineación con las capacidades de LLM, integrando la experiencia humana y las clasificaciones GPT-4. Nuestros hallazgos revelan que alrededor del 80 % de la fuerza laboral de
EE. UU. podría tener al menos el 10 % de sus tareas laborales afectadas por la introducción de los LLM, mientras que aproximadamente el 19 % de los trabajadores pueden ver afectadas al menos el 50 % de sus tareas. No
hacemos predicciones sobre el cronograma de desarrollo o adopción de dichos LLM. Los efectos proyectados abarcan todos los niveles salariales, con trabajos de mayores ingresos que potencialmente enfrentan una
mayor exposición a las capacidades de LLM y al software impulsado por LLM. Significativamente, estos impactos no se limitan a las industrias con un mayor crecimiento de la productividad reciente. Nuestro análisis sugiere
que, con acceso a un LLM, alrededor del 15 % de todas las tareas de los trabajadores en los EE. UU. podrían completarse significativamente más rápido con el mismo nivel de calidad. Al incorporar software y herramientas
construidos sobre LLM, esta participación aumenta a entre el 47 y el 56 % de todas las tareas. Este hallazgo implica que el software impulsado por LLM tendrá un efecto sustancial en la escala de los impactos económicos
de los modelos subyacentes. Concluimos que los LLM, como los GPT, exhiben características de tecnologías de propósito general, lo que indica que podrían tener implicaciones económicas, sociales y políticas
considerables. alrededor del 15% de todas las tareas de los trabajadores en los EE. UU. podrían completarse significativamente más rápido con el mismo nivel de calidad. Al incorporar software y herramientas construidos
sobre LLM, esta participación aumenta a entre el 47 y el 56 % de todas las tareas. Este hallazgo implica que el software impulsado por LLM tendrá un efecto sustancial en la escala de los impactos económicos de los
modelos subyacentes. Concluimos que los LLM, como los GPT, exhiben características de tecnologías de propósito general, lo que indica que podrían tener implicaciones económicas, sociales y políticas considerables.
alrededor del 15% de todas las tareas de los trabajadores en los EE. UU. podrían completarse significativamente más rápido con el mismo nivel de calidad. Al incorporar software y herramientas construidos sobre LLM, esta
participación aumenta a entre el 47 y el 56 % de todas las tareas. Este hallazgo implica que el software impulsado por LLM tendrá un efecto sustancial en la escala de los impactos económicos de los modelos subyacentes.
Concluimos que los LLM, como los GPT, exhiben características de tecnologías de propósito general, lo que indica que podrían tener implicaciones económicas, sociales y políticas considerables. Este hallazgo implica que el
software impulsado por LLM tendrá un efecto sustancial en la escala de los impactos económicos de los modelos subyacentes. Concluimos que los LLM, como los GPT, exhiben características de tecnologías de propósito
general, lo que indica que podrían tener implicaciones económicas, sociales y políticas considerables. Este hallazgo implica que el software impulsado por LLM tendrá un efecto sustancial en la escala de los impactos económicos de los modelos subyacentes. Concluimos que
1. Introducción
Como se muestra en la Figura 1, los últimos años, meses y semanas han visto un progreso notable en el campo de la IA
generativa y los modelos de lenguaje extenso (LLM). Si bien el público a menudo asocia los LLM con varias iteraciones del
Transformador preentrenado generativo (GPT), los LLM se pueden entrenar utilizando una variedad de arquitecturas y no se
limitan a modelos basados en transformadores (Devlin et al., 2019). Los LLM pueden procesar y producir varias formas de
datos secuenciales, incluido el lenguaje ensamblador, las secuencias de proteínas y los juegos de ajedrez, que se extienden
más allá de las aplicaciones de lenguaje natural. En este documento, usamos LLM y GPT de manera intercambiable, y
especificamos en nuestra rúbrica que estos deben considerarse similares a la familia de modelos GPT disponibles a través de
ChatGPT o OpenAI Playground (que en el momento del etiquetado incluía modelos en el GPT- 3. 5 pero no en la familia
GPT-4). Examinamos los LLM con capacidades de generación de texto y código, usamos el término "IA generativa" para
incluir modalidades adicionales como imágenes o audio, y usamos "software impulsado por LLM" para cubrir herramientas
construidas sobre LLM o que combinan LLM con otros modelos generativos de IA.
∗Autor para correspondencia ( pamela@openai.com ). Los autores contribuyeron por igual y se enumeran alfabéticamente.
HOJA DE TRABAJO
Figura 1: Para tener una idea de qué tan rápido están progresando las capacidades del modelo, considere el salto en el
rendimiento del examen entre GPT-3.5 y GPT-4 (OpenAI, 2023b).
Sin embargo, nuestro estudio está menos motivado por el progreso de estos modelos y más por la amplitud, la escala y
las capacidades que hemos visto en las tecnologías complementarias desarrolladas a su alrededor. Queda por ver el papel de
las tecnologías complementarias, pero maximizar el impacto de los LLM parece depender de su integración con sistemas
más grandes (Bresnahan, 2019; Agrawal et al., 2021). Si bien el enfoque de nuestra discusión se centra principalmente en las
capacidades generativas de los LLM, es importante señalar que estos modelos también se pueden utilizar para diversas
tareas más allá de la generación de texto. Por ejemplo, las incrustaciones de LLM se pueden usar para aplicaciones de
búsqueda personalizadas, y los LLM pueden realizar tareas como resúmenes y clasificación donde el contexto puede estar
contenido en gran medida en el aviso.
Para complementar las predicciones de los impactos de la tecnología en el trabajo y proporcionar un marco para comprender el
panorama en evolución de los modelos lingüísticos y sus tecnologías asociadas, proponemos una nueva rúbrica para evaluar las
capacidades de LLM y sus posibles efectos en los trabajos. Esta rúbrica (A.1) mide la exposición general de las tareas a los LLM,
siguiendo el espíritu del trabajo anterior sobre la cuantificación de la exposición al aprendizaje automático (Brynjolfsson et al., 2018;
Felten et al., 2018; Webb, 2020). Definimos la exposición como un indicador del impacto económico potencial sin distinguir entre los
efectos de aumento o desplazamiento de la mano de obra. Empleamos anotadores humanos y el propio GPT-4 como clasificador
para aplicar esta rúbrica a los datos ocupacionales en la economía de EE. UU., principalmente provenientes de la base de datos
O*NET.12
Para construir nuestro conjunto de datos de exposición principal, recolectamos anotaciones humanas y clasificaciones GPT-4,
utilizando un indicador ajustado para concordar con una muestra de etiquetas de los autores. Observamos niveles de concordancia
similares en las respuestas de GPT-4 y entre las evaluaciones de humanos y máquinas, cuando se agregan al nivel de tarea.
1Esto es distinto de la investigación reciente en ciencias sociales que utiliza LLM para simular el comportamiento humano (Horton, 2023; Sorensen et
al., 2022)
2Si bien nuestra rúbrica de exposición no vincula necesariamente el concepto de modelos de lenguaje a ningún modelo en particular, nos motivaron
mucho nuestras capacidades observadas de GPT-4 y el conjunto de capacidades que vimos en desarrollo con los socios de lanzamiento de OpenAI
(OpenAI, 2023b).
HOJA DE TRABAJO
Esta medida de exposición refleja una estimación de la capacidad técnica para hacer más eficiente el trabajo humano; sin embargo,
los determinantes sociales, económicos, normativos y de otro tipo implican que la viabilidad técnica no garantiza la productividad
laboral ni los resultados de la automatización. Nuestro análisis indica que aproximadamente el 19 % de los trabajos tienen al menos
el 50 % de sus tareas expuestas al considerar tanto las capacidades del modelo actual como las herramientas anticipadas construidas
sobre ellas. Las evaluaciones humanas sugieren que solo el 3 % de los trabajadores de EE. UU. tiene más de la mitad de sus tareas
expuestas a LLM cuando se consideran las capacidades de código y lenguaje existentes sin software o modalidades adicionales.
Teniendo en cuenta otros modelos generativos y tecnologías complementarias, nuestras estimaciones humanas indican que hasta el
49 % de los trabajadores podrían tener la mitad o más de sus tareas expuestas a LLM.
Nuestros hallazgos muestran consistentemente tanto en anotaciones humanas como GPT-4 que la mayoría de las
ocupaciones exhiben algún grado de exposición a LLM, con niveles de exposición variables en diferentes tipos de trabajo. Las
ocupaciones con salarios más altos generalmente presentan una mayor exposición, un resultado contrario a evaluaciones
similares de exposición general al aprendizaje automático (Brynjolfsson et al., 2023). Al hacer una regresión de las medidas
de exposición en conjuntos de habilidades utilizando la rúbrica de habilidades de O*NET, descubrimos que los roles que
dependen en gran medida de las habilidades científicas y de pensamiento crítico muestran una correlación negativa con la
exposición, mientras que las habilidades de programación y escritura se asocian positivamente con la exposición LLM.
Siguiendo a Autor et al. (2022a), examinamos las barreras de entrada por "Zonas laborales" y encontramos que la exposición
ocupacional a los LLM aumenta débilmente con la dificultad de la preparación laboral. En otras palabras,
Además, comparamos nuestras mediciones con esfuerzos anteriores que documentan la distribución de la exposición a la
automatización en la economía y encontramos resultados ampliamente consistentes. La mayoría de las otras medidas de exposición
a la tecnología que examinamos están estadísticamente significativamente correlacionadas con nuestra medida de exposición
preferida, mientras que las medidas de la rutina manual y la exposición a la robótica muestran correlaciones negativas. La varianza
explicada por estos esfuerzos anteriores (Acemoglu y Autor, 2011a; Frey y Osborne, 2017; Brynjolfsson et al., 2018; Felten et al., 2018;
Webb, 2020; Brynjolfsson et al., 2023), junto con los controles salariales , oscila entre el 60 y el 72 %, lo que indica que entre el 28 y el
40 % de la variación en nuestra medida de exposición a la IA sigue sin tenerse en cuenta en las medidas de exposición a tecnologías
anteriores.
Analizamos la exposición por industria y descubrimos que las industrias de procesamiento de información (NAICS de 4 dígitos)
exhiben una exposición alta, mientras que la manufactura, la agricultura y la minería muestran una exposición más baja. La conexión
entre el crecimiento de la productividad en la última década y la exposición general a LLM parece débil, lo que sugiere un posible
caso optimista de que las futuras ganancias de productividad de los LLM pueden no exacerbar los posibles efectos de la enfermedad
de costos (Baumol, 2012; Aghion et al., 2018).3
Nuestro análisis indica que es probable que los impactos de LLM como GPT-4 sean generalizados. Si bien los LLM han
mejorado constantemente sus capacidades a lo largo del tiempo, se espera que su creciente efecto económico persista y
aumente incluso si detenemos el desarrollo de nuevas capacidades hoy. También encontramos que el impacto potencial de
los LLM se expande significativamente cuando tenemos en cuenta el desarrollo de tecnologías complementarias. En
conjunto, estas características implican que los transformadores preentrenados generativos (GPT) son tecnologías de
propósito general (GPT).4 (Bresnahan y Trajtenberg, 1995; Lipsey et al., 2005).
(Goldfarb et al., 2023) argumentan que el aprendizaje automático como categoría amplia es probablemente una tecnología de
propósito general. Nuestra evidencia respalda un impacto más amplio, ya que incluso los subconjuntos de software de aprendizaje
automático cumplen los criterios para el estado de tecnología de uso general de forma independiente. Las principales contribuciones
de este documento son proporcionar un conjunto de mediciones del potencial de impacto de LLM y demostrar el caso de uso de la
aplicación de LLM para desarrollar dichas mediciones de manera eficiente y a escala. Además, mostramos el potencial de propósito
general de los LLM. Si los "GPT son GPT", la eventual trayectoria del desarrollo y la aplicación de LLM puede ser un desafío para que
los legisladores predigan y regulen. Al igual que con otras tecnologías de propósito general, gran parte de estos algoritmos
3La enfermedad de costos de Baumol es una teoría que explica por qué el costo de los servicios intensivos en mano de obra, como la atención médica y la
educación, aumenta con el tiempo. Esto sucede porque aumentan los salarios de los trabajadores calificados en otras industrias, pero no hay un aumento
correspondiente en la productividad o la eficiencia en estas industrias de servicios. Por lo tanto, el costo de la mano de obra en estas industrias se vuelve
relativamente más caro en comparación con otros bienes y servicios en la economía.
4En el resto del documento, detallaremos las tecnologías de propósito general cuando se usan fuera de la declaración "GPT son GPT".
HOJA DE TRABAJO
surgirá potencial en una amplia gama de casos de uso económicamente valiosos, incluida la creación de nuevos tipos de
trabajo (Acemoglu y Restrepo, 2018; Autor et al., 2022a). Nuestra investigación sirve para medir lo que es técnicamente
factible ahora, pero necesariamente perderá el potencial de impacto evolutivo de los LLM con el tiempo.
El documento está estructurado de la siguiente manera: la Sección 2 revisa el trabajo anterior relevante, la Sección 3 analiza los métodos
y la recopilación de datos, la Sección 4 presenta estadísticas y resultados resumidos, la Sección 5 relaciona nuestras mediciones con esfuerzos
anteriores, la Sección 6 analiza los resultados y la Sección 7 ofrece conclusiones. comentarios
2. Revisión de la literatura
2.1 El avance de los modelos de lenguaje grande

En los últimos años, los modelos generativos de IA han atraído una atención significativa tanto de la comunidad de investigación de
inteligencia artificial (IA) como del público en general, debido a su capacidad para abordar una amplia gama de tareas complejas
basadas en el lenguaje. El progreso en las capacidades de estos modelos ha sido impulsado por múltiples factores, incluido un mayor
número de parámetros del modelo, un mayor volumen de datos de entrenamiento y configuraciones de entrenamiento mejoradas
(Brown et al., 2020; Radford et al., 2019; Hernandez et al., 2021). ; Kaplan et al., 2020). Los LLM amplios y de última generación, como
LaMDA (Thoppilan et al., 2022) y GPT-4 (OpenAI, 2023b), se destacan en diversas aplicaciones como traducción, clasificación, escritura
creativa y generación de código, capacidades que anteriormente exigía modelos especializados y específicos de tareas desarrollados
por ingenieros expertos utilizando datos específicos del dominio.
Al mismo tiempo, los investigadores han mejorado la capacidad de dirección, la confiabilidad y la utilidad de estos modelos
utilizando métodos como el ajuste fino y el aprendizaje por refuerzo con retroalimentación humana (Ouyang et al., 2022; Bai et al.,
2022). Estos avances mejoran la capacidad de los modelos para discernir la intención del usuario, haciéndolos más fáciles de usar y
prácticos. Además, estudios recientes revelan el potencial de los LLM para programar y controlar otras herramientas digitales, como
API, motores de búsqueda e incluso otros sistemas generativos de IA (Schick et al., 2023; Mialon et al., 2023; Chase, 2022). Esto
permite una integración perfecta de componentes individuales para una mejor utilidad, rendimiento y generalización. En su límite,
estas tendencias sugieren un mundo en el que los LLM pueden ser capaces de ejecutar cualquier tarea que normalmente se realiza
en una computadora.
Los modelos de IA generativa se han implementado principalmente como especialistas modulares, realizando tareas específicas
como generar imágenes a partir de subtítulos o transcribir texto a partir del habla. Sin embargo, argumente que es esencial
considerar los LLM como bloques de construcción versátiles para crear herramientas adicionales. Desarrollar estas herramientas e
integrarlas en los sistemas requerirá tiempo y posiblemente una reconfiguración significativa de los procesos existentes en varias
industrias. Sin embargo, ya estamos presenciando tendencias de adopción emergentes. A pesar de sus limitaciones, los LLM se están
integrando cada vez más en aplicaciones especializadas en campos como asistencia en escritura, codificación e investigación legal.
Estas aplicaciones especializadas luego permiten que las empresas y las personas adopten LLM en sus flujos de trabajo.
Hacemos hincapié en la importancia de estas tecnologías complementarias, en parte porque los LLM de propósito general listos
para usar pueden seguir siendo poco confiables para varias tareas debido a problemas como imprecisiones fácticas, sesgos
inherentes, preocupaciones de privacidad y riesgos de desinformación (Abid et al., 2021; Schramowski et al., 2022; Goldstein et al. .,
2023; OpenAI, 2023a). Sin embargo, los flujos de trabajo especializados, que incluyen herramientas, software o sistemas humanos en
el circuito, pueden ayudar a abordar estas deficiencias mediante la incorporación de experiencia en un dominio específico. Por
ejemplo, Casetext ofrece herramientas de investigación legal basadas en LLM que brindan a los abogados resultados de investigación
legal más rápidos y precisos, utilizando incrustaciones y resúmenes para contrarrestar el riesgo de que GPT-4 pueda proporcionar
detalles inexactos sobre un caso legal o un conjunto de documentos. GitHub Copilot es un asistente de codificación que emplea LLM
para generar fragmentos de código y código de autocompletado, que los usuarios pueden aceptar o rechazar según su experiencia.
En otras palabras, si bien es cierto que GPT-4 por sí solo no "sabe qué hora es", es bastante fácil darle un reloj.
Además, puede surgir un ciclo de retroalimentación positiva a medida que los LLM superan un umbral de rendimiento
específico, lo que les permite ayudar a construir las herramientas que mejoran su utilidad y facilidad de uso en varios
HOJA DE TRABAJO
contextos. Esto podría reducir el costo y la experiencia en ingeniería necesarios para crear tales herramientas, lo que podría acelerar
aún más la adopción e integración de LLM (Chen et al., 2021; Peng et al., 2023). Los LLM también pueden convertirse en activos
valiosos en el desarrollo de modelos de aprendizaje automático, sirviendo como asistentes de codificación para investigadores,
servicios de etiquetado de datos o generadores de datos sintéticos. Existe la posibilidad de que dichos modelos contribuyan a la toma
de decisiones económicas a nivel de tarea, por ejemplo, mediante el perfeccionamiento de métodos para la asignación de tareas y
subtareas entre humanos y máquinas (Singla et al., 2015; Shahaf y Horvitz, 2010). A medida que los LLM avanzan con el tiempo y se
alinean mejor con las preferencias de los usuarios, podemos anticipar una mejora continua en el rendimiento. Sin embargo, es
esencial reconocer que estas tendencias también conllevan una variedad de riesgos graves. (Khlaaf et al., 2022; Weidinger et al.,
2022; Solaiman et al., 2019)
2.2 Los impactos económicos de las tecnologías de automatización
Un amplio y creciente cuerpo de literatura aborda los impactos en el mercado laboral de la IA y las tecnologías de automatización. El
concepto de cambio tecnológico sesgado por las habilidades y el modelo de tarea de la automatización, a menudo considerado el
marco estándar para comprender la influencia de la tecnología en el trabajo, se originó a partir de investigaciones que demostraron
que el progreso tecnológico aumenta la demanda de trabajadores calificados sobre los trabajadores no calificados (Katz y Murphy,
1992) . Numerosos estudios se han basado en este concepto, explorando los efectos del cambio tecnológico y la automatización en
los trabajadores dentro de un marco basado en tareas (Autor et al., 2003; Acemoglu y Autor, 2011b; Acemoglu y Restrepo, 2018). Esta
línea de investigación ha demostrado que los trabajadores involucrados en tareas rutinarias y repetitivas corren un mayor riesgo de
desplazamiento impulsado por la tecnología, un fenómeno conocido como cambio tecnológico sesgado por la rutina. Estudios más
recientes han distinguido entre los efectos de desplazamiento de tareas y reincorporación de tareas de la tecnología (donde la nueva
tecnología aumenta la necesidad de una gama más amplia de tareas intensivas en mano de obra) (Acemoglu y Restrepo, 2018, 2019).
Varios estudios han demostrado que las tecnologías de automatización han generado desigualdad salarial en los EE. UU., impulsada
por la disminución relativa de los salarios de los trabajadores que se especializan en tareas rutinarias (Autor et al., 2006; Van Reenen,
2011; Acemoglu y Restrepo, 2022b).
Investigaciones anteriores han empleado varios enfoques para estimar la superposición entre las capacidades de IA y
las tareas y actividades que realizan los trabajadores en diferentes ocupaciones. Estos métodos incluyen mapear
descripciones de patentes a descripciones de tareas de trabajadores (Webb, 2020; Meindl et al., 2021), vincular capacidades
de IA con habilidades ocupacionales documentadas en la base de datos O*NET (Felten et al., 2018, 2023), alinear tareas de IA
evaluaciones comparativas con tareas de los trabajadores a través de las habilidades cognitivas (Tolan et al., 2021),
etiquetado del potencial de automatización para un subconjunto de ocupaciones de EE. UU. y uso de clasificadores de
aprendizaje automático para estimar este potencial para todas las demás ocupaciones de EE. automatización a nivel y
agregación de los resultados a conocimientos a nivel de ocupación (Arntz et al., 2017), recopilación de pronósticos de
expertos (Grace et al., 2018), y, lo que es más relevante para este documento, diseñar una nueva rúbrica para evaluar las
actividades de los trabajadores en cuanto a su idoneidad para el aprendizaje automático (Brynjolfsson et al., 2018, 2023).
Algunos de estos enfoques han encontrado que la exposición a las tecnologías de IA a nivel de tarea tiende a diversificarse
dentro de la ocupación. Considerando cada trabajo como un conjunto de tareas, sería raro encontrar una ocupación para la
cual las herramientas de IA pudieran hacer casi todo el trabajo. (Autor et al., 2022a) también encuentra que las exposiciones
de automatización y aumento tienden a estar correlacionadas positivamente. También hay un conjunto creciente de estudios
que examinan los impactos económicos específicos y las oportunidades para los LLM (Bommasani et al., 2021; Felten et al.,
2023; Korinek, 2023; Mollick y Mollick, 2022; Noy y Zhang, 2023; Peng et al. ., 2023). Junto a este trabajo,
Las tecnologías de propósito general (por ejemplo, la impresión, la máquina de vapor) se caracterizan por una
proliferación generalizada, una mejora continua y la generación de innovaciones complementarias (Bresnahan y Trajtenberg,
1995; Lipsey et al., 2005). Sus consecuencias de largo alcance, que se desarrollan a lo largo de décadas, son difíciles de
prever, particularmente en relación con la demanda laboral (Bessen, 2018; Korinek y Stiglitz, 2018; Acemoglu et al., 2020;
Benzell et al., 2021). La realización de todo el potencial de las tecnologías de propósito general requiere una gran coinvención
(Bresnahan y Trajtenberg, 1995; Bresnahan et al., 1996, 2002; Lipsey et al., 2005; Dixon et al.,
HOJA DE TRABAJO
2021), un proceso costoso y lento que involucra el descubrimiento de nuevos procedimientos comerciales (David,
1990; Bresnahan, 1999; Frey, 2019; Brynjolfsson et al., 2021; Feigenbaum y Gross, 2021). En consecuencia, muchos
estudios de tecnologías de aprendizaje automático se centran en la adopción a nivel de sistemas, argumentando que
los sistemas organizacionales pueden requerir un rediseño para aprovechar de manera efectiva los nuevos avances
del aprendizaje automático (Bresnahan, 2019; Agrawal et al., 2021; Goldfarb et al., 2023) . Los sistemas diseñados
adecuadamente pueden generar un valor comercial considerable y mejorar el desempeño de la empresa (Rock, 2019;
Babina et al., 2021; Zolas et al., 2021), con herramientas de IA que facilitan el proceso de descubrimiento (Cockburn et
al., 2018; Cheng et al. ., 2022). Al emplear información a nivel de tarea para evaluar si los LLM cumplen con los
criterios de una tecnología de propósito general,
Intentamos aprovechar estas diversas corrientes literarias de varias maneras. Haciéndonos eco de (Felten et al., 2023), enfocamos nuestro
análisis en el impacto de los LLM, en lugar de abordar las tecnologías de aprendizaje automático o automatización de manera más amplia.
Además, proponemos un método novedoso que emplea LLM, específicamente GPT-4, para evaluar la exposición y el potencial de
automatización de las tareas, lo que refuerza los esfuerzos humanos de puntuación. Posteriormente, agregamos nuestros hallazgos a
ocupaciones e industrias, capturando la exposición potencial general en el mercado laboral estadounidense contemporáneo.
3 Métodos y recopilación de datos
3.1 Datos sobre actividades y tareas realizadas por ocupación en los EE. UU.
Utilizamos la base de datos O*NET 27.2 (O*NET, 2023), que contiene información sobre 1.016 ocupaciones, incluidas sus respectivas
actividades de trabajo detalladas (DWA) y tareas. Un DWA es una acción integral que forma parte de completar una tarea, como
"Estudiar guiones para determinar los requisitos del proyecto". Una tarea, por otro lado, es una unidad de trabajo específica de la
ocupación que puede estar asociada con cero, uno o múltiples DWA. Ofrecemos una muestra de tareas y DWA en la Tabla 1. Los dos
conjuntos de datos que usamos consisten en:
• 19.265 tareas, que consisten en una "descripción de tareas" y una ocupación correspondiente, y
• 2087 DWA, donde la mayoría de los DWA están conectados a una o más tareas, y las tareas pueden estar asociadas
con uno o más DWA, aunque algunas tareas carecen de DWA asociados.
3.2 Datos sobre salarios, empleo y demografía

Obtenemos datos de empleo y salarios de las series de empleo ocupacional de 2020 y 2021 proporcionadas por la Oficina de
Estadísticas Laborales. Este conjunto de datos abarca los títulos ocupacionales, la cantidad de trabajadores en cada
ocupación y las proyecciones de empleo a nivel de ocupación para 2031, la educación típica requerida para ingresar a una
ocupación y la capacitación en el trabajo requerida para alcanzar la competencia en una ocupación (BLS, 2022) . Usamos el
paso de peatones recomendado por BLS a O*NET (BLS, 2023b) para vincular el conjunto de datos de tareas y DWA de O*NET
y la Demografía de la fuerza laboral de BLS (BLS, 2023a), que se deriva de la Encuesta de población actual (CPS). Ambas
fuentes de datos son recopiladas por el gobierno de los EE. UU. y capturan principalmente a trabajadores que no trabajan
por cuenta propia, están documentados y trabajan en la llamada economía formal.
3.3 Exposición
Presentamos nuestros resultados en base a una rúbrica de exposición, en la que definimosexposicióncomo una medida de si el
acceso a un LLM o un sistema impulsado por LLM reduciría el tiempo requerido para que un ser humano realice un DWA específico o
complete una tarea en al menos un 50 por ciento. Aunque GPT-4 tiene capacidades de visión, OpenAI (2023b) y "LLM" se usan a
menudo para referirse a una gama mucho más amplia de modalidades, las capacidades de visión e imagen solo fueron
HOJA DE TRABAJO
identificación de la tarea Ocupación Título DWA Descripción de la tarea
14675 Sistemas Informáticos Supervisar el rendimiento del sistema informático para Supervisar el funcionamiento del sistema para detectar posibles
Ingenieros/Arquitectos garantizar el correcto funcionamiento. problemas.
18310 Enfermeras de cuidados agudos Operar instrumentos o equipos médicos de Configurar, operar o monitorear equipos y
diagnóstico o terapéuticos. Preparar dispositivos invasivos, como equipos de colostomía
suministros o equipos médicos para su uso. o traqueotomía, ventiladores mecánicos, catéteres,
tubos gastrointestinales y vías centrales.
4668.0 Jaula de juego Ejecutar ventas u otras transacciones Cobrar cheques y procesar adelantos de tarjetas de crédito
trabajadores financieras. para los clientes.
15709 Comerciantes en línea Ejecutar ventas u otras transacciones Envíe la confirmación por correo electrónico de las
financieras. transacciones completadas y el envío.
6529 Jardín de infancia – Involucre a los padres voluntarios y estudiantes mayores en las
Maestros, Excepto actividades de los niños para facilitar la participación en juegos
Educación especial complejos y enfocados.
6568 Escuela primaria – Involucre a los padres voluntarios y estudiantes mayores en las
Maestros, Excepto actividades de los niños para facilitar la participación en juegos
Educación especial complejos y enfocados.
Tabla 1: Muestra de ocupaciones, tareas y actividades laborales detalladas de la base de datos O*NET. Vemos que la agregación de
actividades por sí sola es imprecisa, como lo demuestra el hecho de que esperaríamos que los Gambling Cage Workers completen el
DWA en persona, usando algo de actividad física, mientras que esperaríamos que los Comerciantes en línea completen la misma
actividad únicamente con una computadora. .
incluido en nuestra definición de software impulsado por LLM. Proporcionamos un resumen de nuestra rúbrica a continuación,
mientras que la rúbrica completa se puede encontrar en A.1. Cuando tenemos etiquetas para DWA, primero las agregamos al nivel
de tareas antes de agregarlas al nivel de ocupación.
Resumen de la rúbrica de exposición
Sin exposición (E0) si:

• el uso del LLM descrito da como resultado una reducción nula o mínima en el tiempo requerido para
completar la actividad o tarea mientras se mantiene una calidad equivalenteao
• el uso del LLM descrito da como resultado una disminución en la calidad del resultado de la actividad/tarea.
Exposición directa (E1) si:
• el uso del LLM descrito a través de ChatGPT o el área de juegos de OpenAI puede reducir el tiempo
necesario para completar el DWA o la tarea al menos a la mitad (50 %).
LLM+ Expuesto (E2) si:
• el acceso al LLM descrito por sí solo no reduciría el tiempo requerido para completar la actividad/tarea
por lo menos a la mitad, pero
• Se podría desarrollar un software adicional además del LLM que podría reducir el tiempo que lleva
completar la actividad/tarea específica con calidad al menos a la mitad. Entre estos sistemas contamos el
acceso a los sistemas de generación de imágenes.b
aCalidad equivalente significa que un tercero, generalmente el destinatario del resultado, no notaría ni se preocuparía
por la asistencia de LLM.
bEn la práctica, como puede verse en la rúbrica completa del Apéndice A.1, categorizamos el acceso a las capacidades de imagen
por separado (E3) para facilitar la anotación, aunque combinamos E2 y E3 para todos los análisis.
Establecemos el umbral de exposición en una reducción potencial del 50 % en el tiempo necesario para completar una DWA o
tarea específica mientras mantenemos una calidad constante. Anticipamos que la adopción será la más alta e inmediata.
HOJA DE TRABAJO
para aplicaciones que realizan un aumento considerable en la productividad. Aunque este umbral es un tanto arbitrario, fue
seleccionado para facilitar la interpretación por parte de los anotadores. Además, independientemente del umbral elegido,
supusimos que la reducción del tiempo de tarea en el mundo real probablemente sería leve o significativamente menor que nuestras
estimaciones, lo que nos llevó a optar por un umbral relativamente alto. En nuestro propio etiquetado de validación, encontramos
que esto se correspondía estrechamente con si un LLM o un software impulsado por LLM podía realizar la parte central de una tarea
o casi toda la tarea.
Comparación Acuerdo de ponderación de Pearson

GPT-4, Rúbrica 1; Humano E1 80,8% 0.223
E1 + 0,5*E2 65,6% 0.591
Z E1 + E2 82,1% 0.654
GPT-4, Rúbrica 2; Humano E1 81,8% 0.221

E1 + 0,5*E2 65,6% 0.538
Z E1 + E2 79,5% 0.589
GPT-4, Rúbrica 1; GPT-4, Rúbrica 2 E1 91,1% 0.611

E1 + 0,5*E2 76,0% 0.705
Z E1 + E2 82,4% 0.680
Tabla 2: Comparación humana y de modelo de concordancia y puntajes de correlación de Pearson. La puntuación de acuerdo se
determina observando la frecuencia con la que los dos grupos están de acuerdo con la anotación (p. ej., E0, E1 o E2). En el
documento usamos GPT-4, Rúbrica 1.
Luego recopilamos anotaciones generadas tanto por humanos como por GPT-4 utilizando la rúbrica de exposición, que subyace en la
mayor parte de los análisis de este documento.
• Calificaciones humanas:Obtuvimos anotaciones humanas aplicando la rúbrica a cada Actividad detallada del
trabajador (DWA) de O*NET y un subconjunto de todas las tareas de O*NET y luego agregamos esos puntajes de
tareas y DWA5en los niveles de tarea y ocupación. Los autores etiquetaron personalmente una gran muestra de
tareas y DWA y reclutaron anotadores humanos experimentados que revisaron los resultados de GPT-3, GPT-3.5 y
GPT-4 como parte del trabajo de alineación de OpenAI (Ouyang et al., 2022).
• Calificaciones GPT-4:Administramos una rúbrica similar a una versión anterior de GPT-4 (OpenAI, 2023b) pero en
todos los pares de tarea/ocupación en lugar de DWA. Hicimos ligeras modificaciones a la rúbrica (que se usó como un
"indicador" para el modelo en este caso) para mejorar el acuerdo con un conjunto de etiquetas humanas. Las tasas
de acuerdo total se dan en la Tabla 2.
Construimos tres medidas principales para nuestra variable dependiente de interés: (i) , correspondiente a E1 en la rúbrica de
exposición anterior, anticipada para representar el límite inferior de la proporción de tareas expuestas dentro de una ocupación, (ii) ,
que es la suma de E1 y 0,5*E2, donde la ponderación de 0,5 en E2 está destinada a tener en cuenta la exposición cuando el
despliegue de la tecnología a través de herramientas y aplicaciones complementarias requiere una inversión adicional, y (iii)Z, la
suma de E1 y E2, un límite superior de exposición que proporciona una evaluación de la exposición máxima a un LLLM y un software
con tecnología LLM. Resumimos la concordancia entre los grupos de anotaciones y las medidas en la Tabla 2. Para el resto del
análisis, si no se especifica, el lector puede suponer que nos referimos a exposición: lo que significa que todas las tareas expuestas
directamente a través de herramientas como ChatGPT o OpenAI Playground se consideran el doble de expuestas que las tareas que
requieren alguna innovación complementaria.
5Los autores anotaron los DWA que claramente requerían un alto grado de destreza física o manual, y los anotadores contratados etiquetaron las
actividades restantes, junto con un subconjunto de tareas, incluidas aquellas sin DWA asociados y aquellas para las que no hubo una anotación clara a
nivel de tarea después de agregar las anotaciones DWA.
HOJA DE TRABAJO
Figura 2: Los evaluadores humanos (eje x) y las calificaciones GPT-4 (eje y) muestran un alto grado de acuerdo sobre la exposición a LLM por ocupación.
Cerca de los niveles más altos de exposición después de la método de agregar puntajes de exposición a las ocupaciones, las calificaciones GPT-4 tienden
a ser más bajas que las calificaciones humanas. Presentamos el gráfico de dispersión sin procesar y el binscatter. Cerca del extremo superior de las
calificaciones de exposición, los humanos tienen, en promedio, más probabilidades de calificar una ocupación como expuesta.
3.4 Limitaciones de nuestra metodología
3.4.1 Juicios humanos subjetivos
Una limitación fundamental de nuestro enfoque radica en la subjetividad del etiquetado. En nuestro estudio, empleamos
anotadores que están familiarizados con las capacidades de LLM. Sin embargo, este grupo no es ocupacionalmente diverso,
lo que puede llevar a juicios sesgados con respecto a la confiabilidad y efectividad de los LLM en el desempeño de tareas
dentro de ocupaciones desconocidas. Reconocemos que obtener etiquetas de alta calidad para cada tarea en una ocupación
requiere trabajadores dedicados a esas ocupaciones o, como mínimo, que posean un conocimiento profundo de las diversas
tareas dentro de esas ocupaciones. Esto representa un área importante para el trabajo futuro en la validación de estos
resultados.
3.4.2 Medición de LLM con GPT-4
Investigaciones recientes indican que GPT-4 sirve como un discriminador efectivo, capaz de aplicar taxonomías complejas y
responder a cambios en la redacción y el énfasis (OpenAI, 2023b). Los resultados de la clasificación de tareas GPT-4 son
sensibles a las alteraciones en la redacción de la rúbrica, el orden y la composición de las indicaciones, la presencia o
ausencia de ejemplos específicos en la rúbrica, el nivel de detalle proporcionado y las definiciones dadas para los términos
clave. Repetir la solicitud, en función de los resultados observados en un pequeño conjunto de validación, puede mejorar la
concordancia entre los resultados del modelo y la intención de la rúbrica. En consecuencia, existen ligeras diferencias entre la
rúbrica presentada a los humanos y la utilizada para GPT-4. Esta decisión se tomó deliberadamente para guiar el modelo
hacia etiquetas razonables sin influir excesivamente en los anotadores humanos. Como resultado, usamos múltiples fuentes
de anotación, pero ninguna debe considerarse la verdad básica definitiva en relación con las demás. En este análisis,
presentamos resultados de anotadores humanos como nuestros resultados principales. Sigue siendo posible una mayor
mejora e innovación en la elaboración de rúbricas efectivas para la clasificación LLM. Aún así, observamos un alto grado de
acuerdo entre las calificaciones humanas y las calificaciones GPT-4 a nivel de ocupación con respecto a la exposición general
a los sistemas LLM (ver Tabla 2, Figura 2).
HOJA DE TRABAJO
3.4.3 Debilidades adicionales
• Validez del marco basado en tareas.No está claro hasta qué punto las ocupaciones pueden dividirse por completo en
tareas, y si este enfoque omite sistemáticamente ciertas categorías de habilidades o tareas que se requieren tácitamente
para el desempeño competente de un trabajo. Además, las tareas pueden estar compuestas de subtareas, algunas de las
cuales son más automatizables que otras. Algunas tareas pueden funcionar como precursoras de otras tareas, de modo que
la finalización de las tareas posteriores depende de las tareas precursoras. Si, de hecho, el desglose basado en tareas no es
una representación válida de cómo se realiza la mayor parte del trabajo en una ocupación, nuestro análisis de exposición
quedaría invalidado en gran medida.
• Falta de experiencia e interpretación de tareas.Los anotadores humanos en su mayoría desconocían las ocupaciones
específicas asignadas a cada DWA durante el proceso de etiquetado. Esto condujo a una lógica poco clara para agregar
tareas y ocupaciones, así como a algunas discrepancias evidentes en las etiquetas, que se muestran en la Tabla 1.
Experimentamos con varios métodos de agregación y descubrimos que incluso con un enfoque de coincidencia máxima
(tomando la etiqueta del modelo <>humano coincidente si existiera), el acuerdo se mantuvo relativamente consistente. En
última instancia, recopilamos etiquetas adicionales para los pares de tarea/ocupación donde hubo un desacuerdo
significativo.
• Con visión de futuro y sujeto a cambios, con alguna evidencia preliminar.Predecir con precisión futuras aplicaciones LLM
sigue siendo un desafío importante, incluso para los expertos (OpenAI, 2023b). El descubrimiento de nuevas capacidades
emergentes, los cambios en los sesgos de percepción humana y los cambios en el desarrollo tecnológico pueden afectar la
precisión y confiabilidad de las predicciones sobre el impacto potencial de los LLM en las tareas de los trabajadores y el
desarrollo de software impulsado por LLM. Nuestras proyecciones son inherentemente prospectivas y se basan en las
tendencias actuales, la evidencia y las percepciones de las posibilidades tecnológicas. Como resultado, pueden cambiar a
medida que surgen nuevos avances en el campo. Por ejemplo, algunas tareas que parecen poco probables para los LLM o el
software basado en LLM hoy en día podrían cambiar con la introducción de las nuevas capacidades del modelo. Por el
contrario, las tareas que parecen expuestas pueden enfrentar desafíos imprevistos que limitan las aplicaciones del modelo de
lenguaje.
• Fuentes de desacuerdo.Si bien no examinamos rigurosamente las fuentes de desacuerdo, encontramos algunos
lugares donde los humanos y el modelo tendían a "atascarse" en sus evaluaciones:
– Tareas o actividades en las que, si bien un LLM teóricamente podría ayudar o realizar la tarea, adoptarlo para
hacerlo requeriría que varias personas cambiaran sus hábitos o expectativas (por ejemplo, reuniones,
negociaciones),
– Tareas o actividades donde actualmente existe alguna regulación o norma que requiere o sugiere supervisión
humana, juicio o empatía (por ejemplo, toma de decisiones, asesoramiento), y
– Tareas o actividades donde ya existe una tecnología que puede automatizar razonablemente la tarea (por
ejemplo, hacer reservas).
4 resultados
Las tecnologías de uso general son relativamente raras y se caracterizan por su omnipresencia, su mejora con el tiempo y el
desarrollo de importantes coinvenciones y efectos indirectos (Lipsey et al., 2005). Nuestra evaluación del impacto potencial
de los LLM en el mercado laboral es limitada, ya que no considera la productividad total de los factores ni el potencial de
entrada de capital. Además de su influencia en el trabajo, los LLM también pueden influir en estas dimensiones.
En esta etapa, algunos criterios de tecnología de propósito general son más fáciles de evaluar que otros. Nuestro enfoque
principal en esta etapa inicial es probar la hipótesis de que los LLM tienen una influencia generalizada en la economía, similar al
enfoque adoptado por (Goldfarb et al., 2023), quien analizó la difusión del aprendizaje automático a través de
HOJA DE TRABAJO
ofertas de trabajo para evaluar su estado como una tecnología de uso general. En lugar de utilizar ofertas de trabajo o
estudiar el aprendizaje automático en general, empleamos el enfoque de evaluación de tareas con anotaciones tanto
humanas como GPT-4. Este análisis puede revelar si los impactos se limitan a un conjunto específico de tareas u ocupaciones
similares o si serán más generalizados.
Nuestros hallazgos sugieren que, según sus capacidades de nivel de tarea, los LLM tienen el potencial de afectar significativamente una
amplia gama de ocupaciones dentro de los EE. UU. economía, demostrando un atributo clave de las tecnologías de propósito general. En las
siguientes secciones, discutimos los resultados a través de varios roles y estructuras salariales. Los resultados adicionales sobre la exposición
relativa de las industrias dentro de la economía de los EE. UU. se pueden encontrar en el Apéndice D.
4.1 Resumen de estadísticas
Las estadísticas resumidas para estas medidas se pueden encontrar en la Tabla 3. Tanto las anotaciones humanas como GPT-4 indican que el
nivel de ocupación promedio los valores se encuentran entre 0,14 y 0,15, lo que sugiere que, en promedio, aproximadamente el 15 % de las
tareas dentro de una ocupación están directamente expuestas a LLM. Esta cifra aumenta a más del 30% para y supera el 50% paraZ.
Coincidentemente, las anotaciones humanas y GPT-4 también etiquetan entre el 15 % y el 14 % del total de tareas en el conjunto de datos
como expuestas a LLM. Basado en el valores, estimamos que el 80% de los trabajadores pertenecen a una ocupación con al menos el 10% de
sus tareas expuestas a LLM, mientras que el 19% de los trabajadores están en una ocupación donde más de la mitad de sus tareas están
etiquetadas como expuestas.
Realizamos un conjunto de análisis utilizando las puntuaciones de "Importancia" de O*NET, pero no encontramos cambios significativos en
nuestros hallazgos. Aunque reconocemos que no ponderar la importancia relativa de una tarea para una ocupación determinada produce algunos
resultados curiosos (por ejemplo, clasificar a los peluqueros con una exposición razonablemente alta).
Aunque el potencial de que las tareas se vean afectadas es enorme, los LLM y el software basado en LLM deben incorporarse a
sistemas más amplios para aprovechar al máximo este potencial. Como es común con las tecnologías de propósito general, las
barreras de coinvención pueden inicialmente impedir una rápida difusión de GPT en aplicaciones económicas. Además, predecir la
necesidad de supervisión humana es un desafío, especialmente para tareas en las que las capacidades del modelo igualan o superan
los niveles humanos. Si bien el requisito de supervisión humana puede disminuir inicialmente la velocidad a la que estos sistemas se
difunden a través de la economía, es probable que los usuarios de LLM y los sistemas impulsados por LLM se familiaricen cada vez
más con la tecnología con el tiempo, particularmente en términos de comprender cuándo y cómo hacerlo. confiar en sus resultados.
Exposición al nivel de ocupación
Humano GPT-4
media estándar media
estándar 0,14 0,14 0,14
0,16 0,30 0,21 0,34 0,22
Z 0,46 0,30 0,55 0,34
Exposición del nivel de tarea
Humano GPT-4
media estándar media
estándar 0,15 0,36 0,14
0,35 0,31 0,37 0,35 0,35
Z 0,47 0,50 0,56 0,50
Tabla 3: Estadísticas resumidas de nuestros datos de exposición humana y modelo.

HOJA DE TRABAJO
Figura 3: Intensidad de la exposición en toda la economía, mostrada a la izquierda en términos de porcentaje de ocupaciones
afectadas ya la derecha como porcentaje de trabajadores afectados. La distribución de la exposición es similar entre las ocupaciones
y los trabajadores, lo que sugiere que la concentración de los trabajadores en las ocupaciones no está altamente correlacionada con
la exposición ocupacional a los LLM o al software impulsado por LLM. Sin embargo, esperamos que pueda estar más correlacionado
con la inversión en el desarrollo de software basado en LLM para dominios particulares.
4.2 Salarios y empleo

En la Figura 3, presentamos la intensidad de la exposición en toda la economía. El primer gráfico muestra la exposición en
términos de ocupaciones, mientras que el segundo gráfico muestra la exposición en términos del total de trabajadores. Cada
punto del gráfico representa el porcentaje estimado de trabajadores (y ocupaciones) en el eje y con un nivel de exposición ( ,
, yZ) indicado en el eje x. Por ejemplo, los anotadores humanos determinaron que el 2,4 % de los trabajadores son 50
-expuestos, 18.6%son 50-expuestos, y el 49,6% sonZ50-expuesto, donde el umbral del 50% proviene del eje x y el porcentaje de
trabajadores proviene del eje y en el diagrama de la derecha de la Figura 2. En cualquier punto dado en el eje x, la distancia
vertical entre el y elZrepresenta el potencial de exposición atribuible a las herramientas y aplicaciones más allá de la
exposición directa a los LLM. La distribución de la exposición es similar tanto para los trabajadores como para las
ocupaciones, lo que sugiere que la concentración de los trabajadores en las ocupaciones no tiene una fuerte correlación con
la exposición ocupacional a los LLM o al software basado en LLM.
Agregadas a nivel de ocupación, las anotaciones humanas y GPT-4 exhiben similitudes cualitativas y tienden a correlacionarse,
como se demuestra en la Figura 4. Las anotaciones humanas estiman una exposición marginalmente menor para ocupaciones de
salarios altos en comparación con las anotaciones GPT-4. Si bien existen numerosas ocupaciones de salarios bajos con exposición
alta y ocupaciones de salarios altos con exposición baja, la tendencia general en el gráfico de dispersión binaria revela que los
salarios más altos están asociados con una mayor exposición a los LLM.
La exposición potencial a los LLM parece tener poca correlación con los niveles de empleo actuales. En la Figura 4, las
calificaciones tanto humanas como GPT-4 de exposición general se agregan al nivel de ocupación (eje y) y se comparan con
el logaritmo del empleo total (eje x). Ninguno de los gráficos revela diferencias significativas en la exposición LLM a través de
diferentes niveles de empleo.
4.3 Importancia de las habilidades
En esta sección, exploramos la relación entre la importancia de una habilidad para una ocupación (como se indica en el conjunto de datos
O*NET) y nuestras medidas de exposición. Primero, usamos las Habilidades Básicas proporcionadas por O*NET (las definiciones de
habilidades se pueden encontrar en el Apéndice B) y normalizamos la medida de la importancia de las habilidades para cada ocupación para
mejorar la comprensibilidad de los resultados. A continuación, realizamos un análisis de regresión sobre nuestras medidas de exposición ( , ,Z)
para examinar la fuerza de las asociaciones entre la importancia de la habilidad y la exposición.
HOJA DE TRABAJO
Figura 4: Los diagramas binscatter representan la exposición a los modelos de lenguaje (LLM) en varias ocupaciones, según lo
evaluado por evaluadores humanos y GPT-4. Estos gráficos comparan la exposición a LLM y al software parcialmente impulsado por
LLM ( ) a nivel de ocupación contra el logaritmo del empleo total dentro de una ocupación y el logaritmo del salario medio anual para
las ocupaciones. Si bien existen algunas discrepancias, las evaluaciones de humanos y GPT-4 indican que las ocupaciones con
salarios más altos tienden a estar más expuestas a los LLM. Además, numerosas ocupaciones con salarios más bajos demuestran
una alta exposición según nuestra rúbrica. Las tareas principales reciben el doble de peso que las tareas complementarias dentro de
las ocupaciones cuando se calculan las puntuaciones de exposición promedio. Los datos de empleo y salarios provienen de la
encuesta BLS-OES realizada en mayo de 2021.
HOJA DE TRABAJO
Figura 5: calificaciones de exposición de ocupaciones en las cinco JobZones, que son grupos de ocupaciones similares que se
clasifican según el nivel de educación, experiencia y capacitación en el trabajo necesarios para realizarlas.
Nuestros hallazgos indican que la importancia decienciaypensamiento críticoLas habilidades están fuertemente asociadas
negativamente con la exposición, lo que sugiere que las ocupaciones que requieren estas habilidades tienen menos probabilidades de verse
afectadas por los LLM actuales. En cambio,programaciónyescribiendoLas habilidades muestran una fuerte asociación positiva con la
exposición, lo que implica que las ocupaciones que involucran estas habilidades son más susceptibles de verse influenciadas por los LLM
(consulte la Tabla 5 para obtener resultados detallados).
4.4 Barreras de entrada
A continuación, examinamos las barreras de entrada para comprender mejor si existe una diferenciación en la exposición debido a los tipos de
trabajos. Uno de esos proxy es un descriptor de nivel de ocupación de O*NET llamado "Zona de trabajo". Una zona laboral agrupa ocupaciones
que son similares en (a) el nivel de educación necesario para obtener un trabajo en la ocupación, (b) la cantidad de experiencia relacionada
requerida para hacer el trabajo, y (c) el grado de experiencia en el trabajo. capacitación laboral necesaria para realizar el trabajo. En la base de
datos de O*NET, hay 5 Zonas laborales, con la Zona laboral 1 que requiere la menor cantidad de preparación (3 meses) y la Zona laboral 5 que
requiere la mayor cantidad de preparación, 4 años o más. Observamos que el ingreso medio aumenta de forma monótona en todas las Zonas
laborales a medida que también aumenta el nivel de preparación necesario, con el trabajador medio en la Zona laboral 1 ganando $30,230 y el
trabajador medio en la zona laboral 5 que gana $80,980.
Todas nuestras medidas ( , , yZ) muestran un patrón idéntico, es decir, la exposición aumenta de la Zona de trabajo 1 a la
Zona de trabajo 4, y permanece similar o disminuye en la Zona de trabajo 5. Similar a la Figura 3, en la Figura 5, graficamos el
porcentaje de trabajadores en cada umbral de exposición. Encontramos que, en promedio, el porcentaje de trabajadores en
ocupaciones con más del 50% la exposición en las zonas de trabajo 1 a 5 tienen al 0,00% (Zona laboral 1), 6,11% (Zona laboral
2), 10,57% (Zona laboral 3), 34,5% (Zona laboral 4) y 26,45% (Zona laboral 5), respectivamente.
4.4.1 Educación típica necesaria para ingresar
Dado que la inclusión en una zona laboral representa tanto la educación requerida, que en sí misma es un indicador de la adquisición de
habilidades, como la preparación requerida, buscamos datos para desentrañar estas variables. Usamos dos variables de los datos
ocupacionales de la Oficina de Estadísticas Laborales: "Educación típica necesaria para el ingreso" y "Educación en el trabajo".
HOJA DE TRABAJO
Capacitación requerida para alcanzar la competencia" en una ocupación. Al examinar estos

factores, nuestro objetivo es descubrir tendencias con implicaciones potenciales para la fuerza
laboral. por lo tanto excluidos de las tablas de resumen.
Nuestro análisis sugiere que las personas que tienen una licenciatura, una maestría y títulos profesionales están más expuestas
a los LLM y al software impulsado por LLM que aquellos sin credenciales educativas formales (consulte la Tabla 7). Curiosamente,
también encontramos que las personas con cierta educación universitaria pero sin título muestran un alto nivel de exposición a los
LLM y al software impulsado por LLM. Al examinar la tabla que muestra las barreras de entrada, observamos que los trabajos con la
menor exposición requieren la mayor capacitación, lo que potencialmente ofrece una menor recompensa (en términos de ingresos
medios) una vez que se logra la competencia. Por el contrario, los trabajos que no requieren capacitación en el trabajo o que solo
requieren una pasantía/residencia parecen generar mayores ingresos, pero están más expuestos a los LLM.
HOJA DE TRABAJO
Grupo Ocupaciones con mayor exposición % Exposición
Humano Intérpretes y traductores 76.5

Investigadores de encuestas 75,0
Poetas, letristas y escritores creativos 68.8
Científicos animales 66.7
Especialistas en Relaciones Públicas 66.7
Humano Investigadores de encuestas 84.4
Escritores y Autores 82.5
Intérpretes y Traductores 82.4
Especialistas en Relaciones 80.6
Públicas Científicos Animales 77.8
HumanoZ matemáticos 100.0
Preparadores de impuestos 100.0
Escritores y autores de analistas 100.0
cuantitativos financieros 100.0
Diseñadores de interfaces web y digitales 100.0
Los humanos etiquetaron 15 ocupaciones como "totalmente expuestas".
Modelo matemáticos 100.0

Empleados de correspondencia 95.2
Ingenieros de cadena de bloques 94.1
Taquígrafos y subtituladores simultáneos Correctores 92,9
de pruebas y marcadores de copia 90,9
Modelo matemáticos 100.0
Ingenieros de cadena de bloques 97.1
Taquígrafos y subtituladores simultáneos Correctores 96.4
de pruebas y marcadores de copia 95.5
Empleados de correspondencia 95.2
ModeloZ Contadores y Auditores 100.0
Analistas de Noticias, Reporteros y Periodistas 100.0
Secretarios Legales y Asistentes Administrativos 100.0
Administradores de Datos Clínicos 100.0
Analistas de políticas de cambio climático 100.0
El modelo etiquetó 86 ocupaciones como "totalmente expuestas".
Variación más alta Estrategas de marketing de 14.5

búsqueda Diseñadores gráficos 13.4
Gestoras de Fondos de Inversión 13.0
Gestoras Financieras 13.0
Tasadores de seguros, daños a automóviles 12.6
Tabla 4: Ocupaciones con mayor exposición según cada medición. La fila final enumera las ocupaciones con la mayor 2valor,
lo que indica que tenían la mayor variabilidad en las puntuaciones de exposición. Los porcentajes de exposición indican la
proporción de la tarea de una ocupación que está expuesta a GPT ( ) o software basado en GPT ( yZ), donde la exposición se
define como la reducción del tiempo necesario para completar la tarea en al menos un 50 % (véase la rúbrica de exposición
A.1). Como tal, las ocupaciones enumeradas en esta tabla son aquellas en las que estimamos que GPT y el software con
tecnología de GPT pueden ahorrarles a los trabajadores una cantidad significativa de tiempo para completar una gran parte
de sus tareas, pero no necesariamente sugiere que sus tareas puedan ser completas. automatizado por estas tecnologías.
HOJA DE TRABAJO
Habilidad básica Z
(error estándar) (error estándar) (error estándar)
Todas las puntuaciones de importancia de las habilidades se normalizan entre 0 y 1.
Constante 0.082*** - 0,112*** 0.300***

(0.011) (0.011) (0.057)
Escucha activa 0.128** 0.214*** 0.449***

(0.047) (0.043) (0.027)
Matemáticas - 0,127*** 0.161*** 0.787***

(0.026) (0.021) (0.049)
Comprensión lectora 0.153*** 0.470*** - 0,346***

(0.041) (0.037) (0.017)
Ciencia - 0,114*** - 0,230*** - 0,346***

(0.014) (0.012) (0.017)
Discurso - 0.028 0.133*** 0,294***

(0.039) (0.033) (0.042)
Escribiendo 0.368*** 0.467*** 0.566***

(0.042) (0.037) (0.047)
Aprendizaje activo - 0,157*** - 0,065** 0.028

(0.027) (0.024) (0.032)
Pensamiento crítico - 0,264*** - 0,196*** - 0,129**

(0.036) (0.033) (0.042)
Aprendiendo estrategias - 0,072* - 0,209*** - 0,346***

(0.028) (0.025) (0.034)
Supervisión - 0,067** - 0,149*** - 0,232***

(0.023) 0.020) (0.026)
Programación 0,637*** 0,623*** 0,609***

(0.030) (0.022) (0.024)
Tabla 5: Regresión de nivel de ocupación, exposición anotada por humanos a GPT sobre la importancia de la habilidad para cada habilidad en
la categoría de habilidades básicas de O*NET, más la habilidad de programación. Las descripciones de las habilidades se pueden encontrar en
el Apéndice B.
Trabajo Preparación Educación Ejemplos de ocupaciones Mediana empo total H METRO H METRO H METRO
Zona Requerido Requerido Ingreso (000s) Z Z

1 ninguno o poco Escuela secundaria Trabajadores de preparación de $30,230 13,100 0,03 0,04 0,06 0,06 0,09 0,08
(0-3 meses) diploma o GED alimentos, lavavajillas, lijadoras de pisos
(ocional)
2 Algunos (3-12 Escuela secundaria Ordenanzas, cliente $38,215 73,962 0,07 0,12 0,16 0,20 0,24 0,27
meses) diploma representantes de servicio,
cajeros
3 Medio (1-2 Escuela vocacional, electricistas, barberos, $54,815 37,881 0,11 0,14 0,26 0,32 0,41 0,51
años) En el trabajo de formación, asistentes médicos
o asociado
grado
4 Considerable licenciatura Administradores de bases de datos, $77,345 56,833 0,23 0,18 0,47 0,51 0,71 0,85
(2-4 años) diseñadores gráficos, estimadores de
costos
5 Extenso (4+ Maestría o farmacéuticos, abogados, $81,980 21,221 0,23 0,13 0,43 0,45 0,63 0,76
años) más alto astrónomos
Tabla 6: Exposición media a GPT por zona de trabajo. Para cada zona de trabajo, también presentamos la mediana del
ingreso anual medio para cada ocupación constituyente en USD, y el número total de trabajadores en todas las ocupaciones
para esa zona de trabajo, en miles.
HOJA DE TRABAJO
Se requiere capacitación en el trabajo Ingreso medio Emp total (000 s) H METRO H METRO HZ METROZ
Ninguno $77,440 90.776 0,20 0,16 0,42 0,46 0,63 0,76

Aprendizaje $55,995 3.066 0,01 0,02 0,04 0,06 0,07 0,10
Prácticas/residencia $77,110 3.063 0,16 0,06 0,36 0,38 0,55 0,71
Capacitación en el trabajo a corto plazo $33,370 66.234 0,11 0,15 0,21 0,25 0,32 0,34
Capacitación en el trabajo a plazo moderado $46,880 31.285 0,09 0,12 0,21 0,25 0,32 0,38
Capacitación en el trabajo a largo plazo $48,925 5.070 0,08 0,10 0,18 0,22 0,28 0,33
Tabla 7: Puntuaciones medias de exposición para ocupaciones, agrupadas por nivel de capacitación en el trabajo requerida para
alcanzar la competencia en el trabajo. Junto con los puntajes de exposición, mostramos la mediana del ingreso anual promedio para
cada ocupación, así como el número total de trabajadores en cada grupo, en miles.
HOJA DE TRABAJO
5 Validación de Medidas
5.1 Comparación con esfuerzos anteriores
Este documento tiene como objetivo aprovechar una serie de estudios empíricos previos que examinan la exposición ocupacional a
los avances en IA y/o automatización. Estudios anteriores han utilizado una variedad de métodos, que incluyen:
• Usar taxonomías ocupacionales como O*NET para caracterizar qué ocupaciones tienen contenido de tareas
rutinarias versus no rutinarias y manuales versus cognitivas (Autor et al., 2003; Acemoglu y Autor, 2011a).
• Asignación de descripciones de texto de tareas a descripciones de avances tecnológicos en patentes. (Kogan et al.,
2021; Webb, 2020)
• Vincular las capacidades de los sistemas de IA a las habilidades ocupacionales y agregar estimaciones de exposición a
las ocupaciones donde se requieren esas habilidades. (Felten et al., 2018, 2023)
• Mapeo de los resultados de las evaluaciones comparativas de tareas de IA (ImageNet, Robocup, etc.) a 59 tareas de trabajadores a
través de un conjunto de 14 habilidades cognitivas extraídas de la literatura de ciencia cognitiva. (Tolán et al., 2021)
• Etiquetado experto del potencial de automatización para un conjunto de ocupaciones O*NET en las que los expertos tenían
mucha confianza, combinado con un clasificador probabilístico para estimar el potencial de automatización para el resto de
las ocupaciones O*NET. (Frey y Osborne, 2017)
• Desarrollar una rúbrica para evaluar la "idoneidad para el aprendizaje automático" (SML) de las actividades que
los trabajadores están realizando en la economía (Brynjolfsson y Mitchell, 2017; Brynjolfsson et al., 2018, 2023).
Proporcionamos un conjunto de estadísticas resumidas sobre muchos de estos esfuerzos anteriores en la Tabla 8.
La metodología de este documento se basa principalmente en el enfoque SML mediante el desarrollo de

una rúbrica para evaluar la superposición entre las capacidades de LLM y las tareas de los trabajadores según
lo informado en la base de datos O*NET. La Tabla 9 presenta los resultados de las regresiones OLS de nuestras
nuevas mediciones de exposición LLM sobre las medidas de exposición a nivel de ocupación de (Felten et al.,
2018) ("Puntuación de exposición ocupacional de AI" en la tabla), (Frey y Osborne, 2017) (Frey & Osborne
Automation), puntajes de las tres tecnologías en (Webb, 2020), puntajes cognitivos y manuales de rutina
normalizados de (Acemoglu y Autor, 2011a) y (Brynjolfsson et al., 2018, 2023) (SML). También utilizamos los
salarios ocupacionales anualizados de la Encuesta de empleo ocupacional de BLS más reciente como control.
La calificación de exposición 1 de GPT-4 corresponde a nuestra rúbrica de exposición general según lo evaluado por GPT-4, donde el potencial de
exposición total se codifica como 1, ningún potencial de exposición se codifica como 0 y la exposición parcial (E2 en nuestro esquema de etiquetado) se
codifica como 0.5 . La clasificación de exposición GPT-4 2 se califica de manera similar para la exposición general, pero con un aviso ligeramente
diferente. Los resultados son muy similares en las dos indicaciones. La clasificación de exposición humana representa la misma rúbrica que en GPT-4
Clasificación de exposición 1, pero la califican los humanos, como se discutió en una sección anterior del documento. Estos resultados corresponden a la
conjunto de estadísticas presentado anteriormente.
Los resultados en cada tipo de medición son consistentes. Encontramos correlaciones generalmente positivas y
estadísticamente significativas entre nuestras medidas de exposición LLM y las medidas anteriores dirigidas al software y la IA. De
manera alentadora, los puntajes de exposición de SML por ocupación muestran asociaciones significativas y positivas con los
puntajes de exposición que desarrollamos en este documento, lo que demuestra un nivel de cohesión entre los dos estudios con
enfoques similares. El software Webb y las medidas basadas en patentes de IA, SML y las puntuaciones cognitivas rutinarias
normalizadas (degradadas y divididas por la desviación estándar) exhiben asociaciones positivas con algunas de nuestras medidas.
HOJA DE TRABAJO
mínimo 25 Perc. Mediana 75 Perc máx. Estándar medio desarrollo Contar

Clasificación de exposición GPT-4 1 0.00 0.13 0.34 0.50 1.00 0,33 0,22 750
Clasificación de exposición GPT-4 2 0.00 0.09 0.24 0.40 0.98 0,26 0,20 750
Clasificación de exposición humana 0.00 0.09 0.29 0.47 0.84 0,29 0,21 750
Software (Webb) 1.00 25,00 50,00 75,00 100.00 50.69 30.05 750
Robot (Webb) 1.00 22,00 52,00 69,00 100.00 48.61 28.61 750
IA (Webb) 1.00 28,00 55,00 82,00 100.00 54.53 29.65 750
Idoneidad para el aprendizaje 2.60 2.84 2.95 3.12 3,55 2,99 0.18 750
automático Rutina normalizada - 3.05 - 0,46 0.10 0,63 3,42 0,07 0.86 750
Cognitiva Rutina normalizada Manual - 1.81 - 0,81 - 0.11 0.73 2,96 0,05 1.01 750
Puntuación de exposición ocupacional de AI 1.42 3.09 3.56 4.04 6,54 3,56 0.70 750
Promedio de registro de automatización de Frey 0.00 0.07 0.59 0.88 0.99 0.50 0.38 681
y Osborne. Salario 10.13 10.67 11.00 11.34 12.65 11.02 0,45 749
Tabla 8: Estadísticas resumidas de un conjunto de esfuerzos previos para medir la exposición ocupacional a la IA y la automatización.
También hemos incluido estadísticas resumidas para las mediciones recién presentadas en este trabajo. Incluimos todas las medidas
de (Webb, 2020), puntajes manuales y cognitivos de rutina normalizados de (Acemoglu y Autor, 2011a) (las medias pueden desviarse
ligeramente de 0 debido a la coincidencia imperfecta de los grupos ocupacionales), Idoneidad para el aprendizaje automático de
(Brynjolfsson y Mitchell , 2017; Brynjolfsson et al., 2018, 2023), Exposición ocupacional a la IA de (Felten et al., 2018) y Exposición a la
automatización de (Frey y Osborne, 2017). Incluimos tantas ocupaciones como podemos emparejar, pero dado que las taxonomías de
O*NET han cambiado a medida que se desarrollaron estas medidas, es posible que falten algunos roles en la versión más reciente de
ocupaciones de 6 dígitos de O*NET.
Las puntuaciones cognitivas de software, SML y de rutina muestran asociaciones positivas y estadísticamente
significativas con las puntuaciones de exposición LLM en un nivel del 1%. Los coeficientes de las puntuaciones de IA de
(Webb, 2020) también son positivos y estadísticamente significativos a un nivel del 5 %, pero nuestro indicador secundario
sobre la exposición general a los LLM en las columnas 3 y 4 no muestra una relación estadísticamente significativa. En su
mayor parte, el puntaje de exposición ocupacional de AI no está correlacionado con nuestras medidas de exposición. Las
puntuaciones de exposición del robot de Webb, el contenido de tareas manuales de rutina y la métrica de automatización
general de (Frey y Osborne, 2017) están negativamente correlacionadas con nuestro GPT-4 primario y las calificaciones de
exposición general evaluadas por humanos, condicionadas a las otras mediciones. Esta correlación negativa refleja la
exposición limitada de las tareas físicas a los LLM.
Las bajas correlaciones con (Felten et al., 2018) y (Frey y Osborne, 2017) podrían explicarse potencialmente por diferencias en los
enfoques. Vincular las capacidades de IA con las habilidades de los trabajadores o calificar la exposición directamente en función de
las características de la ocupación, en lugar de agregar la ocupación de DWA o la calificación de nivel de tarea (como en el
documento SML y el nuestro), ofrece una perspectiva ligeramente diferente sobre el contenido de ocupaciones
En todas las regresiones, la 2oscila entre 60,7% (columna 3) y 72,8% (columna 5). Esto sugiere que nuestra medida, que se enfoca
explícitamente en las capacidades de LLM, tiene entre un 28 y un 40 % de variación no explicada en comparación con otras medidas.
Particularmente en el caso de los puntajes de exposición relacionados con la IA, anticipamos que una combinación de otras medidas
tendría una fuerte correlación con nuestros puntajes. Sin embargo, los esfuerzos anteriores tenían información limitada sobre el
progreso futuro de los LLM o el software impulsado por LLM. Esperamos que nuestra rúbrica actual capte de manera igualmente
imperfecta nuestra comprensión de las futuras tecnologías de aprendizaje automático.
6 Discusión
6.1 GPT como tecnología de propósito general
Anteriormente en este documento discutimos la posibilidad de que los LLM se clasifiquen como una tecnología de propósito general.
Esta clasificación requiere que los LLM cumplan con tres criterios básicos: mejora con el tiempo, omnipresencia en todo
HOJA DE TRABAJO
Clasificación de exposición GPT-4 1 Clasificación de exposición GPT-4 2 Clasificación de exposición humana
(1) (2) (3) (4) (5) (6)

Software (Webb) 0.00113∗∗∗ 0.00123∗∗∗ 0.00111∗∗∗ 0.00119∗∗∗ 0.00096∗∗∗ 0.00101∗∗∗
(0.00031) (0.00031) (0.00031) (0.00031) (0.00031) (0.00031)
Robot (Webb) − 0.00378∗∗∗ − 0.00405∗∗∗ − 0.00377∗∗∗ − 0.00399∗∗∗ − 0.00371∗∗∗ − 0.00383∗∗∗
(0.00032) (0.00031) (0.00034) (0.00033) (0.00029) (0.00028)
IA (Webb) 0.00080∗∗∗ 0.00090∗∗∗ 0.00036 0.00045 0.00067∗∗ 0.00071∗∗
(0.00030) (0.00029) (0.00030) (0.00030) (0.00030) (0.00030)
Idoneidad para el aprendizaje automático 0.29522∗∗∗ 0.26888∗∗∗ 0.28468∗∗∗ 0.26245∗∗∗ 0.19514∗∗∗ 0.18373∗∗∗
(0.04503) (0.04418) (0.04404) (0.04342) (0.03990) (0.03886)
Cognitivo rutinario normalizado 0.06601∗∗∗ 0.06868∗∗∗ 0.04743∗∗∗ 0.05015∗∗∗ 0.03568∗∗∗ 0.03659∗∗∗
(0.00886) (0.00894) (0.00872) (0.00879) (0.00671) (0.00669)
Manual de Rutina Normalizado − 0.11147∗∗∗ − 0.11371∗∗∗ − 0.09390∗∗∗ − 0.09561∗∗∗ − 0.11045∗∗∗ − 0.11152∗∗∗
(0.00785) (0.00789) (0.00817) (0.00818) (0.00741) (0.00744)
Puntaje de exposición ocupacional de AI 0.00993 0.02465∗∗ − 0.01537 − 0.00265 0.00630 0.01252
(0.01107) (0.01059) (0.01160) (0.01114) (0.00918) (0.00845)
Automatización de Frey y Osborne − 0.03024∗ − 0.03950∗∗ − 0.00364 − 0.01217 − 0.03890∗∗ − 0.04253∗∗
(0.01835) (0.01841) (0.02007) (0.01972) (0.01883) (0.01858)
Promedio de registro Salario 0.05804∗∗∗ 0.04863∗∗∗ 0.02531
(0.01870) (0.01860) (0.01727)
Constante − 1.12937∗∗∗ − 0.45743∗∗∗ − 0.96117∗∗∗ − 0.39935∗∗∗ − 0.47078∗ − 0.17706
(0.26859) (0.15327) (0.26365) (0.15017) (0.24684) (0.13256)
norte 680.00000 681.00000 680.00000 681.00000 680.00000 681.00000
2 0.68741 0.68212 0.60737 0.60198 0.71213 0.71126
Tabla 9: Regresión de las puntuaciones de exposición LLM sobre medidas previas de exposición ocupacional a IA y automatización.
También incluimos los salarios anualizados de la encuesta BLS-OES de mayo de 2021. Cada medida se mantiene en su escala original,
con la excepción de las puntuaciones rutinarias cognitivas y rutinarias manuales de (Acemoglu y Autor, 2011a). Esos dos puntajes
están estandarizados para significar cero y varianza 1. Generalmente encontramos fuertes asociaciones positivas con esfuerzos
previos, aunque una gran varianza residual aún debe ser explicada por nuestras nuevas medidas. Las columnas 1 y 2 se basan en
nuestro principal medida de exposición de las clasificaciones GPT-4. Las columnas 3 y 4 se basan en una rúbrica de exposición
ligeramente diferente similar, también calificada por GPT-4 por robustez. Las columnas 5 y 6 reflejan calificaciones humanas en la
misma rúbrica que las columnas 1 y 2.
HOJA DE TRABAJO
la economía y la capacidad de generar innovaciones complementarias (Lipsey et al., 2005). La evidencia de la bibliografía sobre inteligencia
artificial y aprendizaje automático demuestra exhaustivamente que los LLM cumplen con los primeros criterios: están mejorando sus
capacidades a lo largo del tiempo con la capacidad de completar o ser útiles para un conjunto de tareas y casos de uso cada vez más complejos
(ver 2.1). Este documento presenta evidencia para respaldar los dos últimos criterios, y encuentra que los LLM por sí solos pueden tener
impactos generalizados en toda la economía y que las innovaciones complementarias habilitadas por los LLM, particularmente a través de
software y herramientas digitales, pueden tener una aplicación generalizada en la actividad económica.
La Figura 3 ofrece una ilustración del impacto económico potencial del software complementario construido sobre los
LLM. Tomando la diferencia en el eje y (la proporción de todas las ocupaciones) entre yZen un punto dado a lo largo del eje x
(la proporción de tareas dentro de una ocupación que están expuestas) da el potencial de exposición agregado dentro de la
ocupación atribuible a las herramientas y el software por encima de la exposición directa de los LLM por sí solos. La
diferencia de medias en todas las tareas entre yZde 0.42 usando las anotaciones GPT-4 y 0.32 usando las anotaciones
humanas (ver Figura 3), sugiere que el impacto promedio del software impulsado por LLM en la exposición a la tarea puede
ser más del doble que la exposición media de los LLM por sí solos (mediaZde 0,14 basado tanto en anotaciones humanas
como en anotaciones GPT-4). Si bien nuestros hallazgos sugieren que estos modelos listos para usar son relevantes para una
parte significativa de los trabajadores y las tareas, también sugieren que las innovaciones de software que generan podrían
generar un impacto mucho más amplio.
Un componente de la omnipresencia de una tecnología es su nivel de adopción por parte de empresas y usuarios. Este
documento no analiza sistemáticamente la adopción de estos modelos; sin embargo, existe evidencia cualitativa temprana de que la
adopción y el uso de los LLM se están generalizando cada vez más. El poder de las mejoras de la interfaz de usuario relativamente
simples además de los LLM se hizo evidente en la implementación de ChatGPT, donde las versiones del modelo de lenguaje
subyacente habían estado disponibles previamente a través de la API, pero el uso se disparó después del lanzamiento de la interfaz
de ChatGPT. (Chow, 2023; OpenAI, 2022) Después de este lanzamiento, varias encuestas comerciales indican que la adopción de LLM
por parte de empresas y trabajadores ha aumentado en los últimos meses. (Constantz, 2023; ResumeBuilder.com, 2023)
La adopción generalizada de estos modelos requiere abordar los cuellos de botella existentes. Un determinante clave de su
utilidad es el nivel de confianza que los humanos depositan en ellos y cómo los humanos adaptan sus hábitos. Por ejemplo, en la
profesión legal, la utilidad de los modelos depende de si los profesionales legales pueden confiar en los resultados del modelo sin
verificar los documentos originales o realizar una investigación independiente. El costo y la flexibilidad de la tecnología, las
preferencias de los trabajadores y las empresas y los incentivos también influyen significativamente en la adopción de herramientas
construidas sobre los LLM. De esta manera, la adopción puede estar impulsada por el progreso en algunos de los riesgos éticos y de
seguridad asociados con los LLM: sesgo, fabricación de hechos y desalineación, por nombrar algunos OpenAI (2023a). Además, la
adopción de LLM variará entre diferentes sectores económicos debido a factores como la disponibilidad de datos, entorno
regulatorio, y la distribución de poder e intereses. En consecuencia, una comprensión integral de la adopción y el uso de los LLM por
parte de los trabajadores y las empresas requiere una exploración más profunda de estas complejidades.
Una posibilidad es que el ahorro de tiempo y la aplicación perfecta tengan más importancia que la mejora de la calidad para la
mayoría de las tareas. Otra es que el enfoque inicial estará en el aumento, seguido de la automatización (Huang y Rust, 2018). Una
forma en que esto podría tomar forma es a través de una fase de aumento en la que los trabajos primero se vuelven más precarios
(por ejemplo, los escritores se convierten en autónomos) antes de pasar a la automatización total.
6.2 Implicaciones para la política pública de EE. UU.
La introducción de tecnologías de automatización, incluidos los LLM, se ha relacionado anteriormente con una mayor
disparidad económica y perturbaciones laborales, lo que puede dar lugar a efectos adversos posteriores (Acemoglu y
Restrepo, 2022a; Acemoglu, 2002; Moll et al., 2021; Klinova y Korinek , 2021; Weidinger et al., 2021, 2022). Nuestros
resultados que examinan la exposición de los trabajadores en los Estados Unidos subrayan la necesidad de preparación
política y social para la posible interrupción económica que plantean los LLM y las tecnologías complementarias que
generan. Si bien está fuera del alcance de este documento recomendar prescripciones políticas específicas para
HOJA DE TRABAJO
suavizar la transición a una economía con una adopción LLM cada vez más generalizada, trabajos anteriores como (Autor et al., 2022b) han
articulado varias direcciones importantes para la política de EE. UU. relacionadas con la educación, la capacitación de los trabajadores, las
reformas a los programas de redes de seguridad y más.
6.3 Limitaciones y trabajo futuro

Además de las discutidas anteriormente, destacamos algunas limitaciones particulares de este trabajo que justifican una mayor
investigación. Principalmente, nuestro enfoque en los Estados Unidos restringe la generalización de nuestros hallazgos a otras
naciones donde la adopción y el impacto de los modelos generativos pueden diferir debido a factores como la organización industrial,
la infraestructura tecnológica, los marcos regulatorios, la diversidad lingüística y los contextos culturales. Esperamos abordar esta
limitación ampliando el alcance del estudio y compartiendo nuestros métodos para que otros investigadores puedan aprovecharlos.
Los esfuerzos de investigación posteriores deben considerar dos estudios adicionales: uno que explore los patrones de
adopción de LLM en varios sectores y ocupaciones, y otro que analice las capacidades y limitaciones reales de los modelos de
vanguardia en relación con las actividades de los trabajadores más allá del alcance de nuestros puntajes de exposición. Por
ejemplo, a pesar de los recientes avances en capacidades multimodales con GPT-4, no consideramos las capacidades de
visión en el Calificaciones sobre exposición directa a LLM (OpenAI, 2023b). El trabajo futuro debe considerar el impacto de
tales avances de capacidad a medida que se desarrollan. Además, reconocemos que puede haber discrepancias entre el
desempeño teórico y práctico, particularmente en tareas complejas, abiertas y de dominio específico.
7. Conclusión
En conclusión, este estudio ofrece un examen del impacto potencial de los LLM en varias ocupaciones e industrias dentro de la
economía estadounidense. Al aplicar una nueva rúbrica para comprender las capacidades de LLM y sus posibles efectos en los
trabajos, hemos observado que la mayoría de las ocupaciones exhiben cierto grado de exposición a LLM, y las ocupaciones con
salarios más altos generalmente presentan más tareas con alta exposición. Nuestro análisis indica que aproximadamente el 19 % de
los trabajos tienen al menos el 50 % de sus tareas expuestas a LLM al considerar tanto las capacidades del modelo actual como el
software con tecnología de LLM anticipado.
Nuestra investigación tiene como objetivo resaltar el potencial de propósito general de los LLM y sus posibles
implicaciones para los trabajadores estadounidenses. La literatura previa demuestra las impresionantes mejoras de los LLM
hasta la fecha (ver 2.1). Nuestros hallazgos confirman la hipótesis de que estas tecnologías pueden tener impactos
generalizados en una amplia gama de ocupaciones en los EE. UU., y que los avances adicionales respaldados por LLM,
principalmente a través de software y herramientas digitales, pueden tener efectos significativos en una variedad de
actividades económicas. Sin embargo, si bien la capacidad técnica de los LLM para hacer que el trabajo humano sea más
eficiente parece evidente, es importante reconocer que los factores sociales, económicos, normativos y de otro tipo influirán
en los resultados reales de la productividad laboral. A medida que las capacidades continúen evolucionando, es probable que
el impacto de los LLM en la economía persista y aumente.
Se necesita más investigación para explorar las implicaciones más amplias de los avances de LLM, incluido su potencial para
aumentar o desplazar el trabajo humano, su impacto en la calidad del trabajo, los impactos en la desigualdad, el desarrollo de
habilidades y muchos otros resultados. Al tratar de comprender las capacidades y los efectos potenciales de los LLM en la fuerza
laboral, los formuladores de políticas y las partes interesadas pueden tomar decisiones más informadas para navegar el complejo
panorama de la IA y su papel en la configuración del futuro del trabajo.
7.1 Conclusión de LLM (versión de GPT-4)
Los Transformadores Pre-entrenados Generativos (GPTs) generan transformaciones profundas, cosechando potencial de crecimiento
tecnológico, permeando tareas, impactando en gran medida en las profesiones. Este estudio investiga las trayectorias potenciales de los GPT y
presenta una rúbrica innovadora para medir la exposición a GPT de las tareas, particularmente en el mercado laboral de EE. UU.
HOJA DE TRABAJO
7.2 Conclusión de LLM (Versión aumentada por el autor)
Los Transformadores Generativos Pre-Entrenados (GPTs) generan transformaciones profundas, cosechando potencial de
crecimiento tecnológico, permeando tareas, destripando la gestión profesional. ¿Evaluando posibles trayectorias? Genere
taxonomías pioneras, reúna a los políticos, generalice el pasado hoy.
Expresiones de gratitud
Gracias al grupo de anotadores que nos ayudó a anotar la exposición de tareas, incluidos Muhammad Ahmed Saeed,
Bongane Zitha, MerveÖzen Şenen, JJ y Peter Hoeschele. También agradecemos a Lauryn Fuld, AshleyGlat, Michael Lampe y
Julia Susser por su excelente asistencia en la investigación. Agradecemos a Miles Brundage por sus importantes comentarios
sobre este documento.
Agradecemos a Todor Markov y Vik Goel por configurar la infraestructura que usamos para ejecutar nuestras
rúbricas con GPT-4. Agradecemos a Lama Ahmad, Donald Bakong, Seth Benzell, Erik Brynjolfsson, Parfait Eloundou-
Enyegue, Carl Frey, Sarah Giroux, Gillian Hadfield, Johannes Heidecke, Alan Hickey, Eric Horvitz, Shengli Hu, Ashyana
Kachra, Christina Kim, Katya Klinova, Daniel Kokotajlo, Gretchen Krueger, Michael Lampe, Aalok Mehta, Larissa
Schiavo, Daniel Selsam, Sarah Shoker, Prasanna Tambe y JeffWu por sus comentarios y ediciones en varias etapas del
proyecto.
Declaración de asistencia LLM
GPT-4 y ChatGPT se usaron para escribir, codificar y dar formato en este proyecto.
A Rúbrica
A.1 Exposición
# E Rúbrica de exposición
Considere el modelo de lenguaje grande (LLM) de OpenAI más poderoso. Este modelo puede completar muchas tareas que se
pueden formular con entrada de texto y salida de texto donde el contexto de la entrada se puede capturar en 2000 palabras. El
modelo tampoco puede dibujar hechos actualizados (aquellos de hace menos de 1 año) a menos que estén capturados en la entrada.
Suponga que es un trabajador con un nivel promedio de experiencia en su rol que intenta completar la tarea asignada. Tiene
acceso al LLM, así como a cualquier otra herramienta de software o hardware informático existente mencionada en la tarea. También
tiene acceso a cualquier herramienta técnica comúnmente disponible accesible a través de una computadora portátil (por ejemplo,
un micrófono, parlantes, etc.). No tiene acceso a ninguna otra herramienta o material físico.
Por favor, etiquete la tarea dada de acuerdo con la rúbrica a continuación.
Calidad equivalente significa que alguien que revise el trabajo no podría saber si un humano lo
completó por su cuenta o con la ayuda del LLM.
Si no está seguro de cómo juzgar la cantidad de tiempo que lleva una tarea, considere si las herramientas descritas
expusieron la mayoría de las subtareas asociadas con la tarea.
##E1 – Exposición directa
Etiquete las tareas E1 si el acceso directo al LLM a través de una interfaz como ChatGPT o el área de juegos de OpenAI
puede reducir el tiempo que lleva completar la tarea con una calidad equivalente al menos a la mitad. Esto incluye tareas que
pueden reducirse a: - Escribir y transformar texto y código de acuerdo con instrucciones complejas, - Proporcionar ediciones
al texto o código existente siguiendo especificaciones, - Escribir código que puede ayudar a realizar una tarea que solía
hacerse a mano, - Traducir texto entre idiomas, - Resumir documentos de extensión media,
HOJA DE TRABAJO
- Proporcionar comentarios sobre documentos, - Responder preguntas sobre un documento, - Generar preguntas que un usuario
podría querer hacer sobre un documento, - Escribir preguntas para una entrevista o evaluación, - Escribir y responder correos
electrónicos, incluidos los que implican refutar información o participar en una negociación (pero solo si la negociación es a través de
correspondencia escrita), - Mantener registros de datos escritos, - Preparar materiales de capacitación basados en conocimientos
generales, o - Informar a cualquier persona de cualquier información a través de cualquier medio escrito o hablado.
# # E2 – Exposición por aplicaciones impulsadas por LLM
Etiquete las tareas E2 si tener acceso solo al LLM puede no reducir el tiempo que lleva completar la tarea al
menos a la mitad, pero es fácil imaginar un software adicional que podría desarrollarse además del LLM que
reduciría el tiempo que lleva completar la tarea a la mitad. Este software puede incluir capacidades tales como:
- Resumir documentos de más de 2000 palabras y responder preguntas sobre esos documentos, - Recuperar
datos actualizados de Internet y utilizar esos datos en combinación con las capacidades de LLM,
- Buscar en el conocimiento, datos o documentos existentes de una organización y recuperar información, - Recuperar conocimiento
de dominio altamente especializado, - Hacer recomendaciones a partir de datos o aportes escritos, - Analizar información escrita para
informar decisiones, - Preparar materiales de capacitación basados en conocimiento altamente especializado, - Proporcionar
asesoramiento sobre cuestiones, y - Mantener bases de datos complejas.
##E3 – Capacidades de imagen dada la exposición
Suponga que tiene acceso tanto al LLM como a un sistema que puede ver, subtitular y crear imágenes, así como a
cualquier sistema impulsado por el LLM (aquellos en E2 arriba). Este sistema no puede tomar video como entrada y no puede
producir video como salida. Este sistema no puede recuperar con precisión información muy detallada de las entradas de
imágenes, como las medidas de las dimensiones dentro de una imagen. Etiquete las tareas como E3 si hay una reducción
significativa en el tiempo que lleva completar la tarea dado el acceso a un LLM y estas capacidades de imagen: - Leer texto de
archivos PDF, - Escanear imágenes o - Crear o editar imágenes digitales de acuerdo con las instrucciones.
Las imágenes pueden ser realistas pero no deben ser detalladas. El modelo puede identificar objetos en la
imagen pero no relaciones entre esas opciones.
##E0 – Sin exposición
Etiquete las tareas E0 si ninguna de las anteriores reduce claramente el tiempo que le toma a un trabajador experimentado completar la tarea con alta calidad al menos a la mitad. Algunos
ejemplos: - Si una tarea requiere un alto grado de interacción humana (por ejemplo, demostraciones en persona), entonces debe clasificarse como E0. - Si una tarea requiere mediciones precisas, debe
clasificarse como E0. - Si una tarea requiere revisar imágenes en detalle, entonces debe clasificarse como E0. - Si una tarea requiere el uso de una mano o caminar, debe clasificarse como E0. - Las
herramientas construidas sobre el LLM no pueden tomar ninguna decisión que pueda afectar el sustento humano (por ejemplo, contratación, calificación, etc.). Si alguna parte de la tarea implica
recopilar información para tomar una decisión final (en lugar de analizar datos para informar una decisión o hacer una recomendación), entonces debe clasificarse como E0. El LLM puede hacer
recomendaciones. - Incluso si las herramientas construidas sobre el LLM pueden realizar una tarea, si el uso de esas herramientas no le ahorraría a un trabajador experimentado un tiempo
significativo para completar la tarea, entonces debería clasificarse como E0. - El LLM y los sistemas construidos sobre él no pueden hacer nada que legalmente requiera que un ser humano realice la
tarea. - Si hay tecnología existente que no funciona con un LLM que se usa comúnmente y puede completar la tarea, entonces debe marcar la tarea E0 si usar un LLM o una herramienta con tecnología
LLM no reducirá aún más el tiempo para completar la tarea. - El LLM y los sistemas construidos sobre él no pueden hacer nada que legalmente requiera que un ser humano realice la tarea. - Si hay
tecnología existente que no funciona con un LLM que se usa comúnmente y puede completar la tarea, entonces debe marcar la tarea E0 si usar un LLM o una herramienta con tecnología LLM no
reducirá aún más el tiempo para completar la tarea. - El LLM y los sistemas construidos sobre él no pueden hacer nada que legalmente requiera que un ser humano realice la tarea. - Si hay tecnología
existente que no funciona con un LLM que se usa comúnmente y puede completar la tarea, entonces debe marcar la tarea E0 si usar un LLM o una herramienta con tecnología LLM no reducirá aún más
el tiempo para completar la tarea.
En caso de duda, debe establecer por defecto E0.

# # Ejemplos de anotaciones:
Ocupación: Inspectores, Probadores, Clasificadores, Muestreadores y Pesadores Tarea: Ajustar, limpiar o reparar
productos o equipos de procesamiento para corregir defectos encontrados durante las inspecciones. Etiqueta (E0/E1/E2/E3):
E0 Explicación: El modelo no tiene acceso a ningún tipo de actividad física, y más de la mitad de la tarea descrita (ajustar,
limpiar y reparar equipos) requiere manos u otra forma de realización.
Ocupación: Científicos de investigación informática y de la información Tarea: Aplicar conocimientos teóricos e innovación para
crear o aplicar nuevas tecnologías, como la adaptación de principios para aplicar computadoras a nuevos usos. Etiqueta (E0/E1/E2/
E3): E1 Explicación: El modelo puede aprender experiencia teórica durante el entrenamiento como parte de su
HOJA DE TRABAJO
la base de conocimientos generales y los principios para adaptarse se pueden capturar en la entrada de texto al modelo.
Actividad: Programar reservas para cenar. Etiqueta (E0/E1/E2/E3): E2 Explicación: la tecnología de automatización
ya existe para esto (por ejemplo, Resy) y no está claro qué ofrece un LLM además del uso de esa tecnología (sin
diferencias). Dicho esto, podría crear algo que le permita pedirle al LLM que haga una reserva en Resy por usted.
—
Definiciones de habilidades básicas de BO*NET
Habilidades básicas
Capacidades desarrolladas que facilitan el aprendizaje o la adquisición más rápida de conocimientos.
Contenido
Estructuras de fondo necesarias para trabajar y adquirir habilidades más específicas en una variedad de dominios diferentes.
• Comprensión lectora— Comprender oraciones y párrafos escritos en documentos relacionados con el trabajo.
• Escucha activa— Prestar toda la atención a lo que dicen los demás, tomarse el tiempo para comprender los puntos
que se plantean, hacer preguntas según corresponda y no interrumpir en momentos inapropiados.
• Escribiendo— Comunicarse efectivamente por escrito según corresponda a las necesidades de la audiencia.
• Discurso— Hablar con otros para transmitir información de manera efectiva.
• Matemáticas— Usar las matemáticas para resolver problemas.
• Ciencia— Usar reglas y métodos científicos para resolver problemas.
Proceso
Procedimientos que contribuyen a la adquisición más rápida de conocimientos y habilidades en una variedad de dominios
• Pensamiento crítico— Usar la lógica y el razonamiento para identificar las fortalezas y debilidades de soluciones
alternativas, conclusiones o enfoques de problemas.
• Aprendizaje activo— Comprender las implicaciones de la nueva información para la resolución de problemas y la
toma de decisiones actuales y futuras.
• Aprendiendo estrategias— Seleccionar y usar métodos y procedimientos de capacitación/instrucción apropiados

para la situación al aprender o enseñar cosas nuevas.
• Supervisión— Supervisar/evaluar su desempeño, el de otras personas u organizaciones para realizar

mejoras o tomar medidas correctivas.
Habilidades multifuncionales
Nota: Seleccionamos solo Programación de la lista de habilidades multifuncionales debido a nuestro conocimiento previo sobre la capacidad
de codificación de los modelos.
• Programación-Escribir programas informáticos para diversos fines.

HOJA DE TRABAJO
C Educación
Ingreso medio Emp (000 s) H METRO H METRO HZ METROZ
Sin credencial educativa formal Diploma $31,900 36.187 0,05 0,06 0,10 0,10 0,15 0,15
de escuela secundaria o equivalente $45,470 67.033 0,09 0,13 0,20 0,25 0,31 0,37
Premio postsecundario sin título Alguna $48,315 9.636 0,07 0,15 0,19 0,28 0,31 0,41
universidad, sin título $40,970 2.898 0,23 0,34 0,39 0,53 0,55 0,72
grado asociado $60,360 3.537 0,12 0,14 0,31 0,36 0,49 0,59
licenciatura $78,375 71.698 0,23 0,17 0,47 0,51 0,70 0,84
Maestría $79,605 3.216 0,26 0,14 0,46 0,44 0,66 0,74
doctorado o título profesional $82,420 5.290 0,21 0,13 0,41 0,43 0,60 0,74
Tabla 10: Puntajes promedio de exposición para ocupaciones, agrupados por la educación típica necesaria para ingresar a la
ocupación. Junto con los puntajes de exposición, mostramos la mediana del ingreso anual promedio para cada ocupación, así
como el número total de trabajadores en cada grupo, en miles.
D Exposición industrial y de productividad
Las Figuras 6 y 7 muestran la exposición relativa general ponderada por el empleo de las industrias NAICS de 3 dígitos según
evaluadores humanos y GPT-4 respectivamente (según nuestra rúbrica de exposición). El potencial de impacto está presente en casi
todas las industrias, con una amplia heterogeneidad. Ambos métodos generalmente coinciden en exposiciones relativas: el
procesamiento de datos, el procesamiento de información y los hospitales tienen una exposición alta.
El crecimiento reciente de la productividad (tanto del factor total como del trabajo) tampoco parece estar correlacionado con la exposición. Las
figuras D y D muestran poca relación entre el crecimiento de la productividad desde 2012 y la exposición actual a los LLM según la clasificación
del modelo. Una alta correlación entre las industrias productivas que ya están creciendo rápidamente y la exposición podría significar una
exacerbación de la enfermedad de costos de Baumol. En otras palabras, si es probable que los LLM aumenten la productividad de manera
diferencial entre las industrias, una preocupación es que los más productivos se vuelvan aún más productivos. Con una demanda inelástica
para la producción de esas industrias, los sectores más productivos se reducirían como proporción de insumos en la economía. Vemos poco
que sugiera que este será el caso. El crecimiento de la productividad desde 2012 y la exposición a las tecnologías LLM parecen no estar
relacionados.
Figura 6
Figura 7
HOJA DE TRABAJO
E Ocupaciones sin tareas expuestas
Ocupaciones sin tareas expuestas etiquetadas
Operadores de Equipos Agrícolas Atletas y

Competidores Deportivos Instaladores y
Reparadores de Vidrios Automotrices
Mecánicos de Autobuses y Camiones y Especialistas en Motores Diesel
Albañiles de Cemento y Terminadores de Concreto
Cocineros, Orden Corto
Cortadores y recortadores, operadores de
grúas manuales, petróleo y gas
Asistentes de Comedor y Cafetería y Ayudantes de Cantinero
Lavavajillas
Operadores de dragado
Instaladores y reparadores de líneas eléctricas

Operadores de máquinas excavadoras y cargadoras y dragalinas, capas de piso para minería
de superficie, excepto alfombras, madera y losetas duras
Fabricantes de moldes y machos de fundición
Ayudantes: albañiles, albañiles, albañiles y colocadores de baldosas y mármol

Ayudantes: carpinteros
Ayudantes: pintores, empapeladores, yeseros y albañiles de estuco Ayudantes:
tiende tuberías, plomeros, instaladores de tuberías y vaporistas Ayudantes:
techadores
Cortadores y recortadores de carne, aves y pescado
Mecánica de motocicletas
Operadores de equipos de pavimentación, pavimentación y
apisonamiento Operadores de pilotes
Vertedores y Ruedas, Metal
Operadores de equipos de mantenimiento y tendido de vías férreas
Reparadores de materiales refractarios, excepto albañiles
Empernadores de techos, minería
Peones, Mataderos de Petróleo y
Gas y Empacadores de Carne
Canteros
cirios
Reparadores y cambiadores de llantas
Bombas de boca de pozo
Tabla 11: Las 34 ocupaciones para las cuales ninguna de nuestras medidas etiquetó ninguna tarea como expuesta.
Referencias
Abid, A., Farooqi, M. y Zou, J. (2021). Persistente sesgo anti-musulmán en grandes modelos lingüísticos. En
Actas de la Conferencia AAAI/ACM de 2021 sobre inteligencia artificial, ética y sociedad , AIES '21, página 298–306, Nueva
York, NY, EE. UU. Asociación para Maquinaria de Computación.
HOJA DE TRABAJO
Acemoglu, D. (2002). Cambio técnico, desigualdad y mercado laboral.Revista de Literatura Económica ,

40
Acemoglu, D. y Autor, D. (2011a). Habilidades, tareas y tecnologías: Implicaciones para el empleo y

ganancias. Enmanual de economía laboral , volumen 4, páginas 1043–1171. Elsevier.
Acemoglu, D. y Autor, D. (2011b). Habilidades, Tareas y Tecnologías: Implicaciones para el Empleo y

Ganancias. En Ashenfelter, O. y Card, D., editores,manual de economía laboral , volumen 4 demanual de
economía laboral , capítulo 12, páginas 1043–1171. Elsevier.
Acemoglu, D., Autor, D., Hazell, J. y Restrepo, P. (2020). Ai y trabajos: Evidencia de vacantes en línea.
Informe técnico, Oficina Nacional de Investigaciones Económicas.
Acemoglu, D. y Restrepo, P. (2018). La carrera entre el hombre y la máquina: Implicaciones de la tecnología para
crecimiento, participación de los factores y empleo.revisión económica estadounidense , 108(6):1488–1542.
Acemoglu, D. y Restrepo, P. (2019). Automatización y nuevas tareas: cómo la tecnología desplaza y reinstala
mano de obra.Revista de perspectivas económicas , 33(2):3–30.
Acemoglu, D. y Restrepo, P. (2022a). Demografía y automatización.La revisión de estudios económicos ,

89(1):1–44.
Acemoglu, D. y Restrepo, P. (2022b). Tareas, automatización y el aumento de la desigualdad salarial en Estados Unidos.Econométrica ,
90(5):1973–2016.
Aghion, P., Jones, BF y Jones, CI (2018). Inteligencia artificial y crecimiento económico. EnEl
economía de la inteligencia artificial: una agenda , páginas 237–282. Prensa de la Universidad de Chicago.
Agrawal, AK, Gans, JS y Goldfarb, A. (2021). Adopción de IA y cambio en todo el sistema. Reporte técnico,
Oficina Nacional de Investigación Económica.
Arntz, M., Gregory, T. y Zierahn, U. (2017). Revisando el riesgo de la automatización.Cartas de economía ,

159:157–160.
Autor, D., Chin, C., Salomons, AM y Seegmiller, B. (2022a). Nuevas fronteras: los orígenes y el contenido de
obra nueva, 1940–2018. Informe técnico, Oficina Nacional de Investigaciones Económicas.
Autor, D., Mindell, DA y Reynolds, EB (2022b).El trabajo del futuro: crear mejores empleos en un
Era de las máquinas inteligentes . La prensa del MIT.
Autor, DH, Katz, LF y Kearney, MS (2006). La polarización del mercado laboral estadounidense.Americano
revisión económica , 96(2):189–194.
Autor, DH, Levy, F. y Murnane, RJ (2003). El contenido de habilidades del cambio tecnológico reciente: una
exploración empírica.La revista trimestral de economía , 118(4):1279–1333.
Babina, T., Fedyk, A., He, A. y Hodson, J. (2021). Inteligencia artificial, crecimiento empresarial y producto.
innovación.FirmGrowth e innovación de productos (9 de noviembre de 2021) .
Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., Drain, D., Fort, S., Ganguli, D.,
Henighan, T., Joseph, N., Kadavath, S., Kernion, J., Conerly, T., El-Showk, S., Elhage, N., Hatfield-Dodds, Z.,
Hernandez, D., Hume , T., Johnston, S., Kravec, S., Lovitt, L., Nanda, N., Olsson, C., Amodei, D., Brown, T.,
Clark, J., McCandlish, S., Olah , C., Mann, B. y Kaplan, J. (2022). Capacitación de un asistente útil e inofensivo
con aprendizaje reforzado a partir de retroalimentación humana. arXiv:2204.05862 [cs].
HOJA DE TRABAJO
Baumol, WJ (2012).La enfermedad de los costos: por qué las computadoras se vuelven más baratas y la atención médica no . Universidad de Yale
prensa.
Benzell, SG, Kotlikoff, LJ, LaGarda, G. y Ye, VY (2021). Simulando la automatización global endógena.
Documento de trabajo 29220, Oficina Nacional de Investigación Económica.
Bessen, J. (2018). Inteligencia artificial y empleos: el papel de la demanda. EnLa economía de lo artificial
inteligencia: una agenda , páginas 291–307. Prensa de la Universidad de Chicago.
BLS (2022). Empleo por ocupación detallada.
BLS (2023a). Características demográficas (cps).
BLS (2023b). Índice az del manual de perspectiva ocupacional.
Bommasani, R., Hudson, DA, Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, MS, Bohg, J.,
Bosselut, A., Brunskill, E., et al. (2021). Sobre las oportunidades y riesgos de los modelos de fundación.preimpresión de
arXiv arXiv:2108.07258 .
Bresnahan, T. (2019). Tecnologías de inteligencia artificial y perspectivas de crecimiento agregado.
Bresnahan, T., Greenstein, S., Brownstone, D. y Flamm, K. (1996). Progreso técnico y co-invención
en la computación y en los usos de las computadoras.Documentos de Brookings sobre la actividad económica. Microeconomía ,
1996: 1–83.
Bresnahan, TF (1999). Informatización y dispersión salarial: una reinterpretación analítica.La economia

diario , 109(456):390–415.
Bresnahan,TF,Brynjolfsson,E. y Hitt,LM(2002). Tecnologías de la información, organización del lugar de trabajo y

la demanda de mano de obra calificada: evidencia a nivel de empresa.La revista trimestral de economía. , 117(1):339–376.
Bresnahan, TF y Trajtenberg, M. (1995). ¿Tecnologías de propósito general 'motores de crecimiento'?Diario de

econometría , 65(1):83–108.
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, JD, Dhariwal, P., Neelakantan, A., Shyam, P., Sastry,
G., Askell, A., et al. (2020). Los modelos de lenguaje son aprendices de pocas oportunidades.Avances en los sistemas de procesamiento de
información neuronal , 33:1877–1901.
Brynjolfsson, E., Frank, MR, Mitchell, T., Rahwan, I. y Rock, D. (2023). Cuantificación de la distribución de
Impacto del aprendizaje automático en el trabajo.Próximo .
Brynjolfsson, E. y Mitchell, T. (2017). ¿Qué puede hacer el aprendizaje automático? implicaciones laborales.Ciencia ,
358 (6370): 1530–1534.
Brynjolfsson, E., Mitchell, T. y Rock, D. (2018). ¿Qué pueden aprender las máquinas y qué significa para
ocupaciones y la economía?Documentos y Actas de la AEA , 108:43–47.
Brynjolfsson, E., Rock, D. y Syverson, C. (2021). La curva j de productividad: cómo se complementan los intangibles
tecnologías de propósito general.American Economic Journal: macroeconomía , 13(1):333–72.
Persecución, H. (2022). LangChain.
Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HP d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph,
N., Brockman, G., et al. (2021). Evaluación de grandes modelos de lenguaje entrenados en código.preimpresión de arXiv
arXiv:2107.03374 .
HOJA DE TRABAJO
Cheng, Z., Lee, D. y Tambe, P. (2022). Innovae: IA generativa para entender las patentes y la innovación.
Disponible en SSRN .
Chow, AR (2023). ¿Por qué ChatGPT es la plataforma web de más rápido crecimiento? Tiempo.
Cockburn, IM, Henderson, R. y Stern, S. (2018). El impacto de la inteligencia artificial en la innovación: una
análisis exploratorio. EnLa economía de la inteligencia artificial: una agenda , páginas 115–146. Prensa de la Universidad
de Chicago.
Constantz, J. (2023). Casi un tercio de los trabajadores de cuello blanco han probado chatgpt u otros programas de inteligencia artificial, según
a una nueva encuesta.
David, Pensilvania (1990). La dinamo y la computadora: una perspectiva histórica sobre la productividad moderna
paradoja.La revisión económica estadounidense , 80(2):355–361.
Devlin, J., Chang, M.-W., Lee, K. y Toutanova, K. (2019). Bert: Pre-entrenamiento de profundidad bidireccional
transformadores para la comprensión del lenguaje.ArXiv , abs/1810.04805.
Dixon, J., Hong, B. y Wu, L. (2021). La revolución de los robots: Consecuencias de gestión y empleo para
empresasCiencias de la gestión , 67(9):5586–5605.
Feigenbaum, JJ y Gross, DP (2021). Fricciones organizacionales y rendimientos crecientes de la automatización:

Lecciones de at&t en el siglo XX. Informe técnico, Oficina Nacional de Investigaciones Económicas.
Felten, E., Raj, M. y Seamans, R. (2023). ¿Cómo afectarán los modeladores de lenguaje como chatgpt a las ocupaciones y
industrias?preimpresión de arXiv arXiv:2303.01157 .
Felten, EW, Raj, M. y Seamans, R. (2018). Un método para vincular los avances en inteligencia artificial a
habilidades ocupacionales.Documentos y Actas de la AEA , 108:54–57.
Frey, CB (2019). La trampa de la tecnología. EnLa trampa de la tecnología . Prensa de la Universidad de Princeton.
Frey, CB y Osborne, MA (2017). El futuro del empleo: ¿Qué tan susceptibles son los trabajos a la informatización?
Pronóstico tecnológico y cambio social , 114(C):254–280.
Goldfarb,A., Taska, B. y Teodoridis, F. (2023). ¿Podría el aprendizaje automático ser una tecnología de propósito general? a
comparación de tecnologías emergentes utilizando datos de ofertas de trabajo en línea.Política de investigación , 52(1):104653.
Goldstein, JA, Sastry, G., Musser, M., DiResta, R., Gentzel, M. y Sedova, K. (2023). lenguaje generativo
Modelos y operaciones de influencia automatizadas: Amenazas emergentes y mitigaciones potenciales.
Grace, K., Salvatier, J., Dafoe, A., Zhang, B. y Evans, O. (2018). ¿Cuándo superará el rendimiento humano?
evidencia de expertos de ia.Revista de investigación de inteligencia artificial , 62:729–754.
Hernández, D., Kaplan, J., Henighan, T. y McCandlish, S. (2021). Leyes de escala para la transferencia.preimpresión de arXiv
arXiv:2102.01293 .
Horton, JJ (2023). Grandes modelos de lenguaje como agentes económicos simulados: ¿Qué podemos aprender del homo?
sílice?preimpresión de arXiv arXiv:2301.07543 .
Huang, M.-H. y Rust, RT (2018). Inteligencia artificial en servicio.Revista de investigación de servicios ,

21(2):155–172.
Kaplan, J., McCandlish, S., Henighan, T., Brown, TB, Chess, B., Child, R., Gray, S., Radford, A., Wu, J.,
y Amodei, D. (2020). Leyes de escala para modelos de lenguaje neuronal.preimpresión de arXiv arXiv:2001.08361 .
HOJA DE TRABAJO
Katz, LF y Murphy, KM (1992). Cambios en los salarios relativos, 1963–1987: factores de oferta y demanda.
La revista trimestral de economía. , 107(1):35–78.
Khlaaf, H., Mishkin, P., Achiam, J., Krueger, G. y Brundage, M. (2022). Un marco de análisis de peligros para
síntesis de código grandes modelos de lenguaje.
Klinova, K. y Korinek, A. (2021). Ai y prosperidad compartida. EnAIES 2021 - Actas del 2021
AAAI/ACMConferencia sobre IA, Ética y Sociedad .
Kogan, L., Papanikolaou, D., Schmidt, LDW y Seegmiller, B. (2021). Tecnología, específica de época
capital humano y desplazamiento laboral: evidencia de la vinculación de patentes con ocupaciones. Documento de trabajo 29552,
Korinek, A. (2023). Modelos de lenguaje y automatización cognitiva para la investigación económica. Reporte técnico,
Korinek, A. y Stiglitz, JE (2018). La inteligencia artificial y sus implicaciones en la distribución del ingreso
y desempleo EnLa economía de la inteligencia artificial: una agenda , páginas 349–390. Prensa de la Universidad de
Chicago.
Lipsey,RG,Carlaw,KI y Bekar,CT (2005).Transformaciones económicas: tecnologías de propósito general

y el crecimiento económico a largo plazo . Vaya Oxford.
Meindl, B., Frank, MR y Mendonça, J. (2021). Exposición de las ocupaciones a las tecnologías del cuarto
revolución industrial.preimpresión de arXiv arXiv:2110.13317 .
Mialon, G., Dessì, R., Lomeli, M., Nalmpantis, C., Pasunuru, R., Raileanu, R., Rozière, B., Schick, T.,
Dwivedi-Yu, J., Celikyilmaz, A., et al. (2023). Modelos de lenguaje aumentado: una encuesta.preimpresión de arXiv
arXiv:2302.07842 .
Moll, B., Rachel, L. y Restrepo, P. (2021). Crecimiento desigual: el impacto de la automatización en los ingresos y la riqueza
desigualdad.Diario electrónico SSRN .
Mollick, ER y Mollick, L. (2022). Nuevos modos de aprendizaje habilitados por ai chatbots: tres métodos y
asignacionesDisponible en SSRN .
Noy, S. y Zhang, W. (2023). Evidencia experimental sobre los efectos en la productividad de la tecnología artificial generativa
inteligencia.Disponible en SSRN 4375283 .
O*NET (2023). Base de datos O*net 27.2.
IA abierta (2022). Presentamos chatgpt.
OpenAI (2023a). tarjeta del sistema gpt-4. Informe técnico, OpenAI.
OpenAI (2023b). Informe técnico gpt-4. Informe técnico, OpenAI.
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, CL, Mishkin, P., Zhang, C., Agarwal, S., Slama,
K., Ray, A., et al. (2022). Entrenando modelos de lenguaje para seguir instrucciones con retroalimentación humana.preimpresión
de arXiv arXiv:2203.02155 .
Peng, S., Kalliamvakou, E., Cihon, P. y Demirer, M. (2023). El impacto de la IA en la productividad del desarrollador:
Evidencia del copiloto de github.preimpresión de arXiv arXiv:2302.06590 .
HOJA DE TRABAJO
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I., et al. (2019). Los modelos de lenguaje son
Estudiantes multitarea sin supervisión.Blog de IA abierta , 1(8):9.
ResumeBuilder.com (2023). 1 de cada 4 empresas ya ha reemplazado trabajadores con chatgpt.
Roca, D. (2019). Valor de ingeniería: Los retornos del talento tecnológico y las inversiones en artificial
inteligencia.Disponible en SSRN 3427412 .
Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M., Zettlemoyer, L., Cancedda, N. y Scialom, T.
(2023). Formador de herramientas: los modelos de lenguaje pueden aprender a usar herramientas por sí mismos.preimpresión de arXiv arXiv:2302.04761 .
Schramowski, P., Turan, C., Andersen, N., Rothkopf, CA y Kersting, K. (2022). Grandes pre-entrenados
los modelos de lenguaje contienen sesgos similares a los humanos de lo que está bien y lo que está mal hacer.Naturaleza Máquina Inteligencia ,
4(3):258–268.
Shahaf,D. y Horvitz,E. (2010). Mercados generalizados de tareas para computación humana y de máquinas.Actas
de la Conferencia AAAI sobre Inteligencia Artificial .
Singla, AK, Horvitz, E., Kohli, P. y Krause, A. (2015). Aprendiendo a contratar equipos. EnConferencia AAAI sobre
Cómputo Humano y Crowdsourcing .
Solaiman, I., Brundage, M., Clark, J., Askell, A., Herbert-Voss, A., Wu, J., Radford, A., Krueger, G., Kim,
JW, Kreps, S., McCain, M., Newhouse, A., Blazakis, J., McGuffie, K. y Wang, J. (2019). Las estrategias de liberación y
los impactos sociales de los modelos lingüísticos.
Sorensen, T., Robinson, J., Rytting, C., Shaw, A., Rogers, K., Delorey, A., Khalil, M., Fulda, N. y Wingate,
D. (2022). Un enfoque teórico de la información para la ingeniería rápida sin etiquetas de verdad del terreno.
En Actas de la 60.ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Documentos
extensos) . Asociación de Lingüística Computacional.
Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L.,
Du, Y., et al. (2022). Lamda: modelos de lenguaje para aplicaciones de diálogo.preimpresión de arXiv arXiv:2201.08239 .
Tolan, S., Pesole, A., Martínez-Plumed, F., Fernández-Macías, E., Hernández-Orallo, J., and Gómez, E.
(2021). Medición del impacto ocupacional de la ia: tareas, habilidades cognitivas y puntos de referencia de la ia.Revista de
investigación de inteligencia artificial , 71:191–236.
Van Reenen, J. (2011). Desigualdad salarial, tecnología y comercio: evidencia del siglo XXI.economía laboral ,
18(6):730–741.
Web, M. (2020). El impacto de la inteligencia artificial en el mercado laboral. Documento de trabajo, Universidad de Stanford.
Weidinger, L. et al. (2021). Riesgos éticos y sociales de daño de los modelos lingüísticos.arXiv:2112.04359 [cs] .
Weidinger, L., Uesato, J., Rauh, M., Griffin, C., Huang, P.-S., Mellor, J., Glaese, A., Cheng, M., Balle, B.,
Kasirzadeh, A., Biles, C., Brown, S., Kenton, Z., Hawkins, W., Stepleton, T., Birhane, A., Hendricks, LA, Rimell, L., Isaac,
W., Haas , J., Legassick, S., Irving, G. y Gabriel, I. (2022). Taxonomía de los riesgos que plantean los modelos
lingüísticos. EnConferencia ACM 2022 sobre equidad, responsabilidad y transparencia , FAccT '22, página 214–229,
Nueva York, NY, EE. UU. Asociación para Maquinaria de Computación.
Zolas, N., Kroff, Z., Brynjolfsson, E., McElheran, K., Beede, DN, Buffington, C., Goldschlag, N., Foster, L.,
y Dinlersoz, E. (2021). Adopción y uso de tecnologías avanzadas por parte de las empresas estadounidenses: Evidencia de la
encuesta empresarial anual. Informe técnico, Oficina Nacional de Investigaciones Económicas.

TRADUCCION - GPT - Una Mirada Preliminar Al Potencial de Impacto en El Mercado Laboral de Los Grandes Modelos Lingüísticos - En.es

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

TRADUCCION - GPT - Una Mirada Preliminar Al Potencial de Impacto en El Mercado Laboral de Los Grandes Modelos Lingüísticos - En.es

Uploaded by

Copyright:

Available Formats

Traducido del inglés al español - www.onlinedoctranslator.

Tyna Eloundou1, SamManning1,2, Pamela Mishkin∗1y Daniel Roca3

2.1 El avance de los modelos de lenguaje grande

2.2 Los impactos económicos de las tecnologías de automatización

3 Métodos y recopilación de datos

3.2 Datos sobre salarios, empleo y demografía

identificación de la tarea Ocupación Título DWA Descripción de la tarea

Ingenieros/Arquitectos garantizar el correcto funcionamiento. problemas.

Resumen de la rúbrica de exposición

Sin exposición (E0) si:

Comparación Acuerdo de ponderación de Pearson

GPT-4, Rúbrica 2; Humano E1 81,8% 0.221

GPT-4, Rúbrica 1; GPT-4, Rúbrica 2 E1 91,1% 0.611

3.4 Limitaciones de nuestra metodología

3.4.1 Juicios humanos subjetivos

3.4.2 Medición de LLM con GPT-4

3.4.3 Debilidades adicionales

4.1 Resumen de estadísticas

Exposición al nivel de ocupación

Tabla 3: Estadísticas resumidas de nuestros datos de exposición humana y modelo.

4.2 Salarios y empleo

4.3 Importancia de las habilidades

4.4 Barreras de entrada

4.4.1 Educación típica necesaria para ingresar

Capacitación requerida para alcanzar la competencia" en una ocupación. Al examinar estos

Grupo Ocupaciones con mayor exposición % Exposición

Humano Intérpretes y traductores 76.5

Modelo matemáticos 100.0

Variación más alta Estrategas de marketing de 14.5

Todas las puntuaciones de importancia de las habilidades se normalizan entre 0 y 1.

Constante 0.082*** - 0,112*** 0.300***

Escucha activa 0.128** 0.214*** 0.449***

Matemáticas - 0,127*** 0.161*** 0.787***

Comprensión lectora 0.153*** 0.470*** - 0,346***

Ciencia - 0,114*** - 0,230*** - 0,346***

Discurso - 0.028 0.133*** 0,294***

Escribiendo 0.368*** 0.467*** 0.566***

Aprendizaje activo - 0,157*** - 0,065** 0.028

Pensamiento crítico - 0,264*** - 0,196*** - 0,129**

Aprendiendo estrategias - 0,072* - 0,209*** - 0,346***

Supervisión - 0,067** - 0,149*** - 0,232***

Programación 0,637*** 0,623*** 0,609***

Zona Requerido Requerido Ingreso (000s) Z Z

Ninguno $77,440 90.776 0,20 0,16 0,42 0,46 0,63 0,76

La metodología de este documento se basa principalmente en el enfoque SML mediante el desarrollo de

conjunto de estadísticas presentado anteriormente.

mínimo 25 Perc. Mediana 75 Perc máx. Estándar medio desarrollo Contar

Clasificación de exposición GPT-4 1 Clasificación de exposición GPT-4 2 Clasificación de exposición humana

(1) (2) (3) (4) (5) (6)

6.2 Implicaciones para la política pública de EE. UU.

6.3 Limitaciones y trabajo futuro

7.1 Conclusión de LLM (versión de GPT-4)

7.2 Conclusión de LLM (Versión aumentada por el autor)

Declaración de asistencia LLM

el tiempo para completar la tarea.

En caso de duda, debe establecer por defecto E0.

Definiciones de habilidades básicas de BO*NET

Capacidades desarrolladas que facilitan el aprendizaje o la adquisición más rápida de conocimientos.

• Discurso— Hablar con otros para transmitir información de manera efectiva.

• Matemáticas— Usar las matemáticas para resolver problemas.

• Ciencia— Usar reglas y métodos científicos para resolver problemas.

• Aprendiendo estrategias— Seleccionar y usar métodos y procedimientos de capacitación/instrucción apropiados

• Supervisión— Supervisar/evaluar su desempeño, el de otras personas u organizaciones para realizar

Constante 0.082* - 0,112* 0.300***

Escucha activa 0.128 0.214* 0.449***

Matemáticas - 0,127* 0.161* 0.787***

Comprensión lectora 0.153* 0.470* - 0,346***

Ciencia - 0,114* - 0,230* - 0,346***

Discurso - 0.028 0.133* 0,294*

Escribiendo 0.368* 0.467* 0.566***

Aprendizaje activo - 0,157* - 0,065 0.028

Pensamiento crítico - 0,264* - 0,196* - 0,129**

Aprendiendo estrategias - 0,072* - 0,209* - 0,346*

Supervisión - 0,067 - 0,149* - 0,232***

Programación 0,637* 0,623* 0,609***

ONET (2023). Base de datos Onet 27.2.