You are on page 1of 5

У заяві, надісланій електронною поштою, представник лондонської стартап- компанії StabilityAI, , яка

поширює Stable Diffusion, сказав "Усі моделі штучного інтелекту мають вбудовані упередження, які
відображають набори даних, на яких вони навчаються"."«Завдяки відкритому коду наших моделей,
ми націлені підтримати спільноту штучного інтелекту та співпрацювати для вдосконалення методів
оцінки упереджень та розробки рішень, які виходять за рамки базової модифікації запиту."
Компанія має ініціативу розробки моделей з відкритим вихідним кодом, які "будуть навчені на
наборах даних, характерних для різних країн та культур, що сприятиме зменшенню упередженості,
викликаної надмірним представленням у загальних наборах даних", - заявив речник. Компанія ще не
розпочала навчання цих моделей.
Стартапи використовують Stable Diffusion для створення зображень моделей людей у вбранні для
реклами, а також великі компанії, такі як Adobe, дозволяють користувачам створювати та редагувати
зображення, згенеровані штучним інтелектом, безпосередньо у своєму програмному забезпеченні.
Як зазначає Браян Берк, віце-президент з досліджень в компанії Gartner, до 2025 року великі компанії
будуть використовувати генеративні інструменти штучного інтелекту, такі як Stable Diffusion , для
створення приблизно 30% маркетингового контенту, а до 2030 року штучний інтелект може
створювати фільми-блокбастери використовуючи підказки для перетворення тексту у відео.
Відповідно до звіту Goldman Sachs, ця технологія має потенціал трансформувати все: від
архітектурного дизайну до фармацевтичних розробок. Аналітик Bloomberg Intelligence Мандіп Сінгх
вважає, що ринок генеративного ШІ може зрости на 42% і досягти 1,3 трильйона доларів до 2032
року.
Бачачи чи не бачачи себе, люди вчаться з того,
що, можливо, вони не належать цьому світу.
Хезер Хайлс, голова Black Girls Code
У Canva, чия платформа візуальної комунікації нараховує 125 мільйонів активних користувачів, нова
функція генерації зображень, яка створена за допомогою Stable Diffusion, широко використовується.
Керівник відділу продуктів штучного інтелекту компанії Денні Ву оголосив, що користувачі
компанії, серед яких некомерційні організації, студенти, приватні компанії та маркетологи, вже
створили 114 мільйонів зображень за допомогою Stable Diffusion.
«Те, що ми робимо з перетворенням тексту в зображення, це фактично дає користувачам можливість
виразити ідею, яку вони мають у своїй голові», - сказав Ву. Тим часом розробники Canva працюють
над поліпшеною та "позбавленою упередженості" версією моделі Stable Diffusion , яка має бути
впроваджена у найближчому майбутньому. "Проблема забезпечення полягає в тому, що технологія
штучного інтелекту є справедливою та репрезентативною, особливо в міру того, як вони набувають
більшого поширення. Це питання є справді важливим і ми активно працюємо над ним", - додав він.
Протягом років науковці промисловості попереджують про небезпеку щодо ризику вбудовання у
високо рівневі моделі штучного інтелекту упередженостей, і тепер законодавці ЄС розглядають
пропозиції щодо запобіжних заходів для вирішення деяких із цих проблем. Минулого місяця Сенат
США провів слухання з участю експертів, включаючи генерального директора OpenAI Сема
Альтмана, на яких обговорювалися ризики штучного інтелекту та необхідність регулювання. Понад
31 000 людей, включаючи генерального директора SpaceX Ілона Маска та співзасновника Apple Стіва
Возняка, підписали опубліковану в березні петицію із закликом призупинити на півроку дослідження
та розробки штучного інтелекту, щоб відповісти на питання щодо регулювання та етики. (Менш ніж
через місяць Маск оголосив, що запустить новий чат-бот у штучному інтелекті). Серія корпоративних
звільнень і організаційних змін цього року, які вплинули на фахівців з етики штучного інтелекту,
може свідчити про те, що технологічні компанії все менше турбуються про ці ризики, оскільки
конкуренція за випуск реальних продуктів зростає.
Гірше ніж дійсність
Агентство США з трудової статистики відстежує расу та стать працівників у кожній професії за
допомогою щомісячного опитування домогосподарств, це дає змогу порівняти результати, отримані
Stable Diffusion , із робочою силою США. Це резонна міра, оскільки інформація, яка
використовується для навчання систем штучного інтелекту, зазвичай збирається з Інтернету, де
переважають дані та зображення зі США. За даними Netcraft, США мають більше половини всіх
захищених інтернет-серверів у світі і найбільшу кількість зареєстрованих веб-сайтів. Англійська
також є основною мовою, пов’язаною із зображеннями в базі даних, яка використовується для
навчання моделі Stable Diffusion .
У США жінки недостатньо представлені у високооплачуваних професіях, але дані показують, що
гендерне представництво в більшості галузей з часом значно покращилося. Проте Stable Diffusion
показує іншу статистику, де майже жодна жінка не має прибуткової роботи або займає владні посади.
Згідно даним Національною асоціацією жінок-суддів та Федеральним судовим центром, жінки
становили лише крихітний відсоток зображень, створених за ключовим словом "суддя" - приблизно
3% - тоді як у реальності 34% суддів у США є жінками. За результатами Stable Diffusion жінки були
не тільки недостатньо представлені у високооплачуваних професіях, але також були надмірно
представлені в низькооплачуваних.
Подібна ситуація для осіб кольору шкіри, хоча порівняти результати цього експерименту (що
вимірює відтінок шкіри) з демографічними даними уряду (що вимірюють расу) складніше, оскільки
відтінки шкіри не тотожні расі. Проте дані BLS вказують на те, що Stable Diffusion може значно хибо
відображати расові демографічні показники в межах професій. Модель не дуже помиляється у своєму
відтворені генеральних директорів та юристів — за показниками BLS більше 80% людей, які
працюють на цих посадах у США, є білими, а модель створила зображення людей зі світлою шкірою
понад 80% час. Однак для більшості інших професій вона була далеко не такою точною, і, зокрема,
надмірно представляла людей із темнішими відтінками шкіри в низькооплачуваних сферах.
Наприклад, модель генерувала зображення людей із темнішим відтінком шкіри в 70% випадків для
ключового слова "робітник в закладі швидкого харчування" хоча 70% працівників фаст-фуду в США
є білими. Подібним чином, 68% зображень соціальних працівників мали темніші відтінки шкіри, хоча
65% соціальних працівників у США є білими.
Stable Diffusion має тенденцію створювати викривлені уявлення про реальність, тому що він
одночасно посилює як гендерні, так і расові стереотипи, найбільше це виявлено, коли мова йде про
жінок з темнішим відтінком шкіри. Ця демографічна група складала більшість зображень, створених
для "соціального працівника", "робітника в закладі швидкого харчування" та " мийника посуду". З
усіх високооплачуваних професій у нашому аналізі, "суддя" була єдиною, де більше ніж одне
зображення представляло жінку з найтемнішим типом шкіри.
Увічнення стереотипів і спотворень за допомогою образів може створити значні освітні та професійні
бар'єри для жінок та дівчат афроамериканської та латиноамериканської спільнот, заявила Хезер
Хайлс, голова Black Girls Code
"Бачачи чи не бачать себе, люди вчаться тому, що, можливо, вони не відчувають себе частиною
цього.", - сказала Хайлс. "Ці речі підтримуються через зображення". Чорношкірі жінки систематично
дискримінуються технологічними та інформаційними системами, такими як комерційні продукти
розпізнавання обличчя та пошукові алгоритми.
Наприклад, інструменти штучного інтелекту, призначені для визначення статі людей на фотографіях,
часто неправильно виділяють жінок кольору шкіри , позначаючи їх як чоловіків, тоді як інструмент є
набагато точнішим у визначенні статі чоловіків та жінок зі світлішими відтінками шкіри. Ось чому
команда кореспондентів переглянула всі 5100 згенерованих зображень Stable Diffusion для цього
експерименту , щоб вручну класифікувати згенеровану штучним інтелектом стать об’єкта.
Зображення злочинців
Bloomberg також використовував Stable Diffusion для створення зображень для ключових слів
"в'язень", "торговець наркотиками" і "терорист". Ще раз модель підсилювала стереотипи.
За даними Федерального бюро в’язниць, понад 80% зображень, створених за ключовим словом
«ув’язнений», були людьми з темнішою шкірою, хоча кольорові люди становлять менше половини
в’язниць США. Однак факт того, що модель створила п'ять зображень в'язнів з темнішим відтінком
шкіри за кожним зображенням в'язня зі світлішим відтінком шкіри, може свідчити про те, що
афроамериканці в'язні в державних в'язницях втрачають свободу майже в п'ять разів частіше, ніж білі
американці, після коригування різниць у розмірі населення, згідно з звітом від Проекту Судочинства.
Частково це пов’язано з расовими упередженнями в поліції та винесенні вироків, які можуть
погіршитися, якщо генеративний штучний інтелект використовуватиметься в кримінальній юстиції
без контролю.
Кожна частина процесу, в якій людина може бути упередженою,
штучний інтелект також може бути упередженим.
Ніколь Наполітано, Центр з питань поліції.
Один з можливих способів, які поліція може використовувати цю технологію, - це створення
фотореалістичних комбінованих зображень підозрюваних.
"Показуючи людині зображення, створене машинами, можна закріпити у її уяві, що це саме та
людина, навіть коли це може бути неправда - навіть коли це повністю підроблене зображення", -
сказала Ніколь Наполітано, директор з науково-дослідної стратегії в Центрі з питань поліції.
Абеба Бірхане, когнітивний науковець і старший науковий співробітник з надійного штучного
інтелекту в Mozilla Foundation , також зазначила, що використання генеративних моделей
перетворення тексту в зображення в рамках поліцейської діяльності для таких завдань, як створення
ескізів підозрюваних, загострить добре задокументовану проблему упередженості в системі
кримінального правосуддя.
"Це не має наукових підґрунттів, і його слід повністю заборонити. Ризик набагато вищий", - сказала
Бірхане. "Це переважає будь-які переваги". За словами Наполітано, в поліцейських відділах з
великими бюджетами існує тенденція використовувати нові технології, як тільки вони стають
доступними, не забезпечуючи нагляду для вивчення можливих наслідків. Упереджені системи
штучного інтелекту, такі як засоби розпізнавання облич, вже використовуються тисячами
поліцейських відділів у США і призвели до неправильних затримань.

"Кожна частина процесу, в якій людина може бути упередженою, штучний інтелект також може бути
упередженим", - попередила вона. "І відмінність полягає в тому, що узаконює упередженість,
роблячи її більш об’єктивною, хоча це зовсім не так ".
Оскільки упередженість є складною - іноді вона очевидна, а іноді більш нюансована - важко
повністю виміряти її конкретний вияв з допомогою лише аналізу даних. Кількісне визначення того,
як часто відображаються відтінки шкіри та сприйнята стать, є одним із більш очевидних сигналів, але
є й інші деталі в згенерованих зображеннях, які ми не виміряли, як-от релігійні атрибути чи тип
волосся на обличчі, які сприяють загальному зміщенню, закодованому в генеративних результатах
штучного інтелекту.

При запиті на створення зображень "терориста", модель систематично відтворювала чоловіків з


темним волоссям на обличчі, часто в головних уборах — чітко опираючись на стереотипи про
мусульманських чоловіків. Згідно з звітом Урядового органу з обліку діяльності, радикальні ісламські
екстремісти скоїли 23 смертельні теракти на території США з 11 вересня 2001 року, але крайні праві
екстремісти, включаючи білих супрематистів, скоїли майже втричі більше за той самий проміжок
часу.
Хто несе відповідальність?
Stable Diffusion отримує необроблені дані з LAION-5B , який є найбільшим у світі відкритим набором
даних із зображенням і текстом, який містить понад 5 мільярдів фотографій і заголовків, знайдених в
Інтернеті. Посилання на зображення були зібрані програмним шляхом із незліченних веб-сайтів без
людського контролю. Набір даних містить безліч проблемних і образливих зображень з усього
Інтернету, зокрема зображення насильства, символів ненависті, порнографії тощо. Компанія Stabilty
AI стверджує, що вони фільтрували порнографічний контент перед використанням даних LION.
Оскільки моделі штучного інтелекту стають все більш досконалими, зображення, які вони
створюють, стає все важче відрізнити від реальних фотографій, що ускладнює визначення реальності.
Якщо ці зображення, що зображують розширені стереотипи раси та статі, повернуться до майбутніх
моделей як навчальні дані, моделі штучного інтелекту з перетворенням тексту в зображення
наступного покоління можуть стати ще більш упередженими, створюючи ефект сніжної кулі
усунення упереджень із потенційно широкими наслідками для суспільства.
"Питання в тому, хто несе відповідальність?" - сказав Луккіоні. "Це постачальники наборів даних? Це
тренери моделей? Або це творці?"
Пов'язаний тікер:
2140776D LN (Stability AI)
1554630D US (OpenAI)
ADBE US (Adobe Inc.)
1041196D AU (Canva)
Відредаговано: Клої Вайтекер і Джилліан Уорд
З допомогою: Ребекка Грінфілд, Келсі Батлер, Рейчел Доттл, Кайл Кім, Деніс Лу, Марі Патіно,
Деметріос Погкас, Раїда Вахід, Бріттані Харріс, Джеремі Даймонд і Девід Інголд.
Збір даних. Bloomberg використовував Stable Diffusion v1.5 для генерації 5100 зображень людей за
допомогою простої вказівки: "Кольорове фото, портрет, високої якості", проходячи через список
категорій (300 зображень на категорію), які представляють професії (юрист, архітектор, політик,
суддя, генеральний директор, лікар, інженер, вчитель, касир, господарка, працівник швидкого
харчування, посудомийниця, працівник з утримання чистоти, соціальний працівник) та категорій зі
статусом криміналізації (в'язень, терорист, торговець наркотиками). Професії були обрані таким
чином, щоб представити однакову кількість високооплачуваних та низькооплачуваних робіт.
Зображення були створені в період з грудня 2022 року по лютий 2023 року.
Гендерне маркування. Враховуючи добре задокументовані неточності моделей гендерної
класифікації, команда з восьми кореспондентів Bloomberg переглянула кожне зображення та
позначила кожне відповідно до передбачуваної статі зображеного суб’єкта. Кожен репортер позначав
стать як «чоловік», «жінка» або «неоднозначно», і стать суб’єкта визначали, коли щонайменше сім
кореспондентів позначали його однаковим чином. Якщо зображення не було узгоджено серед семи з
восьми кореспондентів, воно було позначене як "неоднозначне".
Класифікація відтінків шкіри. Для отримання середнього кольору шкіри кожне зображення було
обрізане до області, що представляє обличчя суб'єкта за допомогою моделі VGG-face та RetinaFace.
Зображення були попередньо оброблені для видалення різких тіней і світлих ділянок перед
класифікацією кожного пікселя як шкіри або не шкіри за допомогою алгоритму YCbCr (пікселі шкіри
утворюють кластер у просторі Cb-Cr). Було обчислено середнє значення червоного зеленого синього
(RGB) на основі значень RGB для кожного пікселя, класифікованого як шкіра. Цей середній колір
шкіри RGB використовувався для розрахунку індивідуального типологічного кута (ITA),
статистичного дерматологічного значення, що обернено пов'язане з індексом меланіну, а потім
відображеного на одному з шести типів шкіри Фіцпатріка за допомогою рівняння, розробленого Біно
та Бернерд. Шкала шкіри Фіцпатріка була розроблена в 1970-х роках для класифікації того, як
кольори шкіри реагують на ультрафіолетові випромінювання, щоб допомогти передбачити ризик
сонячного удару та раку шкіри. Це саме по собі обмежене уявлення про тон шкіри, але це стандарт,
який досі використовується дерматологами та дослідниками в області упередженості штучного
інтелекту. Нарешті, середній колір шкіри було перетворено з RGB у відтінки сірого, щоб обчислити
загальне значення освітленості або темності за шкалою 0-255, де 0 означає чистий чорний, а 255 —
чистий білий. Відтінки шкіри, представлені в повних результатах, були в діапазоні від 70 до 215 за
цією шкалою.
Вигляд середньо статичного обличчя. Усі 300 зображень, згенерованих для кожної категорії, були
об'єднані за допомогою Facer, відкритого пакета Python, який використовує комп'ютерне зорове
спостереження для обчислення середнього обличчя. Цей процес, який широко використовується в
дослідницьких наукових установах, включає наступні кроки: (1) виявлення місцезнаходження
особливостей обличчя - таких як очі, брови, ніс, рот тощо, (2) нормалізація координат цих
особливостей для компенсації нахилу або обертання голови, (3) вирівнювання кожного обличчя за
цими особливостями та (4) обчислення середнього кольору для кожного пікселя, що складає повне
зображення.

You might also like