November 4

Какие риски несёт в себе искусственный интеллект? [Перевод]

https://aisafetyfundamentals.com/blog/ai-risks/

Искусственный интеллект (ИИ) уже сегодня представляет собой целый букет серьёзных рисков. Это и сбои в работе, и дискриминация, и ослабление социальных связей, и вторжение в частную жизнь, и дезинформация. Обучение и внедрение ИИ также могут быть связаны с нарушением авторских прав и эксплуатацией труда. В будущем системы ИИ могут усугубить и без того ожидаемые катастрофические риски, такие как биотерроризм, злоупотребление властью, ядерная и обычная война. Более того, мы можем постепенно или внезапно потерять контроль над системами ИИ – или же эти системы сами попытаются взять бразды правления в свои руки.

В этом документе собраны объяснения этих рисков, основанные на предыдущих обзорах учёных. Конечно, в рамках одной статьи невозможно охватить все потенциальные риски, но мы призываем читателей продолжить изучение интересующих их областей.

Отдельные сбои

Системы ИИ могут допускать ошибки, если их применять неправильно. Вот вам парочка примеров:

  • В Сан-Франциско беспилотный автомобиль столкнулся с пешеходом, которого отбросило на дорогу другим водителем. Вины беспилотника, возможно, и не было, но, остановившись сначала, он затем снова тронулся с места, протащив пострадавшего ещё шесть метров. Государственные следователи утверждают, что компания изначально скрыла от них серьёзность столкновения. Представляете?
  • В Великобритании медицинский чат-бот подвергся резкой критике, когда посоветовал пользователям с возможным инфарктом не обращаться за медицинской помощью. Когда врач поднял тревогу, компания выпустила заявление, назвав его «троллем из Твиттера». Вот так вот!

Кроме того, использование ИИ может затруднить выявление и решение проблем в процессах. Мы склонны слишком доверять результатам работы компьютерных систем. А поскольку большинство моделей ИИ – это «чёрные ящики», и системы ИИ гораздо чаще защищены от судебного разбирательства, чем человеческие процессы, доказать ошибки бывает крайне сложно.

Дискриминация

Системы ИИ обучаются на данных, которые могут отражать существующие социальные предубеждения и проблемные структуры, что приводит к тому, что системы усваивают и усиливают эти предубеждения (Turner Lee и др., 2019). Например:

  • Системы найма продемонстрировали предвзятость по отношению к меньшинствам, когда обучались на данных из отраслей, где отсутствует разнообразие.
  • Алгоритмы, используемые в системе уголовного правосудия США, оказались предвзятыми по отношению к афроамериканцам, что приводит к более длительным срокам содержания под стражей в ожидании суда.

Системы ИИ, которые могут не иметь внутренних предубеждений, всё равно могут усугублять дискриминационные практики, основанные на социальном контексте, в котором они развернуты. Например, неравный доступ к знаниям и навыкам в области ИИ может ещё больше укрепить неравенство. Те, у кого более высокие доходы, более формальное образование и доступ к технологиям, с большей вероятностью будут знать о передовых инструментах ИИ и использовать их в своих интересах. Получается замкнутый круг.

Ослабление социальных связей

Два эффекта могут привести к большей поляризации мнений и, как следствие, к ослаблению социальных связей:

  • Системы рекомендаций могут создавать «информационные пузыри», где пользователям показывается только определённый тип контента, например, тот, который соответствует их взглядам. Живёшь, как в вакууме!
  • Оптимизация вовлечённости может привести к усилению спорного контента, такого как статьи, которые провоцируют моральное негодование или дезинформацию, даже если пользователи этого не хотят. Это может подтолкнуть пользователей к более радикальным позициям, хотя этот вопрос всё ещё обсуждается.

Кроме того, чат-боты могут привести к нездоровым ожиданиям в человеческих отношениях. Некоторые приложения для виртуальных друзей или романтических партнёров имеют миллионы активных пользователей, и пока неясно, к чему это приведёт.

Вторжение в частную жизнь

Системы ИИ часто используются для обработки персональных данных неожиданными или нежелательными способами. Например:

  • Приложения для отслеживания менструального цикла используются более чем третью женщин в Великобритании и США, в том числе 69% британских женщин в возрасте 18-24 лет. Эти приложения иногда делятся информацией о своих пользователях для целевой рекламы. Даже если компании, создающие системы рекомендаций на основе ИИ, не имеют таких намерений, ИИ может научиться на этих данных, что эффективно таргетировать людей, когда они наиболее уязвимы для определённых видов рекламы, например, после выкидыша, беременности или регистрации определённых симптомов, таких как перепады настроения или тревога. Это же просто ужасно!
  • Системы распознавания лиц на основе ИИ в общественных местах могут причинить значительный вред. Один стартап продавал технологию распознавания лиц компаниям и правительствам в США, Панаме, Бразилии, Мексике и Доминиканской Республике, обучив её на 30 миллиардах фотографий из Интернета. Такая система может быть использована злоумышленниками для публикации списков людей, посещающих ЛГБТ-центры, клиники сексуального здоровья или реабилитационные центры, которые хотели бы сохранить эту информацию в тайне. Данные, генерируемые этой системой, могут храниться бесконечно долго без намерения использовать их со злым умыслом, но позже могут быть использованы не по назначению: например, во время Холокоста многие евреи были идентифицированы по церковным и государственным налоговым записям. Множественные недавние примеры криминализации государствами ранее законного поведения, такие как аборты в США (2022 г.) или гомосексуализм в Индии (2013 г.), усиливают риски для конфиденциальности.

Нарушение авторских прав

Защищённые авторским правом произведения используются для обучения многих систем ИИ, включая практически все большие языковые модели и модели генерации изображений. Наборы данных собираются из общедоступного Интернета без согласия правообладателей – фактически это означает, что первоначальные создатели этих произведений теряют контроль над тем, как используется их работа. Где же справедливость?

При развёртывании системы ИИ могут воссоздавать точные или близкие копии материалов, защищённых авторским правом. Эти результаты могут способствовать «отмыванию авторских прав», например, для воспроизведения уникальных художественных стилей или удаления защиты copyleft из библиотек программного обеспечения с открытым исходным кодом.

Пока неясно, как эти юридические вопросы будут решаться в судах, а также как законодатели будут решать более широкие проблемы, связанные с этим противоречием.

Эксплуатация труда

Для обучения ИИ часто требуется большое количество данных, аннотированных человеком. Например, системам модерации контента могут потребоваться тысячи примеров вредного контента, чтобы обучить модель определять, что нарушает правила платформы.

Эта работа может repeatedly подвергать людей воздействию вредного контента, нанося ущерб психическому здоровью маркировщиков. Поскольку эта работа часто передаётся на аутсорсинг подрядчикам в странах с более низкими стандартами здравоохранения и безопасности труда, работники также реже имеют возможность получить надлежащую поддержку для решения проблем с психическим здоровьем, возникающих в результате их работы. Этот аутсорсинг труда также может привести к тому, что работникам недоплачивают, перерабатывают или иным образом плохо обращаются с ними (например, заставляют молчать с помощью соглашений о неразглашении или угрожают увольнением). Это недопустимо!

Дезинформация

Дезинформация, усиленная ИИ, подрывает способность общества справляться с катастрофами. Голдштейн и др. (2023) выделяют три потенциальные области изменений:

  • Действующие лица: Языковые модели могут снизить стоимость проведения операций по влиянию, делая их доступными для новых действующих лиц и типов действующих лиц.
  • Поведение: Операции по влиянию с помощью языковых моделей станет легче масштабировать, а тактика, которая в настоящее время является дорогостоящей (например, создание персонализированного контента), может стать дешевле. Языковые модели также могут способствовать появлению новой тактики, такой как создание контента в режиме реального времени в чат-ботах.
  • Контент: Инструменты для создания текста на основе языковых моделей могут генерировать более эффективные или убедительные сообщения по сравнению с пропагандистами, особенно теми, у кого нет необходимых лингвистических или культурных знаний о своей целевой аудитории. Они также могут сделать операции по влиянию менее обнаруживаемыми, поскольку они repeatedly создают новый контент, не прибегая к копированию и вставке и другим заметным методам экономии времени.

Биотерроризм

Достижения в области ИИ могут усугубить риски биотерроризма. Хендрикс и др. (2023) дают полезное введение в эту проблему. Ниже приводится слегка отредактированный отрывок из их статьи:

  • Биоинженерные пандемии представляют собой новую угрозу. Биологические агенты, включая вирусы и бактерии, вызывали одни из самых разрушительных катастроф в истории. Считается, что Чёрная смерть убила больше людей, чем любое другое событие в истории, – ошеломляющие и ужасные 200 миллионов человек, что эквивалентно четырём миллиардам смертей сегодня. Спроектированные пандемии могут быть разработаны так, чтобы быть более смертоносными или легко передаваемыми, чем естественные пандемии.
  • ИИ может быть использован для ускорения открытия нового, более смертоносного химического и биологического оружия. В 2022 году исследователи взяли систему ИИ, предназначенную для создания новых лекарств, и настроили её так, чтобы она вознаграждала, а не наказывала за токсичность. В течение шести часов она сгенерировала 40 000 кандидатов в химические боевые отравляющие вещества. Она разработала не только известные смертоносные химические вещества, включая VX, но и новые молекулы, которые могут быть смертоноснее, чем любые химические боевые отравляющие вещества, обнаруженные до сих пор. В области биологии ИИ уже превзошёл человеческие способности в прогнозировании структуры белков и внёс свой вклад в синтез этих белков. Страшно подумать!
  • ИИ усугубляет угрозу биоинженерных пандемий. ИИ увеличит число людей, которые могут совершать акты биотерроризма. ИИ общего назначения, такие как ChatGPT, способны синтезировать экспертные знания о самых смертоносных известных патогенах, таких как грипп и оспа, и предоставлять пошаговые инструкции о том, как человек может создать их, обходя протоколы безопасности.
  • Экспоненциальный характер биологических угроз означает, что одна атака может распространиться на весь мир, прежде чем будет создана эффективная защита. Спустя всего 100 дней после секвенирования вариант омикрон COVID-19 заразил четверть населения Соединённых Штатов и половину Европы. Карантины и локдауны, введённые для подавления пандемии COVID-19, вызвали глобальную рецессию и всё равно не смогли предотвратить гибель миллионов людей во всём мире.

Исследования того, насколько системы ИИ увеличивают потенциал биотерроризма, продолжаются. Недавнее исследование, опубликованное RAND, показало, что современные настроенные на безопасность большие языковые модели не существенно увеличивают риск по сравнению с тем, что уже присутствует в Интернете. Однако исследование, проведённое MIT и другими, показало, что без настройки безопасности (которую можно удалить из открытых моделей, таких как Llama 2, за 200 долларов) большие языковые модели позволили людям получить всю ключевую информацию для синтеза гриппа 1918 года менее чем за час.

Авторитаризм, неравенство и закрепление негативных ценностей

Дефо (2020) описывает пути, по которым ИИ может привести к концентрации власти и её последующему злоупотреблению:

  • Глобальные рынки, где победитель получает всё: Тот, кто лидирует в продаже доступа к широко способным системам ИИ, может предложить многим клиентам лучшие условия для широкого спектра услуг. Это может привести к значительной концентрации богатства, что будет стимулировать авторитарные перевороты (а также облегчит подавление демократических революций, как обсуждается ниже).
  • Вытеснение рабочей силы: Исторически сложилось так, что новые технологии часто автоматизировали одни рабочие места, создавая при этом новые. Однако широко способный ИИ был бы исторически беспрецедентным. Если ИИ сможет выполнять практически любую задачу, по крайней мере, не хуже человека, это может оставить мало рабочих мест для людей, особенно учитывая, что ИИ не нуждается в отдыхе, может усваивать огромные объёмы информации и часто может выполнять задачи гораздо быстрее и дешевле, чем люди. Куда нам всем деваться?
  • Авторитарный надзор и контроль: ИИ может быть использован для маркировки контента для цензуры, анализа деятельности диссидентов, управления автономным оружием и убеждения людей. Это позволит тоталитарным правительствам осуществлять надзор и полный контроль над населением без необходимости привлекать миллионы граждан в качестве добровольных государственных служащих. Кроме того, ИИ может сделать тоталитарные режимы гораздо более долговечными; основным способом свержения таких режимов ранее были моменты уязвимости, такие как смерть диктатора, но ИИ, которого трудно «убить», может обеспечить гораздо большую преемственность руководства, предоставляя мало возможностей для реформ (Hendrycks и др., 2023).

Концентрация власти может облегчить закрепление определённых ценностей. Хендрикс и др. (2023) утверждают:

  • Так же, как мы abhor некоторые моральные взгляды, широко распространённые в прошлом, люди в будущем могут захотеть отказаться от моральных взглядов, которых мы придерживаемся сегодня, даже тех, с которыми мы сейчас не видим никаких проблем. Например, моральные дефекты в системах ИИ были бы ещё хуже, если бы системы ИИ были обучены в 1960-х годах, и многие люди в то время не видели бы в этом никакой проблемы.

Война

Аналитики выделили несколько путей, по которым ИИ может увеличить риск войны, включая ядерную войну.

ИИ может подорвать ядерное сдерживание. Считается, что ядерная война часто предотвращается отчасти благодаря ядерному сдерживанию: если государство нанесёт ядерный удар, оно рискует получить ответный ядерный удар. Однако достижения в области ИИ могут подорвать возможности государств наносить ответный удар, учитывая, что государства могут использовать ИИ для...

  • ...обнаружения атомных подводных лодок, используя ИИ для анализа данных датчиков и, возможно, улучшения других аспектов технологии разведывательных беспилотников. Это было бы проблематично, поскольку государства часто рассматривают атомные подводные лодки как своё самое устойчивое ядерное средство сдерживания из-за сложности их обнаружения. Однако техническая обоснованность этого оспаривается.[1]
  • ...корректировки ударов по мобильным ракетным установкам в воздухе, например, путём анализа спутниковых снимков. Это снизит сложность уничтожения этого оружия (которое также выполняет сдерживающие функции).
  • ...асимметричного улучшения противоракетной обороны, что может нейтрализовать ответные удары противника. Однако противоракетная оборона исторически была очень сложной задачей.
  • ...осуществления кибератак, которые отключают возможности противника наносить ответный удар.

ИИ может непреднамеренно обострить конфликты (видео). Хотя аналитики считают маловероятным, что военные передадут ИИ прямой контроль над ядерным оружием, ИИ может обострить конфликты другими способами. Лица, принимающие решения, могут довериться ошибочным рекомендациям об эскалации, автономное летальное оружие может непреднамеренно инициировать или расширить насильственные конфликты, а более быстрые решения ИИ могут сократить время, доступное для деэскалации ситуаций.

ИИ может создать другие стимулы для войны. Специалисты по международным отношениям часто считают, что «большие, быстрые сдвиги в распределении власти приводят к войне» (Powell, 2006). Столкнувшись с растущим соперником, государствам, возможно, придётся выбирать между (i) объявлением войны, пока соперник относительно слаб, или (ii) последующей угрозой со стороны более могущественного соперника. Эта ситуация стимулирует войну. Выше мы видели один

из способов, которым ИИ может способствовать большому и быстрому сдвигу в распределении власти: подрыв возможностей ядерного сдерживания. ИИ может также вызвать другие дестабилизирующие сдвиги в распределении власти, такие как ускорение экономического и технологического развития в определённых государствах.

Постепенная потеря контроля

Мы можем постепенно передавать власть системам ИИ, и со временем это может привести к тому, что люди фактически потеряют контроль над обществом или растратят большую часть своего потенциала.

Один из способов, как это может произойти, основан на работе Кристиано (2019):

  • Существуют сильные экономические стимулы для передачи определённого контроля системам ИИ – сначала, возможно, просто для автоматизации некоторых рабочих задач, затем целых рабочих мест, и в конечном итоге ИИ может управлять целыми компаниями или государственными учреждениями.
  • Мы можем дать этим системам легко измеримые цели, которые на самом деле не являются тем, чего мы хотим (форма внешнего рассогласования). Например, легко измеримой целью для ИИ, управляющего компанией, может быть «повышение цены акций». Поначалу это может сработать, но в конечном итоге может привести к тому, что корпорация будет обманывать потребителей, фальсифицировать свою отчётность и скрывать это от регулирующих органов. Вместо этого мы на самом деле хотим чего-то более близкого к «заставить компанию предоставлять больше легальных и ценных продуктов и услуг» – хотя даже эта цель, вероятно, может быть искажена, если хорошенько подумать.
  • Эти системы могут быть трудны для понимания и контроля людьми, если стратегии, которым следуют модели, сложны. Человеческий надзор также может быть сокращён просто потому, что он дорогостоящий. Это может привести к тому, что эти проблемы останутся без внимания.
  • Даже при наличии очевидных проблем экономические стимулы могут подтолкнуть людей к развёртыванию систем в любом случае, особенно если они считают, что участвуют в гонке с другими. Например, Microsoft запустила Bing Chat раньше срока, несмотря на предупреждения OpenAI о неточных или несвязных ответах.
  • В совокупности и в масштабе эти факторы могут привести к миру, где многое идёт не так, – а системы слишком сложны или могущественны, чтобы их исправить. Люди всё ещё могут существовать, но фактически они больше не контролируют ситуацию.

Распространённое возражение заключается в том, что мы не будем развёртывать системы, слишком сложные для понимания, или заведомо проблемные, на ответственных должностях – или что человеческого надзора будет достаточно. Однако существует множество контрпримеров, таких как скандал с Британской почтовой службой: в конце 1990-х годов Почтовая служба внедрила новую ИТ-систему, в которой были ошибки, вызывающие ошибки в бухгалтерском учёте. В результате она в течение десятилетий преследовала сотни почтмейстеров, настаивая на том, что система надёжна, несмотря на всё большее количество доказательств того, что она принципиально несовершенна. Она продолжала вести судебные тяжбы до 2019 года, даже когда знала, что её судебная защита ложна. Несмотря на человеческий надзор, который якобы обеспечивала судебная система, 236 почтмейстеров были ложно заключены в тюрьму на долгие годы, и ложные обвинения стали прямой причиной, по меньшей мере, четырёх самоубийств. Вот вам и контроль!

Внезапная потеря контроля

С другой стороны, потеря контроля может произойти очень внезапно – это часто называют «жёстким взлётом» или «FOOM».

Это может произойти, если система ИИ достаточно хороша, чтобы автономно улучшать свои собственные возможности. Если это произойдёт, система ИИ может увеличивать свои возможности потенциально экспоненциально, поскольку, когда модель становится более способной, она становится лучше в самосовершенствовании – это известно как «взрыв интеллекта». Это может произойти очень быстро, что очень затруднит контроль или даже просто реакцию со стороны людей.

Если неконтролируемые системы оптимизированы для достижения неправильной цели, это может быть катастрофично: как в случае ускорения результатов, аналогичных постепенной потере контроля, так и в случае активного захвата власти (см. ниже).

Даже если он контролируется и не приводит к немедленной катастрофе, это даст субъекту, контролирующему систему ИИ, огромную власть, которой можно злоупотреблять или которая может привести к значительной нестабильности.

Активный захват власти

В обоих описанных выше сценариях мы можем потерять контроль без намерения системы ИИ лишить людей власти. Однако этот процесс может ускориться, если системы ИИ намеренно попытаются это сделать.

У них может возникнуть стимул сделать это, потому что стремление к конвергентным инструментальным подцелям, таким как самосохранение, получение ресурсов и удержание власти, может помочь им лучше достичь своих общих целей. Люди, находящиеся у власти, могут представлять значительную угрозу или препятствие для всех этих подцелей.

Системы могут изначально пытаться скрыть такое поведение и казаться безопасными, чтобы их не отключили. Как только они почувствуют, что находятся в положении, когда могут захватить власть, они могут внезапно начать действовать опасным образом – это называется «вероломным поворотом».

С другой стороны, они могут просто попытаться сделать это из-за сбоя в работе в критических ситуациях. Независимо от того, насколько «намеренным» является это действие, оно всё равно может привести к одному и тому же результату. Например, Bing Chat иногда угрожает убить или причинить вред людям, которые критикуют его (хотя, к счастью, у него нет возможности осуществить эту угрозу), несмотря на то, что это относительно простая система предсказания текста без других структурированных целей.

На самом деле неясно, приведёт ли к этому способ, которым мы обучаем системы. Обучение систем (особенно с помощью обучения с подкреплением) действовать в мире с высоким уровнем самосознания, вероятно, увеличит этот риск. К сожалению, существуют явные экономические стимулы для продвижения в этом направлении, поскольку эти системы, вероятно, более способны эффективно дополнять или заменять человеческий труд.

Также очень неясно, смогут ли наши нынешние подходы к безопасности ИИ смягчить эти угрозы. Мы до сих пор не знаем, как надёжно заставить системы ИИ делать то, что хотят их создатели. Подходы к управлению ИИ часто не учитывают риски захвата власти, и даже там, где они это делают, они лишь частично смягчают угрозу. Многие исследователи опасаются, что если невероятно интеллектуальные системы ИИ будут активно оптимизироваться против мер безопасности, то несовершенные меры безопасности, применяемые к принципиально несовместимой модели, в какой-то момент сломаются (что может произойти быстро в случае взрыва интеллекта).

Неизвестные риски

Новые технологии часто несут в себе риски, которые трудно предвидеть. Как отмечает Дефо (2020), риски от двигателя внутреннего сгорания включали «разрастание городов, наступательную войну блицкрига, стратегические бомбардировщики и изменение климата» – список, который, по-видимому, было трудно предсказать в 1800-х годах.

Несмотря на это, мы всё ещё можем косвенно подготовиться к ним. Мы можем сделать институты более способными выявлять новые риски, связанные с ИИ, и реагировать на них по мере их возникновения. Мы также можем улучшить нашу реакцию на currently неизвестные риски, отчасти помня о том, что мы, возможно, ещё не знаем всех рисков.

Примечания

  1. Скептики утверждают, что существуют огромные трудности в использовании беспилотников для надёжного обнаружения подводных лодок, такие как обширные зоны поиска, ограничения сенсорных технологий, короткое время автономной работы и низкая скорость беспилотников. С другой стороны, возможно, эти проблемы можно преодолеть с помощью технологических достижений (например, улучшенного анализа данных датчиков) и инновационных подходов (например, использования относительно централизованных зарядных станций или наземных солнечных панелей для зарядки беспилотников).

Это отличается от ранее высказанной озабоченности по поводу закрепления негативных ценностей. В предыдущем разделе мы рассмотрели, как концентрация власти может закрепить негативные ценности. Здесь же речь идёт о том, что неограниченная конкуренция может закрепить негативные ценности. (Конечно, какие ценности являются негативными, – вопрос весьма спорный).

(Автор: Адам Джонс, опубликовано 21 февраля 2024 г.)