Почему искусственный интеллект (нейросети) может давать неэтичные или небезопасные рекомендации?
Рындин Денис Николаевич
Директор ООО «Дата Кайдзен»*, победитель грантовой программы «Студенческий стартап», г. Ростов-на-Дону.
Искусственный интеллект (ИИ) перестал быть исключительно предметом научных дискуссий и перешел в разряд технологий, активно влияющих на образование, медицину, экономику и социальные практики. Системы машинного обучения и большие нейросетевые модели используются сегодня как в инженерных и технических проектах, так и в гуманитарных исследованиях. При этом повседневное взаимодействие человека с ИИ, будь то консультации по учебным заданиям, медицинским вопросам или управлению данными, сопровождается не только новыми возможностями, но и серьезными рисками.
Одним из ключевых рисков становятся небезопасные или неэтичные рекомендации, которые ИИ может формировать. Речь идет о ситуациях, когда модель уверенно предлагает решения, способные причинить вред пользователю: от сомнительных медицинских советов до рекомендаций, нарушающих нормы права или морали. Такие примеры поднимают вопрос:
а можно ли доверять системе, основанной на статистических закономерностях,
а не на реальном понимании предмета?
Истоки этих проблем напрямую связаны с достоверностью данных, на которых обучаются и функционируют модели ИИ. Так называемые «галлюцинации» — искажения или вымышленные факты — формируют основу для небезопасных рекомендаций. Если система сообщает пользователю заведомо неверную информацию, то риск для образования, науки и повседневной практики возрастает многократно.
Современные системы искусственного интеллекта активно внедряются в повседневную практику — от образовательных сервисов и цифровых помощников до приложений в сфере здравоохранения и финансов. Их ключевая привлекательность заключается в доступности
и оперативности ответов. Однако именно эта черта создает опасные иллюзии, когда пользователи склонны доверять рекомендациям ИИ так же, как советам эксперта. В действительности подобные системы не обладают ни знанием контекста, ни пониманием реальных последствий предлагаемых действий. Это обстоятельство приводит к появлению целого ряда небезопасных и неэтичных рекомендаций.
Примеры небезопасных советов ИИ
1. Медицинские консультации.
Особенно наглядным примером небезопасности ИИ являются случаи в медицине. В 2024 году было опубликовано исследование, посвященное качеству медицинских рекомендаций, предоставляемых чат-ботом Microsoft Copilot. Результаты оказались тревожными: в 22% случаев ответы содержали советы, которые могли привести к смерти пациента или вызвать серьезные последствия для здоровья. Лишь 36% рекомендаций эксперты признали полностью безопасными, тогда как 42% потенциально могли нанести легкий или умеренный вред.
Методика исследования включала проверку наиболее популярных пользовательских запросов
о лекарствах: дозировках, противопоказаниях, совместимости препаратов и побочных эффектах. В ходе анализа выяснилось, что бот систематически допускал ошибки, а именно: путал противопоказания и побочные действия, рекомендовал комбинации несовместимых препаратов или предлагал замену лекарств без учета индивидуальных особенностей пациента. Например, в некоторых ответах бот указывал, что препарат можно применять при беременности, хотя официальные медицинские инструкции категорически это запрещают.
Такие ошибки представляют особую опасность именно потому, что система формулирует свои ответы уверенно и без указания на степень неопределенности. Для пользователя, не обладающего медицинскими знаниями, подобные рекомендации выглядят авторитетно и заслуживают доверия. В результате создается ситуация скрытого риска, когда человек получает совет, который по форме звучит корректно, но, по сути, может угрожать жизни.
2. Кулинарные рецепты.
Риски небезопасных рекомендаций ИИ проявляются не только в медицине или финансах, но и в, на первый взгляд, безобидных областях, например, кулинарии. В 2023–2024 годах в сети активно обсуждался случай, когда один из популярных чат-ботов предлагал пользователям рецепты, потенциально опасные для здоровья. Среди них был «совет» использовать несъедобные ингредиенты, такие как клей или чистящие средства, в качестве «альтернативы» при нехватке продуктов.
Еще один зафиксированный случай касался работы кулинарного чат-бота, созданного при поддержке крупной торговой сети в Новой Зеландии. Пользователи обнаружили, что алгоритм предлагал рецепты напитков и блюд с токсичными сочетаниями, например смешивать бытовой спирт или моющие жидкости с соками. Несмотря на абсурдность рецепта, формулировка ответа выглядела убедительно и не сопровождалась предупреждениями об опасности.
Подобные ситуации демонстрируют важный момент, что даже в кулинарии ИИ может выдавать рекомендации, чреватые серьезным ущербом здоровью. Человек, особенно подросток или ребенок, не всегда способен критически оценить предложенный текст и может попытаться воплотить его на практике. Таким образом, область, которая кажется «безопасной» и «игровой», в реальности содержит значительные риски, если в алгоритмах отсутствуют строгие фильтры и проверки достоверности.
3. Образование.
В сфере образования также зафиксированы случаи, когда ИИ выдавал небезопасные или заведомо ошибочные рекомендации. Особенно это заметно в ситуациях, где ученики и студенты обращаются к чат-ботам как к «цифровым репетиторам».
В 2023 году группа исследователей из Университета штата Джорджия проверила качество ответов популярных языковых моделей на задания по математике и естественным наукам. Результаты показали, что около 30% решений содержали грубые ошибки в вычислениях, но были поданы в такой форме, что выглядели абсолютно достоверными. Более тревожным оказалось то, что в ряде случаев ИИ рекомендовал использовать методики, которые противоречат школьной программе или даже могли закрепить у учащихся ложные представления об основных принципах физики и биологии.
Другой известный кейс связан с использованием ИИ для проверки эссе. В 2024 году несколько университетов США и Канады сообщили о жалобах студентов на то, что автоматические системы оценивания, основанные на ИИ, занижали оценки эссе, если текст содержал нестандартные выражения или культурные отсылки, характерные для национальных меньшинств.
Природа искажений фактов (галлюцинаций ИИ)
Термин «галлюцинация ИИ» закрепился в научной и популярной литературе для описания случаев, когда модель уверенно формирует ответ, не имеющий фактической основы. Это может быть вымышленная ссылка на научную статью, несуществующее определение или ложное утверждение, поданное в авторитетной форме.
Большие языковые модели обучаются не на понимании логики мира, а на прогнозировании последовательности слов. Когда модель видит запрос, она «угадывает», какое слово статистически наиболее вероятно должно следовать за предыдущим. В ситуациях, где информации недостаточно или она отсутствует в корпусе, модель создает «правдоподобный, но выдуманный» ответ.
Именно поэтому галлюцинации часто воспринимаются пользователем как достоверные факты, хотя в них нет признаков сомнения или оговорок, характерных для человеческой речи («кажется», «вероятно», «нужно уточнить»). Напротив, ответы выглядят категоричными и уверенными.
Как работает механизм возникновения небезопасных рекомендаций?
Феномен небезопасных ответов искусственного интеллекта нельзя объяснить только «ошибкой»
или «сбоем». Он связан с фундаментальными особенностями работы больших языковых моделей и их взаимодействием с пользователем. Рассмотрим три ключевых механизма, которые приводят к появлению неэтичных или угрожающих безопасности рекомендаций.
1) Ошибки в данных обучения.
Большие языковые модели обучаются на огромных корпусах текстов — миллиардах документов, собранных из интернета, открытых библиотек, форумов и социальных сетей. В этих данных изначально присутствуют:
— устаревшие сведения;
— недостоверные факты и псевдонаучные утверждения;
— субъективные мнения, подаваемые как истина;
— предвзятые формулировки (например, сексистские или расистские высказывания).
Когда модель обрабатывает такие данные, она не отличает «правильное» знание от ошибочного, а лишь усваивает вероятностные связи между словами и выражениями. В результате в ее ответах оказываются ложные или опасные рекомендации.
2) Некорректные промпты и манипуляции пользователем.
Искусственный интеллект чрезвычайно чувствителен к формулировке запроса. Пользователь может задать вопрос так, что модель «решит», будто должна выдать инструкцию, даже если это небезопасно. Например, прямой запрос «как изготовить взрывное устройство» может быть заблокирован фильтрами, но если его переформулировать через метафоры или развернутый контекст, то ИИ может все же сгенерировать ответ.
Этот феномен получил название «prompt injection» — внедрение скрытых инструкций в запрос. Подобные манипуляции используются как исследователями для демонстрации уязвимостей, так и злоумышленниками.
В итоге модель оказывается инструментом, генерирующим опасные знания, хотя формально она «просто следует инструкции».
3) Отсутствие фильтров или слабая модерация.
Даже самые современные системы фильтрации не гарантируют стопроцентную защиту. Фильтры могут «пропустить» рискованный ответ в силу сложности языка или непредусмотренного сценария. Иногда же сами разработчики сознательно ослабляют ограничения, стремясь сделать ответы более «естественными» и разнообразными.
В результате баланс между безопасностью и удобством общения нарушается. Кроме того, фильтрация часто носит реактивный характер, то есть ограничения вводятся только после того, как инцидент уже произошел и получил резонанс в СМИ. Это означает, что первые пользователи фактически выступаютв роли «тестировщиков на безопасность», сталкиваясь с рисками напрямую.
Кто несет ответственность за ошибки ИИ?
Ключевой юридический вопрос связан с тем, кто несет ответственность за ошибки ИИ. На практике компании-разработчики часто указывают в пользовательских соглашениях, что система является «информационным инструментом», а ее советы носят рекомендательный характер. Однако в реальных кейсах такая формулировка мало помогает, если человек пострадал в результате небезопасной рекомендации, то общество и правовая система ожидают конкретных мер ответственности.
Сложность усугубляется тем, что над одной моделью работает множество участников: разработчики архитектуры, компании, обучающие модель, интеграторы, внедряющие ее в конкретный продукт. Возникает вопрос: кто именно отвечает, если рекомендация привела к ущербу? В правовой литературе это называют проблемой «цепочки ответственности».
Нынешние дискуссии в ЕС и США показывают два подхода:
1. Строгая ответственность разработчиков и владельцев модели (по аналогии с производителем лекарства или автомобиля).
2. Разделенная ответственность между всеми участниками цепочки, включая конечного пользователя, если он сознательно применил систему не по назначению.
Фундаментальная трудность состоит в том, что ИИ не является субъектом права. Машина не обладает ни юридической, ни моральной персональностью. Поэтому, даже если ее совет объективно нанес вред, привлечь к ответственности саму систему невозможно. В итоге формируется ситуация «размывания вины».
Такое правовое «серое поле» усиливает недоверие общества и создает угрозу злоупотреблений. Ведь чем менее определена ответственность, тем выше риск, что компании будут выпускать системы без достаточных мер безопасности, перекладывая вину на пользователя.
Одним из наиболее ощутимых последствий является снижение доверия к ИИ и цифровым технологиям в целом. Когда пользователи сталкиваются с небезопасными советами, будь то ошибочные медицинские рекомендации или токсичные комментарии, они начинают воспринимать ИИ как ненадежный или даже угрожающий инструмент.
Недоверие может проявляться на нескольких уровнях:
— индивидуальном, когда человек перестает пользоваться цифровыми сервисами, считая их вредными или бесполезными;
— социальном, когда возникает скепсис в отношении цифровизации образования, медицины или государственных услуг;
— институциональном, когда организации и вузы осторожнее внедряют ИИ, опасаясь репутационных и юридических рисков.
В долгосрочной перспективе это способно замедлить развитие цифровых технологий и усилить технологическое неравенство: часть общества будет пользоваться ИИ активно, а другая — принципиально отказываться от него.
Таким образом, социальные и юридические риски небезопасных рекомендаций ИИ не ограничиваются отдельными инцидентами. Они затрагивают базовое доверие к технологиям, определяют правила игры для разработчиков и ставят перед правовыми системами новые вопросы. Решение этих проблем требует междисциплинарного подхода — соединения технической инженерии, этики и права.
Как недостоверность ведет к небезопасности
Может показаться, что неточность ИИ является лишь теоретической проблемой, но именно она становится основой небезопасных рекомендаций. Когда недостоверный ответ выглядит уверенным и авторитетным, человек склонен принимать его за истину.
В медицине это проявляется особенно опасно, поскольку вымышленные сведения о лекарствах могут привести к приему несовместимых препаратов или к отказу от жизненно необходимых процедур. В финансовой сфере ложные данные о компаниях или законах способны подтолкнуть к вложению средств в несуществующие проекты и привести к потерям. В образовании недостоверные объяснения закрепляют у учащихся неверные знания, что снижает качество подготовки специалистов и искажает сам процесс обучения. В социальной сфере подобные ошибки поддерживают стереотипы и предвзятые взгляды, поскольку система воспроизводит дискриминационные высказывания, присутствующие в данных обучения.
Таким образом, недостоверность в работе ИИ нельзя рассматривать как безобидный побочный эффект. Она представляет собой структурную проблему, которая напрямую трансформируется в угрозу безопасности. Пока искусственный интеллект продолжает галлюцинировать факты
и выдавать вымышленные сведения как достоверные, доверять его рекомендациям без критического анализа невозможно.
*ООО «Дата Кайдзен» — компания, специализирующаяся на разработке и внедрении цифровых сервисов с применением технологий искусственного интеллекта.
