Более половины ссылок, выдаваемых ChatGPT, оказались фейковыми или содержат ошибки

Исследование показало, что более 56% ссылок, генерируемых ChatGPT для научных работ, либо полностью выдуманы, либо содержат серьезные ошибки, что ставит под угрозу достоверность исследований.

Cover Image for Более половины ссылок, выдаваемых ChatGPT, оказались фейковыми или содержат ошибки

Исследователи в области ментального здоровья, использующие ChatGPT для ускорения работы, столкнулись с тревожным открытием: более половины ссылок, генерируемых искусственным интеллектом, либо полностью выдуманы, либо содержат серьезные ошибки. Таковы результаты исследования австралийских ученых из Университета Дикин.

Масштабы проблемы с цитированием

Когда ученые поручили GPT-4o написать шесть литературных обзоров по темам ментального здоровья, они обнаружили, что почти 20% из 176 сгенерированных цитат были полностью сфабрикованы. Среди 141 реальной ссылки 45,4% содержали ошибки — неправильные даты публикации, некорректные номера страниц или недействительные идентификаторы DOI.

В общей сложности только 77 из 176 цитат (43,8%) были одновременно реальными и точными. Это означает, что 56,2% либо выдуманы, либо содержат ошибки. Для исследователей, испытывающих давление необходимости публиковаться и все чаще обращающихся к ИИ-инструментам, это исследование, опубликованное в JMIR Mental Health, раскрывает тревожную закономерность.

Проблема фантомных публикаций

Сфабрикованные цитаты не выглядели очевидно поддельными. Когда GPT-4o предоставлял DOI для выдуманной ссылки (33 из 35 сфабрикованных источников включали DOI), 64% ссылались на реальные публикации, но совершенно по другим темам. Человек, переходящий по такой ссылке, попадал на настоящую статью, что затрудняло обнаружение подделки без тщательной проверки.

Еще 36% фальшивых DOI были полностью недействительными или нефункциональными. В любом случае, такие цитаты не могли подтвердить утверждения, сделанные ИИ в сгенерированном тексте.

ИИ, созданный для обработки информации, становится источником дезинформации в научной среде. Особенно цинично выглядит то, что 64% фальшивых DOI ведут на реальные статьи — это создает иллюзию достоверности, которую сложно разоблачить без глубокой экспертизы. По сути, мы получаем научный эквивалент «правдоподобной лжи» — технологию, которая не столько помогает исследователям, сколько создает дополнительные проверочные барьеры.

Влияние тематики на точность ИИ

Ведущий автор Джейк Линардон и его коллеги проверили, зависит ли точность ИИ от известности темы и специфичности запроса. Они выбрали три психиатрических расстройства для эксперимента: большое депрессивное расстройство, компульсивное переедание и дисморфическое расстройство тела.

Точность цитирования GPT-4o значительно варьировалась в зависимости от темы:

  • Для большого депрессивного расстройства только 6% цитат были сфабрикованы
  • Для компульсивного переедания уровень подделки вырос до 28%
  • Для дисморфического расстройства тела — 29%

Среди реальных цитат точность составила 64% для депрессии, 60% для компульсивного переедания и всего 29% для дисморфического расстройства. Эта закономерность предполагает, что ChatGPT может работать лучше по хорошо изученным темам с обильными тренировочными данными.

Растущее использование ИИ в исследованиях

Эти результаты появляются на фоне ускорения внедрения ИИ в научную среду. Недавний опрос показал, что почти 70% ученых в области ментального здоровья используют ChatGPT для исследовательских задач, включая написание текстов, анализ данных и литературные обзоры.

Большинство пользователей отмечают, что инструменты повышают эффективность, но многие выражают обеспокоенность по поводу неточностей и вводящего в заблуждение контента.

Исследователи сталкиваются с растущим давлением необходимости часто публиковаться при одновременном выполнении преподавательских, кураторских и административных обязанностей. Инструменты, обещающие упростить литературные обзоры и ускорить написание, предлагают привлекательные решения для повышения продуктивности. Но принятие вывода ИИ без проверки создает серьезные риски.

Типы ошибок и их последствия

Фальшивые ссылки вводят читателей в заблуждение, искажают научное понимание и подрывают основы научной коммуникации. Цитаты направляют читателей к исходным доказательствам и способствуют накоплению знаний. Когда эти цитаты никуда не ведут или указывают на неправильные статьи, вся система разрушается.

Разные типы ошибок затрагивали разные части цитирования:

  • DOI имели самый высокий уровень ошибок — 36,2%
  • Списки авторов — самый низкий уровень ошибок — 14,9%
  • Годы публикации, названия журналов, номера томов и диапазоны страниц показали промежуточные значения

Рекомендации для исследователей и институтов

Команда Линардона подчеркивает, что весь контент, сгенерированный ИИ, требует тщательной проверки человеком. Каждая цитата должна проверяться по первоисточникам. Утверждения нуждаются в валидации. Ссылки должны подтверждаться на существование и действительно поддерживать заявления, приписываемые им.

Авторы также призывают журналы внедрить более сильные защитные механизмы. Одно из предложений включает использование программного обеспечения для обнаружения плагиата в обратном порядке. Например, цитаты, которые не вызывают совпадений в существующих базах данных, могут сигнализировать о сфабрикованных источниках, которые стоит исследовать более тщательно.

Академические учреждения должны разработать четкие политики относительно использования ИИ в научных публикациях, включая обучение тому, как идентифицировать галлюцинированные цитаты и правильно раскрывать, когда генеративный ИИ внес вклад в рукопись.

Исследование не обнаружило четких доказательств того, что новые версии ИИ решили проблему галлюцинаций, хотя прямые сравнения с более ранними моделями ограничены различиями в методологиях исследований.

По материалам StudyFinds