
После широкого распространения ChatGPT в конце 2022 года множество исследователей начали делиться с коллегами наблюдениями о возросшей эффективности работы благодаря новым инструментам искусственного интеллекта. Одновременно редакторы научных журналов отмечали резкое увеличение числа гладко написанных материалов, которые, однако, не всегда представляли значительную научную ценность.
Новое исследование Корнеллского университета подтверждает, что эти разрозненные свидетельства указывают на фундаментальные изменения в процессе подготовки научных рукописей. Ученые обнаружили, что большие языковые модели (БЯМ), такие как ChatGPT, способны значительно увеличить количество публикуемых работ, особенно для исследователей, для которых английский язык не является родным. Тем не менее, растущий объем текстов, сгенерированных ИИ, усложняет задачу принятия решений – становится все труднее отличить по-настоящему значимую работу от материалов с низкой научной ценностью.
«Это очень распространенная тенденция, охватывающая различные научные области — от физических и компьютерных наук до биологических и социальных, — отмечает Йиан Инь, доцент информатики в Колледже вычислительной техники и информатики Корнелла имени Энн С. Бауэрс. — В нашей текущей экосистеме происходят серьезные сдвиги, требующие самого пристального внимания, особенно со стороны тех, кто принимает решения о том, какую науку следует поддерживать и финансировать.»
Результаты исследования опубликованы 18 декабря в журнале *Science* под заголовком «Scientific Production in the Era of Large Language Models».
Чтобы проанализировать влияние БЯМ на научную публикацию, команда Йиана Иня собрала более двух миллионов статей, размещенных с января 2018 года по июнь 2024 года на трех крупных платформах препринтов: arXiv, bioRxiv и Social Science Research Network (SSRN). Эти платформы охватывают физические, биологические и социальные науки и содержат исследования, еще не прошедшие рецензирование. Исследователи использовали статьи, опубликованные до 2023 года и предположительно написанные людьми, для сравнения с текстами, сгенерированными ИИ. На основе этого сравнения была создана модель для выявления статей, вероятно написанных с помощью БЯМ. Используя этот детектор, ученые оценили, какие авторы, вероятно, применяли БЯМ для написания, отслеживали количество их публикаций до и после внедрения инструментов, а затем проверяли, были ли эти статьи впоследствии приняты научными журналами.
Результаты показали явный скачок производительности, связанный с предполагаемым использованием БЯМ. На платформе arXiv ученые, помеченные как пользователи БЯМ, опубликовали примерно на треть больше статей, чем те, кто, по всей видимости, не использовал ИИ. На bioRxiv и SSRN рост превысил 50%. Наибольший прирост наблюдался у ученых, для которых английский является вторым языком и которые сталкиваются с дополнительными трудностями при изложении технических работ на иностранном языке. Например, исследователи, связанные с азиатскими учреждениями, опубликовали от 43,0% до 89,3% больше статей после того, как детектор показал начало использования ими БЯМ, по сравнению с аналогичными исследователями, которые, по всей вероятности, не приняли эту технологию, в зависимости от платформы препринтов. Йиан Инь предполагает, что это преимущество в конечном итоге может изменить глобальные модели научной продуктивности в сторону регионов, которые ранее сдерживались языковым барьером.
Исследование также указало на потенциальное преимущество при поиске литературы и создании цитат. Когда исследователи ищут связанную работу для цитирования, Bing Chat — описанный как первый широко распространенный инструмент поиска на основе ИИ — показал лучшие результаты в обнаружении новых статей и релевантных книг, чем традиционные поисковые системы. Традиционные инструменты, напротив, чаще выдавали более старые и часто цитируемые источники. «Люди, использующие БЯМ, подключаются к более разнообразным знаниям, что может стимулировать более креативные идеи», — заявил первый автор исследования Кейго Кусумеги, докторант в области информатики. Он планирует дальнейшие исследования для проверки, связано ли использование ИИ с более инновационной и междисциплинарной наукой.
Однако, хотя БЯМ помогают отдельным лицам производить больше рукописей, те же самые инструменты могут усложнить для других оценку того, что является по-настоящему сильной наукой. В статьях, написанных человеком, более ясный, но сложный язык, включая более длинные предложения и сложные слова, часто служил полезным признаком более высокого качества исследования. На платформах arXiv, bioRxiv и SSRN статьи, вероятно написанные людьми, которые набрали высокие баллы в тесте на сложность письма, также чаще всего принимались журналами. Эта закономерность отличалась для статей, вероятно написанных с помощью БЯМ. Даже когда такие помеченные ИИ статьи набирали высокие баллы по сложности письма, они реже принимались журналами. Исследователи интерпретируют это как признак того, что отполированный язык больше не может надежно отражать научную ценность, и что рецензенты могут отклонять некоторые из этих работ, несмотря на убедительное изложение.
Йиан Инь отмечает, что этот разрыв между качеством письма и качеством исследования может иметь серьезные последствия. Редакторы и рецензенты могут столкнуться с большими трудностями в определении наиболее ценных материалов, в то время как университеты и финансирующие организации могут обнаружить, что чистый подсчет публикаций больше не отражает научный вклад.
Исследователи подчеркивают, что эти выводы носят наблюдательный характер. В качестве следующего шага они надеются проверить причинно-следственные связи, используя такие подходы, как контролируемые эксперименты, включая дизайны, где некоторые ученые случайным образом назначаются для использования БЯМ, а другие — нет. Йиан Инь также организует симпозиум в кампусе Итаки, запланированный на 3–5 марта 2026 года. Мероприятие будет посвящено тому, как генеративный ИИ изменяет исследования и как ученые и политики могут направлять эти изменения. По мере того как ИИ становится более распространенным для написания, кодирования и даже генерации идей, Йинь ожидает, что его влияние будет расширяться, фактически превращая эти системы в своего рода соисследователей. Он утверждает, что политики должны обновлять правила, чтобы не отставать от быстро развивающихся технологий. «Уже сейчас вопрос не в том, использовали ли вы ИИ? Вопрос в том, как именно вы использовали ИИ и полезно ли это было», — заключает Йиан Инь.
Соавторами исследования выступили Синью Ян, докторант в области компьютерных наук; Пол Гинспарг, профессор информатики в Корнеллском университете Боуэрс и физики в Колледже искусств и наук, основатель arXiv; а также Матейс де Ваан и Тоби Стюарт из Калифорнийского университета в Беркли. Исследование было поддержано Национальным научным фондом.