Новый метод прогнозирования значительно повышает точность научных предсказаний



На международной арене математических исследований появилась новая прорывная разработка. Команда ученых под руководством статистика Тэхо Кима из Университета Лихай представила метод, который значительно повышает точность научных предсказаний, делая их гораздо ближе к реальным результатам. Эта инновация обещает улучшить прогнозирование во многих областях, от медицинских исследований и биологии до социальных наук.

Новый подход получил название Maximum Agreement Linear Predictor, сокращенно MALP. Его ключевая цель — добиться максимально возможного соответствия между предсказанными и фактически наблюдаемыми значениями. MALP достигает этого, оптимизируя коэффициент корреляции согласия (Concordance Correlation Coefficient, CCC). Этот статистический показатель оценивает, насколько тесно пары чисел располагаются вдоль линии в 45 градусов на диаграмме рассеяния. CCC учитывает как точность (кучность точек), так и их близость к самой линии, отражая высокий уровень согласия. В отличие от него, традиционные методы, например широко используемый метод наименьших квадратов, в основном стремятся минимизировать среднюю ошибку. Хотя они эффективны во многих ситуациях, по словам Кима, такие методы могут быть менее подходящими, когда главное — обеспечить сильное совпадение прогнозов с реальными значениями.

«Иногда нам нужно не просто, чтобы наши прогнозы были близки — мы хотим, чтобы они имели максимально возможное согласие с реальными значениями, — объясняет Ким. — Вопрос в том, как научно значимо определить это согласие двух объектов? Мы можем представить это как близость точек к 45-градусной линии на диаграмме рассеяния между предсказанным и фактическим значениями. Если точки на такой диаграмме сильно совпадают с этой линией, то можно говорить о хорошем уровне согласия».

Часто, когда речь заходит о «согласии» данных, специалисты в первую очередь вспоминают коэффициент корреляции Пирсона. Этот показатель, изучаемый на ранних этапах статистического образования, измеряет силу линейной зависимости между двумя переменными. Однако, как отмечает Ким, он не проверяет, совпадает ли эта зависимость именно с линией в 45 градусов. Коэффициент Пирсона может показать сильную корреляцию даже для линий, наклоненных под 50 или 75 градусов, при условии, что точки данных расположены близко к прямой линии.

«В нашем случае нас интересует именно совпадение с 45-градусной линией. Для этого мы используем другой показатель: коэффициент корреляции согласия, который был предложен Лином в 1989 году, — уточняет исследователь. — Этот показатель акцентирует внимание именно на том, насколько хорошо данные выравниваются по 45-градусной линии. Разработанный нами предиктор нацелен на максимизацию этого коэффициента корреляции согласия между предсказанными и фактическими значениями».

Команда провела серию тестов для оценки эффективности MALP, используя как сгенерированные, так и реальные данные, включая результаты сканирования глаз и измерения жировых отложений в организме. Один из экспериментов был посвящен данным офтальмологического проекта, где сравнивались два типа оптических когерентных томографов (OCT) — старый Stratus OCT и более новый Cirrus OCT. Поскольку медицинские учреждения переходят на Cirrus, врачам необходим надежный метод для сопоставления измерений и отслеживания изменений во времени. Исследователи проанализировали высококачественные снимки 26 левых и 30 правых глаз, чтобы определить, насколько точно MALP может предсказывать показания Stratus OCT на основе измерений Cirrus OCT, и сравнили его с методом наименьших квадратов. Результаты показали, что MALP обеспечил прогнозы, которые теснее совпадали с истинными значениями Stratus, в то время как метод наименьших квадратов незначительно превзошел MALP в снижении средней ошибки. Это подчеркивает фундаментальный компромисс между достижением согласия и минимизацией ошибки.

В другом исследовании команда проанализировала набор данных о жировых отложениях, собранных у 252 взрослых, который включал массу тела, размер живота и другие антропометрические показатели. Прямые измерения процента жира в организме, такие как подводное взвешивание, являются точными, но дорогостоящими, поэтому часто используются более простые методы. MALP применялся для оценки процента жира и сравнивался с методом наименьших квадратов. Результаты оказались схожими с исследованием глаз: MALP дал прогнозы, которые теснее совпадали с реальными значениями, тогда как метод наименьших квадратов снова продемонстрировал чуть меньшие средние ошибки. Эта повторяющаяся закономерность еще раз подчеркнула постоянный баланс между стремлением к согласию и минимизацией ошибки.

Ким и его коллеги отметили, что MALP часто обеспечивает прогнозы, которые более эффективно совпадают с фактическими данными, чем стандартные методы. Тем не менее, они подчеркивают, что исследователи должны выбирать между MALP и более традиционными подходами в зависимости от своих конкретных приоритетов. Когда основная цель — уменьшение общей ошибки, хорошо зарекомендовавшие себя методы по-прежнему эффективны. Однако, если акцент делается на прогнозах, которые максимально точно совпадают с реальными результатами, MALP часто оказывается более сильным вариантом. Потенциальное влияние этой работы распространяется на многие научные области. Усовершенствованные инструменты прогнозирования могут принести пользу медицине, здравоохранению, экономике и инженерии. Для исследователей, полагающихся на прогнозирование, MALP предлагает многообещающую альтернативу, особенно когда достижение тесного согласия с реальными результатами важнее, чем простое сокращение среднего разрыва между предсказанными и наблюдаемыми значениями.

«Нам необходимо продолжить исследования, — заявляет Ким. — В настоящее время наш подход ограничен классом линейных предикторов. Этот класс достаточно обширен для практического применения в различных областях, но математически он все еще ограничен. Поэтому мы стремимся расширить его до общего класса, чтобы исключить линейную часть и превратить его в Maximum Agreement Predictor».