Зачем физикам идти в большие данные

На Большом адронном коллайдере совершено много открытий (кроме знаменитой «частицы Бога» – бозона Хиггса). Одним из них стала регистрация неизвестных элементарных частиц – тетракварков. Это удалось благодаря новым методам работы с данными. Андрей Устюжанин, учёный Яндекса, кандидат физико-математических наук, заведующий научно-учебной лабораторией методов анализа больших данных факультета компьютерных наук Высшей школы экономики рассказывает, как работа с данными позволяет делать такие глубокие открытия, и почему ученым пора становиться дата-сайентистами.

Новая степень свободы для исследователей и совершенно новый подход к науке — data-driven science: взгляд на любое явление через призму данных.


Как машинное обучение связано с Большим адронным коллайдером и почему наука и ИТ должны работать сообща

Наука и техника — тесно связанные друг с другом элементы человеческой культуры. Развитие научной мысли, вроде открытия закона Ома и теории относительности, ведёт к техническому прогрессу, а появление новых технологий, в свою очередь, меняет подход к фундаментальной науке.

Андрей Устюжанин, учёный Яндекса, кандидат физико-математических наук, заведующий научно-учебной лабораторией методов анализа больших данных факультета компьютерных наук Высшей школы экономики

В истории долго преобладала эмпирическая наука: истина объяснялась через факты и софистические принципы. С Ньютона и Кеплера началась эра теоретической науки, отталкивающейся от законов и доказательств: появлялись новые способы записи и математической проверки закономерностей. Такой подход преобладал вплоть до середины XX века, когда появление компьютеров позволило моделировать законы с гораздо большей точностью и с помощью компьютерной симуляции рассчитывать более сложные системы: биологические, экономические, физические. Но на получение результата уходило много времени и ресурсов.

Развитие вычислительных ресурсов и машинное обучение (ML) существенно продвинули использование компьютерной симуляции в науке. Сейчас мы можем построить нейросеть, которая выучит соответствие входных и выходных параметров и проведёт расчёты с гораздо большей скоростью. Это новая степень свободы для исследователей и совершенно новый подход к науке — data-driven science: взгляд на любое явление через призму данных.

Мы начинаем видеть не процессы или изменения характеристик во времени, а зависимости и параметры, которые мы можем с определенной точностью записать при помощи алгоритмов. Мы даём нейросети возможность наблюдать за физическим объектом, и она предсказывает его поведение и находит описывающие его законы. Это позволяет науке задавать более сложные вопросы. Например, раньше мы могли рассчитать с помощью симуляций, какими свойствами обладает материал с той или иной структурой. Теперь мы можем достаточно точно предсказать, какая структура должна быть у материала с нужными нам параметрами. Решая подобные «обратные» задачи, мы можем найти вещества с принципиально новыми свойствами, которые нельзя получить никакими другими методами ни из полимеров, ни химическими реакциями, например сверхрешетки трехслойного графена, которые обладают высокотемпературной сверхпроводимостью.

Машинное обучение и физика высоких энергий

Пример успешной коллаборации ML и физики — исследования с участием Школы анализа данных (ШАД) Яндекса на базе LHCb, эксперимента ЦЕРНа по изучению поведения b-кварков и нарушения CP-симметрии. LHCb — один из четырёх основных детекторов частиц на Большом адронном коллайдере. ШАД предоставляет экспертизу в области машинного обучения, продвинутые алгоритмы и необходимые вычислительные мощности, а LHCb — научную базу для исследований. Результаты этого взаимодействия иллюстрируют, насколько применение алгоритмов может ускорить открытия и увеличить точность экспериментов.


Детектор частиц Большого адронного коллайдера

Когда речь идёт о процессах, возникающих в нескольких случаях на миллиард, как, например, распад прелестного мезона (Bs-мезона) на пару из мюона и антимюона, невозможно представить фиксацию и анализ события без применения алгоритмов обработки больших данных. В LHCb мюон — это одна из важных частиц, которые регистрирует детектор. Определение наличия мюонов в результате распада — это очень вычислительноёмкая задача, которую невозможно решить методом перебора. В процессе эксперимента внутрь цепочки анализа данных детектора был встроен алгоритм Яндекса CatBoost, который, как оказалось, определяет координаты траекторий мюонов лучше и быстрее, чем его аналоги. Для ускорения симуляции таких событий может быть использован метод ускорения симуляции событий с использованием генеративных нейросетей, сокращающих время вычислений на несколько порядков. Аналогичный подход исследователи ШАДа предложили для работы с другим поддетектором. Это позволит определять мюоны с высокой точностью и рассчитывать симуляции потоков событий, на которые детектор выйдет через пять лет — старые способы с таким потоком данных не справились бы.

Применение алгоритмов и экспертизы ШАДа и Яндекса для улучшения качества идентификации частиц в LHCb послужило также и недавнему обнаружению четырёх новых тетракварков. Это важное открытие состоялось благодаря анализу данных, собранных на Большом адронном коллайдере с 2011 по 2018 год. До сих пор нормой были обычные адроны: протоны, нейтроны, каоны, состоящие из трех кварков, и пентакварки. Теперь работа идёт с тетракварками, обнаружение которых ставит вопрос об уточнении описаний теоретических механизмов работы сильного взаимодействия внутри частиц.

Здесь обрабатывают данные с детектора

COM_SPPAGEBUILDER_NO_ITEMS_FOUND