Исследователи Николя Лакруа, Мирей Блей-Форнарино, Себастьен Моссер и Фредерик Пресьозо представили работу, в которой оценили применение малых языковых моделей для обратного проектирования структуры пайплайнов машинного обучения. Результаты показывают, что SLMs могут стать гибким инструментом для анализа разнообразных практик Data Science.
Методология включала сравнительный анализ нескольких малых языковых моделей с использованием теста Кохрена. Лучшая модель была сопоставлена с результатами предыдущих референсных исследований через тесты Макнемара. Дополнительно авторы проанализировали влияние вариаций в определениях таксономии на производительность и проверили соответствие выводов с помощью критерия хи-квадрат Пирсона.
Задача извлечения этапов ML-пайплайнов из кода критически важна для понимания эволюции экосистемы машинного обучения, но осложняется постоянным появлением новых алгоритмов, библиотек и наборов данных. Существующие подходы либо требуют ручной разметки, либо не справляются с разнообразием предметной области.
Исследование демонстрирует, что малые языковые модели, благодаря своей способности понимать код и выполнять классификацию, предлагают более масштабируемое и адаптивное решение для анализа практик Data Science, чем предыдущие методы.