Группа исследователей представила новый метод CamS для предсказания свойств молекул с помощью авторегрессионных языковых моделей. Метод превзошёл существующие подходы на стандартных тестах MoleculeNet и MoleculeACE. Результаты работы опубликованы на arXiv.org 5 января 2026 года.
CamS преобразует молекулярные графы в структурированные последовательности, сохраняя информацию о связях. Метод использует поиск в ширину для сериализации мотивов от ядра к периферии. Это позволяет модели LLaMA обучаться на последовательностях разного масштаба, от локальных структур до глобальных каркасов молекул.
Новый подход решает проблему существующих методов: SMILES-последовательности теряют топологию, а графовые модели могут искажать важные химические детали. CamS сохраняет структурную информацию, что критично для точного предсказания, особенно на «обрывах активности» — небольших изменениях структуры, ведущих к резкому скачку свойств.
Модель CamS-LLaMA показала наилучшие результаты на бенчмарках. Анализ интерпретируемости подтвердил, что метод эффективно фокусирует внимание на ключевых различиях, определяющих свойства молекул.