Группа исследователей представила алгоритм машинного обучения InstructMol для точного предсказания свойств молекул. Метод позволяет эффективно использовать большие объёмы немаркированных биохимических данных, что решает ключевую проблему нехватки размеченных данных в этой области. Алгоритм продемонстрировал высокую точность на реальных наборах данных и тестах на распределение, отличное от обучающего.
InstructMol оценивает надёжность псевдо-меток, что позволяет целевой модели извлекать пользу из немаркированных данных. Ключевое отличие от других подходов — алгоритм не требует передачи знаний между разными доменами, что исключает потенциальный разрыв между этапами предварительного обучения и тонкой настройки. Это упрощает процесс и повышает стабильность результатов.
Разработка важна для ускорения открытий в химии и биологии, где ручная разметка данных крайне трудоёмка. Традиционные методы машинного обучения сильно зависят от наличия размеченных данных, что ограничивает их применение. InstructMol открывает путь к анализу более сложных и обширных молекулярных структур, что критически для разработки новых лекарств и материалов.
Исходный код алгоритма доступен для научного сообщества. Работа была представлена на конференции NeurIPS 2024, что подчёркивает её значимость в области искусственного интеллекта и машинного обучения.