Microsoft переосмысливает имитационное обучение ИИ
Исследователи из Microsoft нашли новый путь. Они пересмотрели основы имитационного обучения. Теперь ИИ-агенты учатся иначе.
Исследователи из Microsoft нашли новый путь. Они пересмотрели основы имитационного обучения. Теперь ИИ-агенты учатся иначе.
Искусственный интеллект GPT-OSS прошёл курс обучения с подкреплением. Теперь он учится не просто отвечать, а действовать.
Исследователи Microsoft придумали, как заставить ИИ-агентов учиться на ходу. Это похоже на молнию — быстро и без лишних движений.
Исследователи Amazon нашли способ заставить ИИ-агентов лучше выполнять узкие задачи. Они использовали старые добрые методы обучения с подкреплением.
Ученые представили модель вознаграждения для ИИ, которая использует самоанализ и концепцию «боли» для улучшения обучения в виртуальных средах.
Исследователи представили SCRIBE — новый фреймворк обучения с подкреплением, который решает проблему присвоения заслуг в многошаговых рассуждениях для ИИ-агентов, использующих инструменты.
Группа учёных предложила новый фреймворк на основе обучения с подкреплением для генерации клинически точных радиологических отчётов, который значительно снижает количество ошибок.
Исследователи представили метод R²VPO для тонкой настройки языковых моделей, который повышает производительность на 17% и требует в два раза меньше данных для обучения.
Лаборатория искусственного общего интеллекта Amazon разрабатывает систему «тренажёров» для обучения ИИ-агентов сотням рутинных действий, необходимых для работы в реальных веб-системах.
Исследователи представили новый метод обнаружения аномалий во временных рядах, который объединяет большие языковые модели, обучение с подкреплением и активное обучение для эффективной работы при ограниченном количестве размеченных данных.
Аналитики SemiAnalysis подтверждают, что основной прогресс в возможностях ИИ последние 18 месяцев обеспечивало масштабирование обучения с подкреплением (RL), а не претренинг, что доказывает пример OpenAI с GPT-4o.
Учёные представили новый алгоритм обучения с подкреплением, который позволяет эффективно обучать «плоские» политики для решения долгосрочных задач без использования сложных иерархических структур.
Новое исследование выявило парадокс: дообучение с подкреплением улучшает результаты медицинских ИИ-моделей на стандартных тестах, но резко снижает их способность работать с данными из других больниц.
Исследователи представили новый метод онлайн-тонкой настройки архитектуры Decision Transformers, который использует исключительно градиенты обучения с подкреплением, а не стандартные подходы.