Архивы обучение с подкреплением - AI Founder

Microsoft переосмысливает имитационное обучение ИИ

Microsoft переосмысливает имитационное обучение ИИ

Исследователи из Microsoft нашли новый путь. Они пересмотрели основы имитационного обучения. Теперь ИИ-агенты учатся иначе.

GPT-OSS научили принимать решения как человек

GPT-OSS научили принимать решения как человек

Искусственный интеллект GPT-OSS прошёл курс обучения с подкреплением. Теперь он учится не просто отвечать, а действовать.

Microsoft научила ИИ-агентов учиться без переписывания кода

Microsoft научила ИИ-агентов учиться без переписывания кода

Исследователи Microsoft придумали, как заставить ИИ-агентов учиться на ходу. Это похоже на молнию — быстро и без лишних движений.

Amazon научила маленькие ИИ-агенты работать лучше

Amazon научила маленькие ИИ-агенты работать лучше

Исследователи Amazon нашли способ заставить ИИ-агентов лучше выполнять узкие задачи. Они использовали старые добрые методы обучения с подкреплением.

ИИ научили самоанализу через модель «боли»

ИИ научили самоанализу через модель «боли»

Ученые представили модель вознаграждения для ИИ, которая использует самоанализ и концепцию «боли» для улучшения обучения в виртуальных средах.

SCRIBE: новый метод обучения ИИ-агентов с инструментами

SCRIBE: новый метод обучения ИИ-агентов с инструментами

Исследователи представили SCRIBE — новый фреймворк обучения с подкреплением, который решает проблему присвоения заслуг в многошаговых рассуждениях для ИИ-агентов, использующих инструменты.

Новый ИИ-фреймворк снижает ошибки в радиологических отчётах

Новый ИИ-фреймворк снижает ошибки в радиологических отчётах

Группа учёных предложила новый фреймворк на основе обучения с подкреплением для генерации клинически точных радиологических отчётов, который значительно снижает количество ошибок.

Новый метод R²VPO ускоряет тонкую настройку языковых моделей

Новый метод R²VPO ускоряет тонкую настройку языковых моделей

Исследователи представили метод R²VPO для тонкой настройки языковых моделей, который повышает производительность на 17% и требует в два раза меньше данных для обучения.

Amazon создаёт «тренажёры» для обучения надёжных ИИ-агентов

Amazon создаёт «тренажёры» для обучения надёжных ИИ-агентов

Лаборатория искусственного общего интеллекта Amazon разрабатывает систему «тренажёров» для обучения ИИ-агентов сотням рутинных действий, необходимых для работы в реальных веб-системах.

LLM и RL объединили для обнаружения аномалий в данных

LLM и RL объединили для обнаружения аномалий в данных

Исследователи представили новый метод обнаружения аномалий во временных рядах, который объединяет большие языковые модели, обучение с подкреплением и активное обучение для эффективной работы при ограниченном количестве размеченных данных.

RL-тренировка стала ключом к развитию ИИ, а не претренинг

Аналитики SemiAnalysis подтверждают, что основной прогресс в возможностях ИИ последние 18 месяцев обеспечивало масштабирование обучения с подкреплением (RL), а не претренинг, что доказывает пример OpenAI с GPT-4o.

Новый алгоритм обучает плоские политики для долгосрочных задач

Учёные представили новый алгоритм обучения с подкреплением, который позволяет эффективно обучать «плоские» политики для решения долгосрочных задач без использования сложных иерархических структур.

RL-оптимизация ухудшает перенос моделей в медицине

Новое исследование выявило парадокс: дообучение с подкреплением улучшает результаты медицинских ИИ-моделей на стандартных тестах, но резко снижает их способность работать с данными из других больниц.

Трансформеры решений научили тонкой настройке чистым RL-градиентом

Исследователи представили новый метод онлайн-тонкой настройки архитектуры Decision Transformers, который использует исключительно градиенты обучения с подкреплением, а не стандартные подходы.