Reinforcement Learning

10 материалов

22 Jun

article

Задача многорукого бандита: алгоритмы и решения

Разбираем задачу многорукого бандита: от ε-жадного алгоритма до UCB и сэмплирования Томпсона. …

→

15 Jun

article

Domain Randomization: как перенести ИИ из симуляции в реальность

Что такое Domain Randomization, как работает Sim2Real Transfer и почему роботы OpenAI учатся в …

→

14 Jun

article

Evolution Strategies: эволюция без градиентов

Что такое Evolution Strategies, как работают (μ,λ)-ES и CMA-ES, чем отличаются от градиентного …

→

14 Jun

article

Meta Reinforcement Learning: учимся учиться быстро

Что такое Meta Reinforcement Learning, как работают MAML и RL², где применяются и почему это будущее …

→

11 Jun

article

Curriculum для обучения с подкреплением: от простого к сложному

Что такое Curriculum RL, как работает обучение по расписанию задач и почему AlphaGo, AlphaStar и …

→

09 Jun

article

Стратегии исследования в глубоком обучении с подкреплением

Разбираем ключевые стратегии exploration в Deep RL: от ε-greedy до curiosity-driven подходов. …

→

24 May

news

OpenPipe ART: обучение агентов через GRPO прямо на задачах

OpenPipe выпустила открытый фреймворк ART для обучения LLM-агентов с помощью GRPO. Модель Qwen 2.5 …

→

05 May

article

Reward Hacking в обучении с подкреплением

Что такое reward hacking в RL, почему он неизбежен и как с ним бороться — от классических примеров …

→

29 Apr

news

Talkie: LLM из 1930-х, обученный с помощью Claude

Alec Radford выпустил Talkie — 13B-модель, обученную только на текстах до 1931 года. Claude Sonnet …

→

05 Mar

article

Обучение с подкреплением: как AI учится на ошибках

Разбираем обучение с подкреплением — метод, который позволяет AI учиться методом проб и ошибок. От …

→