Американські інженери навантажили свого робота на ім'я Кессі (Cassie) двома п'ятикілограмовими каністрами, що хиталися по обидва боки робота, поки той розвивав швидкість до 0,8 метра на секунду на біговій доріжці. Таке динамічне навантаження значно збільшило розрив між навчанням робота у симуляції та його діями у реальному життя. І Кессі вдалося справитися без додаткових засобів сприйняття або масштабної зміни навчання — єдиною модифікацією у її процесі навчання з підкріпленням стало тренування з конкретним типом навантаження. Підхід, який допоміг роботу потягнути візок, взяти на себе дві каністри і перенести контейнер з рідиною, що плескається, представлять на конференції 2022 ICRA, а препринт статті доступний на сервісі arXiv.
Куди ніс робот воду?
Кессі — це розробка американської компанії Agility Robotics 2017 року. Це двоногий робот, хода якого дещо подібна до страусової: дещо «підстрибуюча», що дає можливість поглинати удари при ходьбі і тримати рівновагу. Ноги мають три ступені свободи в стегнах, гнучкі, потужні щиколотки та коліна, що вивертаються в один бік, а рух Кессі забезпечують не системи зору або сенсори, а засновані на навчанні з підкріпленням стратегії руху.
Основна мета досліджень у галузі робототехніки — розробити практичних роботів, які зможуть ефективно діяти у реальному світі. Двоногі роботи, зокрема Кессі, повинні вміти працювати в одних умовах із людьми. Але однієї ходьби мало, тому корисно було б навантажити їх та навчити з цим навантаженням справлятися. У цій роботі інженерів цікавили не прості статичні навантаження, коли робот повинен пронести певну масу на собі, а динамічні — прикріплений візок або контейнер з рідиною. У цьому випадку робот повинен не просто вміти утримати певну вагу, але й впоратися з її динамікою, окремою від робота.
Як довірити роботу коромисло?
Фізика двоногих роботів є однією з найбільш вивчених у робототехніці, однак їм набагато складніше, ніж чотириногим, адже вони не мають додаткової опори, і навіть, щоб просто втримати рівновагу на місці, мають докладати зусиль. Дослідження з роботами, яким доручали роботу з вантажами, у більшості покладалися на статичність ваги. У такому випадку контролери руху для робота працюють, сприймаючи вантаж як частину самої конструкції робота.
Однією із стратегій для роботи з динамічним навантаженням, які додають роботу ступенів свободи і значно ускладнюють його самоконтроль для руху, є використання додаткових датчиків. Наприклад, південнокорейському роботу розміром з людину DRC-Hubo, щоб пронести сходами повні води відра, знадобилися моделі динаміки розплескування води для навчання, а також додаткові датчики у суглобах рук та для відстеження хвилювання рідини. Вони не потрібні для інших задач DRC-Hubo, а тому ускладнюють конструкцію всього для одного завдання — перенесення відер з водою сходами. Деякі роботи обирають найбільш стійки варіанти ходьби для себе, щоб компенсувати вплив додаткової динаміки від вантажу, але у такому випадку вони мають значно меншу швидкість ходьби. Для Кессі у цій роботі інженери прагнули знайти компроміс, де вона могла б розвивати нормальну швидкість, та при цьому не вимагати додаткових датчиків чи ускладненого навчання, підлаштованого під якусь конкретну задачу.
Як несла Кеcсі воду?
Підхід навчання для Кессі вчені організували на основі навчання з підкріпленням для її звичайного пересування на двох ногах. Воно засноване на інформації про положення Кессі включно з орієнтацією її таза, швидкістю обертання і положенням суглобів. Навчання відбувається у симуляції за схемою «актор-критик», а перенесення симуляції у дійсність відбувається завдяки рандомізації положення суглобів. Цього разу процес навчання полегшили, включивши лише ходьбу на різній швидкості: так тренування засноване на необхідній частоті кроків для ходьби на швидкості до чотирьох метрів на секунду.
Далі у тренування включили чотири завдання: перенесення п'ятикілограмової коробки, тягання прив'язаного позаду візка, перенесення прикріпленої до таза перекладини з двома п'ятикілограмовими каністрами, які можуть хитатися у будь-якому напрямку, та врешті перенесення відкритого контейнера з водою. Поведінкою, яка у навчанні винагороджується, вважається плавний рух на заданій швидкості. Для коробки додатковою метою було втримання її на місці, тому алгоритми мали враховувати відстань між її положенням і серединою опори. Так у симуляції з п'яти тисяч наборів команд кожні 2,5 секунди використовувалися нові: дві випадкові для швидкості і для орієнтації. Успішною обрана стратегія руху вважається, якщо Кессі може йти довше хвилини, а проваленою, якщо Кессі падає.
При переході до реальних випробувань Кессі на біговій доріжці з'ясувалося, що у симуляції вона була набагато швидшою. Максимальна швидкість Кессі у випробуваннях сягла трьох метрів на секунду, хоча у симуляції вона навчалася ходити на максимальній швидкості у 9 метрів на секунду. Так візок за собою вона змогла протягти на швидкості до метра на секунду (у навчанні це було 2,1 метра на секунду). З двома каністрами напереваги вона досягла 0,8 метра на секунду — у симуляції їй це вдавалося на швидкості 2,5 метра на секунду.
Таким чином на Кессі вченим вдалося продемонструвати, що аби справитися з динамічним навантаженням, роботу може не знадобитися жодних додаткових відчуттів, а потрібна лише модифікація навчання, яка передбачить додаткове тренування у контексті бажаних завдань. Раніше Кессі також брала участь в інженерних успіхах та пробігла п'ять кілометрів з одним зарядом акумулятора за 53 хвилини. А з динамічним навантаженням вдалося справитися також і чотириколісному роботу від Hyundai, який заїхав на платформу з вежею із келихів.