Чотириногого робота навчили гуляти тротуарами і уникати людей

Марина Качура 28 Вересня 2021 Джерело: arXiv

Чотириногий робот AlienGo пройшов двоетапне навчання і 3,2 кілометра пішохідним тротуаром міста Атланта, подолавши 17 з 19 перешкод як-то сміттєві баки чи люди. Спершу робота навчили орієнтуватися у абстрактному змодельованому світі, а потім він використав ці навички, але орієнтуючись лише на мапу міста та свої власні відчуття з камери, лідара і GPS-трекера. Стаття про прогулянку AlienGo прийнята до публікації у IEEE Robotics and Automation Letters, а поки доступна на сервісі препринтів arXiv.

Maks Sorokin / YouTube

Коли роботи вийдуть на тротуари?

Загалом інженери вже непогано розібралися з тим, як наділити робота відчуттями. Вони вміють сприймати на дотик, слух, запах і звісно вже отримали зір. Детальніше про те, які відчуття вже мають роботи ми розповідали у матеріалі «Як роботи дивляться на світ, яке вино їм смакує та чому Ілон Маск знову проти всіх», але тут зупинимося на зорі. Варіантів «очей» для роботів насправді багато — на відміну від нас, вони можуть орієнтуватися не лише за картинкою, а і за радіохвилями, наприклад. Так вони доволі активно послуговуються радарами або лідарами (LiDAR, дослівно – система світлової ідентифікації, виявлення та визначення дальності). Але проблема не лежить у площині того, як би роботам дати побачити світ. Інженери і розробники б'ються над тим, як би дати роботам сприймати його так само як і ми: відрізняти дерево від людини, обирати оптимальні шляхи, обходити перешкоди та слухатися вказівок дорожніх знаків і розмітки. Дослідники десятиліттями вивчали навігацію роботів на основі зору, використовуючи підходи, засновані на попередньому навчанні. Незважаючи на вражаючі результати, ці системи вимагають частого ручного втручання і поки погано поєднують інформацію з різних датчиків та обробляють її.

Як навчити робота гуляти?

Існує безліч навчальних підходів, які допомагають роботам правильно оцінювати побачене. Але в основному це все пісочниці, де роботи долають віртуальні перешкоди у віртуальному світі. Величезну частину роботи розробників займає пошук ефективного і швидкого способу об'єднати уявлення робота про віртуальний світ і поведінку в ньому з реальним. На жаль чи на щастя, реальний світ набагато більш непередбачуваний і весь час динамічно змінюється. Ви й самі не знаєте, коли пішохід перед вами вирішить різко зупинитися або звернути в сторону. Але оскільки нам би хотілося, щоб роботи навчилися доставляти нам товари, патрулювати або прибирати вулиці — словом, забрати собі монотонну роботу і звільнити нам час, ми вчимо їх гуляти вулицями. Подібно автономному водінню або навігації у приміщенні, рух по тротуару вимагає, щоб робот йшов планом маршруту, уникав перешкод і справлявся з періодичної сліпотою датчиків і інформацією з них же. Великою проблемою також є те, що шлях по пішохідному тротуару доведеться долати без будь-яких орієнтирів. У своїй новій роботі дослідники з Технологічного інституту Джорджії і Стенфордського університету шукали спосіб навчити свого чотириногого робота користуватися Google Карти або Apple Maps, залишаючись на тротуарах і уникаючи зіткнень.

Для цього вони об'єднали два навчальних підходи: спочатку навчили агента у абстрактному світі з достовірною інформацією, а потім клонували його поведінку для навчання навичкам вже агента-учня, який має доступ тільки до інформації з датчиків. Перший етап використовує підхід «навчання через списування»(learning by cheating), який розбиває проблему на навчання окремо вчителя і учня. Перший має вчитися в абстрактному світі, де спостерігає за правилами навігації. Інформація, яку він засвоює, називається привілейованою — це зображення з висоти пташиного польоту, на якому відображені макети карти і прилеглі перешкоди. Цей абстрактний світ містить винятково важливу інформацію, необхідну для навігації по тротуару, таку як області, якими можна і не можна ходити, а також статичні та динамічні об'єкти. І тільки-но вчитель її засвоює, його передають для навчання другого агента, дані якого не є привілейованими, оскільки їх неможливо отримати з датчиків. Основний внесок цього підходу полягає в усуненні розриву між симуляціями і реальними даними. Навчання другого агента, яким і буде послуговуватися робот, зайняло всього 30 годин, тоді як без вчителя, тобто з нуля, йому знадобилося б 300.

Як прогулявся робот?

Чотириногий робот мав виконати три основні умови пересування: залишатися на тротуарі, уникати зіткнень з перешкодами і у підсумку досягти мети. Як полігон вчені вибрали випадкову ділянку тротуару у найближчому парку. За 3,2 кілометра шляху робот стикався з природними перешкодами, такими як стовпи, конуси і урни для сміття. Крім того, інженери-спостерігачі іноді навмисно йшли перед роботом, імітуючи пішоходів. Так йому вдалося уникнути 17 перешкод з 19. Два зіткнення відбулися з баком для сміття і вузькою ділянкою тротуару, які були незначними і не вимагали втручання людини. В обох випадках робот намагався ухилитися від перешкоди, але при обході стикався з ними боком. Однак дослідники помітили, що деякі типи місцевості можуть збивати робота з пантелику. Наприклад, вони виявили, що він більш схильний сходити з тротуару, коли помилково класифікував порослі травою місця як ділянки, за якими не можна ходити. Ще однією основною причиною втручання з боку розробників були під'їзні шляхи — схили на тротуарі для заїзду автомобілів. Робот плутав тротуар з проїжджою частиною через відсутність даних, бо не навчався цього, а потім продовжував рух в напрямку дороги.

Роботи вже не вперше виходять на вулицю. Наприклад, нещодавно ми писали про двоногого робота Кессі, який наосліп пробіг п'ять кілометрів стадіоном університетського містечка з одним зарядом акумулятора за 53 хвилини.