DeepMind навчили нейромережу утримувати плазму у токамаку

Дослідники з компанії DeepMind створили алгоритм, який навчився утримувати плазму магнітним полем у токамаках. Він керує параметрами магнітних котушок, маючи за приклад бажані характеристики плазми. Пройшовши навчання на симуляторі токамака, алгоритму довірили реальну установку, де той утримував плазму у різних конфігураціях. Як машинне навчання допоможе стати ближчими до практичного застосування термоядерного синтезу, вчені описали у Nature.

Плазма у швейцарському токамаку. EPFL

Плазма у швейцарському токамаку. EPFL

Як керують плазмою?

На відміну від традиційної ядерної енергетики, яка отримує енергію з реакцій розпаду, коли з важких ядер виходять легші, термоядерний синтез передбачає, навпаки, синтез більш важких атомних ядер із легших. Цей процес вимагає надзвичайно високих температур, тому для керованого термоядерного синтезу необхідна високотемпературна воднева плазма, а найкраще — суміш важких ізотопів водню, дейтерію та тритію.

І сьогодні серед конструкцій реакторів термоядерного синтезу у лідерах стоять токамаки — установки у формі тора з магнітними котушками, які мають магнітним полем утримувати плазму від контакту зі стінками токамака. Втім, поки рекорди з часу утримання плазми вимірюються сотнями секунд, у той час як для роботи у промислових масштабах вчені планують добитися утримання плазми принаймні 400 секунд.

Набір котушок утворює тороїдальне магнітне поле подібно тому, як зображено на цій спрощеній схемі будови токамака. Gianmaria De Tommasi / Journal of Fusion Energy, 2018

Набір котушок утворює тороїдальне магнітне поле подібно тому, як зображено на цій спрощеній схемі будови токамака. Gianmaria De Tommasi / Journal of Fusion Energy, 2018

Тому поки існуючі токамаки слугують експериментальними полігонами, де вчені досліджують ефекти формування плазми та оптимізацію її утримання. Зокрема це потребує розробки контролера зі зворотним зв'язком, який зможе маніпулювати магнітним полем у камері токамака, керуючи магнітними котушками. Окрім керування потоком плазми, для використання її як джерела енергії, необхідно ретельно контролювати її межі і положення. Тому магнітний контроль є одним з найважливіших питань, які постають ще перед проєктування установки. І враховуючи успіхи штучного інтелекту у великій кількості галузей від робототехніки до передбачення структури білка, спеціалісти британської компанії DeepMind взялися і за термоядерний синтез.

Що має зробити ШІ?

Навчання з підкріпленням стало радикально новим підходом до проєктування контролерів зі зворотним зв'язком. Штучний інтелект визначили як «пріоритетну дослідницьку можливість» для керування термоядерним синтезом, однак він досі не використовувався. Магнітне керування токамаком, як зазначають автори роботи, є однією зі складніших реальних задач, з якими зіткнулося навчання з підкріпленням.

Експериментальною метою дослідження стало отримання складних конфігурацій плазми. Воно ж стало «функцією нагороди» для штучного інтелекту який на другому етапі дослідження, орієнтуючись на неї, збирав собі необхідні дані у симуляторі токамака. Алгоритм використовує їх, щоб знайти оптимальну поведінку у межах функції винагороди. У навчанні йому допомагає «критик», який повідомляє, наскільки ефективним є отриманий внаслідок рішення «виконавця» результат. Цей звичний для навчання з підкріпленням підхід «актор-критик» дослідники реалізували за допомогою чотиришарової нейромережі для «виконавця» та набагато більшої рекурентної нейромережі для «критика».

Різні конфігурації плазми, якими керувала нейромережа. DeepMind, SPC (EPFL)

Різні конфігурації плазми, якими керувала нейромережа. DeepMind, SPC (EPFL)

І завдяки цій асиметрії «критик» може робити ширші висновки про стан системи та ефективніше навчати «виконавця», щоб у роботі той не потребував великих обчислювальних потужностей. У підсумку вченим вдалося добитися від свого штучного інтелекту роботи на справжньому токамаку у Швейцарському центрі плазми, де той утримував плазму у стабільному стані, змінював її геометрію та навіть справився з двома окремими плазмовими структурами всередині токамака.

Ми встигли описати вже багато успіхів алгоритмів від DeepMind. Вони стали авторами проривного для науки алгоритму AlphaFold, який передбачив структуру близько 20 тисяч білків, що кодуються людським геномом. Також DeepMind справилися і з прогнозами погоди та навчили алгоритм за радарними даними передбачати опади у найближчі півтори години. І, звісно, вони не обійшли стороною і ігри та успішно пограли у шахи, ґо, а також 57 ігор на приставці Atari.


Фото в анонсі: Плазма у швейцарському токамаку. EPFL