심층 강화 학습을 통한 토카막 플라즈마의 자기 제어
Nature 602권, 414~419페이지(2022)이 기사 인용
182k 액세스
131 인용
2389 알트메트릭
측정항목 세부정보
특히 토카막 구성에서 자기 구속을 사용하는 핵융합은 지속 가능한 에너지를 향한 유망한 경로입니다. 핵심 과제는 토카막 용기 내에서 고온 플라즈마를 형성하고 유지하는 것입니다. 이를 위해서는 자기 액추에이터 코일을 사용한 고차원, 고주파, 폐쇄 루프 제어가 필요하며, 광범위한 플라즈마 구성에 대한 다양한 요구 사항으로 인해 더욱 복잡해졌습니다. 이 연구에서는 전체 제어 코일 세트를 명령하는 방법을 자율적으로 학습하는 토카막 자기 컨트롤러 설계를 위한 이전에 설명되지 않은 아키텍처를 소개합니다. 이 아키텍처는 높은 수준에서 지정된 제어 목표를 충족하는 동시에 물리적 및 운영상의 제약 조건을 충족합니다. 이 접근 방식은 문제 사양에 있어 전례 없는 유연성과 일반성을 제공하며 새로운 플라즈마 구성을 생성하기 위한 설계 노력을 눈에 띄게 줄여줍니다. 우리는 Tokamak à 구성 변수1,2에서 길쭉한 기존 모양뿐만 아니라 음의 삼각형 및 '눈송이' 구성과 같은 고급 구성을 포함하는 다양한 플라즈마 구성 세트를 성공적으로 생산하고 제어합니다. 우리의 접근 방식은 이러한 구성의 위치, 전류 및 모양을 정확하게 추적합니다. 또한 두 개의 별도 플라즈마가 용기 내에서 동시에 유지되는 TCV의 지속적인 '액적'을 보여줍니다. 이는 토카막 피드백 제어의 주목할만한 발전을 나타내며, 융합 영역에서 연구를 가속화하기 위한 강화 학습의 잠재력을 보여주며, 강화 학습이 적용된 가장 까다로운 실제 시스템 중 하나입니다.
토카막은 핵융합 연구를 위한 토러스 모양의 장치이며 지속 가능한 전력 생성을 위한 주요 후보입니다. 연구의 주요 방향은 안정성, 구속 및 에너지 배출을 최적화하기 위해 플라즈마 분포를 다양한 구성3,4,5으로 형성하는 효과를 연구하고, 특히 최초의 연소 플라즈마 실험인 ITER에 정보를 제공하는 것입니다. 토카막 내의 각 구성을 제한하려면 원하는 플라즈마 전류, 위치 및 모양을 달성하기 위해 플라즈마에 자기적으로 결합된 여러 코일의 정밀한 제어를 통해 자기장을 조작할 수 있는 피드백 컨트롤러를 설계해야 합니다. 이는 토카막 자기 제어 문제로 알려진 문제입니다. .
이 시변 비선형 다변량 제어 문제에 대한 기존 접근 방식은 먼저 역 문제를 해결하여 피드포워드 코일 전류 및 전압 세트를 미리 계산하는 것입니다7,8. 그런 다음 독립적인 단일 입력 단일 출력 PID 컨트롤러 세트가 플라즈마 수직 위치를 안정화하고 방사형 위치 및 플라즈마 전류를 제어하도록 설계되며, 이 모든 것이 상호 간섭하지 않도록 설계되어야 합니다6. 대부분의 제어 아키텍처는 피드포워드 코일 전류를 변조하기 위해 플라즈마 평형9,10의 실시간 추정을 구현하는 것을 포함하는 플라즈마 형상에 대한 외부 제어 루프에 의해 더욱 강화됩니다. 컨트롤러는 선형화된 모델 역학을 기반으로 설계되었으며 시간에 따라 변하는 제어 목표를 추적하려면 게인 스케줄링이 필요합니다. 이러한 컨트롤러는 일반적으로 효과적이지만 평형 추정을 위한 복잡한 실시간 계산과 함께 대상 플라즈마 구성이 변경될 때마다 상당한 엔지니어링 노력, 설계 노력 및 전문 지식이 필요합니다.
강화 학습(RL)을 사용하여 비선형 피드백 컨트롤러를 생성함으로써 컨트롤러 설계에 대한 근본적으로 새로운 접근 방식이 가능해졌습니다. 다른 도메인11,12,13의 여러 까다로운 애플리케이션에서 이미 성공적으로 사용된 RL 접근 방식을 사용하면 성능 목표를 직관적으로 설정할 수 있으며, 초점을 방법보다는 달성해야 하는 항목으로 전환할 수 있습니다. 게다가 RL은 제어 시스템을 크게 단순화합니다. 계산 비용이 저렴한 단일 컨트롤러가 중첩된 제어 아키텍처를 대체하고 내부화된 상태 재구성을 통해 독립적인 평형 재구성에 대한 요구 사항이 제거됩니다. 이러한 결합된 이점은 컨트롤러 개발 주기를 단축하고 대체 플라즈마 구성 연구를 가속화합니다. 실제로 인공 지능은 최근 핵융합 제어를 위한 '우선 연구 기회'로 확인되었으며14, 플라즈마 형상 매개변수 재구성15,16, 대리 모델을 사용한 시뮬레이션 가속화17,18 및 임박한 플라즈마 중단 감지19에서 입증된 성공을 기반으로 합니다. 그러나 RL은 고차원 측정 및 작동, 긴 시간 범위, 빠른 불안정 성장 속도 및 간접 측정을 통해 플라즈마 모양을 추론해야 하는 필요성으로 인해 어려운 자기 컨트롤러 설계에 사용되지 않았습니다.