이전 포스팅에서 컴퓨터 쇼기와 알파고의 인공지능 기술에 대해 다뤘습니다. 이번 글에서는 쇼기 AI ‘포난자(Ponanza)’가 어떻게 딥러닝을 적용했으며, 2023년 9월을 기준으로 어떤 기술 발전이 이루어졌는지를 살펴보려 합니다.
보난자 메서드에서 딥러닝 시대로의 전환
쇼기 AI는 오랫동안 Bonanza Method(2006)의 영향 아래 있었습니다.
이 방식은 대량의 프로 기사(棋士)의 기보(棋譜)를 이용해 평가 함수를 매개변수 최적화로 학습하고, 알파베타 탐색을 깊게 돌려 강한 성능을 내는 것이었습니다. 실제로 2010년대 중반까지 최강 AI 대부분이 Bonanza 기반이었죠.
그러나 쇼기는 바둑보다 더 넓은 가지수(branching factor)를 가지고 있으며, ‘기물 투입(drop)’이라는 고유 규칙 때문에 국면의 복잡성이 엄청납니다.
따라서 정책 기반의 딥러닝을 활용해 합리적인 후보군을 좁혀주는 접근이 2015년 이후 본격적으로 도입되었고, 2017년 포난자가 인간 최강자를 꺾는 결정적 기여를 하게 됩니다.
2023년까지 도입된 주요 연구 트렌드
2023년까지 쇼기 AI 분야에서 눈에 띄는 흐름은 다음 세 가지입니다.
1) 알파고식 "정책/가지 네트워크 + MCTS" 구조 확산
- 2016~2017년 알파고/알파고 제로의 구조가 쇼기에도 빠르게 적용
- 포난자, Apery, Yaneuraou 등 상위권 엔진이 모두 신경망 기반 정책 활용
- NNUE(후술) 등장 전까지는 CNN 기반 정책 네트워크가 주류
2) NNUE(Efficiently Updatable Neural Network) 방식의 등장 (2018~)
- 2018년 쇼기 AI 커뮤니티에서 제안된 평가 함수용 신경망
- 전통적인 휴리스틱 평가 함수나 복잡한 CNN과 달리 "이전 국면에서 바뀐 부분만 incremental update"하는 방식
- GPU 없이도 딥러닝 기반의 평가 함수를 사용할 수 있음
- 실제로 2020년에는 체스 엔진의 평가 함수로 채택됨
3) Self-Play 강화학습의 본격화
- AlphaZero Shogi(2017) 공개 이후 구조 참고
- Google DeepMind 모델은 공개되지 않았지만, 연구자들이 이를 모방
- 2020~2023년까지 강화학습 기반 엔진들이 빠르게 등장
즉, 2023년 쇼기 AI는 크게 두 분류로 나뉘게 됩니다.
- 전통 탐색 + 딥러닝 평가 함수(NNUE)
- 알파고식 Residual Network + MCTS (AlphaZero 스타일)
딥러닝 적용의 핵심: 정책 네트워크(Policy Network)
포난자는 알파고와 마찬가지로 “다음 수의 확률 분포를 예측하는 정책 네트워크”를 도입했습니다. 이는 단순히 평가 함수의 정확도를 높이려는 목적이 아니라, 폭발적으로 많은 후보수를 줄이기 위한 목적이 컸습니다.
전왕전 인터뷰에서도 “프로 기사의 기보와의 일치율 향상”이라는 언급이 있었는데, 이는 곧 정책 네트워크가 인간 수준의 직관적 선택을 학습했다는 의미입니다.
입력 데이터 설계: 쇼기의 복잡성을 인코딩하는 방법
쇼기는 바둑보다 기물 종류가 많고, 또 잡은 기물을 다시 사용할 수 있는 규칙 때문에 입력 설계가 중요합니다.
주요 구성 요소
- 기물 종류 14종 (승급 포함) → 각각 9×9 채널로 표현
- 보유 기물(수중 기물)
- 종류당 개수(예: 은장(銀将) 2개, 금장(金将) 1개 등)를 별도 벡터로 표현
- 추가 특징(feature plane)
- 2보(二歩) 가능 여부
- 왕의 안전도 지도(King Safety Map)
- 공격 가능 칸/수비 가능 칸
- 입력 채널 수
- 2017년 포난자는 약 23~30채널
- 2020년 이후 연구에서는 40~60채널까지 확대
채널 수가 늘어날수록 엔진은 공격/수비 형세, 전술 패턴, 진형(囲い) 구조를 더 잘 파악할 수 있게 됩니다.
출력 구조
쇼기에서 딥러닝의 출력을 설계하는 방식은 바둑보다 훨씬 복잡합니다.
Move Encoding 구성
- 출발 좌표: 81차원 소프트맥스
- 도착 좌표: 81차원 소프트맥스
- 승격 여부: 2차원 (승격(成り) / 비승격(不成))
- 기물 투입: 7종 x 81 위치 = 567차원
바둑처럼 단순히 "돌을 어디에 둘까?"가 아닌 "어떤 기물을 → 어디에서 → 어디로 → 승격할지? → 기물 투입인지?" 까지 모두 포함해야 합니다.
이 구조 설계는 2016~2020년 사이의 주요 연구 주제였고, 이후에는 move mask와 합법성 판정 네트워크까지 보완하는 방식이 다수 등장합니다.
신경망 아키텍처: 2016~2023년까지의 발전 흐름
2017년 전후: VGGNet・ResNet 기반 CNN
- 포난자, Apery 등 초기 딥러닝 쇼기 엔진이 사용
- Residual block으로 깊이를 증가
- 위치 정보 유지를 위해 Pooling은 사용하지 않는 것이 일반적
2018~2020년: AlphaZero 구조 확산
- Convolution tower + Policy/Value head
- MCTS와 궁합이 뛰어남
- 쇼기에서도 self-play 강화 학습 연구 다수 등장
2020~2023년: NNUE의 급속 확산
- 장점
- CPU에서도 매우 빠르게 동작
- 기존 알파베타 탐색과 완벽히 결합
- 학습 데이터 확보가 쉬움
- 2023년 기준 상위권 엔진 대부분이 NNUE 사용
- CNN/MCTS 기반보다 실전 성능이 높은 경우도 많음
즉, 2023년 쇼기 AI는 “딥러닝 평가 함수(NNUE) + 전통 탐색”이 가장 실용적이라는 결론에 가까워졌습니다.
학습 과정
쇼기 딥러닝 모델 학습은 대체로 세 단계를 거칩니다.
1) 지도학습 (Supervised Learning)
- 프로 기사의 기보 수십만 대국을 학습
- 정책 네트워크는 “다음 수 예측 정확도”를 높임
- 가치 네트워크는 “국면 승률 평가”를 학습
2) 강화학습(Self-Play)
- AI끼리 겨루며 스스로 성능을 강화
- AlphaZero 스타일의 학습 방식이 도입
- 2019~2023년에는 "온·오프 정책 혼합", "replay buffer" 등 기술 추가
3) 실전 최적화
- 탐색 파라미터 튜닝
- NNUE의 경우
- Mobility feature
- King safety feature 등을 따로 강화
- 제로베이스 강화 학습 모델보다 전통 탐색과 결합한 하이브리드가 더 강함
실전 적용
딥러닝은 쇼기에서 "순수 대체"가 아니라, 다음의 구조로 결합합니다.
실전 흐름
- 정책 네트워크로 유망한 후보 수를 상위 수십 개로 좁힙
- 몬테카를로 트리 탐색(MCTS)
- 정책 확률을 prior로 사용
- 가치 네트워크로 leaf node 평가
- 혹은 NNUE 평가 함수 + 알파베타 탐색
- 최종적으로 가장 탐색량이 많은 수를 선택
이 방식은 기존 Bonanza 방식보다
- 탐색량 감소
- 평가 정확도 증가
- 장기전에서의 안정성 확보
라는 장점이 있습니다.
2023년 기준, 상위 쇼기 엔진은 프로 기사와의 대국에서 85~95%의 승률을 보이며 사실상 “인간 초월” 단계에 도달했습니다.
마치며
쇼기는 그 특성상 순수 딥러닝만으로 해결하기 어려운 게임입니다.
반면, 정책 네트워크와 가치 네트워크는 전통 탐색의 부족한 부분을 채우며 성능을 크게 끌어올립니다.
특히 2020년 이후 NNUE의 등장은
- 딥러닝 기반 평가 함수
- 실시간 탐색 가능
- CPU에서도 고성능
이라는 실용성을 제공하며 쇼기 AI를 크게 발전시켰습니다. 앞으로는
- Transformer 기반 구조
- self-play 강화학습의 고도화
- 네트워크와 탐색의 더 긴밀한 결합
같은 연구들이 이어지며, 쇼기 AI의 방향성은 더욱 확실해질 것입니다.
포난자를 비롯한 쇼기 AI들의 기술 공개가 활발해진다면, 내년의 컴퓨터 쇼기 대회는 딥러닝 기반 엔진들로 가득할지도 모릅니다. AI가 쇼기 연구의 중심이 되는 시대가 이미 시작되었고, 앞으로도 그 흐름은 더 강화될 것입니다.