컴퓨터 프로그램, 유럽 이동 챔피언에 도전

1997 년 체스 컴퓨터 Deep Blue가 체스 월드 챔피언 게리 카스파로프를 6 게임 경기에서 이겼습니다. 이 결과는 인간의 자존심에 커다란 타격을 입혔습니다. 체스는 인간 고유의 지성의 상징으로 여겨졌습니다. 그 상처를 핥아, 인간의 종류는 체스를 지능의 상징으로 대체 할 또 다른 게임을 찾았다. 아시아 게임 인 Go를 선택했습니다.

Go는 두 명의 플레이어 (흑백) 간의 19 x 19 보드에서 진행됩니다. 일단 배치되면 조각 ( "돌"이라고 함)을 다시 움직일 수 없습니다. 이 게임의 목적은 상대방보다 더 많은 영토를 얻는 것입니다. 규칙은 간단하지만 게임은 체스보다 훨씬 복잡하고 복잡합니다. (Gobet, de Voogt, & Retschitzki, 2004) : 10 172 개의 가능한 위치 (172 개의 0이 뒤따라야 함)가 있습니다. 알려진 우주의 원자. 비교하면, 체스의 위치 수는 "단지"10 43 입니다.

체스 나 체커와 같은 다른 보드 게임과 비교할 때, 바둑은 더 전략적이며 덜 전술적입니다. 즉 장기 계획이 단기적인 조합을 지배합니다. 이것은 Go 보드의 크기가 크고 돌이 보드에 놓여지면 움직이지 않기 때문입니다. 한 가지 결과는 인간이 강한 (패턴 인식, 직감, 계획) 곳과 컴퓨터가 전통적으로 어려움을 겪고있는 인식 측면을 활용한다는 것입니다. 대조적으로 게임은 컴퓨터의 전통적인 강점, 특히 무차별 한 힘으로 많은 수의 국가를 체계적으로 검색 할 수있는 능력에 맞지 않습니다.

따라서 체스, 오셀로 (Othello) 및 체커 (checker)와 같은 게임에서 컴퓨터는 인간보다 오래 동안 강했지만 좋은 아마추어 수준을 넘어서는 진전을 이룰 수는 없었다. 컴퓨터 프로그램이 Monte-Carlo tree search (Lee et al., 2009)라고하는 간단하면서도 놀라운 기술로 힘을 크게 증가시킨 2006 년에 획기적인 발전이있었습니다. 체계적인 방법으로 가능한 움직임의 트리를 검색하는 대신,이 방법은 무작위로 두 플레이어의 움직임을 선택하여 게임을 생성합니다. 직관은 현재 위치에서의 움직임이 대안보다 나은 경우이 개별적인 움직임이 무작위로 선택 되더라도 이러한 게임이 많은 경우 평균적으로 더 나은 결과를 이끌어 내야한다는 것입니다. 이 기법의보다 정교한 변형으로 이전의 경험에 의해 움직임의 선택이 편향됩니다.

AlphaGo와의 획기적인 발전

지난 1 월말 자연 신문은 또 다른 돌파구를 보였습니다 (Silver et al., 2016). Google DeepMind가 개발 한 AphaGo 프로그램은 다른 Go 프로그램 (승리의 99.8 %)을 모두 없애 버렸을뿐만 아니라 유럽 선수권 대회에서 세 번이나 우승 한 Professional Go Player 인 Fan Hui를 물리 쳤습니다. 결과는 잔인하게 분명했습니다.

AlphaGo는 우리가 방금 토론 한 Monte Carlo tree 검색, Deep Learning 및 강화 학습이라는 세 가지 인공 지능 기법을 조합하여 사용합니다. 딥 학습은 최근 개발 된 기술 (LeCun, Bengio, & Hinton, 2015)을 사용하여 인공 신경망의 가중치를 조정하는 것으로 구성됩니다. AlphaGo는 두 개의 네트워크를 사용합니다. 첫 번째는 주어진 위치에서 이동을 제안하고 두 번째는 전체로서 위치를 평가합니다. 이 프로그램은 많은 수의 마스터 게임 (3 천만 포지션)을 스캔하여 우선 학습합니다. 그런 다음 강화 학습이라는 기술을 사용하여 네트워크의 가중치를 조정하여 자체적으로 수많은 게임을 재생합니다. 이 기술은 게임의 결과로 얻은 피드백을 사용하여 학습합니다. 강화 학습은 이미 주사위 놀이 (Tesauro, 1995)를 포함한 여러 보드 게임에서 최상위 프로그램을 성공적으로 생성하는 데 성공적으로 사용되었습니다. 전체 학습은 계산 상 매우 고가이며 강력한 컴퓨터가 필요합니다.

상대를 플레이 할 때, AlphaGo는 두 개의 네트워크를 사용하여 위치를 평가하고 과거의 유용성이 드러난 이동을 선택하도록 이동 선택을 바이어스합니다. 이 프로그램은 몬테카를로 트리 검색으로 계획을 세웁니다. 이 접근법의 장점은 AlphaGo가 배운 지식만을 사용한다는 것입니다. 예를 들어 Deep Blue는 프로그래머가 손수 코딩 한 많은 지식을 사용합니다 (Campbell, Hoane, & Hsu, 2002).

인간 전문 지식을위한 수업

AlphaGo가 인간의 전문 지식에 관해 우리에게 말하는 것은 무엇입니까? Go의 세계에 대한 의미는 무엇입니까? 첫 번째로 중요한 결과는 AlphaGo가 보드 게임 및 다른 전문 분야에서의 패턴 인식 및 직관의 중요성을 확인한다는 것입니다. AlphaGo는 패턴 인식 기능 만 사용하고 검색 기능을 사용하지 않고도 대부분의 컴퓨터 프로그램을 능가합니다. Go는 전략적인 게임이지만 AlphaGo가 인간 전문 지식의 이러한 측면을 잘 포착 할 수 있다는 점을 감안하면 놀랄만한 것은 아닙니다. 인간 전문가에서 패턴 인식의 중요성은 이론의 특성에 중요한 차이가있을 때조차도 여러 연구자 (예 : Adriaan De Groot, Herbert A. Simon 및 Hubert Dreyfus)에 의해 오랫동안 강조되어왔다. (자세한 내용은 Gobet & Chassy, ​​2009).

대조적으로,이 프로젝트는 인간의 계획과 탐색에 관해 많은 것을 말하지 않는다. Monte Carlo tree 검색은 인간과 비슷하지 않습니다. 심지어 전문가도 수천 개의 (의사) 랜덤 게임을 생성하지 않고 통계를 수집합니다. 그들은 패턴 인식이 사전 검색 (look-ahead search)과 얽혀있는보다 섬세하고 선택적 검색을 수행합니다 (Gobet, 1997). Alpha-Go는 지식을 사용하여 선택적으로 검색하지만 인간보다 훨씬 적습니다.

컴퓨터는 체스가 최상위 레벨에서 수행되는 방식을 변경했습니다. 전문가들은 새로운 개념적 수단을 열어 충격적인 한계를 드러 냈습니다. 컴퓨터를 사용하고, 컴퓨터를 사용하여 연습하고, 컴퓨터 화 된 데이터베이스를 사용하여 게임의 품질이 지난 20 년간 크게 향상되었습니다. 재생 불가능하다고 여겨지는 오프닝 변형이 현재 사용되고 있으며 만족 스럽다고 여겨지는 변형은 컴퓨터 분석에 의해 반박되었습니다. 이번에는 환영받지 못하는 또 하나의 결과가 컴퓨터를 이용한 부정 행위의 등장입니다. 유사한 개발이 Go와 함께 발생할 것인지를 보는 것은 흥미로울 것입니다.

인공 지능에 대한 보편적 인 수용이 인간의 지성보다 우월하다고는보기 어렵다. 사람들은 컴퓨터에 비해 인간의 존엄성을 유지하기 위해 새로운 게임과 활동을 개발할 것입니다. 이것은 더 나은 컴퓨터 기술로 이어질 것입니다. 인간 지능과 컴퓨터 인텔리전스 간의 이러한 군비 경쟁은 인간과 인공 지능에 대한 이해를 증진시켜 줄 것이다.

다음 과제

AlphaGo의 성능이 뛰어나지 만, 아직 세계 챔피언을 물리 친 적이 없다는 것을 기억해야합니다. 유럽 ​​챔피언 인 Fan Hui는 2 단 프로로만 "단"이기 때문에 9 단으로 랭크 된 최상급 Go 전문가보다 분명히 약합니다. 이것은 마스터와 세계적인 그랜드 마스터 사이의 체스 차이와 대략 같습니다. 다시 말해, 9 단 전문가는 2 단 전문가와 비교하여 95 % 이상을 이길 가능성이 높습니다.

그렇다면 AlphaGo의 진정한 강점은 무엇입니까? 우리는 AlphaGo와 이세돌, 세계 최고의 선수 중 한 명으로 여겨지는 9 댄 한국인 프로와의 경기가 있기 때문에 조만간 알게 될 것입니다. AlphaGo의 이 승리 할 것이라는 낙관적 인 전망을하는 동안 Go Masters는 인간의 마음이 널리 퍼질 것이라고 믿습니다. 컴퓨터 게임에서 몇 가지 돌파구에 기여한 컴퓨터 과학자 인 조나단 셰퍼 (Jonathan Schaeffer)는 다음과 같이 말합니다. "AlphaGo를 어린 천재라고 생각하십시오. 갑자기 정말 좋은 Go를 매우 빠르게 배웠습니다. 그러나 그것은 많은 경험이 없습니다. 우리가 체스와 체커에서 본 것은 많은 경험이 중요하다는 것입니다. "

Fernand Gobet와 Morgan Ereku

참고 문헌

Campbell, M., Hoane, AJ, & Hsu, FH (2002). 진한 파랑. 인공 지능, 134, 57-83.

Gobet, F. (1997). 전문가 문제 해결에서의 패턴 인식 이론. 생각과 추리, 3, 291-313.

Gobet, F., & Chassy, ​​P. (2009). 전문 지식과 직감 : 세 가지 이론을 이야기합니다. Minds & Machines, 19, 151-180.

Gobet, F., de Voogt, AJ, & Retschitzki, J. (2004). 마음에 들다. Hove, 영국 : Psychology Press.

LeCun, Y., Bengio, Y., & Hinton, G. (2015). 깊은 학습. Nature, 521, 436-444.

Lee, C.S., Wang, M.-H., Chaslot, G., Hoock, J.-B., Rimmel, A., Teytaud, O., et al. (2009). MoGo의 계산 인텔리전스는 대만의 컴퓨터 Go Tournaments에서 밝혀졌습니다. 게임에서 전산 지능과 AI에 관한 IEEE 거래, 1, 73-89.

Silver, D., Huang, A., Maddison, CJ, Guez, A., Sifre, L., van den Driessche, G., et al. (2016). 깊은 신경 네트워크 및 트리 검색으로 Go 게임을 마스터 링합니다. Nature, 529, 484-489.

Tesauro, G. (1995). 시간차 학습 및 TD-Gammon. ACM의 통신, 38, 58-68.