알파고마스터

01

2017년 10월 19일, Google 자회사 DeepMind는 AlphaGo의 새 버전을 출시했습니다. 알포아고가 인공지능 프로그램이라는 것은 많은 사람들이 알고 있지만 사실 가족이라는 사실은 모르고 있다. 초창기 한국 선수 이세돌을 이긴 것은 알파고 리였다. 우전에서 세계챔피언 커지에를 꺾은 알파고 마스터였다. 이번에 출시된 알파고 제로는 3일간의 훈련 끝에 동생 알파고 마스터를 100:0으로 이겼다.

이전 버전과 비교했을 때 AlphaGo Zero의 가장 큰 차이점은 더 이상 인간의 지도에 의존하지 않고 성장할 수 있다는 것입니다. 즉, 이전 AlphaGo Lee는 수동으로 입력한 수많은 체스 기록에 의존하여 성장했습니다. 체스를 배우는 것, 직설적으로 말하면 사람의 지도를 받으며 배우고, 수천년의 바둑 경험을 통해 인간이 가르치는 학생으로 이해될 수 있다.

AlphaGo Zero는 강화 학습 알고리즘을 사용합니다. 즉, 프로그래머가 바둑의 기본 규칙을 입력한 후에는 더 이상 어떤 체스 기록에도 의존하지 않습니다. 유 인공지능이 완전히 자신만의 방법으로 학습하는 체스의 방법을 탐구하고 요약하는 것입니다. 알파고는 인간의 경험을 버린 알파고 제로에게 완전히 패했다. 이는 인간의 경험이 알파고 리의 발전을 제한했을 수도 있음을 보여준다.

AlphaGo Zero의 체스 플레이 스타일은 오프닝 및 클로징 단계에서 인간 플레이어의 체스 플레이 스타일과 매우 유사하며 게임의 체스 플레이 스타일은 실제로 인간 플레이어 및 이전 버전의 알파고 제로와 크게 다릅니다. 알파고는 다릅니다. 알파고가 알파고 리와 100번의 전투에서 무패를 유지하는 것은 바로 이 차이입니다. 즉, 알파고가 인간을 스승으로 숭배하지 않고 기계로부터 배웠다면 더 강력한 컴퓨팅 능력을 갖게 될 것입니다. 알파고 리, 결과는 아직 불투명하다.

제로 경험 학습 외에도 AlphaGo Zero의 또 다른 주요 특징은 이전 버전 AlphaGo의 두 신경망을 통합하는 것입니다. 이전 버전의 AlphaGo에서는 체스를 두는 방법이 결정되었습니다. "전략 네트워크"와 "가치 네트워크"는 체스를 두는 방법을 계산하는 두 가지 신경망입니다. 즉, 먼저 "전략 네트워크"는 축적된 경험을 사용하여 현재 체스 유형에서 체스를 두는 데 적합한 위치를 판단합니다. , 그리고 나서 "가치 네트워크"가 이러한 위치를 결정합니다. 위치 이동을 시뮬레이션한 후 승률을 계산하고 최종적으로 이동 위치를 선택합니다.

AlphaGo Zero는 두 네트워크를 하나로 통합하여 이전 두 네트워크의 특징 추출 및 기타 모듈을 최대한 활용하여 체스의 승률을 계산할 때 해당 결과를 제공할 수 있습니까? 효율성을 높이고 훈련에 필요한 시간을 줄입니다. 알파고 제로가 몇 달간 훈련을 해온 알파고 리를 단 3일의 훈련 만에 꺾은 가장 큰 이유 중 하나가 바로 이것이다.

인공지능은 컴퓨터 과학 분야에서 엄청난 발전을 이룰 뿐만 아니라 모든 산업 분야에서 무한한 잠재력과 활용 가치를 갖고 있습니다. 현재 전 세계 국가들은 일반적으로 인공지능 기술이 발전할 것이라고 낙관하고 있습니다. 차세대 기술혁명의 기회로 성장합니다. 비록 인공지능이 결국 혁명적인 수준에 이르지는 못하더라도, 이미 AI는 점차 우리의 삶을 변화시키고 있습니다.

과거 인공지능의 발전은 소프트웨어와 하드웨어의 동시 개발을 기반으로 이루어졌다. 그러나 신경망 알고리즘은 지난 세기 중반에 처음 제안됐다. 신경망 알고리즘은 계속해서 느리게 발전해 왔습니다.

이후 하드웨어의 컴퓨팅 속도가 지속적으로 증가함에 따라 기존 소프트웨어 알고리즘이 지속적으로 구현되고 개선되었으며, 개선된 알고리즘은 하드웨어에 대한 요구 사항이 높아져 하드웨어 개발이 더욱 촉진되었고 AlphaGo의 출현이 이루어졌습니다. 0 완전히 알고리즘 업데이트를 기반으로 합니다.

이전 버전의 AlphaGo는 48개의 TPU(심층 신경망의 컴퓨팅 성능을 가속화하기 위해 Google이 특별히 개발한 칩으로 각각 최대 500만 달러에 달하는 칩)에서 몇 달 동안 학습해야 했던 반면 AlphaGo Zero는 학습을 완료하는 데 TPU 4개와 며칠이 걸립니다. 이러한 제로 경험 학습 기능은 샘플이 부족한 단백질 접힘 및 기타 의료 분야에 매우 적합하며, 테스트 샘플 부족으로 인해 연구 진행이 느려지는 문제를 잘 해결할 수 있습니다. 향후 관련 연구에서는 규칙을 완전히 입력하고 AlphaGo Zero의 기능을 사용하여 시뮬레이션하고 최종적으로 제한된 샘플을 사용하여 검증할 수 있습니다.

AlphaGo의 점진적인 업그레이드 경로

이야기의 이 시점에서 Google의 깊은 기술력과 기민한 비즈니스 통찰력에 정말 감탄하지 않을 수 없습니다. AlphaGo는 탄생부터 딥마인드 팀에 의해 신중하게 포장되었습니다. 자세히 살펴보면 "도시의 일상에 깊숙이" 있다고 말할 수 있습니다.

하급 프로 체스 선수를 상대로 첫 승리를 거둔 것부터 워밍업이나 과대광고, 인간 최고 선수 이세돌을 상대로 한 승리까지 알파고의 데뷔전은 충분히 화려했다. 그러나 4 대 1의 점수는 여전히 인류에게 희미한 희망을 안겨주었다. 이 유일한 승리에서 이시시는 잘못된 접근 방식을 취해 알파고가 '뇌 단락' 증상을 직접 겪게 만들었다고 볼 수 있다. 지금으로서는 아직 충분히 강력하지 않았습니다. 그 이후로 각계각층의 인간 고수들은 인간의 존엄성을 되찾기를 바라며 알파고의 루틴을 연구하기 위해 열심히 노력하기 시작했습니다.

이어 바둑계 최고 선수들의 전투 플랫폼에서 60승 0패라는 놀라운 기록을 달성한 수수께끼의 '마스터' 이 마스터는 과연 인간일까, 괴물일까? 멜론을 먹는 대중의 시선을 사로잡았습니다. 드디어 그 답이 밝혀진 것은 엄청난 60승을 달성한 이후였습니다.

이어진 대결은 전 세계의 이목을 집중시킨 우진의 대결로 알파고 마스터가 커제를 반격할 수 없을 때까지 이겼다. 커제는 인간 최강자의 진정한 전투력을 보여줬지만 여전히 알파고에게 완전히 제압당하고 있다. 만약 움직임에 실수가 생기면 즉시 알파고의 '최소 우위 승리' 전략의 함정에 빠지게 된다. 회복의 여지가 없을 것입니다.

오진 대결 이후 인간은 바둑 분야에서 완전히 항복했다. 커제만은 말할 것도 없고, 한동안 알파고가 유명해진 커제보다 5명의 고수가 뭉쳤다.

이제 우전(Wuzhen)의 연기가 걷히려는 찰나, 구글이 또 하나의 큰 소식을 전했습니다! 인공지능이 인간의 경험을 버린 뒤, 3일 만에 스스로 학습한 알파고 제로가 수천년의 인간 경험을 무너뜨렸다. 알파고의 진화 버전은 '아이언 아머(Iron Armor)'의 스릴 넘치는 메카 전투를 연상시킨다. 한 AI가 더 강력한 AI에게 패하고, 중국 AI가 미국 AI를 물리친 것은 매우 가능한 일이다. 미래 체스 대회의 실제 장면.