'Pong'이 이제는 'Flappy Bird'에서 탁월한 알고리즘을 완성한 알고리즘

$config[ads_kvadrat] not found
Anonim

개척 된 딥 학습 방법 개선 탁구, 우주 침략군들, 기타 Atari 게임에서 스탠포드 대학의 컴퓨터 과학 학생 인 Kevin Chen은 고전적인 2014 측 스크롤러에 상당히 능숙한 알고리즘을 만들었습니다 플라 피 버드. Chen은 "q-learning"이라는 개념을 사용하여 요원이 거의 반복 불가능한 중독성 게임을 완벽하게 만들기 위해 매 경기마다 보상 점수를 향상시키는 것을 목표로 삼았습니다.

Chen은 자신의 알고리즘이 살아있는 각 프레임에 대해 작은 긍정적 인 보상, 파이프 통과에 대한 큰 보상, 그리고 죽는 것에 대한 동등한 (그러나 부정적인) 보상이라는 세 가지 보상을 추구하도록 최적화 된 시스템을 만들었습니다. Chen이 쓴 보고서에 따르면, 소위 deep-q 네트워크가 인간을 능가 할 수 있다고 동기 부여했다. "우리는 성공적으로 게임을 할 수있었습니다 플라 피 버드 슈퍼 인간의 결과를 달성 픽셀과 점수에서 바로 학습함으로써."

2015 년에 출판 된 원본 Atari 종이 자연 는 Google 소유의 DeepMind 회사 (고대 중국 보드 게임 Go의 숙달로 유명 함)에서 나왔습니다. DeepMind의 성취는 시각적 또는 픽셀 적 정보, 최소한의 정보를 얻었으며 최소한의 정보만으로 보상을 극대화 할 수 있다는 점에서 획기적인 성과였습니다. 이러한 보상 시스템은 단순화 된 뇌의 도파민 성 반응과 유사합니다.

알고리즘이 새가 날아 다니는 새를 정복 한 것은 이번이 처음은 아니다. 스탠포드 대학의 컴퓨터 과학 학생들은 이전 수업에서 밤새 훈련을 받으면 0 점에서 1600 점으로 점수가 올라 갔다.

$config[ads_kvadrat] not found