기술이 발전하며 게임의 구현 방식이나 플레이 패턴도 변화하기 마련입니다. 요즘은 게임 속 LLM이 플레이어의 대화 상대가 되기도 하고, 플레이를 도와주기도 하죠. 그런데 이런 생각해보신 적 없나요?
“이 LLM, 진짜 게임을 잘하는 걸까?”
이 질문에 제대로 답을 하고자 KRAFTON Deep Learning Division의 Research Department가 나섰습니다. 이들은 언어 모델 기반 Agent가 실제로 얼마나 게임을 잘하는지, 그리고 어떤 판단을 어떻게 내리는지를 평가할 수 있는 벤치마크를 만들었다고 합니다. 이름은 ‘Orak’. 한국인에게는 ‘게임’보다 한결 정겹게 느껴지는 ‘오락’이라는 단어에서 따온 프로젝트명인데요. 이름부터 무척 귀엽고(?) 흥미롭습니다.
오늘은 이 프로젝트를 이끈 KRAFTON Data-centric DL Research Team의 박동민님을 직접 만나, Orak이 세상에 나오기까지의 이야기를 자세히 들어보려고 합니다!
Q. 안녕하세요! 그동안 너무 고생 많으셨고, Orak의 탄생(?)을 축하드립니다. 일단 Orak 벤치마크 프로젝트는 어떤 계기로 시작되었고, 해결하고자 한 문제는 무엇인지가 제일 궁금합니다.
(사진1) Orak 벤치마크 팀
최근 들어 LLM을 활용해 실제 게임을 플레이하게 하거나, 게임 내 상황을 보조하는 시도들이 활발해지고 있습니다. 대표적으로 PUBG Ally, Smart Zoi 같은 프로젝트들이 그 예죠. 하지만 문제는 어떤 LLM이 ‘게임을 잘한다’고 할 수 있는지를 객관적으로 평가할 수 있는 기준이 아직 없다는 점이었습니다. 단순히 추론 능력이나 대화 능력이 아니라, 복잡한 게임 환경에서 어떻게 상황을 해석하고 의사결정을 내리는 지까지 평가할 수 있어야 진정한 ‘gaming LLM’이라 할 수 있으니까요. 그런 문제의식을 바탕으로 KRAFTON 내부에서 Orak 프로젝트가 시작되었습니다. 기술적 필요와 실용적인 관점을 모두 충족할 수 있는 평가 체계를 직접 만들어 보기로 한 것이죠.
Q. 근데 이름이 참 귀여운 것 같아요. ‘Orak’이라는 이름에는 어떤 의미가 담겨 있나요? 사실 좀 알 것 같기도 하지만..!
한국인 독자라면 아마 벌써 눈치채셨을 것 같은데, ‘오락’이라는 한국어 단어에서 따온 이름이에요. 요즘은 자주 사용하지 않는 말이지만, 오락실 세대에게는 ‘게임’보다 더 친근하게 느껴지는 단어일 것 같은데요. 영어권 연구자들에게도 자연스럽고 발음하기 쉬우면서도, 동시에 프로젝트의 본질을 직관적으로 떠올릴 수 있도록 이 이름을 택했습니다.
(사진2) Orak 벤치마크 연구에 사용된 12개의 게임들
Q. 앞으로는 Orak이라는 이름이 역사에 남는 아이콘이 되면 좋겠네요! Orak의 실험 환경은 어땠나요? 그리고 Orak의 주요한 설계는 무엇인가요?
Orak은 총 12가지 비디오 게임을 통해 만들어낸 벤치마크입니다. 산업 안에서 상징성과 의미를 가지고 있는 게임들로 채워져 있어요. 물론 장르의 다양성도 고려했죠. 이 게임들은 단지 LLM이 플레이할 수 있도록 만든 것이 아니라, 각 게임 환경에서 LLM이 얼마나 효과적으로 상황을 판단하고 결정을 내리는지를 평가할 수 있게 세밀하게 설계됐습니다. 또한 MCP(Model Context Protocol) 기반으로 인터페이스를 구성해, 다양한 LLM이 아주 손쉽게 테스트에 참여할 수 있도록 했습니다. 접근성과 확장성을 모두 고려한 설계였죠. 이런 체계 덕분에 연구자들은 반복 가능하고 신뢰도 높은 결과를 얻을 수 있게 되었습니다.
Q. 엄청나게 많은 고민이 들어간 프로젝트 같아요. 그럼 Agent의 판단력은 어떤 방식으로 평가되나요? 기술적으로 중요한 지점도 궁금해요.
단순히 게임을 ‘이겼느냐’가 아니라, 어떤 과정을 거쳐 플레이했는지가 중요합니다. 그래서 게임 환경마다 여러 평가 기준을 만들고, 이를 통해 Agent가 얼마나 상황을 잘 이해하고 적절한 행동을 선택했는지를 정량적으로 측정합니다. 특히 이전 말씀드린 MCP 구조는 이런 세부적인 평가를 가능하게 해주는 기반이 되었습니다. 사용자 친화적인 설계도 강조했어요. 실제 연구자들이 여러 모델을 빠르고 간편하게 연결할 수 있도록, 손쉽게 재사용할 수 있는 인터페이스를 구축했습니다. 이렇게 구성된 체계 덕분에 다양한 모델을 동일한 기준 아래서 평가하고 비교할 수 있었습니다.
Q. 이렇게 듣기만 해도 벌써 신선한 연구인 것 같기는 한데요. Orak 벤치마크가 다른 평가 체계와 구별되는 특징은 무엇인가요? 자랑 조금만 해주세요.
가장 큰 특징은 ‘실제 게임을 LLM이 플레이해야 한다’는 점이에요. 단순히 지식을 테스트하는 게 아니라, 상황을 읽고 판단한 뒤 행동하는 과정을 모두 포함해서 평가합니다. 이 점에서 실제 AI agent의 인지적 능력을 깊이 있게 측정할 수 있어요. 평가에 사용된 게임들이 모두 잘 알려진 상용 타이틀이라는 점도 큰 장점입니다. 대중적으로 유명한 타이틀이다 보니, 연구자들이 결과를 더 쉽게 해석하고, 자신의 연구에 맞게 응용할 수 있거든요. 무엇보다 플레이 전반의 과정과 흐름을 기반으로 LLM의 전략적 사고까지 평가한다는 점에서, 기존 벤치마크들과는 차별화된 접근이라고 생각합니다. 또 LLM fine-tuning 데이터셋도 제공하고 있어, gaming agent 연구가 또 한발짝 나아갈 수 있도록 기여했다고 생각합니다.
(사진3) 12개의 게임에 대한 평가 그래프
Q. 당연히 혼자 하기는 어려운 프로젝트고, 많은 사람의 도움이 필요했을 것 같은데요.프로젝트 진행 과정에서 기억에 남는 팀워크의 순간이 있었나요?
협업이 가장 중요했던 프로젝트였던 만큼, 팀워크가 특히 기억에 남아요. 각 팀원이 하나의 게임을 전담했고, 전체 MCP 구조에 대해서는 함께 합의해 일관된 방식으로 구현했어요. 매주 정기적으로 미팅을 하며 이슈를 공유하고 피드백을 주고받았죠. 특히 기억에 남는 건, 모딩 툴을 활용해 여러 게임을 LLM이 플레이할 수 있도록 만드는 작업이었어요. 반복적이고 기술적으로도 쉽지 않았지만, 모두가 적극적으로 도와주며 결국 잘 해냈습니다. 팀원들의 헌신이 없었다면 어려웠을 거예요. 무엇보다 각자의 전문성을 존중하며 조율해나간 과정이 결과물의 완성도를 더욱 높여주었다고 생각합니다.
Q. 하지만 원래 새로운 건 어렵기도 한 법이죠. 예기치 못한 시행착오나 문제가 있었다면 어떤 것이었나요?
프로젝트 후반부에 예상치 못한 변수들이 몇 가지 있었어요. 특히 일부 단계에서 계획한 방식대로 진행이 어려워지면서, 급히 대안을 마련해야 했던 순간이 있었죠. 당시가 NeurIPS에 논문을 제출하기 직전이었는데 모델의 fine-tuned weight를 직접 다루지 못하게 되었습니다. 하지만 다행히 내부에서 빠르게 판단해 대응하려고 노력했고, 결과적으로는 충분한 데이터를 확보할 수 있었습니다. 실험 일정에도 큰 차질 없이 마무리할 수 있었습니다.
Q. 그럼 마지막으로 함께한 팀원들에게 하고 싶은 말이 있다면요?
진심으로 고생 많으셨습니다. 개인적으로, 저희가 만든 Orak은 현존하는 Gaming LLM 벤치마크 중 가장 실용적이며 완성도도 높다고 생각합니다. 앞으로 이 벤치마크가 더 많은 연구와 개발의 출발점이 되기를, 그리고 우리가 그 흐름의 시작이었음을 자랑스럽게 느낄 수 있기를 바랍니다. 함께했던 과정 모두가 값졌고, 앞으로도 이 경험이 각자의 커리어에서 든든한 자산이 되길 바랍니다.
인터뷰를 통해 Orak 프로젝트가 단순한 기술 실험을 넘어 언어 모델 기반 에이전트의 실제 행동 능력을 평가하는 데 얼마나 의미 있는 기준이 될 수 있을지 보다 깊이 실감할 수 있었어요. 다양한 게임 환경을 활용해 LLM의 상황 인식과 판단력을 종합적으로 측정할 수 있도록 설계되었다는 점이 무척 신선하네요!
Orak 프로젝트의 결과는 현재 논문으로 공개되어 있습니다. 게임을 기반으로 한 LLM 연구에 관심 있는 분들이라면 꼭 아래 링크를 통해 자세한 내용을 확인해 주세요! 😊