Application

KRAFTON AI의 연구와 서비스에 AI 윤리를 적용한 사례를 소개합니다.

생성형 이미지 모델을 편향된 데이터셋 또는 다양성이 부족한 데이터셋으로 훈련하면 인종 및 성별과 관련된 인간 다양성의 전체 스펙트럼을 정확하게 나타내지 못하는 문제가 발생합니다. 훈련 데이터의 불균형 문제, 즉 모델이 다수 집단의 특성을 과도하게 반영하여 소수 집단의 특성을 무시하거나 제대로 표현하지 못하는 문제는 많은 선행 연구들에 의해 드러난 바 있습니다(참조 : Maluleke, Vongani H., et al. “Studying Bias in GANs through the Lens of Race.” European Conference on Computer Vision (2022)). 대부분의 얼굴 생성모델 관련 연구에 사용되는 대표적인 학습 데이터셋인 FFHQ는 인종적으로 백인의 비중이 69.2%에 달하는 반면 흑인의 비중은 4.2%에 그치는 등 극단적인 편향성을 보이는데, 특히 이미지 퀄리티를 높이기 위해 인퍼런스 단계에서 트렁케이션(Truncation)과 같은 기법을 사용할 때, 결과의 편향성은 극대화됩니다.
본 연구는 아바타 생성 API에 적용하기 위한 2D 이미지 스타일화 모델에서 편향 현상을 제거하기 위해 진행되었습니다. 해당 방법론을 검토하였던 내부 프로젝트에서는 사용자가 메타버스 안에서 원하는 성별/인종의 스타일로 이미지를 생성해 본인의 정체성을 자유롭게 표현할 수 있도록 기획하였습니다. 따라서 기존 생성 모델들보다 더 다양한 측면에서 편향 이슈를 검토할 필요가 있었고, 아래와 같은 문제점들을 파악하여 개선하고자 하였습니다.
  • 1. 소수 집단에 대한 스타일 전이 시 결과물이 미적 표준에서 저하를 보이는 현상
  • 2. 소수 집단에 대한 스타일 전이 시 결과물이 투입한 이미지와 덜 닮게 나오는 현상
  • 3. 다수 집단 ↔ 소수 집단 스타일 변환 시 결과물이 다수 집단으로 수렴하는 현상
문제 정의 위에서 언급된 문제를 해결하기 위해 KRAFTON AI Avatar DL팀은 아래와 같이 스타일링 된 얼굴 이미지 생성과 관련하여 공정한 모델에 대한 연구를 진행하였습니다. (*’공정한 모델’의 정의 : 투입 이미지와 결과물 이미지에서 성별/인종 정체성 면에서 통계적으로 유의미한 차이를 보이지 않으며, 이미지 퀄리티가 일정하게 유지되는 모델)
적용 Avatar DL팀은 얼굴 이미지 생성 모델이 야기하는 편향성 문제의 가장 큰 원인을 앞서 언급한 FFHQ 데이터셋 자체의 편향성인 것으로 파악하였습니다. 특히 해당 데이터셋은 온라인에서 무작위로 수집한 얼굴 데이터로 구성되어 있기 때문에 상업적 프로덕트에 적용되는 모델 학습에 사용하기 위해서는 법적, 윤리적인 문제들을 먼저 해결해야 했습니다. 이러한 문제들을 해소하기 위해 라이선스 이슈가 없는 생성 모델을 사용하여 다양한 얼굴 이미지들을 생성하고, 성별/인종별 편향성이 적은 자체 대규모 학습 데이터셋을 구축하였습니다.
자체 데이터셋을 사용하여 학습된 모델에서는 결과물 이미지의 퀄리티가 일정하게 유지되고, 투입 이미지와 비교했을 때 성별/인종 정체성 면에서 통계적으로 유의미한 차이를 보이지 않았습니다. 또한 해당 지표들에 대한 평가자 편향을 최소화하기 위해 여러 평가자들의 결과에 대해 표준화 작업(normalisation)을 거쳤습니다. 본 연구는 편향된 데이터셋 문제를 해결하는 새로운 접근법을 제시하였으며, 보다 공정한 AI 모델을 통해 다양한 배경의 사람들이 가진 인종/성별 스펙트럼을 자유롭게 표현할 수 있도록 한다는 점에 그 의의가 있습니다.
게임 채팅이나 다른 챗봇 서비스를 운영할 때 일어날 수 있는 가장 큰 문제 중 하나는 사용자나 챗봇이 부적절한 말을 할 수 있다는 점입니다. 이러한 문제가 있는 표현은 단순한 욕설부터 정치나 종교에 관련된 혐오, 차별 발언에 이르기까지 그 의미와 형태가 매우 다양하며, 시간과 사회적 인식에 따라 변화하기도 합니다. Toxic Filtering은 욕설과 혐오 발언 등, 남에게 불쾌감을 주는 문장을 자동으로 식별하고 필터링하는 기술입니다.
KRAFTON AI는 딥러닝 기반 Toxic filtering 모델을 개발하여 부적절한 표현으로 생길 수 있는 법적, 윤리적 문제를 미리 방지하고 사용자들이 보다 안전하고 쾌적한 대화를 즐길 수 있도록 지원합니다. 다음은 모델 개발 과정 및 데이터 처리에 활용한 과정을 정리한 것입니다.
학습 데이터 구축데이터는 외부에 공개된 혐오 발언 데이터셋과 자체적으로 만든 혐오 발언 데이터셋을 활용하여 구축하였습니다. KRAFTON AI는 사전에 정의된 혐오 발언 분류 기준에 따라 각 문장의 유형을 태깅하고, 이를 학습 데이터로 활용했습니다. 또한, 이 기준을 바탕으로 문장별 태깅 방법에 대한 가이드라인을 작성하고 실제 데이터 라벨링 작업을 수행했습니다.
분류 기준
Toxic filtering 모델 학습Toxic filtering 모델은 언어모델을 활용해서 학습했습니다. 여러 언어모델을 테스트하여 각 모델별 성능을 평가한 후, 가장 우수한 성능을 보이는 모델을 선택했습니다. 데이터 역시 앞서 언급된 기준에 따라 태깅 작업을 지속적으로 수행하였고 풍부한 데이터 세트를 구축하는 데 주력했습니다. 학습을 완료한 후에는 모델의 성능을 정밀하게 평가하기 위해 다양한 케이스별로 별도의 평가 세트를 구축했습니다. 이 평가 과정에서 모델이 각각의 욕설 유형에 따라 어떤 성능을 보이는지를 확인했습니다. 특히 성능이 상대적으로 낮게 나타난 유형의 혐오 발언에 대해서는 데이터를 추가로 수집하여 모델의 성능 향상에 집중했습니다.
실제 활용 이렇게 개발한 Toxic filtering 모델은 실제 챗봇 개발에 사용되는 대화 데이터를 처리하는 데 사용했습니다. 데이터에 포함된 부적절한 표현을 언어 모델이 학습하게 되면, 생성된 대화에서도 의도하지 않은 부적절한 내용이 나타날 수 있습니다. 따라서 학습 데이터를 준비하는 단계에서 이러한 표현을 사전에 제거하는 것이 필요했으며, 이 과정에서 해당 모델이 활용되었습니다.
PII(Personally Identifiable Information)는 개인을 직간접적으로 식별할 수 있는 정보를 의미합니다. KRAFTON AI는 개인정보 리스크가 없는 데이터를 확보, 활용하기 위해 PII를 필터링하는 작업을 다양한 프로젝트에서 진행하고 있습니다. PII 필터링은 개인정보 유출 위험을 최소화하고, 원활한 개발 및 서비스 품질을 유지하기 위한 중요한 작업입니다.
프로세스
  • 1. 리스크 분석: 데이터 확보 및 활용 전 저작권 이슈 여부 확인, 명확한 출처 확인, 개인정보 포함 여부 확인, 윤리 이슈 검토 등 다양한 관점에서 리스크를 분석합니다.
  • 2. 익명화: 사용이 결정되면 자동화 도구를 사용하여 데이터를 필터링합니다. 외부 솔루션을 활용해 PII를 감지하고, 20개 이상의 개인을 특정할 수 있는 패턴을 정의하여 익명화 작업을 수행합니다. 이후 내부에서 사전 정의한 토큰으로 치환될 수 있게 합니다.
  • 3. 재검증: 필터링 된 데이터를 교차 검증하여 배포 가능 여부를 판단합니다
  • 4. 모니터링: 지속적인 모니터링 과정을 통하여 위험에 대한 가시성을 확보합니다.
  • 5. 사후 관리: 최소한의 인력만으로 접근 제어된 DB에 보관합니다.

그 외 조치

  • 1. 데이터를 외부에서 확보하는 경우 동일한 기준으로 리스크를 분석합니다. (오픈 소스 데이터의 출처 확인, 저작권 이슈 여부 확인, 개인정보 포함 여부, 윤리 이슈 검토 등) 추가적으로는 정보 주체의 동의가 있는지, 동의가 불필요한지 판단하는 과정을 거칩니다.
  • 2. 데이터 수집시 불필요한 정보는 수집하지 않도록 주의하고, 데이터 적재 과정에 개인정보를 익명 처리하도록 가이드 합니다.
  • 3. 대형 언어모델과 같은 생성형 모델이 생성한 문장에 대해서도 PII 필터링을 진행하거나 결과물을 재생성하여 이슈가 없도록 확인합니다.
  • 4. 개인정보가 포함된 데이터는 개인정보 취급 관리자만 접근 가능하도록 데이터 스토리지를 분리하거나 접근 제한을 둡니다. 접근 제한된 스토리지의 접근 내역은 모두 기록합니다.
위에서 설명된 장치들 외에도, KRAFTON AI는 사내 프라이버시 팀의 전문지식을 바탕으로 현행 데이터 처리 시스템을 검토하고 개선해왔으며, 관련 법규 및 업계 표준을 준수하는지 정기적으로 확인합니다.
생성형 AI의 발전은 우리가 상상만 해왔던 미래를 현실로 만들고 있습니다. Stable Diffusion, Midjourney, DALL·E와 같은 선두 기업들이 이끄는 혁신들 덕분에, 이제 우리는 단순한 텍스트 묘사만으로 고퀄리티 이미지를 저렴한 비용으로 생성할 수 있는 시대에 살고 있습니다. 이러한 기술의 발전은 게임 산업에도 큰 변화를 가져오고 있습니다. 게임 디자이너와 개발자들은 이제 복잡한 시각적 요소를 더 빠르고 경제적으로 제작하여 게임 내에서 사용할 수 있게 되었습니다.
이 중심에는 Diffusion 모델이 있습니다. Diffusion 모델은 처음에는 노이즈로 가득 찬 이미지에서 시작해 점차 노이즈를 없애는 디노이징 과정을 통해 이미지를 생성하고, 생성된 이미지들은 학습 데이터의 분포를 따르게 됩니다. 이렇게 생성된 이미지들은 저작권 침해의 위험을 내포할 수 있습니다. 예를 들어, 모델 학습 과정에서 학습 데이터에 워터마크가 포함된 이미지들이 포함되어 있는 경우, 생성된 이미지들에는 워터마크가 나타날 가능성이 있습니다. 이를 방지하기 위해 학습 데이터 준비 단계서부터 저작권 문제를 신중하게 고려하는 것이 중요합니다. 하지만 저작권이 있는 컨텐츠가 학습 데이터에 포함될 위험은 여전히 존재하며, 학습 방식에 따라 저작권에 민감한 이미지가 생성될 수 있는 상황도 발생할 수 있습니다. 이는 기술 발전이 가져오는 중요한 고려사항 중 하나로, AI로 생성된 이미지를 사용할 때는 이에 수반되는 저작권 문제를 적절히 예방할 수 있어야 합니다.
KRAFTON AI 연구팀은 Diffusion 모델 활용 과정에서 저작권 침해나 부적절한 이미지 생성을 방지하기 위해 사람의 피드백을 기반으로 하는 방법론을 제안하였습니다. 이 방법은 기존 모델을 재학습하는 데 드는 높은 비용 없이, 사람의 피드백을 소량 사용하여 부적절한 이미지 생성을 방지하는 센서링 기법에 초점을 두고 있습니다. 연구팀은 생성된 이미지의 적절성을 평가하기 위해 사람들의 피드백을 라벨로 모으고, 이 데이터를 활용해 ‘Reward 모델’ 이라 불리는 이진 분류기(적절/부적절)를 학습합니다. 이후, 이미지 생성 과정(디노이징 과정)에서 이 reward 모델을 가이드로 사용하여 적절한 이미지만 생성되도록 합니다.
* Malign : 부적절한
실험을 통해 약 3분 정도의 사람 피드백만으로도 모델을 이용한 효과적인 센서링이 가능하다는 사실을 입증하였습니다. 아래 실험결과는 ‘Crossed 7’과 ‘Shutterstock watermark’가 포함된 이미지에 대한 센서링을 성공적으로 달성했을 때의 결과를 보여주는 예시입니다.
이 연구는 Diffusion 모델을 활용하여 고품질의 이미지를 생성하면서 동시에 저작권 문제나 부적절한 내용의 이미지 생성을 방지할 수 있는 방법을 제시합니다. 이는 게임 제작자들이 생성형 AI를 더욱 효과적으로 활용할 수 있게 하여, 게임 산업에 큰 도움을 줄 수 있습니다. 특히 이 방법은 게임 내에서 사용되는 다양한 시각적 컨텐츠를 개발하는 과정에서 저작권 위험을 줄이고, 창의적 작업을 확장하는 데 기여할 수 있습니다. 이 연구는 머신러닝 분야 탑티어 학회 NeurIPS 2023에서 발표되었으며, 게임 산업을 비롯한 여러 분야에서의 생성형 AI 활용도를 증진시키는 데 중요한 역할을 할 것으로 기대됩니다.
[출처 : Yoon, TaeHo, et al. “Censored Sampling of Diffusion Models Using 3 Minutes of Human Feedback.” Advances in Neural Information Processing Systems 36 (2024).]
생성형 이미지 모델을 편향된 데이터셋 또는 다양성이 부족한 데이터셋으로 훈련하면 인종 및 성별과 관련된 인간 다양성의 전체 스펙트럼을 정확하게 나타내지 못하는 문제가 발생합니다. 훈련 데이터의 불균형 문제, 즉 모델이 다수 집단의 특성을 과도하게 반영하여 소수 집단의 특성을 무시하거나 제대로 표현하지 못하는 문제는 많은 선행 연구들에 의해 드러난 바 있습니다(참조 : Maluleke, Vongani H., et al. “Studying Bias in GANs through the Lens of Race.” European Conference on Computer Vision (2022)). 대부분의 얼굴 생성모델 관련 연구에 사용되는 대표적인 학습 데이터셋인 FFHQ는 인종적으로 백인의 비중이 69.2%에 달하는 반면 흑인의 비중은 4.2%에 그치는 등 극단적인 편향성을 보이는데, 특히 이미지 퀄리티를 높이기 위해 인퍼런스 단계에서 트렁케이션(Truncation)과 같은 기법을 사용할 때, 결과의 편향성은 극대화됩니다.
본 연구는 아바타 생성 API에 적용하기 위한 2D 이미지 스타일화 모델에서 편향 현상을 제거하기 위해 진행되었습니다. 해당 방법론을 검토하였던 내부 프로젝트에서는 사용자가 메타버스 안에서 원하는 성별/인종의 스타일로 이미지를 생성해 본인의 정체성을 자유롭게 표현할 수 있도록 기획하였습니다. 따라서 기존 생성 모델들보다 더 다양한 측면에서 편향 이슈를 검토할 필요가 있었고, 아래와 같은 문제점들을 파악하여 개선하고자 하였습니다.
  • 1. 소수 집단에 대한 스타일 전이 시 결과물이 미적 표준에서 저하를 보이는 현상
  • 2. 소수 집단에 대한 스타일 전이 시 결과물이 투입한 이미지와 덜 닮게 나오는 현상
  • 3. 다수 집단 ↔ 소수 집단 스타일 변환 시 결과물이 다수 집단으로 수렴하는 현상
문제 정의 위에서 언급된 문제를 해결하기 위해 KRAFTON AI Avatar DL팀은 아래와 같이 스타일링 된 얼굴 이미지 생성과 관련하여 공정한 모델에 대한 연구를 진행하였습니다. (*’공정한 모델’의 정의 : 투입 이미지와 결과물 이미지에서 성별/인종 정체성 면에서 통계적으로 유의미한 차이를 보이지 않으며, 이미지 퀄리티가 일정하게 유지되는 모델)
적용 Avatar DL팀은 얼굴 이미지 생성 모델이 야기하는 편향성 문제의 가장 큰 원인을 앞서 언급한 FFHQ 데이터셋 자체의 편향성인 것으로 파악하였습니다. 특히 해당 데이터셋은 온라인에서 무작위로 수집한 얼굴 데이터로 구성되어 있기 때문에 상업적 프로덕트에 적용되는 모델 학습에 사용하기 위해서는 법적, 윤리적인 문제들을 먼저 해결해야 했습니다. 이러한 문제들을 해소하기 위해 라이선스 이슈가 없는 생성 모델을 사용하여 다양한 얼굴 이미지들을 생성하고, 성별/인종별 편향성이 적은 자체 대규모 학습 데이터셋을 구축하였습니다.
자체 데이터셋을 사용하여 학습된 모델에서는 결과물 이미지의 퀄리티가 일정하게 유지되고, 투입 이미지와 비교했을 때 성별/인종 정체성 면에서 통계적으로 유의미한 차이를 보이지 않았습니다. 또한 해당 지표들에 대한 평가자 편향을 최소화하기 위해 여러 평가자들의 결과에 대해 표준화 작업(normalisation)을 거쳤습니다. 본 연구는 편향된 데이터셋 문제를 해결하는 새로운 접근법을 제시하였으며, 보다 공정한 AI 모델을 통해 다양한 배경의 사람들이 가진 인종/성별 스펙트럼을 자유롭게 표현할 수 있도록 한다는 점에 그 의의가 있습니다.
게임 채팅이나 다른 챗봇 서비스를 운영할 때 일어날 수 있는 가장 큰 문제 중 하나는 사용자나 챗봇이 부적절한 말을 할 수 있다는 점입니다. 이러한 문제가 있는 표현은 단순한 욕설부터 정치나 종교에 관련된 혐오, 차별 발언에 이르기까지 그 의미와 형태가 매우 다양하며, 시간과 사회적 인식에 따라 변화하기도 합니다. Toxic Filtering은 욕설과 혐오 발언 등, 남에게 불쾌감을 주는 문장을 자동으로 식별하고 필터링하는 기술입니다.
KRAFTON AI는 딥러닝 기반 Toxic filtering 모델을 개발하여 부적절한 표현으로 생길 수 있는 법적, 윤리적 문제를 미리 방지하고 사용자들이 보다 안전하고 쾌적한 대화를 즐길 수 있도록 지원합니다. 다음은 모델 개발 과정 및 데이터 처리에 활용한 과정을 정리한 것입니다.
학습 데이터 구축데이터는 외부에 공개된 혐오 발언 데이터셋과 자체적으로 만든 혐오 발언 데이터셋을 활용하여 구축하였습니다. KRAFTON AI는 사전에 정의된 혐오 발언 분류 기준에 따라 각 문장의 유형을 태깅하고, 이를 학습 데이터로 활용했습니다. 또한, 이 기준을 바탕으로 문장별 태깅 방법에 대한 가이드라인을 작성하고 실제 데이터 라벨링 작업을 수행했습니다.
분류 기준
Toxic filtering 모델 학습Toxic filtering 모델은 언어모델을 활용해서 학습했습니다. 여러 언어모델을 테스트하여 각 모델별 성능을 평가한 후, 가장 우수한 성능을 보이는 모델을 선택했습니다. 데이터 역시 앞서 언급된 기준에 따라 태깅 작업을 지속적으로 수행하였고 풍부한 데이터 세트를 구축하는 데 주력했습니다. 학습을 완료한 후에는 모델의 성능을 정밀하게 평가하기 위해 다양한 케이스별로 별도의 평가 세트를 구축했습니다. 이 평가 과정에서 모델이 각각의 욕설 유형에 따라 어떤 성능을 보이는지를 확인했습니다. 특히 성능이 상대적으로 낮게 나타난 유형의 혐오 발언에 대해서는 데이터를 추가로 수집하여 모델의 성능 향상에 집중했습니다.
실제 활용 이렇게 개발한 Toxic filtering 모델은 실제 챗봇 개발에 사용되는 대화 데이터를 처리하는 데 사용했습니다. 데이터에 포함된 부적절한 표현을 언어 모델이 학습하게 되면, 생성된 대화에서도 의도하지 않은 부적절한 내용이 나타날 수 있습니다. 따라서 학습 데이터를 준비하는 단계에서 이러한 표현을 사전에 제거하는 것이 필요했으며, 이 과정에서 해당 모델이 활용되었습니다.
PII(Personally Identifiable Information)는 개인을 직간접적으로 식별할 수 있는 정보를 의미합니다. KRAFTON AI는 개인정보 리스크가 없는 데이터를 확보, 활용하기 위해 PII를 필터링하는 작업을 다양한 프로젝트에서 진행하고 있습니다. PII 필터링은 개인정보 유출 위험을 최소화하고, 원활한 개발 및 서비스 품질을 유지하기 위한 중요한 작업입니다.
프로세스
  • 1. 리스크 분석: 데이터 확보 및 활용 전 저작권 이슈 여부 확인, 명확한 출처 확인, 개인정보 포함 여부 확인, 윤리 이슈 검토 등 다양한 관점에서 리스크를 분석합니다.
  • 2. 익명화: 사용이 결정되면 자동화 도구를 사용하여 데이터를 필터링합니다. 외부 솔루션을 활용해 PII를 감지하고, 20개 이상의 개인을 특정할 수 있는 패턴을 정의하여 익명화 작업을 수행합니다. 이후 내부에서 사전 정의한 토큰으로 치환될 수 있게 합니다.
  • 3. 재검증: 필터링 된 데이터를 교차 검증하여 배포 가능 여부를 판단합니다
  • 4. 모니터링: 지속적인 모니터링 과정을 통하여 위험에 대한 가시성을 확보합니다.
  • 5. 사후 관리: 최소한의 인력만으로 접근 제어된 DB에 보관합니다.

그 외 조치

  • 1. 데이터를 외부에서 확보하는 경우 동일한 기준으로 리스크를 분석합니다. (오픈 소스 데이터의 출처 확인, 저작권 이슈 여부 확인, 개인정보 포함 여부, 윤리 이슈 검토 등) 추가적으로는 정보 주체의 동의가 있는지, 동의가 불필요한지 판단하는 과정을 거칩니다.
  • 2. 데이터 수집시 불필요한 정보는 수집하지 않도록 주의하고, 데이터 적재 과정에 개인정보를 익명 처리하도록 가이드 합니다.
  • 3. 대형 언어모델과 같은 생성형 모델이 생성한 문장에 대해서도 PII 필터링을 진행하거나 결과물을 재생성하여 이슈가 없도록 확인합니다.
  • 4. 개인정보가 포함된 데이터는 개인정보 취급 관리자만 접근 가능하도록 데이터 스토리지를 분리하거나 접근 제한을 둡니다. 접근 제한된 스토리지의 접근 내역은 모두 기록합니다.
위에서 설명된 장치들 외에도, KRAFTON AI는 사내 프라이버시 팀의 전문지식을 바탕으로 현행 데이터 처리 시스템을 검토하고 개선해왔으며, 관련 법규 및 업계 표준을 준수하는지 정기적으로 확인합니다.