Application
KRAFTON AI의 연구와 서비스에 AI 윤리를 적용한 사례를 소개합니다.
사례 1 : 성별/인종별 편향이 없는 스타일화 얼굴 이미지 생성
생성형 이미지 모델을 편향된 데이터셋 또는 다양성이 부족한 데이터셋으로 훈련하면 인종 및 성별과 관련된 인간 다양성의 전체 스펙트럼을 정확하게 나타내지 못하는 문제가 발생합니다. 훈련 데이터의 불균형 문제, 즉 모델이 다수 집단의 특성을 과도하게 반영하여 소수 집단의 특성을 무시하거나 제대로 표현하지 못하는 문제는 많은 선행 연구들에 의해 드러난 바 있습니다(참조 : Maluleke, Vongani H., et al. “Studying Bias in GANs through the Lens of Race.” European Conference on Computer Vision (2022)). 대부분의 얼굴 생성모델 관련 연구에 사용되는 대표적인 학습 데이터셋인 FFHQ는 인종적으로 백인의 비중이 69.2%에 달하는 반면 흑인의 비중은 4.2%에 그치는 등 극단적인 편향성을 보이는데, 특히 이미지 퀄리티를 높이기 위해 인퍼런스 단계에서 트렁케이션(Truncation)과 같은 기법을 사용할 때, 결과의 편향성은 극대화됩니다.
본 연구는 아바타 생성 API에 적용하기 위한 2D 이미지 스타일화 모델에서 편향 현상을 제거하기 위해 진행되었습니다. 해당 방법론을 검토하였던 내부 프로젝트에서는 사용자가 메타버스 안에서 원하는 성별/인종의 스타일로 이미지를 생성해 본인의 정체성을 자유롭게 표현할 수 있도록 기획하였습니다. 따라서 기존 생성 모델들보다 더 다양한 측면에서 편향 이슈를 검토할 필요가 있었고, 아래와 같은 문제점들을 파악하여 개선하고자 하였습니다.
- 소수 집단에 대한 스타일 전이 시 결과물이 미적 표준에서 저하를 보이는 현상
- 소수 집단에 대한 스타일 전이 시 결과물이 투입한 이미지와 덜 닮게 나오는 현상
- 다수 집단 ↔ 소수 집단 스타일 변환 시 결과물이 다수 집단으로 수렴하는 현상
문제 정의
위에서 언급된 문제를 해결하기 위해 KRAFTON AI Avatar DL팀은 아래와 같이 스타일링 된 얼굴 이미지 생성과 관련하여 공정한 모델에 대한 연구를 진행하였습니다. (*’공정한 모델’의 정의 : 투입 이미지와 결과물 이미지에서 성별/인종 정체성 면에서 통계적으로 유의미한 차이를 보이지 않으며, 이미지 퀄리티가 일정하게 유지되는 모델)
적용
Avatar DL팀은 얼굴 이미지 생성 모델이 야기하는 편향성 문제의 가장 큰 원인을 앞서 언급한 FFHQ 데이터셋 자체의 편향성인 것으로 파악하였습니다. 특히 해당 데이터셋은 온라인에서 무작위로 수집한 얼굴 데이터로 구성되어 있기 때문에 상업적 프로덕트에 적용되는 모델 학습에 사용하기 위해서는 법적, 윤리적인 문제들을 먼저 해결해야 했습니다. 이러한 문제들을 해소하기 위해 라이선스 이슈가 없는 생성 모델을 사용하여 다양한 얼굴 이미지들을 생성하고, 성별/인종별 편향성이 적은 자체 대규모 학습 데이터셋을 구축하였습니다.
자체 데이터셋을 사용하여 학습된 모델에서는 결과물 이미지의 퀄리티가 일정하게 유지되고, 투입 이미지와 비교했을 때 성별/인종 정체성 면에서 통계적으로 유의미한 차이를 보이지 않았습니다. 또한 해당 지표들에 대한 평가자 편향을 최소화하기 위해 여러 평가자들의 결과에 대해 표준화 작업(normalisation)을 거쳤습니다. 본 연구는 편향된 데이터셋 문제를 해결하는 새로운 접근법을 제시하였으며, 보다 공정한 AI 모델을 통해 다양한 배경의 사람들이 가진 인종/성별 스펙트럼을 자유롭게 표현할 수 있도록 한다는 점에 그 의의가 있습니다.
사례 2 : 욕설과 혐오 발언 등 부적절한 표현 필터링
게임 채팅이나 다른 챗봇 서비스를 운영할 때 일어날 수 있는 가장 큰 문제 중 하나는 사용자나 챗봇이 부적절한 말을 할 수 있다는 점입니다. 이러한 문제가 있는 표현은 단순한 욕설부터 정치나 종교에 관련된 혐오, 차별 발언에 이르기까지 그 의미와 형태가 매우 다양하며, 시간과 사회적 인식에 따라 변화하기도 합니다. Toxic Filtering은 욕설과 혐오 발언 등, 남에게 불쾌감을 주는 문장을 자동으로 식별하고 필터링하는 기술입니다.
KRAFTON AI는 딥러닝 기반 Toxic filtering 모델을 개발하여 부적절한 표현으로 생길 수 있는 법적, 윤리적 문제를 미리 방지하고 사용자들이 보다 안전하고 쾌적한 대화를 즐길 수 있도록 지원합니다. 다음은 모델 개발 과정 및 데이터 처리에 활용한 과정을 정리한 것입니다.
학습 데이터 구축
데이터는 외부에 공개된 혐오 발언 데이터셋과 자체적으로 만든 혐오 발언 데이터셋을 활용하여 구축하였습니다. KRAFTON AI는 사전에 정의된 혐오 발언 분류 기준에 따라 각 문장의 유형을 태깅하고, 이를 학습 데이터로 활용했습니다. 또한, 이 기준을 바탕으로 문장별 태깅 방법에 대한 가이드라인을 작성하고 실제 데이터 라벨링 작업을 수행했습니다.
분류기준
Toxic filtering 모델 학습
Toxic filtering 모델은 언어모델을 활용해서 학습했습니다. 여러 언어모델을 테스트하여 각 모델별 성능을 평가한 후, 가장 우수한 성능을 보이는 모델을 선택했습니다. 데이터 역시 앞서 언급된 기준에 따라 태깅 작업을 지속적으로 수행하였고 풍부한 데이터 세트를 구축하는 데 주력했습니다. 학습을 완료한 후에는 모델의 성능을 정밀하게 평가하기 위해 다양한 케이스별로 별도의 평가 세트를 구축했습니다. 이 평가 과정에서 모델이 각각의 욕설 유형에 따라 어떤 성능을 보이는지를 확인했습니다. 특히 성능이 상대적으로 낮게 나타난 유형의 혐오 발언에 대해서는 데이터를 추가로 수집하여 모델의 성능 향상에 집중했습니다.
실제 활용
이렇게 개발한 Toxic filtering 모델은 실제 챗봇 개발에 사용되는 대화 데이터를 처리하는 데 사용했습니다. 데이터에 포함된 부적절한 표현을 언어 모델이 학습하게 되면, 생성된 대화에서도 의도하지 않은 부적절한 내용이 나타날 수 있습니다. 따라서 학습 데이터를 준비하는 단계에서 이러한 표현을 사전에 제거하는 것이 필요했으며, 이 과정에서 해당 모델이 활용되었습니다.
사례 3 : 개인을 직간접적으로 식별할 수 있는 정보 필터링
PII(Personally Identifiable Information)는 개인을 직간접적으로 식별할 수 있는 정보를 의미합니다. KRAFTON AI는 개인정보 리스크가 없는 데이터를 확보, 활용하기 위해 PII를 필터링하는 작업을 다양한 프로젝트에서 진행하고 있습니다. PII 필터링은 개인정보 유출 위험을 최소화하고, 원활한 개발 및 서비스 품질을 유지하기 위한 중요한 작업입니다.
프로세스
1. 리스크 분석: 데이터 확보 및 활용 전 저작권 이슈 여부 확인, 명확한 출처 확인, 개인정보 포함 여부 확인, 윤리 이슈 검토 등 다양한 관점에서 리스크를 분석합니다.
2. 익명화: 사용이 결정되면 자동화 도구를 사용하여 데이터를 필터링합니다. 외부 솔루션을 활용해 PII를 감지하고, 20개 이상의 개인을 특정할 수 있는 패턴을 정의하여 익명화 작업을 수행합니다. 이후 내부에서 사전 정의한 토큰으로 치환될 수 있게 합니다.
3. 재검증: 필터링 된 데이터를 교차 검증하여 배포 가능 여부를 판단합니다
4. 모니터링: 지속적인 모니터링 과정을 통하여 위험에 대한 가시성을 확보합니다.
5. 사후 관리: 최소한의 인력만으로 접근 제어된 DB에 보관합니다.
그 외 조치
1. 데이터를 외부에서 확보하는 경우 동일한 기준으로 리스크를 분석합니다. (오픈 소스 데이터의 출처 확인, 저작권 이슈 여부 확인, 개인정보 포함 여부, 윤리 이슈 검토 등) 추가적으로는 정보 주체의 동의가 있는지, 동의가 불필요한지 판단하는 과정을 거칩니다.
2. 데이터 수집시 불필요한 정보는 수집하지 않도록 주의하고, 데이터 적재 과정에 개인정보를 익명 처리하도록 가이드 합니다.
3. 대형 언어모델과 같은 생성형 모델이 생성한 문장에 대해서도 PII 필터링을 진행하거나 결과물을 재생성하여 이슈가 없도록 확인합니다.
4. 개인정보가 포함된 데이터는 개인정보 취급 관리자만 접근 가능하도록 데이터 스토리지를 분리하거나 접근 제한을 둡니다. 접근 제한된 스토리지의 접근 내역은 모두 기록합니다.
위에서 설명된 장치들 외에도, KRAFTON AI는 사내 프라이버시 팀의 전문지식을 바탕으로 현행 데이터 처리 시스템을 검토하고 개선해왔으며, 관련 법규 및 업계 표준을 준수하는지 정기적으로 확인합니다.