인공지능은 가치와 윤리의 기준을 주어진 데이터에 의존한다. 생성형 AI는 학습 데이터에 노출된 정보를 기반으로 작동하기에 생성형 AI의 데이터 편향성은 모델이 학습하는 데이터에 저장된 편향을 반영한다. 따라서 주어진 데이터가 특정 그룹이나 관점에 치우치거나 의미나 특징이 과대 평가되거나, 과소 평가될 수 있다. 그리고 제작자의 의도와 사용자의 질문에 따라서 개인적, 문화적, 사회적 차별과 혐오적 표현이 그대로 드러날 수 있다. 편향성을 일으키는 주요 원인은 제작자, 사용자, 사회적 상황이다. 생성형 AI의 프로그램을 제작한 데이터는 가치 중립적이 아니며 제작자의 성향을 반영한다. 사용자의 인터넷과 SNS의 자료를 통해 질문하면서 그 성향이 생성형 AI의 학습에 영향을 주기도 한다. 또한 생성형 AI의 데이터에는 우리 시대의 사회적, 문화적 패러다임이 반영되어 있다. 인간의 사고는 시대에 따라 변화하며 생성형 AI는 현재의, 대다수의 일반적인 사고를 나타내며 소수의 의견을 배제할 수 있다.
인간의 의식이 편향된 세상에서 공정한 인공지능이 나올 수 없다. 우리가 챗GPT에 공정성을 질문하면 GPT는 자신의 목표가 공정성이 아니라 사용자에게 정보를 제공하는 것이라고 대답한다. 생성형 AI의 이미지 생성에도 편향성이 나타난다. 독일 라이프치히 대학의 연구에 따르면, 다양한 인종, 성별, 직업에 따른 보편적 이미지를 생성했는데, 백인 남성의 이미지가 생성되는 비율이 97%에 이르렀다. 성별에 따른 고정관념도 문제점으로 드러났는데, 정서적, 섬세함으로 입력하면 여성의 이미지, 지성적, 고집스러움을 입력하면 남성의 이미지가 생성되었다.
인공지능의 구조적 특성상, 모호하거나 불충분한 맥락에서 편향된 결과는 더 자주 나타날 수 있다. 생성형 AI의 편향성은 인터넷 폭력, 성범죄, 허위 정보, 명예훼손, 유해 콘텐츠와 같은 다양한 사회적 문제를 유발한다. AI의 편향성을 줄이는 첫 번째 방안은 훈련 데이터의 다양성을 강화하는 것이다. 데이터의 다양성은 생성형 AI 모델이 여러 관점을 학습하고 일반화하는 기능을 결정한다. 다양한 분포의 데이터 학습은 자기중심적 사고와 생성형 AI의 편향을 줄이기 위해서 매우 중요하다. 다양한 데이터의 전처리 및 균형을 유지하기 위해서는 다양한 출처와 다양한 사람들에 의해 만들어진 학습 데이터가 사용되어야 한다. 또한 소외된 그룹 및 다양한 문화적 배경도 데이터에 반영되어야 하며 생성된 결과를 필터링하여 사용자에게 전달되기 전에 편향적 내용을 걸러내는 시스템의 구축도 필요하다. 이러한 시스템은 AI가 생성한 결과물을 지속하여 평가하고 감독하며 편향성을 식별하고 개선할 수 있으며, 인공지능을 개발하고 사용하는 기업과 개발자를 관리하고 책임을 부여하는 제도로 확장되어야 한다.
결국 인공지능의 편향성 문제는 인간의 의식과 관련되기에 지속적인 노력과 개발자와 사용자의 윤리 의식과 협력을 요구한다. 정보에 대한 편향은 주관적으로 모든 인간 안에 내재하며 정보를 효율적으로 일반화하는 방식으로 나타나기 마련이다. 하지만 정보의 편향이 충돌하여 서로에게 피해를 주어서는 안 된다. 인간의 편향을 반영하는 생성형 AI는 조직과 집단에 통합되면 기존의 불평등을 더욱 악화시키고 새로운 형태의 차별을 일으키게 된다. 먼저 우리 안의 편견과 대립이 사라지지 않으면 인공지능을 통하여 사회적 갈등은 더욱 심화할 것이다. 인공지능을 구성하는 과학기술은 가치 중립적이며 인간에 의하여 선과 악의 가치가 결정된다. 따라서 인간의 윤리 의식이 개선되지 않으면 인공지능은 인간과 사회의 문제점을 그대로 반영하게 된다. 개발자와 사용자는 윤리적 책임 의식을 가지고 인공지능의 긍정적 가치를 발전시키며 부정적 가치를 제거해야 한다.
홍순원 논설위원·(사)한국인문학연구원 이사장