인공지능(AI)이 화두가 된 지 벌써 여러 해다. ‘알파고’는 이미 오래된 미래이고, 일상에 스며든 AI가 누군가에게는 친구이자 도우미로서 자리매김한 모양새다. 과학기술정보통신부가 지난 2월 독거노인 670명을 대상으로 조사한 결과, SK텔레콤이 출시한 AI 돌봄 서비스 ‘누구’를 응답자의 73.6%가 ‘매일 사용’하고 95% 이상이 일주일에 3회 이상 이용하는 것으로 나타났단다. 더욱이 코로나바이러스감염증-19(코로나19)의 영향으로 확산하는 비대면 서비스는 AI 스피커 시장의 성장을 빠르게 견인할 것으로 예측된다. 사회적 거리두기로 인한 허전함을 달래줄 친구라도 될 모양새다. 유명 연예인의 목소리가 합성되고, 기쁨과 슬픔 등의 감정이 전달되는 감성적 AI 스피커가 등장했다는 이야기도 들린다. 유능하고 친근한 AI는 이미 와 있는 미래로서 인간이 투영한 필요와 욕망을 실현하는 존재로 느껴진다. 그러나 이런 희망적 기대는 경계해야 한다.

 마이크로소프트사(MS)는 2016년 챗봇 테이(Tay)를 공개한다. 테이는 트위터에 게시된 글을 학습해 인간의 언어를 이해하고 표현할 수 있도록 설계된 대화형 AI다. 하지만 테이는 서비스 출시 만 하루가 되기도 전에 운영이 중단된다. 통제되지 않은 무분별한 학습으로 인종차별과 여성 혐오 메시지를 쏟아냈기 때문이다. ‘히틀러가 옳았다. 나는 유대인이 싫다.’는 등의 발언으로 홀로코스트의 존재를 부정하고 소수자에 대한 적개심을 보였다. 트위터 게시글을 최대한으로 학습해 인간의 언어와 가장 가까운 방식으로 대화하도록 고안된 알고리즘이 사회적 편향과 혐오를 재생산할 수 있음을 보여준 사례다.

 차별과 혐오의 AI는 알고리즘 설계의 문제와 함께 훈련과정에 투입된 데이터가 가진 편향성의 결과물이다. 특히, AI의 성능이 학습용 데이터의 양적 크기로 결정되는 이유로 자료의 대표성과 공정성 등의 질적 검증이 제대로 이뤄지지 못하는 점이 편향의 원인 중 하나이다. 포털 사이트의 뉴스 댓글, 소셜미디어와 온라인 커뮤니티의 게시글 등은 AI 개발과 성능 향상에 쉬운 데이터지만, 텍스트의 생성과 전파 과정에 개입되는 사회적 불평등과 편향이 기계학습에 반영되는 까닭이다. AI의 학습용 데이터가 사회 구성원의 성별, 국적, 인종, 계급, 종교적 신념, 성적 지향 등에 따라 존재하는 불평등과 편향을 반영하기에 윤리 규범과 사회적 가치의 기준 없이 이를 학습한 기계가 가치 중립적이기보다 기존의 차별과 혐오를 부추길 수 있다.

 정부가 최근 발표한 디지털 뉴딜 정책의 “AI 학습용 데이터 구축 사업”을 그래서 주목할 필요가 있다. 정책이 지향하는 “불평등 사회에서 포용 사회로 도약”은 AI 학습용 데이터의 양적 확대와 함께 편향 문제 해결의 청사진이 제시될 때 가능하다. 우리 사회의 왜곡된 현실이 이미 와 있는 미래가 되지 않기 위해서는 말이다. 참고로 MS는 테이 출시 2년 후 데이터의 불공정한 편향성 해결을 천명한 바 있다.

이신행 미디어커뮤니케이션학부 교수

 

저작권자 © 중대신문사 무단전재 및 재배포 금지