삼성 챗GPT 실패로 드러난 생성형 AI 개인정보 보호 문제
발 없는 말이 천리 갑니다. 이 속담은 이제 삼성 직원 3명이 실수로 소스 코드, 테스트 순서, 회사 내부 논의 내용을 챗GPT(ChatGPT)의 개발사인 OpenAI에 유출한 사건으로 인해 더욱 실감나게 다가옵니다.
이코노미스트 코리아에 따르면 삼성은 처음에 AI 기반 챗봇을 도입할 때 영업 비밀과 같은 내부 정보가 외부로 유출될 수 있다는 우려로 도입에 신중을 기했습니다. 하지만 챗GPT가 전 세계를 강타하면서 삼성은 직원들이 기술 변화를 따라잡을 수 있도록 업무 공간에서 사용하기로 결정했습니다. 당시 회사는 챗GPT를 사용하려는 직원들에게 "사내 정보 보안에 주의하고 사적인 내용을를 입력하지 말라"는 공지를 통해 AI 비서에게 프롬프트 입력 시에 주의할 것을 당부했습니다.
그 후 20일 동안 한 명도 아닌 세 명의 회사 엔지니어가 삼성의 민감한 기업 데이터로 보이는 것을 공개하여 OpenAI와 경쟁사에 삼성의 기술에 대한 인사이트를 제공할 가능성이 있었기 때문에 이 공지는 눈에 띄지 않았던 것 같습니다.
첫 번째 사건은 삼성 직원이 반도체 공장 측정 데이터베이스 다운로드 프로그램의 소스 코드에서 버그를 발견하고 챗GPT에 해결책을 문의한 경우입니다. 두 번째 사건에서는 한 직원이 수율 및 결함 칩을 식별하는 프로그램의 테스트 시퀀스를 최적화하기 위해 챗GPT를 사용했습니다. 세 번째 사건에서는 직원이 먼저 스마트폰으로 회사 내부 회의를 녹음한 후 음성 인식 애플리케이션을 사용하여 이를 전사하고 챗GPT에 입력하여 회의록을 생성했습니다. 현재 세 직원 모두 징계 조사를 받고 있습니다.
유출 사건 직후 삼성이 챗GPT를 금지할 것으로 예상할 수 있겠지만, 대신 삼성은 직원들에게 AI의 개인정보 보호 위험에 대해 설명하고, 사용자가 챗GPT에 알려주는 모든 내용은 OpenAI의 외부 서버에 저장된다는 사실을 알리기 위해 노력했습니다. 한 번 쏟아진 물은 다시 담을 수 없는 것처럼 한 번 기록된 챗GPT의 데이터는 반환할 수 없습니다. 삼성은 또한 각 직원이 챗GPT에 업로드할 수 있는 데이터의 양에 제한을 두었으며, 누군가 다시 한 번 실수를 저지르면 챗GPT의 사용을 영원히 중단할 것이라고 경고했습니다.
챗GPT에 한 번 말하면 다시 주워담을 수 없다
직원들이 민감한 정보를 OpenAI의 챗봇과 공유하는 기업은 삼성이 처음이 아닙니다. 다른 회사에서도 비슷한 사건이 발생한 바 있습니다.
아마존은 이미 1월에 챗GPT의 사용을 제한했으며, 챗봇의 응답에서 아마존 사내 데이터와 ‘거의 일치하는’ 출력을 발견한 후 직원들에게 코드와 같은 기밀 정보를 챗봇에 입력하지 말 것을 경고했습니다. 또 다른 미국 유통 대기업인 월마트는 처음에는 ‘회사에 위험을 초래하는’ 활동을 감지한 후 챗GPT를 차단했지만, 나중에 사용을 허용하고 직원들이 ‘민감한 기밀 또는 독점 정보를 입력하지 않도록’ 하는 등의 일련의 지침을 발표했습니다.
많은 금융 서비스 회사들이 업무 공간에서 챗GPT를 전면 금지하고 있습니다. 뱅크오브아메리카는 업무용으로 허용되지 않는 비인가 애플리케이션 목록에 챗GPT를 추가했습니다. JP모건 체이스, 씨티그룹, 골드만삭스, 도이치뱅크, 웰스파고 등 다른 금융기관도 챗봇에 대한 접근을 차단한 상태입니다. 웰스파고는 블룸버그와의 인터뷰에서 표준 타사 소프트웨어 제한과 함께 이 기술을 사용할 수 있는 “안전하고 효과적인 방법을 계속해서 평가할 것”이라고 말했습니다.
은행 업계는 민감한 고객 정보를 대량으로 취급하고 엄격한 규제를 받는 만큼 챗GPT로 인한 위험에 가장 적극적으로 대응해 왔으며, 이는 당연한 결과입니다. 그러나 다른 모든 산업에도 이와 같은 위험부담이 있습니다. 챗봇에게 어떤 정보를 제공하면, 그 정보는 더 이상 비밀이 아니라 공개 영역의 일부라고 생각해야 합니다.
OpenAI의 서비스 약관에는 사용자가 챗봇과 상호작용할 때 어떠한 개인정보 보호도 제공되지 않으며, 개인정보 공개 여부는 사용자의 책임이라고 명시되어 있습니다. 예를 들어, OpenAI는 챗GPT와의 대화를 확인하고 사용하여 AI를 학습시킬 수 있으며, 채팅 기록에서 특정 프롬프트를 제거할 수 없다고 말합니다.
즉, 사용자 또는 회사에 대한 민감한 정보를 챗GPT에 알려주면 다른 사람이 잠재적으로 챗GPT에 해당 데이터를 요청하여 해당 데이터를 확보할 수 있습니다. 삼성의 경우, 경쟁업체가 챗봇에게 직원이 유출한 정보에 대해 문의할 수 있습니다.
OpenAI를 사용할 때 입력한 데이터를 학습에 이용하지 않도록 선택할 수 있으며, 이를 위해서는 특별한 양식을 작성해야 합니다. 그러나 챗GPT와 일부 데이터를 공유한 후에 후회하고 있다면 이미 너무 늦었을 수 있습니다. 계정을 삭제하는 경우에만 채팅 기록이 삭제될 수 있습니다. 하지만 OpenAI는 이 절차에 최대 30일이 소요될 수 있다고 밝혔으며, 계정이 삭제된 후에는 복원할 수 없습니다.
그러나 사용자는 일반적으로 자신의 정보가 알고리즘을 학습하는 데 어떻게 사용되었는지 알지 못하며 정보가 제거되었는지 확인할 방법도 없기 때문에 계정 삭제 후에 데이터가 어떻게 처리되는지가 관건입니다. 이론적으로는 시스템이 데이터를 '학습 해제', 즉 학습한 내용을 잊어버리게 하는 것이 가능하지만, 이 과정은 학습된 모델에 대한 특정 데이터 포인트의 영향을 식별해야 하기 때문에 매우 어려운 작업으로 간주됩니다. 제너레이티브 AI의 보안 및 개인정보 보호에 대한 우려가 커지면서 이른바 기계 '학습 해제'에 대한 연구가 진행되고 있지만, 이 분야는 더 많은 작업이 필요한 분야입니다. 일반적인 접근 방식은 전체 모델을 처음부터 재훈련하는 것으로 보이지만, 이는 현실적으로 불가능합니다.
따라서 데이터 삭제 요청까지 모든 개인정보 보호 옵션을 진행한 후에도 여러분이 챗GPT에 제공한 정보가 영원히 사라졌다고 확신할 수 없다면, AI 비서에게 본인 또는 회사의 가장 내밀한 비밀을 전혀 이야기하지 않는 것이 좋습니다. OpenAI 자체에서도 "민감한 정보를 공유하지 마세요"라고 경고합니다.