사용자 개인 데이터는 AI 교육 매뉴얼이 되어 되찾을 수 없게 된다
여러분도 아시다시피 예술은 삶을 모방합니다. 그러나 예술이 당신의 개인적인 삶을 너무 잘 모방하여 현실과 초현실 사이의 경계가 흐려진다면 어떨까요?
우리는 알지 못하지만, 우리는 인터넷상에서 스크랩한 테라바이트의 데이터를 훈련하는 최첨단 AI 기술의 모델이 되고 있습니다. 이 데이터에는 개인 사진, 의료 이미지, 저작권이 있는 콘텐츠 등 기본적으로 온라인에 게시된 모든 콘텐츠가 포함될 수 있습니다.
DALLE-E 2와 Midjourney, Stable Diffusion과 같이 텍스트나 이미지를 처리하는 딥 러닝 모델은 이 데이터를 인식, 해석 및 용도를 바꾸는 데 점점 더 능숙해지고 있습니다. 텍스트 프롬프트가 표시되면 학습한 내용을 기반으로 구체적인 이미지를 생성합니다. 이러한 이미지는 아직 완벽하지는 않지만 점점 사실적으로 변하고 있습니다.
물론, 이 모든 일이 평범한 사람에게 확률은 낮습니다. 그러나 공인의 경우 그들과 비슷한 모습이 순진한 사람들을 속이는 데 쓰이고 악용될 가능성이 더 높습니다. AI는 공개적으로 사용 가능한 데이터를 넘치도록 가지고 있으며 이미 그들의 얼굴을 알고 있습니다. 따라서 어떤 사람이 나쁜 마음을 먹고 이 점을 이용하고자 한다면 그 사람이 할 것은 그저 독창적인 텍스트 프롬트를 생각해내는 것 뿐입니다.
Stability AI가 제공한 이미지에서 모네 스타일로 그린 Elon Musk와 차 근처에서 총을 들고 있는 Bill Gates의 모습을 볼 수 있습니다.
현재로서는 AI 데이터 피드에 빨려 들어가지 않도록 스스로를 보호할 방법이 없습니다. 이미 AI용 학습 샘플로 사용된 후에만 데이터를 제거할 수 있을 뿐입니다. 데이터를 제거하기 위해서는 ‘Have I Been Trained’와 같은 사이트에서 자신의 이미지를 찾아보고 필요 조건을 충족하는지 확인하고 항의를 넣고서 좋은 결과가 나오기만을 바라야 합니다.
기술 현재 발전 상태
AI 이미지 생성기는 비교적 최근에 생긴 탓에 지금까지 규제를 피할 수 있었습니다. 텍스트에서 이미지를 생성하는 가장 잘 알려진 고급 도구 중 하나는 DALL-E입니다. 텍스트-이미지 인코더는 지난 1월 대기자 명단을 통해 처음 출시되었으며 올 9월 일반 대중에게 제공되었습니다. 도구 배후에 있는 회사인 OpenAI에 따르면 약 150만 명이 이미 이 서비스를 사용하고 있으며 하루에 200만 개 이상의 이미지를 생성하고 있습니다.
대기자 명단과 함께 OpenAI는 사람 얼굴 편집에 대한 제한을 없앴습니다. 그러나 대부분의 경쟁사와 달리 OpenAI는 몇 가지 안전 장치를 마련했습니다. OpenAI는 성적, 정치적, 폭력적, 혐오 콘텐츠를 차단하기 위해 AI의 필터링 알고리즘을 개선했다고 밝혔습니다. DALLE-E의 정책 또한 사용자가 동의 없이 다른 사람의 이미지와 사용자에게 권한이 없는 이미지를 업로드하는 것을 금지하고 있습니다.
그러나 DALLE-E가 사용자의 말을 그대로 받아들이는 것 외에는 특정 정책을 시행할 수 있는 실질적인 방법이 없는 것으로 보입니다. 잠재적인 오용의 위험을 최소화하기 위해 개발자들은 이전에 DALL-E의 훈련 과정을 미세 조정하여 얼굴을 기억하는 능력을 제한했다고 말했습니다. AI가 공인의 닮은꼴을 생성하거나 오해의 소지가 있는 맥락에 두지 않도록 하기 위한 것입니다. OpenAI의 콘텐츠 정책은 특히 정치 과정에 영향을 미치거나 캠페인에 사용될 수 있는 정치인, 투표함 또는 기타 콘텐츠의 이미지를 금지하고 공인의 이미지를 만들지 않도록 경고하고 있습니다. 사용자들은 DALLE-E가 유명인사 및 정치인을 언급하는 프롬프트에 응답하지 않는 것으로 보인다고 보고했습니다.
OpenAI의 텍스트-이미지 생성기는 오픈 소스가 아니지만 그럴만한 이유가 있습니다. OpenAI는 시스템의 원시 구성 요소를 무료로 사용할 수 있게 하면 음란물 및 노골적인 폭력과 같이 주관적으로 부적절한 콘텐츠에 대해 교육할 수 있는 나쁜 사람에게 기회를 준다고 주장합니다.
DALL-E에서 영감을 받은 AI 애호가 그룹은 무료 오픈 소스 AI 텍스트-이미지 생성기인 Crayion(이전 DALLE-E mini)을 만들었습니다. 그러나 인터넷에서 필터링되지 않은 데이터의 상대적으로 적은 양의 샘플(약 1,500만 쌍의 이미지와 해당 대체 텍스트)로 훈련되기 때문에 결과 그림(특히 사람의 그림)은 훨씬 덜 현실적으로 보입니다.
올해 8월 StabilityAI라는 스타트업이 오픈 소스 모델인 Stable Diffusion을 출시했습니다. Stable Diffusion은 Crayon보다 훨씬 더 발전했으며 DALL-E 2보다 훨씬 덜 제한적입니다. Stable Diffusion은 공인의 이미지뿐만 아니라 잠재적으로 허위 정보를 유포하는 캠페인에 사용될 수 있으며 한번도 일어난 적 없는 시위 및 사고까지 생성할 수 있습니다.
Stability AI가 제공한 이미지에서 Stable Diffusion이 생성한 백악관에서 연기가 피어오르는 모습과 디즈니랜드에서 일어나는 시위를 볼 수 있습니다.
Stable Diffusion은 사용자가 규정에 동의하는 경우 출력물을 배포하고 판매할 수 있는 권한을 부여합니다. 예를 들어, 모델을 사용하여 법을 위반하거나, 미성년자에게 피해를 주거나, 타인에게 피해를 줄 목적으로 허위 정보를 유포하거나, 저작권을 침해할 수 없습니다. 그러나 회사가 규정을 어긴 사람들을 어떻게 잡아낼 수 있는지는 이야기하기 어렵습니다.
AI 모델은 인간의 손길을 모방하는 데 점점 능숙해지고 인간 관찰자를 속이는 데 점점 더 가까워지고 있습니다. 올해 비전문 예술가가 텍스트에서 이미지로 변환하는 AI 도구인 Midjourney를 사용하여 만든 작품으로 Colorado State Fair의 디지털 아트 콘테스트에서 1등상을 받았습니다.
AI 기반 도구는 시간이 지날수록 더 좋아질 것입니다. 구글의 자체 인공지능 모델인 Imagen의 연구원들은 이미지 정확도와 품질에서 이미 최신 버전의 DALLE-E(DALLE-E 2)를 능가한다고 주장합니다.
AI 기반 이미지 합성기가 예술과 현실에 어떤 영향을 미칠지에 대한 많은 추측과 불확실성이 있습니다. 크게는 개발자가 AI의 활동을 제한할 수 있는지 여부와 AI가 수집할 데이터에 따라 달라질 것입니다.
데이터의 출처
DALLE-E 및 Stable Diffusion과 같은 AI 모델은 인터넷상에서 가져온 방대한 데이터 세트로부터 학습합니다.
따라서 DALLE-2는 이미 인터넷에서 사용할 수 있는 6억 5천만 개의 텍스트-이미지 쌍을 제공받았습니다. Stability AI는 주로 LAION-5B 데이터 세트의 영어 하위 집합에서 훈련되었습니다. LAION 5B(Large-scale Artificial Intelligence Open Network)는 웹에서 가져온 56억 개의 이미지를 포함하는 오픈 소스 데이터 세트로, 공개적으로 액세스할 수 있는 세계 최대의 이미지-텍스트 데이터 세트입니다. LAION 5B의 전신인 LAION-400에는 4억 1,300만 쌍이 포함되어 있으며 Google에서 Imagen을 교육하는 데 사용되었습니다. 그 데이터 세트는 연구원들이 원래 공개되지 않은 OpenAi 데이터 세트를 복제하기 위해 만들었습니다.
LAION은 대규모 멀티모달 모델 학습 분야에서 연구와 실험을 민주화하는 것을 사명으로 하는 비영리 조직으로 자리매김하고 있습니다. 임무는 고귀하지만 개인 정보 보호에 많은 비용이 듭니다. 연구원들이 이미지-텍스트 쌍을 찾기 위해 분석한 데이터는 매달 웹을 크롤링하고 페타바이트 규모의 데이터를 대중에게 무료로 제공하는 비영리 단체인 Common Crawl에서 가져옵니다. ToS에서 Common Crawl은 그들이 “그저 데이터를 웹에서 찾았을 뿐”이며 “내용을 보증하거나 잘못된 내용에 대해 책임을 지지 않는다”고 이야기합니다.
데이터의 출처를 고려하면 개인 식별 정보, 민감한 이미지 및 저작권이 있는 콘텐츠가 데이터 세트에 스며드는 것은 놀라운 일이 아닙니다. ArtTechnica는 지난달 AI 아티스트가 LAION-5B 데이터 세트에서 자신의 의료 사진을 발견했다고 보고했습니다. 사진은 (지금은 고인이 된) 그의 의사가 촬영했으며 해당 의사의 개인적인 용도로만 사용되었습니다.
LAION은 이미지를 호스팅하지 않고 이미지를 다운로드할 수 있는 URL만 제공합니다. 따라서 LAION은 귀하의 개인정보 유포에 대해 책임을 질 필요가 없는 것으로 보입니다. 그리고 그것은 법적인 관점에서 잠재적인 데이터 오용에 책임이 있는 사람을 식별하기 어렵다는 것을 의미합니다. 또 다른 문제는 개인 데이터를 AI 훈련에서 제외하는 것이 불가능하고, 한번 AI가 데이터를 수집했다면 제거하기 어렵다는 것입니다.
AI 피드에서 개인 데이터를 제거하는 방법
우선, AI 훈련 데이터 세트에서 이미지 제거를 요청하려면 그곳에서 이미지를 찾아야 합니다. 그러나 다행히도 이미지를 직접 찾을 필요는 없습니다. 왜냐하면 지난 달 Spawning AI라는 회사가 Have I Been Trained?라는 사이트를 개설했기 때문입니다. 이 사이트에서 이미지 또는 텍스트 프롬프트를 입력하여 LAION-5B 데이터베이스를 검색할 수 있습니다.
이미지를 찾으면 LAION의 GDPR 페이지에서 양식을 작성해야 합니다. 그런 다음 LAION의 조사를 거쳐 해당 이미지가 EU 데이터 보호법을 위반하는 것으로 확인되면 LAION이 관리하는 모든 데이터 저장소 및 향후 릴리스에서 해당 이미지를 제거합니다.
Spawning은 아티스트가 대규모 AI 모델의 훈련에 자신의 데이터가 쓰일지의 여부를 결정하고, 그들의 스타일과 외관이 사용되는 방식에 대한 권한을 설정할 수 있는 도구를 개발하고 있습니다. 이 도구를 사용해 보고 싶다면 회사 웹사이트에서 신청할 수 있습니다.
DALLE-E는 자신의 작품이 동의 없이 사용된 것을 발견한 아티스트가 OpenAI 메일에 위반 사항을 신고할 수 있도록 합니다. Common Crawl은 저작권 침해를 신고할 수 있는 사서함만 나열했습니다.
요약하자면, 데이터가 AI에 수집되지 않도록 하는 것은 대부분 우리 자신의 장치에 맡겨져 있습니다. 이는 부분적으로는 양측이 최종 결과에 대해 책임이 없다고 주장하는 법적 난제 때문이기도 합니다. 부분적으로는 인터넷의 작동 방식 때문이기도 합니다.
인공지능이 당신의 닮은꼴을 뱉어내고 당신의 모습을 '잊어버리는’ 것이 가능한가요?
충분한 훈련을 받은 AI는 실제 사람의 인식 가능한 이미지를 생성할 수 있습니다.
OpenAI는 DALLE-E2가 사람의 정확한 이미지를 생성할 수는 없지만 훈련 데이터의 누군가와 유사한 이미지를 생성할 수 있다는 것을 인정합니다. 다른 AI 모델도 마찬가지입니다. 연구에 따르면 다른 종류의 딥 러닝 모델인 GAN(Generative Adversarial Networks)에서 생성된 이미지가 실제 사람과 닮았다는 사실이 밝혀졌습니다. 한 논문에서 연구원들은 AI가 실존하지 않는 사람들의 이미지를 생성하는 데 쓰인 원본의 정체성을 재식별하는 것이 가능하다는 것을 보여주었습니다.
Stability AI CEO인 Emad Mostaque는 AI 모델이 사용자에 대해 이미 학습한 내용을 취소할 수 있는지 여부에 대해 Ars Technica에 가능하지만 약간의 조정이나 추가 작업이 필요하다고 말했습니다. 중요한 것은 개발자들에게 그럴 의무가 없음에도 그들이 그 기나긴 여정을 기꺼이 가려고 할지입니다.
AI 문제를 해결할 방법이 있나요?
이러한 AI 선구자가 달성한 결과가 훌륭하다는 사실을 부인할 수 없습니다. 이러한 회사 중 일부가 코드를 오픈 소스로 만든다는 사실은 연구원, 제작자 및 추가 발전에 도움이 될 것입니다.
그러나 나쁜 마음을 먹은 사람이 오픈 소스 모델을 사용하는 것을 막는 것은 매우 어렵기 때문에 오히려 역효과를 낼 수도 있습니다. 가장 중요한 것은 현재 아티스트와 일반 사람들이 본질적으로 AI 생성 최종 제품의 일부가 되는 것을 거부할 방법이 없다는 것입니다. 또한 훈련 데이터에서 이미지를 제거하려는 경우 회사 자체에서만 데이터를 제거할 수 있습니다.
이러한 기술이 주류가 되면 더 많은 사람들에게 영향을 미칠 것입니다. 최근 Microsoft는 두 개의 앱을 DALL-E 2와 통합한다고 발표했습니다. 앱 중 하나인 Image Creator는 Microsoft 검색 엔진 Bing 및 Edge에서 무료로 사용할 수 있습니다.
현재로서는 규제가 필요한 상황입니다. 신중한 데이터 세트 큐레이션이든, 모든 당사자가 존중하는 명확한 옵트 아웃 메커니즘이든, 또는 일부 다른 완화 방법이든 우리는 알지 못합니다. 그러나 현재 상태로는 AI 이미지-텍스트 생성기가 개인 정보 보호 위협으로 남아 있으며, 계속 증가해 갈 것입니다.