선도적 AI 모델의 역설, 투명성

AI가 번역한 다른 언어 보기

Byungchae Ryan Son

선도적 AI 모델의 역설, 투명성

작성 언어: 한국어
•
기준국가: 모든 국가
•
IT

Byungchae Ryan Son

0000-00-00 00:00:00

언어 선택

한국어
English
汉语
Español
Bahasa Indonesia
Português
Русский
日本語
Deutsch
Français
Italiano
Türkçe
Tiếng Việt
ไทย
Polski
Nederlands
हिन्दी
Magyar

durumis AI가 요약한 글

최근 스탠퍼드 대학교 연구진은 GPT-4를 포함한 최첨단 AI 시스템의 비밀스러움이 심각하며 이로 인해 특정 기업 중심의 독점적 미래가 올 수 있다는 점을 지적했다.
특히, AI 모델 학습에 사용된 데이터와 개발 과정의 투명성이 부족하며, 이는 AI 기술 발전의 재현성을 저해하고 폐쇄적인 독점적 상황을 야기할 수 있다.
따라서 AI 모델의 데이터 접근성을 확대하고, 모델 생성 과정의 투명성을 높여 과학적 발전과 윤리적 책임성을 동시에 확보해야 한다.

지난 18일 스탠퍼드 대학교 연구진이 발표한 연구는 GPT-4 및 기타 최첨단 AI 시스템에 대한 비밀이 얼마나 깊고 잠재적으로 위험한지 보여준다.

Introducing The Foundation Model Transparency Index, Stanford University

그들은 총 10개의 서로 다른 AI 시스템을 조사했는데, 대부분 ChatGPT 및 기타 챗봇에 사용되는 것과 같은 대규모 언어 모델이었다. 여기에는 OpenAI의 GPT-4, Google의 PaLM 2, Amazon의 Titan Text와 같이 널리 사용되는 상용 모델이 포함되어 있으며, 개발자가 모델 학습에 사용된 데이터에 대해 얼마나 투명하게 공개했는지를(데이터 수집 및 주석 처리 방법, 저작권이 있는 자료 포함 여부 등) 포함하여 13가지 기준에 따라 개방성을 평가했다. 또한 모델을 훈련하고 실행하는 데 사용된 하드웨어, 사용된 소프트웨어 프레임워크, 프로젝트의 에너지 소비량에 대한 공개 여부도 조사했다.

그 결과는 언급한 모든 기준에 걸쳐 투명성 척도에서 54% 이상을 달성한 AI 모델이 없다는 점이었다. 전반적으로 Amazon의 Titan Text가 투명성이 가장 낮은 것으로 평가되었으며, Meta의 Llama 2가 가장 개방적인 것으로 선정되었다. 흥미로운 건 최근 주목받고 있는 개방형과 폐쇄형 모델 별 대립 구조의 대표 주자인 Llama 2가 오픈 소스 모델임에도 학습에 사용된 데이터, 데이터 수집 및 큐레이션 방법 등을 공개하지 않았다는 점이다. 즉, AI가 우리 사회에 미치는 영향력이 커지고 있음에도 불구하고 업계의 관련 불투명성은 전반적이고 지속적으로 확인되는 현상이라는 점이다.

이는 곧 AI 업계가 과학적 발전이 아닌 수익 중심 분야가 될 위험이 있으며 특정 기업이 주도하는 독점적 미래로 연결될 가능성도 있음을 의미한다.

Eric Lee/Bloomberg via Getty Images

이미 OpenAI의 CEO 샘 알트먼은 전 세계 정책 입안자들과 만나 그들에게 이 낯설고 새로운 지능에 대해 적극적으로 설명하며 관련 규제 구체화를 돕겠다는 의사를 공공연히 밝혀왔다. 하지만 그는 원칙적으로 AI를 감독하는 국제기구의 아이디어를 지지하지만, 데이터 세트에서 저작권이 있는 모든 자료를 금지하는 등의 일부 제한된 규칙이 불공정한 장애물이 될 수 있다고 생각하기도 한다. OpenAI라는 회사 이름에 담긴 '개방성'이 출범 당시 제시했던 급진적인 투명성에서 변질된 것이 분명해 보이는 이유다.

하지만 이번 스탠퍼드 보고서의 결과에서 드러나듯 경쟁을 위해 각자의 모델을 그렇게 비밀에 부칠 필요는 없다는 점에도 주목할 필요가 있다. 해당 결과는 곧 거의 모든 기업이 부진함을 드러내는 지표이기도 하기 때문이다. 예를 들어, 얼마나 많은 사용자가 자사 모델에 의존하고 있는지, 자사 모델을 사용하는 지역 또는 시장 부분에 대한 통계를 제공하는 회사는 없다고 한다.

오픈 소스를 원칙으로 하는 조직들 사이에서는 ‘눈이 많으면 모든 벌레는 드러나기 마련이다'는 속담이 있다.(Linus's law) 원시적인 숫자는 문제를 해결하고 고칠 수 있는 문제를 발견하는 데 도움이 된다.

하지만 오픈 소스 관행은 점차적으로 공개 기업 내, 외부의 사회적 지위와 가치 인정을 잃게 만드는 경향도 있기에 무조건적인 강조는 크게 의미가 없다. 때문에 모델이 공개형이냐 폐쇄형이냐에 대한 프레임에 머물기보다는 강력한 AI 모델의 기반이 되는 ‘데이터’에 대한 외부 접근성을 조금씩 넓히는 것에 논의의 초점을 맞추는 것이 나은 선택이 될 수 있다.

과학 발전에는 특정 연구 결과가 다시 나타나는지를 확인하는 재현성(Reproducibility) 확보가 중요하다. 이를 통해 각 모델 생성의 주요 구성 요소를 향한 투명성이 보장되는 방안을 구체화하지 않으면 결국 업계는 폐쇄적이고 정체된 독점적 상황에 머물게 될 가능성이 높다. 그리고 이는 빠르게 산업 전반에 AI 기술이 스며들고 있는 현재와 앞으로의 상황에 있어 꽤나 중요한 우선순위로 고려되어야 함을 기억해야 한다.

언론인이나 과학자들에게 데이터를 이해하는 것이 중요해졌고 정책 입안자에게 투명성은 예정된 정책적 노력의 전제 조건이다. 대중에게도 투명성은 AI 시스템의 최종 사용자로서 지적 재산권, 에너지 사용량, 편견과 관련된 잠재적 문제의 가해자 또는 피해자가 될 수 있기에 중요하다. 샘 알트먼은 AI로 인한 인류 멸종 위험이 전염병이나 핵전쟁과 같은 사회적 규모의 위험 중의 하나로 전 세계적인 우선순위가 되어야 한다고 주장한다. 그러나 그가 언급한 위험한 상황에 도달하기까지는 발전해 가는 AI와 건강한 관계를 유지하는 우리 사회의 존속이 그 전제임을 잊어서는 안 된다.

*이 글은 23년 10월 23일 자 전자신문 기명칼럼에 게재된 내용의 원본입니다.

References

AI Is Becoming More Powerful—but Also More Secretive

Introducing The Foundation Model Transparency Index

생성형 AI, 폐쇄형 대 개방형 ‘맞불’

What OpenAI Really Wants

Revitalising Openness at Mozilla: A Mixed Method Research Approach⁠⁠⁠⁠⁠⁠⁠

durumis AI가 요약한 글

최근 스탠퍼드 대학교 연구진은 GPT-4를 포함한 최첨단 AI 시스템의 비밀스러움이 심각하며 이로 인해 특정 기업 중심의 독점적 미래가 올 수 있다는 점을 지적했다.
특히, AI 모델 학습에 사용된 데이터와 개발 과정의 투명성이 부족하며, 이는 AI 기술 발전의 재현성을 저해하고 폐쇄적인 독점적 상황을 야기할 수 있다.
따라서 AI 모델의 데이터 접근성을 확대하고, 모델 생성 과정의 투명성을 높여 과학적 발전과 윤리적 책임성을 동시에 확보해야 한다.

Byungchae Ryan Son: Byungchae Ryan Son; 찾아가 관찰하고 경청하는 일을 합니다.

이 작성자의 다른 글
전체 글 보기

OpenAI의 거버넌스 드라마, AI의 윤리적 미래 OpenAI의 CEO 샘 알트먼이 이사회에 의해 해고되었다가 다시 복직된 사건은 인공지능 개발의 윤리적 문제와 그에 따른 사회적 영향에 대한 우려를 드러냅니다. 특히 인류에게 위협이 될 수 있는 강력한 AI 개발과 관련해 이사회가 CEO를 해고할 수 있는 권한을 갖도록 설계된 OpenAI의 구조는 AI 개발과 규제에 대한 사회적 논의가 더욱 활발해질 필요성을 보여줍니다.

2024년 5월 14일

생성AI의 2023년, 이후의 인간 의미 2023년은 AI 기술이 급격히 발전하고 대중화된 한 해였으며, 생성 AI의 등장, AI에 대한 대중의 익숙함 증가, EU의 AI 규제 법안 합의 등이 주요 특징입니다.

2024년 5월 16일

알고리즘 브랜딩의 시대가 온다 일론 머스크, 순다르 피차이, 샘 올트먼 등 AI 분야의 주요 인물들이 인공지능의 미래에 대한 우려와 기대를 표명하며 인공지능 시대의 인류의 역할과 책임에 대한 논쟁이 뜨겁습니다.

2024년 5월 10일