지역별 뉴스를 확인하세요.

많이 본 뉴스

광고닫기

기사공유

  • 페이스북
  • 트위터
  • 카카오톡
  • 카카오스토리
  • 네이버
  • 공유

'S급 데이터 모아와라'…빅테크는 도둑질까지 했다

빅테크들은 왜 ‘데이터’에 목매나
경제+
지난 3월 미국 증시에 상장된 인터넷 커뮤니티 ‘레딧’ 주가는 연일 고공행진 중이다. 지난달 16일(현지시간) 레딧이 챗GPT 개발사 오픈AI와 자사 웹사이트에 게시된 데이터를 인공지능(AI) 학습에 사용할 수 있도록 계약했다고 발표하자 주가가 62달러로 15% 급등했다. 데이터는 돈이 된다. AI도 똑똑해지려면 밥을 잘 먹어야 해서다. 고품질 다양한 데이터가 AI의 주식(主食)이다. 스타트업부터 빅테크까지 ‘우리 AI’ 밥 챙기지 못해 안달이다. ‘오일머니’ 대신 ‘데이터머니’가 새로운 헤게모니가 될 것이란 전망이 허황된 얘기가 아니다. 석유에 버금가는 자원을 만들어낼 데이터 산업을 들여다본다.
지난 3월 미국 증시 상장과 함께 샘 올트먼 오픈AI 최고경영자(CEO)가 레딧의 3대 주주였다는 점이 뒤늦게 밝혀졌다. 올트먼이 주목한 레딧의 힘은 12억 명(월간활성이용자 기준) 이용자가 인터넷에 게시하는 각종 정보다. 이를 AI 학습에 쓸 수 있기 때문이다.

더욱 똑똑해져야 하는 임무를 띤 생성 AI는 요즘 공부할 데이터가 없어서 문제다. 텍스트는 물론 자율주행과 영상 제작 생성 AI 개발에 필요한 데이터를 구하는 데 기업들이 백방으로 나서고 있다. AI 학습용 데이터를 판매·중개하는 셀렉트스타의 황민영 부대표는 “모든 데이터가 부족하지만, 특히 영어 데이터에 비해 한국어 데이터는 거의 없다시피 하다”고 말했다.

“AI 학습용 데이터 고갈된다” 빅테크 ‘S급 데이터’ 쟁탈전
배고프다고 아무거나 먹을 순 없다. 중요한 건 ‘다양성’과 ‘품질’이다. 여러 질문에 음성으로 답하고 그림도 그려주는 ‘팔방미인’, 즉 ‘멀티모달 AI’ 개발을 위해선 더 다양한 데이터를 학습해야 한다. 신뢰할 만한 AI 모델을 만들려면 인터넷에 떠도는 데이터를 마구잡이로 학습해선 안 된다. 박찬준 업스테이지 수석연구원은 “중복되지 않고 철자 오류와 문법 오류가 없으며 일관성 있는 정보가 ‘고품질 데이터’”라며 “고품질 데이터를 문서 단위로 대량 학습해야 생성 AI가 전체 문맥을 잘 이해할 수 있다”고 말했다.

김영희 디자이너
AI 기업이 데이터를 구하는 방법은 가지각색이다. 가공되지 않은 데이터(Raw Data)는 대체로 돈 주고 산다. 예컨대 비식별화한 보험 가입자 정보, 신용카드 소비 통계 등은 각 보험사나 카드사에서 구한다. 1분당 3달러에 영상 데이터를 사는 어도비처럼 이용자에게 직접 데이터를 사기도 한다. 저작권 문제를 해결한 데이터를 기업 대상으로 판매하는 경우도 늘고 있다. 언어 데이터 특화 기업인 플리토의 이정수 대표는 “보통 AI 학습용 언어 데이터 한 문장에 고자원언어는 200원, 저자원언어는 2000원 수준”이라며 “의료·법률 같은 특수 분야는 최대 7배까지 가격이 뛴다”고 말했다. AI가 학습할 수 있는 데이터가 많은 영어·중국어는 ‘고자원 언어’, 한국어·태국어처럼 데이터가 적으면 ‘저자원 언어’라고 한다.



데이터 가공·관리 800조 시장 K데이터 유망주도 몸값 급등
사람이나 AI가 직접 AI 모델 학습용 데이터를 만들기도 한다. 주로 ‘데이터 증강(Data Augmentation)’ 방법을 사용한다. 예컨대 AI 모델이 ‘빨간색 지붕’ 이미지를 학습했다면, 사람이나 AI가 그 이미지를 ‘파란색 지붕’이나 ‘초록색 지붕’으로 바꿔서 합성 데이터(Synthetic Data)를 만드는 식이다. 영상 데이터 라벨링 기업인 슈퍼브에이아이의 김현수 대표는 “최근 생성 AI 기술 발전 덕에 합성 데이터 수준이 유의미하게 향상됐다”고 말했다. 합성 데이터 스타트업인 젠젠에이아이의 조호진 대표는 “올해 1분기에 지난해 전체 매출을 달성한 덕에 올해 손익분기점을 넘을 가능성이 생길 정도로 사업이 호황”이라고 했다.

차준홍 기자
AI 학습 모델을 효율적으로 바꾸는 식으로 데이터 부족에 대처하기도 한다. 실제로 오픈AI 등 빅테크도 데이터 고갈에 대응해 AI 모델 학습 방법을 다르게 하는 걸 고심 중이다. 최근에는 적은 양의 데이터로 고성능 AI 모델을 만들 수 있는 ‘데이터 중심 AI(Data-centric AI)’가 주목받고 있다.

과거 인터넷상 데이터를 몰래 긁어(크롤링) 가져가기도 했다. 뉴욕타임스(NYT)는 오픈AI와 구글 등이 저작권법을 무시하고 유튜브에 게재된 영상을 녹취록으로 바꿔 자사의 AI 모델 학습에 사용했다고 복수의 내부 관계자를 인용해 보도했다. AI ‘밥’이 모자란다는 얘기가 나오자 도둑질까지 했다는 거다. NYT에 따르면 오픈소스 대규모 언어모델(LLM) 라마(LLaMA)를 개발한 메타도 엔지니어와 사내변호사들이 AI 학습에 사용할 데이터를 인터넷에서 무단으로 가져오는 방법을 논의했다.

“AI, 영어보다 한국어에 약해” 비인기 언어 데이터 돈 될듯
AI 모델에 이르기까지 데이터는 날 것을 구매해 가공하고 관리하는 여러 공정을 거쳐야 한다. 데이터 가공 특화 기업이 주목 받으며 시장도 쑥쑥 성장했다. 컨설팅기업 IDC에 따르면 글로벌 데이터 시장 규모는 2020년 3885억 달러(약 524조2800억원) 규모에서 지난해 6018억 달러(812조1300억 달러)로 두 배 가까이 성장한 것으로 추정된다.

차준홍 기자
데이터를 공급하고 판매하려면 날것의 정보를 모으고 AI가 쉽게 배우도록 가공해야 한다. 이는 ‘데이터 라벨링’ 영역이다. 자동차가 그려진 디지털 이미지를 구입해 ‘자동차’라고 AI가 읽을 수 있도록 사람이 분류한 후 AI 개발사에 판매하는 식이다. 외부에서 데이터를 위탁받아 라벨링 작업을 하기도 한다. 2016년 창업 이후 8년 만에 최근 기업가치가 13억 달러(약 1조7000억원)로 치솟을 것으로 보이는 스타트업 스케일AI, 음성인식 데이터를 가공하는 디파인드AI 등이 각종 데이터를 가공하는 스타트업 대표주자다. 데이터 보관도 구매·가공만큼 중요하다. 서버에 각종 데이터를 저장하고 관리하는 데이터 관리 산업도 이 시장의 또 다른 영역이다.

클라우드 서비스 제공자(CSP)는 데이터 산업의 알파이자 오메가다. AI 서비스를 떠받칠 대규모 전산 능력을 제공하고, 기업이 보유한 각종 데이터를 저장하고 관리한다. 클라우드 서비스 업계 1위인 AWS(아마존웹서비스)를 비롯해 마이크로소프트(MS)·오라클 등 전통의 클라우드 서비스 강자 모두 AI 시대에 주요한 데이터 관리사업자로 떠오르고 있다.

데이터센터에 저장한 정보를 효율적으로 운용하는 서비스도 유망주다. 데이터 저장뿐 아니라 관리와 활용이 중요해졌기 때문이다. 2020년 뉴욕증시에 상장한 클라우드 데이터 플랫폼 회사 스노우플레이크는 여러 서버에 흩어진 정보를 손쉽게 한꺼번에 활용하는 서비스로 주목받고 있다. 데이터브릭스는 따로따로 저장되는 정형데이터(숫자 등으로 표현되는 정보)와 비정형데이터(이미지·비디오·글자 등의 데이터)를 구분 없이 저장하고 편리하게 활용할 수 있는 서비스를 내세워 아마존·구글·MS 등으로부터 투자받았다. 2021년 기준 누적 투자액은 36억 달러(약 4조6500억원)다.

한국도 2010년대 중반부터 크라우드소싱(기업 활동에 소비자가 참여하는 행위) 방식의 데이터 라벨링 기업이 나타나기 시작했다. LLM 시대가 열리면서 이들의 몸값은 수직으로 상승하고 있다.




윤상언.김남영(youn.sangun@joongang.co.kr)

Log in to Twitter or Facebook account to connect
with the Korea JoongAng Daily
help-image Social comment?
lock icon

To write comments, please log in to one of the accounts.

Standards Board Policy (0/250자)


많이 본 뉴스





실시간 뉴스