실리콘밸리의 AI를 만나다 3 (정영훈 대표)

“새로운 세계를 여는 열쇠, 실리콘밸리의 AI를 만나다” 웨비나 현장 리포트 3
1부와 2부에 이어 이번 뉴스레터(3부)에서는 메인 세션의 정영훈 대표의 발표 내용을 소개한다.

메인 세션 강연 3: AI & Data – XL8’s Story

메인 세션의 마지막 강연은 구글에서 다수의 AI 프로젝트를 이끈 경험으로 기계 번역(Machine Translation) 스타트업인 XL8 Inc.를 창업, 성공적으로 이끌고 있는 정영훈 대표의 ‘AI & Data – XL8’s Story’ 발표로 진행됐다. 자연어처리, 즉 NLP 분야의 전문가인 정영훈 대표는 AI의 개념부터 AI의 세 가지 핵심 요소인 데이터, 컴퓨팅 파워, 모델과 아키텍쳐에 대해 설명하고, 나아가 기계 번역에 대한 창업 스토리를 공유했다.

정영훈 대표는 일상 속에서 흔히 접할 수 있는 다양한 분야의 AI 사례를 들며 발표를 시작했다. 최근 가정에서 많이 사용되고 있는 어시스턴트 제품들, 특히 구글 홈이나 아마존의 알렉사 같은 스피커와 자율주행차 웨이모(Waymo), 구글의 검색 엔진 등을 AI가 적용된 대표적인 사례로 꼽았다. 그의 전문 분야인 NLP와 관련된 사례로는 이메일 자동완성기능과 챗봇을 꼽았다.

이어 정영훈 대표는 AI와 머신러닝의 정의에 대해 설명했다. 사람이 아닌 대상이 사람과 비슷한 지능적인 행위를 하게 되면 모두 AI로 볼 수 있는데, 프로그래밍으로 짰던 시스템도 넓은 의미에서는 AI라고 할 수 있다고 전했다. 그 중에서도 통계적인 모델을 만들고 특징을 따내어 결과를 내는 것을 머신러닝이라 하며, 그보다 더 작은 분야에 딥러닝이 있는데 최근 AI에서 머신러닝 과 딥러닝이 크게 성장할 수 있게 된 배경에 대해서도 언급했다. 그는 “2000년 대에 들어서 분산 시스템에 대한 연구가 많이 일어나면서 데이터 저장 공간(Storage)을 연결해서 사용하는 것이 가능해졌고, 이로 인해 빅데이터라는 개념이 생겨나게 되었다”고 설명하며, 빅데이터가 AI 발전에 터닝포인트가 되었다고 밝혔다. 또 다른 배경으로는 클라우드 서비스가 많아지면서 컴퓨터를 보유할 필요 없이 데이터 처리가 가능해진 점을 들었다. 특히 GPU, CPU 등 데이터 프로세싱에 적합한 모듈이 나오게 되면서 AI가 점점 더 발전할 수 있게 되었고, 이렇게 빅데이터와 컴퓨팅 파워가 뒷받침되면서 어떻게 아키텍쳐를 설계하고 어떻게 트레이닝을 할 것인지, 또는 어떤 옵티마이저를 쓸 것인가와 같은 딥러닝에 대한 연구가 활발히 이루어질 수 있게 되어 최근 10년 사이에 많은 사람들이 딥러닝 분야에 뛰어들게 되었다고 전했다.

그 다음으로는 머신러닝에서 가장 중요한 세 가지 핵심 요소인 빅데이터, 컴퓨팅 파워, 딥러닝 아키텍쳐 각각에 대해 살펴봤다. 먼저 빅데이터는 머신러닝에서 굉장히 중요한 요소로, 데이터가 없으면 머신러닝을 할 수 없다. 대게 AI 회사 연구자들은 모델과 아키텍쳐, 트레이닝에 시간 대부분을 할애할 것이라고 예상하지만, 현실에서는 데이터를 준비하는데에만 70% – 80%의 시간을 보내게 된다. 이는 아무리 아키텍쳐가 잘 설계되어있어도 데이터 퀄리티가 좋지 않거나, 잘못된 데이터가 들어가 있거나, 데이터가 섞여있으면 좋은 결과가 나올 수 없기 때문이다. 그렇기 때문에 데이터를 어디서 구할 것인지, 데이터에 어떤 특성이 있으며 어떻게 정제할 것인지를 준비하는 것이 매우 중요하다고 설명했다.

그렇다면 데이터의 경우 양이 많은 것이 중요할까 질이 좋은 것이 중요할까? 이에 대해서 정영훈 대표는 “데이터 양이 많은 것이 중요한 분야가 있고, 데이터 퀄리티가 중요한 분야가 있다”고 언급했다. 그는 “구글 번역기는 각 언어 당 문장 7억 개를 사용하는데, 10개 중 3개 정도만 맞게 번역이 되는 수준이고, XL8의 경우 구글의 100분의 1에 해당하는 데이터를 사용하고도 10개 중 7개가 맞게 번역이 된다”면서 이 예시에서는 데이터 양보다는 퀄리티가 중요하다고 볼 수 있다고 했다.

한편, 데이터 퀄리티도 중요하지만 데이터가 본인이 사용하고자 하는 도메인에 적합한지도 중요하다고 강조했다. 번역의 경우 UN회의록 자료나 영화 자막 자료 등 실제로 도메인에 따라 성능이 굉장히 다르게 나타난다고 한다. 영화나 미디어의 경우도 스포츠, 드라마, 예능 등의 여러 가지 장르에 따라 성능이 다르게 나와 문서 번역시에는 문서 데이터를 주로 사용하는 것이 더 적합하다고 전했다. 데이터의 대표성도 중요하다. 일반적인 케이스를 얼마나 잘 커버하느냐, 가끔씩 코너 케이스도 커버할 수 있느냐가 중요한데, 번역의 경우 일반적으로 날 것으로 후보정을 많이 거쳐 크게 문제가 되지 않으나, 검색 엔진의 경우 원 데이터가 사용되는 경우가 많기 때문에 바이어스(Bias) 문제가 꾸준히 제기되어왔다고 설명했다. 데이터 바이어스가 존재하는 경우에는 편향된 결과가 나올 수 밖에 없으므로 데이터 퀄리티에 있어 매우 중요한 포인트다.

컴퓨팅 파워에 대해서는 중요하지만 가장 중요한 요소는 아니라고 강조했다. 클라우드 서비스가 워낙 좋아져 비용만 지불할 수 있으면 컴퓨터를 보유하고 있지 않아도 되기 때문이다. 클라우드 서비스를 제공하는 기업들로는 아마존, 구글, Microsoft, IBM 등 여러 가지가 있는데, 가격과 기능을 비교해보고 자신에게 잘 맞는 서비스를 선택하면 된다고 조언했다. 일부 기업의 경우 서버를 직접 사서 쓰는 경우도 있는데, 클라우드 서비스보다는 가격이 낮기 때문에 그렇게 하는 것이지만 직접 유지 보수에 신경 써야 한다는 단점이 있다고 설명했다.

모델과 아키텍쳐에 대해서는 대학교나 테크 기업과 같이 큰 기관에서 굵직한 플랫폼들이 많이 개발되고 있다고 전했다. 특히 NLP분야에서는 구글이 발표한 ‘트랜스포머(Transformer)’라는 플랫폼을 아직도 사용하고 있다고 했다.

컴퓨팅 파워가 중요하지 않다면, 데이터와 모델 중에 무엇이 더 중요할까? 정영훈 대표는 “사실 둘 다 중요하다”고 답하며, 데이터를 재료로 모델은 레시피로 비유했다. ‘맛집’이 되기 위해서는 좋은 ‘재료’와 좋은 ‘레시피’ 모두 필요한데, 재료만 좋아서는 맛집이 되기 어렵다. “새로운 재료를 공급하지 않거나, 재료가 시대에 맞지 않거나 신선도가 점점 떨어지면 손님이 점점 줄어들게 되는 것처럼, 좋은 데이터로 시작해서 자신만의 모델을 만들어 나가는 것이 좋은 비즈니스 모델이 될 것”이라고 밝혔다.

아울러 그는 XL8 Inc. 창업 스토리도 공유했다. 애플, 퀄컴, 구글 출신 엔지니어들로 구성된 XL8은 두 가지 특징이 있다. 하나는 특정 도메인에 맞는 데이터를 사용하여 정확도를 높였다는 점이다. 데이터를 얻기 쉽지 않은 부분에 대해 정영훈 대표는 “클라이언트 회사에 서비스를 제공하고 그로부터 데이터를 제공 받아 서로 양방향으로 도움이 되는 비즈니스 모델을 만들어서 운영하고 있다”며, “실제로 양질의 데이터를 제공받아서 굉장히 좋은 성능을 보이고 있다”고 전했다. 다른 하나는 사람이 개입하여 기계 번역의 질을 계속해서 향상시키고 있다는 점이다. 말이라는 것은 중의적인 경우가 많고, 번역 자체는 맞을 수 있지만 전체 문맥 상에서는 맞지 않는 경우가 많다. 존댓말과 반말에 대한 번역도 마찬가지다. 그는 “기계 번역의 오역에 대해 사람이 고쳐주는 것을 모델에 지속적으로 반영해서 제대로 번역될 수 있도록 개발 중에 있다”고 밝혔다.

마지막으로 그는 왜 번역을 택했냐는 질문에 “번역은 굉장히 재밌는 분야이고, 답이 확실히 나와있지 않은 분야이기 때문에 연구를 많이 하고 있는 부분”이라고 답했다. 아울러 “AI 회사로서 성공하기 위해서는 모델도 중요하지만 데이터도 중요하다. 데이터가 어느 정도 준비되면 좋은 모델을 개발해야 한다”며, 다시 한 번 데이터와 모델에 대한 중요성을 강조하며 발표를 마쳤다.