Blog

야놀자, 한국어 특화 거대언어모델 공개…한국어도 영어만큼 정확하고 효율적으로

tech

2024.03.19

야놀자, 한국어 특화 거대언어모델 공개…한국어도 영어만큼 정확하고 효율적으로

야놀자가 올해 1월 공개한 'EEVE*-Korean' 모델이 세계 최대 머신러닝 플랫폼이자 오픈 소스 커뮤니티인 허깅페이스(Hugging Face)의 리더보드에서 선두에 올랐습니다! 거대언어모델(Large Language Model, 이하 LLM) 블라인드 테스트를 진행하는 챗봇 아레나(Chatbot Arena)의 3월 랭킹 기준, 빅테크 기업의 모델이 상위 10위권을 장악한 가운데 야놀자의 EEVE-Korean도 7위에 이름을 올리며 업계 주목을 끌고 있어요 ??

야놀자는 AI 서비스의 근간이 되는 LLM 개발을 통해 각 언어에 최적화된 모델을 구축하고, 전 세계 여행객들의 여가 가치를 높일 계획입니다. EEVE는 야놀자가 직접 연구한 단어 확장 방식으로, 이를 LLM에 적용해 'EEVE-Korean'을 개발했습니다. 영어 기반의 LLM에 한국어를 효과적으로 학습시킴으로써, 기존에는 어렵다고 여겨졌던 영어 수준은 유지하면서 한국어 처리 능력을 향상시킨 것이 특징이에요.

* EEVE: 효율적이고 효과적인 단어 확장 방식(Efficient and Effective Vocabulary Expansion)


다국어 LLM 개발 시동…95%를 넘는 한국어 정확도, 효율성 향상​ 🔆​


글로벌 빅테크 기업의 LLM은 주로 영어에 특화되어 있죠? LLM을 전 세계 다양한 언어에 최적화 시키려면 각 언어에 맞는 토큰을 추가하고 해당 언어에 특화된 학습도 수개월간 진행해야 하는데요, 새로운 언어를 추가할 때는 기존의 영어 성능이 현저하게 저하되는 경우가 흔하게 발생해 수억 원에 달하는 경제적ㆍ시간적 비용이 발생합니다.

야놀자는 기존 LLM에 한국어 성능을 향상시키며 허깅페이스의 오픈 소스 커뮤니티에서 두각을 드러냈어요. EEVE-Korean은 SentiNeg(문장의 긍ㆍ부정과 미묘한 감정 차이를 인식하는 지표) 테스트에서 95% 이상의 정확도를 보여주었답니다. EEVE-Korean 적용 전과 비교하면 약 40%p 증가한 수치로, 미묘한 뉘앙스 차이까지 이해하는 능력을 갖추며 한국어 능력이 큰 폭으로 향상됐습니다?️

효율성 측면에서도 우수한 결과를 보여줬습니다! 기존 학습 방법으로 수조 개의 학습 토큰이 필요했다면, 이번 연구를 통해 단 20억 개의 토큰만으로도 비영어권 언어 능력을 크게 향상시킬 수 있음을 입증했습니다. 토큰의 효율성을 높여 학습 속도를 2배 이상 높이고 비용 또한 대폭 절감할 수 있는 것으로 나타났어요.



야놀자 LLM으로 글로벌 여행을 보다 편하게 ✈️​

야놀자는 한국어를 시작으로 일본어, 중국어 등 전세계 다양한 언어를 효과적으로 지원하는 다국어 LLM을 개발하기 위해 지속적으로 노력하겠습니다 😃 여가 산업 특성상 국가별 다양한 언어의 데이터를 처리하는 능력이 필수 요소인만큼, 고도화한 LLM을 여행 시장에 접목시켜 고객이 보다 쉽고 편하게 여행을 준비할 수 있도록 지원해 나갈 것입니다. 많은 기대와 관심 부탁드립니다.


야놀자가 개발한 'EEVE-Korean' 모델은 허깅페이스에서 확인 가능하며, 테크니컬 리포트는 링크를 통해 확인해보세요!