네이버, 세계적인 AI 컨퍼런스 ‘CVPR 2019’서 기술 공유

비전, 음성합성 분야 워크샵 챌린지에서 1위

가 +
가 -

네이버가 세계적인 컴퓨터 비전 및 딥러닝 컨퍼런스 ‘CVPR 2019’에 참석해 인공지능(AI) 기술을 선보이고 인재 영입에 나섰다고 6월21일 밝혔다.

6월16일(현지시간)부터 20일까지 미국 캘리포니아 롱비치에서 열리는 CVPR 2019는 세계 최대 기술 전문 단체인 IEEE와 국제 컴퓨터 비전 재단 CVF가 공동 주최하는 AI 기술 컨퍼런스다. 1983년부터 열린 이 컨퍼런스에는 세계적인 연구기관들이 매년 새로운 컴퓨터 비전, 딥러닝 등 AI 기술 연구를 공유하는 장으로 열린다.

| 네이버 CVPR 2019 현장

네이버는 CVPR 2019 정규 세션에서 총 4편의 컴퓨터 비전 분야 논문을 발표했다.

클로바 AI 연구원들의 논문 ‘텍스트 감지를 위한 문자 영역 이해(Character Region Awareness for Text Detection, 백영민 등 5명)’는 문자 영역에서 글자 존재 확률과 글자 간 동일 단어 확률을 예측해 OCR 성능을 높이는 기술을 담았다. 이 기술은 현재 실제 네이버 서비스에도 반영돼 있다.

네이버랩스 연구원들이 발표한 ‘맵 업데이트를 위해 관심 분야 변화를 감지하는 능동 학습 방법(Did it change? Learning to Detect Point-Of-Interest Changes for Proactive Map Updates, 허민혁 등 4명)’은 네이버랩스 한국과 유럽 연구진이 공동으로 1년여간 개발한 기술을 보여준다. 자율주행 로봇이 수집한 대규모 실내 공간 데이터를 분석한 후 바뀐 상호를 인식해 지도 정보를 최신으로 업데이트하는 기술이다. 로보틱스, 컴퓨터 비전, 딥 러닝 등 네이버랩스 핵심 기반 기술이 반영됐다.

CVPR 2019 네이버 발표 논문

정규 세션

1) Character Region Awareness for Text Detection (텍스트 감지를 위한 문자 영역 이해) (백영민, 이바도, 한동윤, 윤상두, 이활석); 문자의 영역에서의 글자 존재 확률과 글자 간 동일 단어 확률을 예측함으로써 OCR성능을 높이는 기술

2) Visual Localization by Learning Objects-of-Interest Dense Match Regression (관심 물체 조밀 일치 회귀 학습을 통한 시각적 국소화) (Philippe Weinzaepfel, Gabriela Csurka, Yohann Cabon, Martin Humenberger); 하나의 이미지 내 관심 물체를 3차원 실제 세계의 관심 물체와 일치하도록 학습함으로써 박물관 그림이나 상점 간판 등의 핵심 시각정보를 정확하게 국소화하는 기술.

3) MARS: Motion-Augmented RGB Stream for Action Recognition (MARS: 액션 인식을 위한 모션-증강 RGB 스트림 기법) (Nieves Crasto, Philippe Weinzaepfel, Karteek Alahari, Cordelia Schmid); 모션스트림을 이용하여 기존의 액션 인식을 속도를 향상시키면서 정확도를 개선 시킨 딥러닝 모델. 다양한 동영상 인식 서비스에 적용 예정

4) Did it Change? Learning to Detect Point-of-Interest Changes for Proactive Map Updates(맵 업데이트를 위해 관심 분야 변화를 감지하는 능동 학습 방법) (허민혁, 유찬미, 정성균 Jerome Revaud, Rafael Sampaio de Rezende); 딥러닝을 이용하여 대규모 실내 쇼핑 센터의 데이터를 분석한 후 바뀐 상호를 인식, 자동으로 지도 정보를 최신으로 정보로 업데이트 하는 데 적용 가능

워크샵

1) Learning Common Representation from RGB and Depth Images (RGB와 Depth이미지로 부터 공통 표현 학습 기법) (Giorgio Giannone, Boris Chidlovskii): Multi-modal Learning and Application Workshop; RGB와 depth 이미지로 부터 공통의 표현기법 학습을 통해 어느 한쪽 모달리티의 정보가 부족할 때 생성을 통해 활용가능. 자율차에서 조명등으로 RGB 정보를 얻기 어려울 때 적용 가능

2) Study on Fashion Image Retrieval Methods for Efficient Fashion Visual Search (효율적인 패션 비주얼 검색을 위한 패션 이미지 조회에 대한 연구) (박상혁, 신민철, 함성호, 최승권, 강유훈) : FFSS-USAD workshop (Focus on Fashion and Subjective Search – Understanding Subjective Attributes of Data workshop); 효율적인 패션검색 서비스를 위해 필요한 다양한 패션 조회 기법 연구

3) Local Feature International Benchmark (지역적 특징 인식 벤치마크) (Jérome Revaud, Philippe Weinzaepfel, Cesar De Souza, Noé Pion, Gabriela Csurka, Yohann Cabon, Martin Humenberger_네이버랩스 유럽); 특정 랜드마크의 주간 촬영 이미지와 촬영 위치를 기반으로 야간 촬영 이미지의 현재 위치를 찾아내는 기술로, visual localization 외 컴퓨터 비전 관련 다양한 분야에서 활용 가능​

네이버 클로바팀과 네이버랩스는 글로벌 기업과 기술을 겨루는 챌린지에서 3건의 우승을 차지했다. ‘장기간 이미지 기반 측위(Long-Term Visual Localization)’ 챌린지의 ‘지역 특장점(local feature)’ 부문에서 네이버랩스 유럽은 구글, MS 등의 글로벌 기술 기업을 제치고 높은 점수로 1위에 올랐다.

이 챌린지는 특정 랜드마크의 주간 촬영 사진과 촬영 위치를 기반으로 야간 촬영 사진의 현재 위치를 찾아내는 내용이었다. 네이버랩스 유럽 연구진은 딥러닝 기반의 고성능 신기술을 통해 최근 15년간 활용되던 SIFT(Scale-Invariant Feature Transform) 알고리즘을 넘어서는 결과를 나타냈다. SIF는 이미지의 크기와 회전에 불변하는 특징을 추출하는 알고리즘이다.

또 구글과 아마존이 스폰서로 참여한 ‘iFood 2019’ 챌린지에서 클로바 비전팀(홍기호, 이정규, 원태륜)이, 딥마인드와 구글 등이 스폰서로 참여한 ‘액티비티넷’ 챌린지에서는 클로바 스피치팀(정준선, 이봉진)이 각각 1위를 차지했다.

석상옥 네이버랩스 대표는 “이번 CVPR은 네이버랩스와 네이버랩스 유럽의 컴퓨터 비전 및 딥러닝 연구진들이 세계 최고 수준임을 다시 알릴 좋은 기회였다”라며 “향후 일상 공간의 고정밀 데이터들을 네이버 서비스와 연결해 새로운 경험과 정보를 제공할 수 있는 요소 기술들이 될 것이다”라고 말했다.

김성훈 클로바AI 리더는 “그동안의 꾸준한 기술 연구 투자가 OCR, 음성 인식, 음식 이미지 분류 등 다양한 챌린지에서의 성과로 이어지며, 해당 분야에서의 네이버 AI 기술 수준이 세계 최고 수준으로 성장했다는 것을 확인할 수 있었다”라며, “특히 이 기술들은 빠른 시일 내에 서비스에 적용되어 서비스 고도화에 기여하고, 이를 통해 이용자들에게 더욱 많은 가치를 제공하게 될 것”이라고 전했다.

네티즌의견(총 0개)