패션 쇼핑몰이 딥러닝을 활용하는 법

포즈 디텍터, 그리고 사진 1만8600장으로 딥러닝 알고리즘을 학습했다.

가 +
가 -

최근 5년간 한국과 중국 패션시장 규모를 살펴보면, 2016년 기준 중국은 153조2252억원으로 국내 43조1807억원과 비교해 약 3배 이상 크다. 사드 배치 등 수많은 정치적 이슈와 맞물려 있음에도 불구하고 국내 수많은 패션 쇼핑몰이 중국 시장을 넘보는 이유다.

“그런데 중국 진출이 쉽지는 않습니다.”

조명훈 NHN엔터테인먼트 멀티미디어분석팀 책임 연구원은 나라마다 다른 쇼핑몰 디자인과 사용자경험(UX) 때문에 국내 쇼핑몰 운영하듯이 중국 시장에 진출하면 안된다고 조언했다. 조 책임연구원은 11월19일 열린 NHN엔터테인먼트의 첫 기술 컨퍼런스 ‘NHN FORWARD’에서 중국 시장에 진출하려는 국내 패션 쇼핑몰 사업자를 도울 수 있는 딥러닝 기술을 설명했다.

조명훈 NHN엔터테인먼트 멀티미디어분석팀 책임 연구원

| 조명훈 NHN엔터테인먼트 멀티미디어분석팀 책임 연구원

A컷, B컷, 착샷 등 다양한 사진은 해외에서 통하지 않는다

국내 쇼핑몰에서 빼놓을 수 없는 사용자 경험을 하나 꼽자면, 스크롤을 아무리 내려도 끝나지 않을 것 같은 사진의 나열이다. 제품 대표 이미지로 이뤄진 A컷, 마네킹에 입혀 찍은 착용 사진, 마네킹이 아니라 바닥에 두고 찍은 바닥샷 등 한 옷을 설명하는 데 수백장에 가까운 사진이 사용된다.

중국과 미국 등 해외 쇼핑몰은 국내와 사정이 다르다. 타오바오만 보아도 한국과 다르게 제품에 집중한 사진 5장 정도가 전부다. 모델이 입고 있는 사진, 제품 특징 클로즈업, 뒷면, 착용한 모습 정도다. 아마존도 타오바오와 비슷하다. 단순한 배경 앞에 모델이 제품을 입고 있는 모습을 올린 경우가 많다.

국내 쇼핑몰에서 사용하는 사진과 이미지 배열로 해외 시장에 진출하면 안되는 이유다. 쇼핑몰에서 제품을 접하는 사용자 경험이 다르다.

물론 국내 쇼핑몰에서 작업한 사진으로 해외 시장에 진출할 수 있다. 그러나 국내 방식을 고집하면 해외 쇼핑몰 시장에서 찬밥 되기 쉽다. 검색 노출에서부터 밀린다. 국내와 마찬가지로 해외 쇼핑몰도 이미지 노출 방식이 제품 검색 노출 순위에 영향을 끼친다. 해외는 제품을 클릭했을 때, 가장 먼저 보여주는 이미지 4~5장으로 이뤄진 B컷이 있어야 검색 결과 상단에 노출된다.

“해외 쇼핑몰 상황에 맞게 새로 사진을 찍을 수 있으면 좋지요. 그러나 그렇게 되면 추가 비용과 시간이 들어가게 됩니다. 이미 찍은 사진을 적당히 재작업해서 해외 쇼핑몰이 원하는 B컷 사진으로 만들 수 없을까요.”

조명훈 책임 연구원 설명에 따르면, 지금까지는 사진 재작업 비결이 딱히 없었다. 사람이 직접 눈으로 확인하고, 잘랐다. 기존 사진에서 어떤 사진을 B컷으로 활용할지 정하고, 제품에 집중한 상품 영역을 선택해 잘랐다. 모든 상품에 이 과정을 반복했다. 적게 사진을 활용하는 곳은 10장, 많은 사진을 활용하는 곳은 제품 하나에 약 100장을 사용한다. 이 사진마다 사람이 하나씩 확인해서 B컷을 만든다고 생각해보자. 진정 눈 빠지는 가내수공업 과정이 아닐 수 없다.

조 책임 연구원은 딥러닝 기술에서 힌트를 얻었다. 제품 사진을 올리면, 자동으로 사진을 고르고, 상품 영역에 맞춰 재단하고, 제품 관련 B컷을 생성하면 가내수공업을 효율적으로 자동화할 수 있을 것 같았다.

포즈디텍터 활용한 B컷 사진 만들기

“잘 알려진 딥러닝 기술 중 하나인 ‘포즈 디텍터’를 사용했습니다. 포즈 디텍터는 사람의 주요 형상을 검출하는 기술로, 관절이나 목, 어깨, 무릎, 발목 형태, 눈, 코, 귀 등의 좌표를 바탕으로 어떤 자세인지 파악할 수 있게 도와줍니다. 이 기술을 이용해 기존 사진에서 제품에 주로 집중한 B컷 사진을 추출할 수 있었습니다.”

포즈 디텍터를 이용해 기존 쇼핑몰 사진을 크게 4가지 형태로 분류했다. 모델이 서 있는 사진, 앉아있는 등 다른 자세, 뒤 모습, 가까이서 찍은 클로즈업 사진 등으로 주로 분류됐다. 이 기술을 바탕으로 사진 특성을 파악하면, 각 사진에 맞게 재단 영역을 잡고 B컷으로 만들었다. 클로즈업 사진은 ‘상반신 일부’라는 좌표 정보를 판별한 다음 이에 맞게 제품 영역을 설정하고 사진을 편집했다.

모델이 착용한 제품은 포즈디텍터 기술로 수월하게 B컷을 만들 수 있었다. 그러나 모델이 없는 제품 사진, 바닥샷이나 착샷은 또 다른 문제였다. 처음엔 단순하게 배경 영역을 픽셀 수치로 판단해 분리했다. 사진을 받으면 모델을 포함하는지 판별하고, 사진 테두리 영역의 픽셀 수치를 보아 사진을 판별해 편집하는 식이었다. 일부 사진에는 이 방식이 통했다. 그러나 예상외 영역에서 문제가 생겼다.

“마네킹에 입히다 보니, 사진 아래쪽에 봉이 있으면, 그쪽 픽셀값이 튀더군요. 이건 판별하는 테두리 영역을 4면 대신 3면으로 해서 해결했는데, 사진 배경 값이 일정하지 않은 경우가 문제가 됐습니다. 달라지는 배경색마다 규칙을 추가할 순 없잖아요.”

조명훈 책임 연구원은 사람이 조건을 정한 필터를 만들기보다, 컴퓨터가 스스로 필터를 만들 수 있게 가르쳤다. 수많은 착샷과 바닥샷을 입력하고 딥러닝 알고리즘으로, 컴퓨터 스스로 ‘이것 바닥샷이구나’, ‘이건 착샷이구나’를 알게 훈련했다.

“딥러닝으로 학습할 때 중요한 건 상황에 맞는 데이터입니다. 특정 제품 부위만 확대해서 찍은 디테일샷, 모델이 제품을 입은 착샷, 일반 쇼핑몰에서 사용하는 사진으로 영역을 분류해 인식기를 훈련했습니다. 사진을 입력하면, 자동으로 결과를 알려줍니다.

컴퓨터가 학습할 수 있는 사진을 추가하면 추가할수록 성능이 좋아졌다. 착샷 사진 2천장, 디테일샷 사진 1천장, 일반 사진 1천장을 입력했을 때 정밀도는 약 90%, 착샷을 3800장, 디테일샷을 7400장, 일반 사진을 7400장 입력하자 정밀도가 94.95%로 높아졌다. 앞서 사람이 손수 사진을 확인하고 편집했을 때와 비교해 시간을 효과적으로 단축했다.

“딥러닝을 이용해 중국 등 해외 시장에 진출할 때, 패션 쇼핑몰이 좀 더 편하게 B컷 사진을 작업할 수 있으면 좋겠습니다.”

네티즌의견(총 0개)