빅데이터 시대, 누구나 알아야 할 데이터 리터러시

가 +
가 -

빅데이터 활용에 대한 관심과 더불어 데이터의 중요성을 인지하는 사회의 분위기가 확대되고 있습니다. 데이터 없이는 생존이 불가능한 시대로 접어들고 있다고 해도 과언이 아닐 텐데요. 공공, 민간의 다양한 분야에서 데이터를 활용해 가치를 창출해내기 위한 여러 시도를 하고 있는 것만 봐도 이를 알 수 있습니다.

데이터의 중요성이 확대되고 이를 활용하기 위한 시도가 증가하는 시대에, 우리가 알아야 할 것은 무엇일까요? 정보 포화의 상태에서 정보를 선별해 수용하기 위한 정보 검색 능력이 기본 역량으로 이야기됐던 것처럼, 빅데이터의 시대에 우리가 갖춰야 할 필수 역량은 무엇인지 알아보도록 하겠습니다.

• • • • • •

1. 선택이 아닌 기본 역량, 데이터 리터러시

빅데이터 시대에 갖춰야 할 역량을 바탕으로 영업이익률(gross margin) 57%라는 높은 기록을 달성한 기업이 있습니다. 바로 패스트패션의 선두를 이끌고 있는 글로벌 브랜드 자라(Zara)입니다.

데이터 리터러시 시각화 통계 빅데이터 활용 자라 문제해결 뉴스룸 교육 실업률 오류

자라(ZARA) 홈페이지

자라는 1년을 15개 시즌으로 나누어 제품을 디자인하고, 완성된 제품은 단 4시간 안에 재단, 포장, 출하의 과정을 거쳐 전 세계 2200개 매장으로 직송합니다. 빠른 속도로 제품을 생산 및 관리하는데도 불구하고 신제품 실패율이 1% 미만이라는 놀라운 기록을 갖고 있습니다. 경쟁사의 실패율이 17-20%에 이르는 것에 비하면 매우 낮은 수준입니다. 자라가 이처럼 놀라운 실적을 기록할 수 있었던 그 배경에 빅데이터 시대에 누구에게나 필요한 역량, 데이터 리터러시(Data Literacy)라 불리는 데이터 활용 역량이 있습니다.

데이터 리터러시 시각화 통계 빅데이터 활용 자라 문제해결 뉴스룸 교육 실업률 오류유행에 민감한 패션 사업에 있어서 재고 관리는 매우 중요한 이슈입니다. 자라는 재고 관리를 위해 판매 데이터를 활용하되 소비자의 관점에서 이를 분석하고 활용합니다. 그 예로 판매 데이터를 수집할 때 상품 단위뿐만 아니라 제품 특성별로 데이터를 수집하는 것을 들 수 있습니다. 제품 특성별로 수집한 판매 데이터의 분석 결과는 각 매장별로 정확한 수요를 예측해 매장을 찾는 소비자의 특성에 적합한 제품을 적정량으로 공급하는 데 활용됩니다.

자라는 이와 같은 데이터를 매일 분석하고 거의 실시간으로 디자인, 주문, 생산에 반영한다고 합니다. 기존 패션 업체들이 스타 디자이너와 브랜드 충성도에 의존해 ‘흥행 사업’을 하던 것과 달리 데이터 기반으로 고객 맞춤, 스피드, 가성비에 따른 공급망 사업으로 접근했다는 점에서 데이터를 활용하는 능력으로 업의 본질을 재정의했다는 평을 받기도 합니다.

자라의 데이터 활용 사례를 통해 우리가 생각해봐야 할 지점은 바로 데이터를 ‘어떻게’ 활용할 것이냐에 대한 관점을 가져야 한다는 것입니다. 그리고 여기에 데이터 읽어내는 능력, 데이터 리터러시에 대한 이해가 밑바탕돼야 합니다. 방대한 양의 데이터를 보유하고 있다고 해서 데이터를 잘 활용하고 있다고 이야기할 수 없습니다. 데이터를 활용하고 있다는 이야기가 곧 데이터로 충분한 가치를 만들어낸다는 의미도 아닙니다. 그렇다면, 지금 우리에게 필요한 역량, 데이터 리터러시는 무엇일까요?

데이터 리터러시 시각화 통계 빅데이터 활용 자라 문제해결 뉴스룸 교육 실업률 오류

데이터 리터러시는 데이터를 목적에 맞게 활용하는 데이터 해석 능력을 말합니다. 여기서 이야기하는 데이터의 범위는 고도의 처리 기술을 요하는 빅데이터뿐만 아니라, 단순 수치나 통계자료도 포함합니다. 따라서 데이터 리터러시는 데이터와 관련된 일을 하는 전문 영역의 사람들에게만 필요한 것이 아니라 데이터 활용이 증가하고 있는 이 시대 우리 모두에게 요구되는 역량이라고 할 수 있습니다.

데이터 리터러시 시각화 통계 빅데이터 활용 자라 문제해결 뉴스룸 교육 실업률 오류

‘데이터 리터러시 하위 역량,’ 동아비즈니스리뷰, 228호 (2017.07)

데이터 리터러시는 데이터를 기술적으로 다루는 것에서부터 데이터에 숨겨진 의미 있는 인사이트를 도출해 내는 등 데이터 활용 과정 전반에 필요로 하는 역량을 의미합니다. 이를 크게 5가지로 나눠 이야기할 수 있습니다. ① 데이터 수집 역량은 필요한 데이터를 빠른 시간 내에 검색, 선별해 확보할 수 있는 능력입니다. ② 데이터 관리 역량은 데이터를 분석이 가능한 형태로 구조화, 정제하는 것을 말합니다. ③ 데이터 가공 및 분석 역량은 데이터를 목적에 맞는 분석 방법을 사용해 의미 있는 결과를 도출하는 능력이며, ④ 데이터 시각화 역량은 데이터를 다른 사람이 이해할 수 있도록 그래프, 차트 등의 시각화 형태로 표현하는 것입니다. ⑤ 데이터 기획 역량은 전반적인 데이터 간의 관계를 이해하고 데이터 활용을 위한 계획을 세우는 능력입니다.

이 중 데이터 수집, 관리, 분석 등 기술적인 역량이 요구되는 부분에 대해서는 이미 많은 분들이 인지하고 계시리라 생각됩니다. 반면, 데이터 기획과 같이 데이터 활용 계획을 세우고 의미를 발굴해 낼 줄 아는 역량에 대해서는 다소 이해가 부족하지 않나 싶습니다. 데이터 활용에 있어서도 어떤 툴을 얼마나 잘 다루느냐의 문제보다도 데이터로 문제를 바라보고, 데이터에서 의미 맥락을 발견할 줄 아는 관점과 능력이 중요함을 강조하고 싶습니다.

2. 일상생활 속 데이터 리터러시

그렇다면 우리는 어디에서 데이터 리터러시를 경험할 수 있을까요? 데이터 리터러시 역량을 기르고 발휘할 수 있는 경우는 언제일까요? 데이터 리터러시의 여러 하위 역량 중에서도 ‘데이터에서 의미를 읽어내는’ 역량에 대해서 이야기해보고자 합니다.

(1) 통계 데이터를 접할 때 필요한 통계 리터러시

우리는 일상에서 통계 자료가 인용된 뉴스 기사나 보고서를 통해 데이터를 자주 접합니다. 수치를 근거로 말하면 보다 객관적이고 신뢰를 줄 수 있어 데이터는 자주 인용됩니다. 다만 이 과정에서 우리가 유의해야 할 점은 데이터 해석시 데이터의 측정 배경, 방법, 기준 등을 고려해야 한다는 것입니다. 우리가 접하고 있는 통계 데이터는 그 자체로 사실을 의미하는 것이 아니라, 어떤 현상을 반영하고 이해할 수 있도록 도와주는 자료일 뿐이기 때문입니다.

데이터 리터러시 시각화 통계 빅데이터 활용 자라 문제해결 뉴스룸 교육 실업률 오류

실업률 측정 구조, 통계청

단편적인 예로 우리나라 실업률을 이야기할 수 있습니다. 이것은 정부의 실업률 발표에 대해 ‘현실적이지 않다’는 사람들의 의견이 제기되는 것과도 연관이 있습니다. 통계청이 밝힌 2017년 12월 기준 우리나라의 실업률은 3.3%이지만 고용보조지표 3(체감 실업률과 가장 가까운 지표)는 10.9%입니다. 이렇게 두 지표의 수치가 3배 정도 차이나는 이유는 지표별 측정 기준이 다르기 때문입니다.

정부에서 공표하는 실업률은 경제활동 인구 중 실업자의 비율로 측정합니다. 여기서 실업자는 ‘조사대상 주간에 수입 있는 일을 하지 않았고, 지난 4주간 일자리를 찾아 적극적으로 구직활동을 하였던 사람’입니다. 즉, 수입이 있거나 구직 활동을 안 하면 실업률 계산에서 제외됩니다. 예를 들어 보겠습니다. 취업 준비생이 용돈벌이로 아르바이트를 해 수입이 있을 경우 취업자(시간 관련 추가 취업 가능자)로 분류됩니다. 또한 고시생과 같이 취업을 위해 공부를 하는 사람은 구직활동을 포기한 사람으로 간주되어 비경제활동인구(잠재 경제활동인구)로 집계됩니다.

반면, 체감 실업률이라고 알려져 있는 고용보조지표 3은 위와 같은 실업률의 측정 한계를 보완합니다. 고용보조지표 3은 경제활동인구와 잠재 경제활동 인구 중에서 실업자, 시간 관련 추가 취업 가능자, 잠재 경제활동인구 (위 이미지상 주황색 음영된 부분)의 비율로 계산합니다.

우리는 데이터에서 의미를 찾아내기 이전에 그 지표에 한계가 있는 것은 아닌지, 자신이 그 개념을 정확히 이해하고 있는지 생각해봐야 합니다. 숫자로 된 데이터가 제시됐다고 해서 무조건 신뢰할 만한 자료라고 생각하지 않아야 하며, 데이터도 비판적으로 바라볼 줄 알아야 합니다. (이를 통계 데이터에 대한 이해가 필요하다는 맥락에서 통계 리터러시라고 이야기하기도 합니다.) 비판적인 관점으로 지표를 정확히 이해할 때 데이터에서 유의미한 인사이트를 정확히 도출해 낼 수 있습니다.

(2) 시각화 자료를 볼 때 필요한 시각화 리터러시

데이터 시각화는 방대한 양의 데이터를 한눈에 보고 데이터의 의미를 이해하는데 효과적인 방법입니다. 많은 분들이 데이터 분석 결과를 다른 사람에게 효과적으로 전달하기 위해 시각화 자료를 제작합니다. 이때 작성자는 자신의 의도에 따라 시각화 유형을 선택하고 활용합니다. 의도에 따라 데이터 시각화 자료를 만들 수 있다는 것을 장점으로 볼 수 있는데, 이 경우에도 비판적으로 시각화 자료를 볼 줄 알아야 합니다. 그 이유는 동일한 데이터라도 어떻게 시각화하느냐에 따라서 사람들이 다르게 받아들일 수 있기 때문입니다.

데이터 리터러시 시각화 통계 빅데이터 활용 자라 문제해결 뉴스룸 교육 실업률 오류

그래프 오류 예시, JTBC 화면 캡처

JTBC 뉴스룸 사례로 자세히 알아보도록 하겠습니다. JTBC 뉴스룸은 김영란법 국회 통과와 대선 후보 지지도의 데이터를 시각화하는 과정에서 오류를 범했는데요. 김영란법 국회 통과에 대한 반응을 시각화한 도넛 차트에서 도넛 조각별 수치와 조각의 크기를 상이하게 보도했습니다. 왼쪽의 도넛 차트를 보면 3가지 응답에 대한 수치는 상이하지만 모두 비슷한 크기로 표현된 것을 알 수 있습니다. 오른쪽에 있는 도넛 차트와 비교해 보았을 때 ‘잘못했다’의 비율이 과장된 것을 확인할 수 있습니다. 이와 유사하게 대선 후보 지지도의 막대그래프에서도 수치와 막대의 길이가 상이한 것을 확인할 수 있습니다. 문재인 후보의 지지도를 나타내는 막대에 비해 안희정 후보의 막대가 길게 시각화돼 두 후보 간의 지지도가 큰 차이가 없는 것으로 보입니다.

데이터를 시각화하는 것은 분명 시각적으로 데이터의 의미를 명확히 전달한다는 차원에서 장점을 가지고 있지만, 어떤 형태로 시각화하느냐에 따라서 정보 전달 효과에는 차이가 있을 수 있습니다. 위 사례처럼 데이터의 의미가 왜곡돼 전달될 경우 오해의 소지를 만들 수 있고, 특히 데이터가 의사결정의 수단으로 활용됐다면 잘못된 의사결정에 따른 피해를 보게 됩니다. (이런 이유로 JTBC 뉴스룸의 손석희 앵커는 그래프 오류를 정정하고 “치명적 실수”라며 사과했습니다.) 따라서 우리는 시각화 자료를 바탕으로 데이터를 읽을 때에도 비판적으로 볼 줄 알아야 합니다. (이를 위해 시각화 자료에 의해 데이터가 왜곡되는 9가지 사례와 같이 시각적 리터러시를 배울 수 있는 글이 도움이 되리라 생각합니다.)

• • • • • •

빅데이터 시대에 데이터 활용 가능성이 커지면서 데이터 리터러시는 누구에게나 필요한 역량으로 자리 잡고 있습니다. 데이터 리터러시는 좁은 의미에서 개인이 통계적 수치를 비판적으로 읽는 역량이며, 넓은 의미로는 정부, 기업 차원에서 데이터를 활용해 효과적으로 문제를 해결하는 역량이기도 합니다. 최근 이에 대한 관심이 늘어나면서 데이터 리터러시 교육도 등장하고 있습니다. 미국 일간지 <뉴욕타임스>는 ‘그래프는 무엇을 말하고 있을까?(What’s Going On In This Graph?)란 이름으로 학생들이 그래프를 읽고 숨겨진 인사이트를 스스로 발견할 수 있도록 도와주는 교육 콘텐츠를 발행하고 있습니다. 저희 뉴스젤리도 ‘데이터 기반의 문제 해결 워크숍’ 교육을 진행하고 있지요!

데이터 리터러시에 대한 이번 글을 읽으시면서 여러분은 어떤 생각을 하셨나요? 이 개념에 대해 익숙했던 분들도 이번 기회를 통해 데이터 리터러시가 기본 역량으로 요구되는 시대적 배경과 이를 실질적으로 경험하는 것에 대해 고민해 볼 수 있는 기회가 됐으면 좋겠습니다.

※ 참고 자료

KISO 저널, “빅데이터 시대의 정보격차, 데이터 리터러시로 이겨내자,” (2015.12.21)
Digital retail trend, “자라는 어떻게 디지털트랜스포메이션 전략을 추진하였는가?” (2017.8.22)
동아비즈니스리뷰, “지식의 시대 가고 ‘데이터 학습’의 시대. 인재교육, ‘데이터 리터러시’에 초점을, (2017.2)
주간 조선, ‘잘못된 통계에 휘둘리는 대한민국’ (2017.12.18)


네티즌의견(총 0개)