데이터로 승부하는 ‘세이버메트리션’, 야구기자

가 +
가 -

야구는 기록의 스포츠라고 불립니다. 지표 대부분이 수치화돼 있고, 이를 바탕으로 선수를 평가하는 다양한 기법들도 꾸준히 고안되고 있습니다. 일반적으로 야구를 객관적인 수치로 이해하려는 방식을 ‘세이버메트릭스’라고 부릅니다. 세이버메트릭스는 로버트 데이비즈(L. Robert Davids)가 만든 SABR(The Society for American Baseball Reaserch)라는 모임의 이름과 계량을 의미하는 ‘metrics’라는 단어가 불은 말입니다. 세이버메트리션들은 ‘야구에 대한 객관적 지식 탐구’를 지향합니다. 야구를 수치로 측정해서 객관적으로 탐구하는 일종의 ‘야구 덕후’라고도 볼 수 있겠습니다.

minkyuchoi

일간스포츠 최민규 기자

오클랜드 애슬레틱스의 단장인 빌리 빈은 세이버메트릭스를 바탕으로 최대한 효율적인 구단 운영을 도모했습니다. 그의 영화 같은 성공은 <머니볼>이라는 영화로도 알려졌고, 많은 사람이 세이버메트릭스에 주목하는 계기가 됐습니다. 야구에서 통계가 중요해지면서 야구 기자들에게도 통계적인 지식의 활용이 요구됐습니다. 과학적으로 접근하기 위해서는 야구기자들도 데이터를 활용해야 했고, 세이버메트리션이 될 필요도 생겼습니다.

한국에도 프로야구가 정착하면서 세이버메트리션들이 나타났습니다. 그중 일간스포츠의 최민규 기자는 일찍부터 데이터에 관심을 가진 1세대 세이버메트리션으로 유명합니다. 최민규 기자를 만나 야구에서 데이터를 활용하는 이유와 데이터를 이용해서 저널리즘을 실천하는 방법을 들어봤습니다.

boxscore

flickr, Keith Fujimoto, CC BY-SA

야구는 숫자로 재현될 수 있는 경기

“근대적인 형식의 야구는 19세기에 생겼는데요. 생기고 얼마 지나지 않아 경기 결과를 숫자로 보여주는 ‘박스스코어’라는 개념이 등장했습니다. 그  숫자를 보면 경기의 흐름을 복기할 수 있죠. 이렇게 야구는 숫자로 재현될 수 있는 경기입니다.”

박스스코어는 지금 포털 등에서 제공되는 문자중계와 유사합니다. 문자중계를 보는 사람은 알겠지만, 야구는 기록을 보면 상황을 알 수 있습니다. 1구에 볼, 2구에 스트라이트, 3구에 볼, 4구에 볼 5구에 파울 6구에 파울 7구에 2루타. 비교적 힘들게 상대했고, 결국 맞았구나. 이런 그림을 그려볼 수 있게 됩니다.

이런 맥락에서 최민규 기자는 야구가 단순한 게임이라고 말합니다. 그는 “축구는 누가 어떻게 움직이고, 상대 팀 전술은 어떻고, 많은 요소가 복합적으로 작용해서 복잡하다”라며 “야구는 출루와 진루라는 상황 진행이 거의 정해져 있어서 수치화하기가 쉽다”라고 말했습니다.

야구는 개인의 기량을 숫자로 측정하기 쉽고, 통계를 통해 상당히 정확하게 평가할 수 있습니다. 예컨대 야구에는 ‘RC’라는 개념이 있습니다. ‘Run Created’의 약자로, 득점 창출 능력 정도로 해석할 수 있습니다.RC는 루타수에 출루율을 곱하는 방식으로 구합니다. 야구에서 이기려면 득점이 가장 중요하므로, 선수가 어떻게 득점에 기여하는지를 따져보자는 것입니다. RC에서는 출루율과 장타율이 중요한 지표가 됩니다.

처음에는 출루율이 중요하다고 생각하는 사람은 거의 없었습니다. 눈에 결과가 잘 보이는 홈런타자만 인기가 많았을 뿐입니다. 최민규 기자는 “출루율을 기록했을 때 많은 사람들이 이런 쓸데없는 걸 왜 넣느냐고 물었다”라며 “지금은 많은 사람이 출루율이 중요하다는 것을 안다”고 말합니다. 이처럼 야구기사는 데이터를 바탕으로 쓸 수밖에 없습니다.

야구 기사에서 데이터를 활용하는 법

주장이나 소문이 무성할 때 사실을 이야기하는 데이터 저널리즘의 역할은 가장 도드라질 수 있습니다. 야구는 특히 논란이 많은데요. 축적된 데이터를 통해 사실을 파악할 수 있습니다. 최근 롯데 자이언츠는 ‘탱탱볼 논란’에 휩싸인 바 있습니다. 사직구장에서 홈런이 자주 나오다 보니 ‘야구공의 반발계수가 탱탱볼 수준 아니냐’는 의혹이 나온 겁니다. 최민규 기자는 사실 여부를 확인하기 위해 몇 년치의 홈런 파크팩터(해당 구장이 리그 평균보다 홈런이 많이 나오는지 아닌지를 확인할 수 있다. 100을 기준으로 이보다 높으면 홈런이 쉽게 나오는 구장)를 확인했습니다. 확인한 결과 이 정도로 홈런이 많았던 것은 과거에도 몇 번 있었던 일이었습니다.

whatwetrack

trackman 사이트 화면 갈무리

기술이 발전하면서 얻을 수 있는 데이터 종류가 많아지고 있습니다. 새롭게 얻을 수 있는 데이터를 바탕으로 문제에 대한 다른 접근법도 제시할 수 있습니다.

올해 국내 야구장에는 ‘트랙맨’ 이라는 장비가 설치됐습니다. 트랙맨은 도플러 레이더를 경기장에 설치한 다음에 공이 어떤 궤적을 그리는지, 초속·중속·종속은 어떤지, 공의 회전수와 타구 스피드 등을 파악할 수 있는 장비입니다. 총 27가지의 데이터를 제공합니다.  최민규 기자는 “최근에 트랙맨을 이용해 나온 결과 중에 타구 스피드가 올라가면 타율이 올라간다는 분석이 있다”라며 “우리나라에도 설치됐는데, 이 데이터가 쌓이면 타구 스피드로도 투수를 분석할 수 있다”라고 말했습니다.

더 읽어보세요!

데이터 맹신은 금물

물론 야구에서도 데이터가 만능은 아닙니다. 베테랑의 존재, 특정 타자는 기회에 강하다는 속설인 클러치 히팅 능력의 존재 논란, 팀 분위기, 리더십 등은 데이터로 모든 것을 설명할 수 없음을 보여줍니다. 현실적인 제한으로 데이터로 저장하는 게 불가능한 부분도 있습니다. 예컨대 각 팀에서 사인 오류가 얼마나 있었는지도 기자 입장에서는 쉽게 알기 어렵습니다. 분명히 경기에 영향을 미칠 수 있는 요소지만, 데이터로 파악할 수는 없습니다. 최민규 기자는 “데이터를 다루더라도 설명할 수 없는 것은 분명히 있다고 전제해야 한다”라며 “야구라는 경기 자체를 이해해야 한다”고 말했습니다.

d3HierarchicalEdgeBundling

D3를 이용해 그린 Hierarchical Edge Bundling 그래프(mbostock’s block 사이트 화면 갈무리)

데이터 시각화는 필요하지만 아쉬운 수준

 “인터넷에 오픈소스로 공개된 시각화 도구가 많은데 신문들이 못 따라갑니다. CMS에서 지원하는 것도 거의 없습니다. 예쁘게 전달하는  것보다는 데이터를 확실히 보여주는 게 중요하다고 생각합니다. 통계 프로그램도 다룰 줄 알면 좋죠. 국내엔 담당할 전문 인력이 없는 게 아쉽습니다.”

야구팬들 중에도 상당수가 세이버메트릭스에 관심을 가지고 있습니다. 그러나 여전히 많은 야구 팬들이 데이터를 어렵게 느낍니다. 단순히 타율이 높고 홈런이 많은 정도가 아니라 BABIP, WHIP, 레인지팩터 등 다양한 수치가 사용되고 상당 기간 축적된 데이터를 읽어내야 하기 때문입니다. 어려운 데이터를 전달하기 위해 시각화가 중요하지만, 해당 전문 인력이 없는 탓에 대부분 콘텐츠는 일반적인 기사 형태로 전달됩니다. 이에 대해 최민규 기자는 “아직은 글을 잘 쓰는 수밖에 없다”라면서 아쉬움을 표했습니다. 데이터의 접근성을 높이기 위해서는 실질적인 시각화의 방법을 고민하는 것 또한 중요합니다.

statcast

스탯캐스트 적용 모습(MLB닷컴 화면 갈무리)

“MLB는 고급 데이터 공유하는데, KBO는…”

“메이저리그는 스탯캐스트라는 새로운 방식을 이용해서 한 경기에 7TB 가까운 데이터를 뽑아냅니다. 그리고 이걸 다 공개해요. 특히 트랙맨이나 PITCH/fx 같이 특수장비가 필요한 데이터도 무료로 제공합니다. 한국은 기본적인 스탯만 공개하는데 아쉽죠.”

데이터는 공유를 통해서 더 나은 결과를 가져올 수 있습니다. 미국에는 팬그래프스, 베이스볼레퍼런스 등 다양한 통계 웹사이트가 존재합니다. 메이저리그에서 고급 데이터를 무료로 제공하는 덕분입니다. 한국은 제대로 된 통계 웹사이트를 찾아보기 어렵습니다.

최민규 기자는 야구 기자만 데이터를 다룬다고 생각하지 않았습니다. “메이저리그는 수집된 데이터를 공공에 공유하는데, 공유된 데이터는 집합지성을 거쳐 논문 형태로 변하기도 하고 새로운 사실을 발견해 내는 데 일조하기도 한다”라며 데이터가 공유돼야 한다는 점을 강조했습니다. 또한 “꼭 일반적인 기사 형식이 아니더라도 많은 사람이 데이터를 가지고 놀다 보면 좋은 콘텐츠가 풍성해질 수 있다”라고 덧붙였습니다.