트렌드

뛰는 표절 위에 나는 ‘족집게 솔루션’

2013.05.08

올해 초 우리나라는 논문 표절 의혹으로 시끄러웠다. 정치인, 교수, 연예인 등 분야를 가리지 않고 많은 유명인들이 줄줄이 엮이며 곤욕을 치뤘다. 그동안 관행으로 문제 삼지 않고 넘어갔던 논문 무단 인용이 문제가 됐다.

문대성 국회의원은 논문 표절 의혹으로 새누리당을 떠났으며, 서울대 정치외교학부 김용찬 교수는 논문 표절 문제로 면직됐다. 연예계도 예외는 아니었다. 스타 강사 김미경은 석사학위 논문 표절로 인해 방송에서 하차했다. 배우 김혜수는 졸업논문 표절을 인정하고 국민에게 머리를 숙였다.

최근 2~3년 들어 논문 표절 의혹 제보가 부쩍 많아졌다. 이를 두고 세간에선 ‘논문 표절 검색 기술이 발전해 사례 발견 확률이 높아졌다’라는 우스갯소리도 나왔다. 기술의 진보로 누구나 손쉽게 논문 표절 검사를 할 수 있게 되면서, 수면 아래 감춰졌던 논문 표절 문제가 불거져 나왔다는 얘기였다.

실제로 업계 관계자들 설명에 따르면 표절 검색 솔루션은 최근 2~3년 동안 급성장한 것으로 알려졌다. 무하유의 ‘카피킬러’, 와이즈넛의 ‘와이즈 레퍼리’, 코난테크놀로지의 ‘밈체커 클라우드’ 등 대부분의 표절검색 솔루션은 최근 3년 안에 출시됐다.

장혜리 코난테크놀로지 영업대표는 “표절검색 솔루션은 2009년부터 상용화돼 2010년 들어 활성화되기 시작했다”라며 “검색엔진 기술을 활용한 표절 검색 솔루션이 대거 등장하면서 표절 의혹이 제기된 사례가 많아지기 시작했다”라고 말했다.

ctrl c_v▲이미지 : ‘Flikr_letmehearyousaydeskomdeskom‘ CC-BY

 

어디까지가 ‘표절’인가

장혜리 영업대표 설명에 따르면 국내 시장에 표절 검색 솔루션이 등장한 건 2009년, 표절검색 서비스가 출시된 건 2011년부터다. 이전까지는 ‘표절 검색’이라고 부를만큼 완성된 기술을 자랑하는 표절 검색 솔루션이 없었으며, 해외 솔루션을 도입해 쓰는 경우가 많았다. 요즘에 들어서야 검색엔진 기술이 발전하면서 표절 검색 솔루션 시장이 활성화됐다.

“과거엔 키워드나 문장 검색을 통해 일일히 문서 표절 수준을 확인하는 수준이었습니다. 지금은 여기서 발전해 문장별로 마침표를 기준으로 문장을 자른 다음, 문장에 쓰인 단어와 띄어쓰기 기준으로 어절을 확인해 표절 여부를 검사합니다. 똑같은 단어를 순서대로 쓴 문장 비율이 전체 문서에서 몇 퍼센트를 차지하는지를 살펴보지요.”

과거에는 ‘스트링 매칭 알고리즘’을 활용해 표절 여부를 가렸다. 2개의 문서를 놓고 각 문자에 사용된 단어와 문장을 일대일로 그대로 비교하는 식이었다. 문서가 많아지면 많아질수록, 참고로 하는 논문이 많을수록 각각 일대일로 대조해야 했기에 자연히 표전 심사에 시간이 오래 걸렸다.

지금은 ‘청크 핑거프린트’, 즉 형태소 분석을 통해 보다 빠르게 표절 여부를 조사한다. 장주연 와이즈넛 제품기획팀 팀장은 “최근에 문장을 분석할 때 컴퓨터가 알아들을 수 있는 기호 단위인 청크로 나눠 빨리 검색할 수 있는 기술이 보편화되면서 표절 검색 솔루션 속도가 빨라졌다”라며 “문서를 기호화해 표절 여부를 가리기 때문에 훨씬 더 손쉽게 표절 여부를 심사할 수 있게 됐다”라고 설명했다.

이들이 말하는 ‘표절’의 기준은 문서에서 얼마나 많이 ‘따다 썼나’의 정도다. 의미가 비슷한 것은 표절로 셈하지 않는다. 국립국어원 정책에 따라 쌍따옴표 안에 문구를 썼거나, ‘참조했다’라고 밝힌 경우도 표절로 보지 않는다. 해당 문장은 인용한 문장으로 보기 때문이다.

장주연 팀장은 “표절과 유사는 엄연히 다르다”라며 “유사는 사용한 명사나 동사가 다 다르지만 내용의 의미가 같은 경우를 말하고, 표절은 사용한 명사와 동사의 순서가 일치된 경우를 말한다”라고 말했다.

표절 기준도 다르다. 학교마다 연구 윤리 규정이 다르기 때문이다. 국내 표절 검색 솔루션 대부분은 각 학교의 연구 윤리 규정을 따른다. 대부분의 표절 검사 솔루션은 다른 문서와 비교해 얼마나 유사한지를 퍼센트로 표시한다. 표절 검사를 의뢰하는 학교나 기관마다 다르지만, 약 60~70% 가까이 똑같은 문장이 발견됐을 경우를 ‘표절’이라고 본다. 논문 내에서 6어절이나 8어절 이상이 똑같으면 표절이라고 보는 식이다.

우연이라도 의도치 않게 같은 단어를 써서 문장을 쓰는 경우는 없을까. 이런 경우라면 표절 의혹을 받았을 때 매우 억울할지도 모른다. 김희수 무하유 이사는 “보통 자기 생각을 적었으면 6어절, 8어정 이상 동일하기는 사실 어렵다”라며 “의미는 비슷할지 모르지만 단어를 똑같이 써서 생각을 표현하는 경우는 거의 없다”라고 말했다.

정확도 높이는 관건은 DB 확보

표절 검색 솔루션의 원리대로라면 논문 작성 시 표절 논문 솔루션을 돌리거나 학위를 인증하는 기관이나 학교 같은 곳에서 표절 논문 솔루션을 사용하면 표절을 근절할 수 있을 법하건만,  현실은 그렇지 못하다. 잊을만하면 표절 논문 의혹이 불거진다.

업계 관계자들이 꼽은 이유는 하나다. 국내 논문을 모아 통합적으로 관리하는 시스템의 부재다. 와이즈넛이나 코난은 자사 검색엔진 기술을 활용해 표절 검색 솔루션을 개발한다. 안타깝게도 이들의 역할을 여기까지다.

표절을 잡아내는 정확도는 솔루션을 도입하는 기업이나 학교가 가진 논문 데이터베이스(DB) 양에 따라 달라진다. 솔루션은 이들이 보유하고 있는 DB 안에서만 표절 여부를 조사하기 때문이다.

장혜리 대표는 “기본적으로 고객사가 갖고 있는 DB를 대상으로 표절을 검사한다”라며 “논문 DB를 자체적으로 확보하려면 수백개의 협회로부터 검색 허용 승인을 받아야 하는데, 국내는 본인 논문 공개를 꺼리는 경우가 많다”라고 말했다. DB에 포함되지 않은 논문을 표절했다면, 적발되지 않을 수 있다는 얘기다.

논문을 적극적으로 공개하지 않는 풍토도 표절을 잡아내는 데 걸림돌이다. 논문을 작성한 사람조차 표절 의혹에서 자유롭지 못할 수 있기 때문이다. 취재 과정에서 만난 표절 검색 솔루션 개발업체는 “예전에는 관행처럼 적당히 표절해 썼던 논문을 이제와서 공개하면 새삼 표절 의혹에 시달릴 수 있다”라며 “그래서 더욱 논문 공개를 꺼리게 되고, 원활한 표절 검색이 어려워진다”라고 고민을 토로했다.

장주연 팀장 역시 “해외와 국내의 가장 큰 다른점은 데이터 자체에 대한 폐쇄성”이라며 “국내는 해당 기관에서 논문을 공개하지 않으면 표절 심사를 하기 어려운 게 국내 표절 검색 솔루션의 한계”라고 지적했다. 이어 그는 “턴인잇 같은 해외 표절 검색 서비스는 자체적으로 데이터를 수집해 자신들만의 DB를 만들어 표절 여부를 조사하지만, 국내는 이렇게 하기 쉽지 않아 안타깝다”라고 덧붙였다.

국내에서도 자체적으로 국내 논문을 DB화해 서비스하는 곳이 생겨났다. 무하유의 표절 검색 솔루션 ‘카피킬러’가 대표적이다. 무하유는 2천만여건에 이르는 국내 논문을 수집해 보유하고 있다. 학회나 학교 사이트에 공개돼 있는 데이터를 수집해 자체적으로 DB화했다. 김희수 이사는 “DB를 좀 더 체계적으로 모아 더 나은 표절 검색 서비스를 제공할 계획”이라고 밝혔다.

izziene@bloter.net

뭐 화끈하고, 신나고, 재미난 일 없을까요? 할 일이 쌓여도 사람은 만나고, 기사는 씁니다. 관심있는 #핀테크 #클라우드 #그외 모든 것을 다룹니다. @izziene