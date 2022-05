테크

[함께 쓰는 풀리퀘]'그 이름'은 유니코드로 쓸 수 있을까①

‘풀리퀘’는 깃허브에서 타인의 코드에 리뷰를 요청하는 기능인 ‘풀 리퀘스트’의 줄임말입니다. 풀리퀘를 통해 코드는 더 발전하는데요. 알아두면 쓸모 있는 IT업계의 크고 작은 사건들을 변규홍 스켈터랩스 개발자가 격주로 ‘풀리퀘’ 드립니다. 유니코드(Unicode)는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준이다. [1] 가장 최근 발표된 유니코드 14.0.0 버전에서는 무려 14만4697개나 되는 글자(character)가 포함되어 있다. [2] 1996년 7월 발표된 유니코드 2.0.0 버전에 포함된 글자가 4만 글자가 채 안 되었던 것과 비교하면 정말 많은 숫자다. [3] 1999년 9월에는 점자(Braille)가 포함된 유니코드 3.0.0 버전이 나왔다. [4] 현재도 일상 언어 생활이나 고문서 연구, 학계에서 쓰이는 글자들을 유니코드에 추가하는 작업이 꾸준히 진행중이다. 예를 들어 유로 통화 기호 €(U+20AC), 2019년부터 시작된 일본의 새 연호 레이와(令和)를 뜻하는 ㋿(U+32FF) 추가 건 등이 있다.유니코드는 산업 표준이므로 새로운 버전이 발표된다고 곧장 전 세계 모든 IT 기기에 적용되기는 어렵다. 유니코드의 새로운 버전이 발표되고 나서 IT 산업계의 주요 회사들이 이를 적용하기까지 상당한 시간이 걸리기 때문이다. 또한 유니코드 산업표준을 따르지 않는 경우도 아직까지는 심심찮게 찾아볼 수 있다. 당신이 원하는 글자를 컴퓨터에 입력할 수 없는 이유다. 설믜를 설믜라 쓰지 못하고...설미가 됐다 2018년 10월, 한겨레는 ‘설믜’라는 이름을 쓰는 한 시민이 살면서 겪는 큰 불편을 보도했다. [5] 대학 합격통지서나 모바일 학생증, 은행 거래나 휴대폰 개통 등의 업무에서 ‘믜’라는 글자가 지원되지 않았기 때문이다. 심지어 해당 기사가 보도되는 과정에서도 한겨레 모바일 홈페이지나 포털 사이트, 지면 제작 과정에서 ‘믜’라는 글자가 사라지거나 깨지는 헤프닝들이 발생했다. [6] 2022년 3월 29일 방송된 ‘진격의 할매’에는 ‘설믜’라는 이름을 쓰다가 결국 ‘설미’로 개명한 시민의 사례가 소개되었는데 이 소식을 소개한 몇몇 언론 보도에서도 ‘믜’자가 깨져 있었다. [7]앞에서 유니코드 버전을 소개할 때 1.0.0 버전이 아닌 2.0.0 버전을 소개한 이유가 있다. 유니코드 2.0.0 버전이 발표될 때 한국 관계자들의 강력한 요구로 유니코드에 1만1172 글자나 되는 한글 글자를 모두 포함시켰기 때문이다. [8] 현대 한국어에서 사용되는 한글은 19가지 첫소리(초성), 21가지 가운뎃소리(중성), 28가지 끝소리(종성)을 모아서 하나의 글자로 적는다. 이렇게 모아서 쓰면 표기할 수 있는 한글의 글자 조합은 가, 각, 갂, 간, …, 힢, 힣까지 1만1172가지나 된다. 유니코드 2.0.0 버전에 포함된 글자 중 무려 25%가 한글이었던 것이다.그런데, 유니코드 2.0.0 버전이 발표된 것은 이미 26년 전의 일이다. 당장 지금 보고 있는 이 풀리퀘에서도 ‘믜’라는 글자는 별다른 문제 없이 잘 표시되고 있다. 스마트폰의 주요 메신저 앱을 쓸 때도 ‘믜’라는 글자를 입력하고 또 읽는 데 별 문제가 없다. 그런데 어째서 몇몇 언론 보도나 금융 거래 등에서는 여전히 ‘믜’자에 문제가 생기는 걸까.첫번째 이유는 아직도 한국에서 유니코드를 쓰지 않는 경우가 많기 때문이다. 유니코드라는 개념이 아직 없던 1987년의 한국에서는 컴퓨터에서 한글을 사용하기 위한 방법이 제조사별로 통일성 없이 난립했다. 게다가 당시 컴퓨터는 지금의 스마트폰보다 훨씬 느렸고, 저장할 수 있는 정보의 양도 압도적으로 적었다. 따라서 1만1172가지나 되는 모든 한글 조합을 지원해야 하는지를 두고 많은 논쟁이 있었다.이런 논쟁 끝에 한국의 학계와 산업계가 모여 통일된 하나의 산업 표준(공업 표준)을 만들게 되었고, 이 때 나온 것이 ‘KS C 5601’이다. [9] 현재는 2019년까지 개정된 내용이 ‘KS X 1001:2004’로 정리되어 있다. [10] 1987년 당시 사용 빈도수가 높은 글자 2350글자를 뽑아서, 이 2350글자만큼은 어떻게든 처리할 수 있어야 한다는 기준이 마련되었다. ‘믜'라는 글자는 공교롭게도 이때의 2350글자에 없었다. 산업표준 자체에는 2350글자 바깥에 있는 글자를 표기하기 위한 별도의 방법이 마련되어 있었다. ‘채움’이라는 특수 목적의 글자를 정의하고, ‘믜’같은 경우 ‘채움’, ‘ㅁ’, ‘ㅢ’, ‘채움’ 으로 표기하면 컴퓨터가 이를 ‘믜’라는 한 글자로 합쳐서 보여주도록 정의하였다. 하지만 산업표준을 실제로 적용하는 과정에서 많은 회사들은 ‘채움’과 관련된 정의를 지키지 않았고, 한글은 오직 2350글자만 지원하도록 설계했다. 이를 기반으로 만들어진 다양한 한글 인코딩(encoding) 방식 및 이에 대한 구현 대부분이 2350글자만 지원했다. 인코딩은 컴퓨터에 문자 형태의 정보를 저장하기 위한 방식을 말한다. 유니코드가 전 세계적으로 보편화되면서 유니코드를 위한 인코딩 방식, 특히 UTF-8 같은 인코딩 방식이 전 세계적인 표준으로 자리잡고 있다. 하지만 오랜 시간동안 지속되어 온 산업분야 중 많은 영역은 UTF-8 도 유니코드도 지원하지 않는다. 이들의 인프라가 근본적으로 변하기 전까지는 ‘믜’라는 글자에 대한 홀대는 계속될 예정이다. 유니코드에 있지만 폰트에 없다면 무용지물 그러면 유니코드를 사용하기만 하면 모든 문제가 해결될까. 아쉽지만 넘어야 할 산이 또 있다. 스마트폰이나 컴퓨터 화면에 문자를 보여주기 위해서는 글씨체(서체, 글꼴, 폰트, font) 파일에 보여주고자 하는 문자의 형상이 저장되어 있어야 한다. 글씨체가 지원하지 않는 문자는 유니코드 목록에 있는 문자라고 해도 컴퓨터 화면에 표시될 수 없다. 결국 적절한 글씨체가 있는 컴퓨터에서만 제대로 표시되고 그렇지 않은 컴퓨터에서는 표시되지 않는 문자로 남게 된다. <그림 1>은 ‘설믜’, ‘삡뺩’, ‘`’를 세 가지 글씨체 각각이 제대로 보여줄 수 있는지 실험한 결과물이다. ‘나눔명조', ‘Noto Sans Mono CJK KR’은 ‘믜’, ‘뺩’을 제대로 표시할 수 있다.[11] [12] 글씨체 파일에 두 글자에 대한 글리프(Glyph, 글자의 모양)가 포함되어 있기 때문이다. 하지만 ‘고양덕양 B’는 그러지 못한다. [13]고양특례시 홈페이지의 고양덕양체 배포 페이지는 “한글 2350자, 영문 94자, KS심볼 986자를 지원하여 널리 사용할 수 있으며, 특히 ‘(키보드 어퍼스트로피 위치)는 고양고양이 캐릭터 일러스트를 제공”한다고 알리고 있다. 즉, 유니코드가 보편화되면서 ‘믜’나 ‘뺩’같은 글자를 컴퓨터에 입력하는 것은 가능해 졌지만, 정작 입력된 내용을 보여주기 위해 필요한 글씨체가 이를 지원하지 않는 경우들이 있었던 셈이다. 같은 고양특례시에서 배포하는 고양체의 경우 국문 1만 1172자, 영문 94자, KS심볼 986자를 지원하여 널리 사용할 수 있다.한국에서 사용되는 스마트폰이나 PC 운영체제에 기본 내장되는 글씨체는 점점 더 1만1172 글자 모두를 포함하는 방향으로 가고 있다. 따라서 인쇄물 디자인 등의 경우를 제외한다면 일상적인 디지털 기기 사용에서 ‘믜’, ‘뺩’ 자로 인해 불편을 겪을 가능성은 점점 줄어들 것이다. 하지만 개발자라면 어떤 글자가 화면에 표시되지 않는다는 버그 리포트를 받았을 때 글씨체 관련 문제를 떠올릴 수 있도록 준비하고 있어야 하겠다. 주민등록증에는 있지만 유니코드에는 없던 한자, '물 이름 은' 2014년 10월 20일, 대법원에서는 1990년대 이후 처음으로 ‘인명용 한자'를 5761자에서 8142자로 확대한다는 보도자료가 나왔다. [14] 그런데 앞서 살펴본 산업표준 ‘KS C 5601’에는 한국에서 쓰이는 한자 중 4888글자만 포함되어 있었다. ‘KS C 5601’ 을 기반으로 만들어진 대부분의 인코딩 방식, CP949나 EUC-KR 으로는 이런 한자들은 입력할 수 없었다. 그렇다면 2022년 현재는 유니코드를 사용한다면 인명용한자를 입력하는 데 별 문제가 없을까.이에 대한 중요한 유니코드 버전 중 하나가 2020년 3월에 발표된 유니코드 13.0.0 표준이다. [15] 유니코드 13.0.0 에서는 UTC-01200 이라고 불리던 새로운 한자가 추가되었다. 대법원 인명용 한자 중 유니코드에 없는 문자가 발견되었고, 이를 추가해야 한다는 논의가 2015년부터 진행된 끝에 마침내 유니코드 문자 목록에 포함된 것이다. [16][17] 대법원 인명용한자 조회 페이지에는 한 가지 흥미로운 처리가 되어 있다. 한국에서 널리 쓰이는 글씨체에 해당 한자가 없는 경우가 많기 때문에, 웹 브라우저 화면에 글자를 표시할 때 글자 대신 해당 글자에 대응되는 그림파일을 글씨체 대신 적용하여 보여주도록 설계되어 있다. 이에 웹 브라우저에서는 한자가 제대로 보이지만, 이를 ‘복사’하여 어딘가에 ‘붙여넣기’하는 순간 깨져서 보이게 된다. Noto Sans Mono CJK KR 처럼 '물 이름 은'자가 반영된 글씨체를 사용하는 독자라면 깨지는 글자 없이 잘 표시될 것이지만 말이다. 그럼에도 여전히 쓸 수 없는 한자가 있고, 그 이유는… 여기까지 1987년부터 2020년에 이르는 유니코드의 한글, 한자와 관련된 몇 가지 주제를 살펴보았다. 결국 '어떤 문자를 컴퓨터에 입력할 수 있느냐, 그리고 제대로 표시할 수 있느냐'의 문제에는 유니코드와 같은 전세계적인 표준을 잘 사용하는지, 그 표준에 그 문자가 포함되도록 할 수 있는지, 그 문자에 대한 글리프가 포함된 글씨체를 사용하는지 등 여러 가지 변수가 복합적으로 얽혀 있음을 알 수 있다. 하지만 여기까지의 지식만으로는 다룰 수 없는 한자들이 있다. 다음 풀리퀘에서는 한글과 한자의 입력과 표시를 둘러싼 몇 가지 쟁점을 더 살펴보자.