사전 만들기

소개

어린 학생들 중 (iPod Touch)를 구매하는 사람이 꽤 된다. 그 이유는 아이팟 터치만 있으면 다른 전자사전을 구입할 필요가 없기 때문이다. 그런데 막상 '아이팟 터치'를 사도 전자사전으로 활용하지 못하는 사람이 많다. '아이팟 터치'에는 사전이 기본 어플이 아니기 때문이다. 따라서 내가 보기에 '아이팟 터치'의 기본 위글에 Dictionary Universsal과 사전을 포함시키면 적어도 국내에서 아이팟 터치나 아이폰 구입자는 상당할 것으로 여겨진다.

에서 사용할 수 있는 사전 어플은 정말 많다. 사전 제작사가 만든 사전도 많다. 그러나 정말 강력한 사전을 원한다면 StarDict 사전 파일을 지원하는 사전을 사용하는 것이 좋다. 스타딕을 지원하는 사전 어플은 몇 가지가 있다. 그러나 역시 가장 유명한 프로그램은 weDict이다. 1.x 때부터 탈옥 어플인 를 통해 설치할 수 있었던 어플이기 때문이다.

그러나 weDict는 몇 가지 문제가 있다. 먼저 속도가 느리다. 최근에는 속도가 많이 개선됐다고 하지만 여전히 실행할 때도 느리고 검색할 때도 느리다. 더 중요한 것은 weDict은 스타딕 형식을 지원해도 '스타딕의 이미지 기능은 지원하지 못한다'. 그러다 최근에 알게된 어플이 바로 딕셔너리 유니버샬(Dictionary Universsal)이다. 이 프로그램은 weDict의 단점을 모두 극복했다. 빠르고 스타딕의 이미지까지 지원한다.

그런데 딕셔너리 유니버샬의 모든 기능을 사용할 수 있는 사전 파일은 시중에서 쉽게 구할 수 없다. StarDict Babylon Dictionaries에서 이미지를 지원하는 사전 파일을 일부 구할 수 있지만 많지는 않다. 따라서 앞으로 몇몇 강좌에서 사전을 스타딕 파일로 바꾸고 딕셔너리 유니버샬에 설치하는 방법을 알아 보겠다. 이 방법을 이용하면 거의 모든 데이타를 원하는 스타딕 형식으로 바꿔 딕셔너리 유니버샬에서 사용할 수 있다. 사전을 만드는 예로는 국립국어원표준국어대사전을 사용하겠다.

국립국어원표준국어대사전은 표제어의 수가 50만개가 넘는다. 우리나라 위키백과의 표제어가 10만을 조금 넘었다는 것을 생각하면 정말 방대한 량이라는 것을 알 수 있다. 물론 사전과 백과사전이라는 차이점은 존재한다. 그런다고 쳐도 표제어가 방대한 것은 사실이다. 물론 표준국어대사전에 대한 비판도 많다. 이런 비판은 글의 끝 부분을 참조하기 바란다.

용례

사전의 내용을 보면 알 수 있지만 기본 동사에 대한 설명은 아주 풍부하다. '오다'는 아주 다양한 사용예가 나오며 관용구 및 속담까지 포함되어 있다. 내용의 부정확성에 대한 비판도 있지만 표제어와 내용의 풍부함은 다른 사전은 따르기 힘들 듯하다. 또 웹의 스타일(Style Sheet)까지 사전에 포함시켰기 때문에 아이팟 터치 사전치고는 상당히 깔끔하고 예쁘다는 것을 알 수 있다.


'오다'라는 단어의 뜻 풀이는 동사에 8가지, 보조동사에 한 가지가 나온다. 또 5개의 관용구와 6개의 속담, 한개의 사투리가 나온다. 뜻풀이의 정확성은 장담할 수 없지만 풍부한 사용예가 실려있는 것을 알 수 있다.

옛글

표준국어대사전은 옛글을 지원한다. 예전에 을 소개할 때 소개한 새굴림이라는 글꼴을 설치하면 옛한글도 잘 보인다. 또 사이트가 UTF-8로 설계되어 있기 때문에 눈으로 보이지 않아도 코드 그대로를 복사한 뒤 UTF-8로 저장하면 데이타가 유지된다. 아이팟 터치에서 고어를 보기위해서는 고어를 지원하는 글꼴(네이버 사전체, 다음 사전체, 한컴 바탕, 한컴 굴림등)을 아이팟 터치용으로 바꾼 뒤 아이팟 터치의 글꼴 정보를 바꿔야 볼 수 있다. 이 부분은 다른 강좌로 올릴 생각이다.


위의 그림에서 사용한 글꼴은 한컴 바탕체이다. 옛글을 지원하는 글꼴 중 아이팟 터치의 메인 글꼴로 사용할 수 있는 글꼴을 찾아 봤지만 마음에 드는 글꼴은 없었다. 결국 사전에 옛글이 나올 때만 옛글자를 참조하도록 바꾼 뒤 사용하고 있다. 또 옛글을 지원하는 글꼴 중 공개된 두개의 글꼴(네이버 사전체, 새굴림)을 아이팟 터치용으로 바꿔 웹에 올려 두었다. 따라서 이 글꼴을 설치하고 싶은 사람은 iPod-Touch-NaverDic-and-New-Gulim.zip을 클릭해서 글꼴 파일을 내려받은 뒤 터치에서 다른글꼴 사용하기를 보고 설치하기 바란다.

사진

백과사전은 아니지만 상당히 많은 사진을 제공한다. 고적에 대한 사진, 사물 및 동물에 대한 사진, 수식 그래프등이 포함되어 있다. 동물에 대한 사진은 실물 사진이 더 나을 것 같은데 사진이 아니라 그림이라는 것이 조금 아쉽다. 또 JPG 파일을 사용하면서 무손실로 압축하지 않은 탓에 일부 그림은 색번짐도 있다.


위의 그림을 보면 알 수 있지만 가늠자는 사진이 두개가 포함되어 있다. 포에서 사용되는 가늠자와 소총에서 사용되는 가늠자이다. 백과사전이 아닌데 이런 자세한 사진까지 삽입되어 있다.

수식

국어사전이지만 특이하게 수식도 상당히 많이 나온다. '단조감소수열'이나 '동류근식'은 중고등학교 수학시간에 나오는 것이라 특이할 것은 없다. 그러나 공학에서 사용되는 '라플라스 변환'이나 '로바쳅스키 기하학', 이름도 생소한 '렐니스케이트'까지 나온다. 수학사전이라고 할 수는 없겠지만 이 정도라면 중고등학교 수학에 나오는 수식은 대부분 포함한 것이 아닌가 싶다.


표제어

표제어는 약 51만개 정도가 된다. 표제어만 놓고 보면 국어사전이 아니라 백과사전에 가깝다. 가갸시절이라는 북한말, '행성광행차'와 같은 천문용어, 나경원으로 착각할 수 있는 '나경언의 상변'과 같은 역사적 사건, '라게뢰프'와 같은 인명, '라도가호'와 같은 지명, '라 마들렌 유적'과 같은 고적등 정말 많은 표제어가 포함되어 있다.


표준국어대사전 비판

인터넷에서 표준국어대사전으로 검색해 보면 의외로 표준국어대사전에 대한 비판의 소리가 많다. CaN Tips님처럼 표준국어대사전이면서 웹 표준을 지키지 않는다는 비판 부터, 대개혁이 필요하다는 비판까지 상당히 다양하다. 표준국어대사전은 500여명의 학자가 112억원의 예산으로 8년간 작업한 결과물[1]이다. 그러나 이런 비판을 받는 것은 지나치게 표제어에 집착한 결과가 아닌가 싶다.

50만 단어 중 우리말은 변용되거나 없어지고 반면 중국 한자어와 일본어 등이 다수 수록되었다

윤철상 민주당 의원이 2004년 문화광광부 종합감사에서 한 말이다. 아울러 윤철상 의원은 다음과 같은 문제를 지적했다.

  1. 우리말은 소홀히 다루고 한자 중심으로 사전을 만들면서 쓰이지 않는 한자말을 다수 첨가하여 단어수를 늘렸다.
  2. 외래어와 파생된 외국어를 올려놓았다.
  3. 일본에서도 잘 쓰이지 않는 일본말까지 표준말로 올려놓았다.

나 역시 표준국어대사전을 읽으며 같은 생각이 들었다. 순수한 우리 말과 사투리를 찾아 기록, 보존해야 할 표준국어대사전에서 오히려 우리 말을 홀대하고 중국어와 일본어를 우대하는 것 같은 인상을 받았기 때문이다.

'푸른 하늘'이란 우리말은 찾아볼 수 없고, 궁창(穹蒼), 벽공(碧空), 벽락(碧落), 벽소(碧소), 벽우(碧宇), 벽천(碧天), 소천(所天), 창공(蒼空), 창천(蒼天), 청명(靑冥), 청천(靑天), 청허(晴虛) 등만 올려져 있다는 것이다. [출처: 학자 500명 8년 작업 '표준국어대사전', 中·日서도 안쓰는 말 '부지기수']

오마이뉴스 기사를 보면 알 수 있지만 '푸른 하늘'이라는 우리 말은 없지만 이름도 생소한 한자는 다수 등장한다. 이런 단어 중 상당수는 일본이나 중국에서도 거의 사용하지 않는 단어라고 한다. 또 '푸른 하늘'에 대한 유사어 21개 중 11개가 일본 사전에 나오는 단어라고 하니 이런 비판을 면하기는 힘들 것으로 생각된다.

한글은 말을 만드는 능력(조어력)이 약하다. 한글이 만들어진지 상당히 오래됐지만 조어력이 뛰어난 한자를 계속 사용해왔기 때문이다. 따라서 이런 한글의 이런 조어력을 보완하는 것은 옛말이나 사투리에서 적당한 단어를 찾아 내는 것도 한 방법이라 생각한다. 그런데 표준국어대사전에서 '사투리는 끼워넣기용이 아니었나?'하는 생각이 든다. 또 로바쳅스키 기하학, 렐니스케이트, 라도가호와 같은 말을 굳이 우리 말 표준사전에 넣을 필요가 있을지는 여전히 의문이다.

[다음 강좌: iPod Touch 강좌 52. 사전 만들기 2. 클리핑]

관련 글타래


  1. 2002년판에 대한 설명이다. 2009년판은 당연히 더 많은 예산이 들어갔다.