iPod Touch 강좌 51. 사전 만들기 1. 소개

표준국어대사전

국립국어원의 표준국어대사전은 표제어의 수가 50만개가 넘는다. 우리나라 위키백과의 표제어가 10만을 조금 넘었다는 것을 생각하면 정말 방대한 량이라는 것을 알 수 있다. 물론 사전과 백과사전이라는 차이점은 존재한다. 그런다고 쳐도 표제어가 방대한 것은 사실이다. 물론 표준국어대사전에 대한 비판도 많다. 이런 비판은 글의 끝 부분을 참조하기 바란다.

목차

사전 만들기

소개

어린 학생들 중 (iPod Touch)를 구매하는 사람이 꽤 된다. 그 이유는 아이팟 터치만 있으면 다른 전자사전을 구입할 필요가 없기 때문이다. 그런데 막상 '아이팟 터치'를 사도 전자사전으로 활용하지 못하는 사람이 많다. '아이팟 터치'에는 사전이 기본 어플이 아니기 때문이다. 따라서 내가 보기에 '아이팟 터치'의 기본 위글에 Dictionary Universsal과 사전을 포함시키면 적어도 국내에서 아이팟 터치나 아이폰 구입자는 상당할 것으로 여겨진다.

에서 사용할 수 있는 사전 어플은 정말 많다. 사전 제작사가 만든 사전도 많다. 그러나 정말 강력한 사전을 원한다면 StarDict 사전 파일을 지원하는 사전을 사용하는 것이 좋다. 스타딕을 지원하는 사전 어플은 몇 가지가 있다. 그러나 역시 가장 유명한 프로그램은 weDict이다. 1.x 때부터 탈옥 어플인 를 통해 설치할 수 있었던 어플이기 때문이다.

그러나 weDict는 몇 가지 문제가 있다. 먼저 속도가 느리다. 최근에는 속도가 많이 개선됐다고 하지만 여전히 실행할 때도 느리고 검색할 때도 느리다. 더 중요한 것은 weDict은 스타딕 형식을 지원해도 '스타딕의 이미지 기능은 지원하지 못한다'. 그러다 최근에 알게된 어플이 바로 딕셔너리 유니버샬(Dictionary Universsal)이다. 이 프로그램은 weDict의 단점을 모두 극복했다. 빠르고 스타딕의 이미지까지 지원한다.

그런데 딕셔너리 유니버샬의 모든 기능을 사용할 수 있는 사전 파일은 시중에서 쉽게 구할 수 없다. StarDict Babylon Dictionaries에서 이미지를 지원하는 사전 파일을 일부 구할 수 있지만 많지는 않다. 따라서 앞으로 몇몇 강좌에서 사전을 스타딕 파일로 바꾸고 딕셔너리 유니버샬에 설치하는 방법을 알아 보겠다. 이 방법을 이용하면 거의 모든 데이타를 원하는 스타딕 형식으로 바꿔 딕셔너리 유니버샬에서 사용할 수 있다. 사전을 만드는 예로는 국립국어원표준국어대사전을 사용하겠다.

국립국어원표준국어대사전은 표제어의 수가 50만개가 넘는다. 우리나라 위키백과의 표제어가 10만을 조금 넘었다는 것을 생각하면 정말 방대한 량이라는 것을 알 수 있다. 물론 사전과 백과사전이라는 차이점은 존재한다. 그런다고 쳐도 표제어가 방대한 것은 사실이다. 물론 표준국어대사전에 대한 비판도 많다. 이런 비판은 글의 끝 부분을 참조하기 바란다.

용례

사전의 내용을 보면 알 수 있지만 기본 동사에 대한 설명은 아주 풍부하다. '오다'는 아주 다양한 사용예가 나오며 관용구 및 속담까지 포함되어 있다. 내용의 부정확성에 대한 비판도 있지만 표제어와 내용의 풍부함은 다른 사전은 따르기 힘들 듯하다. 또 웹의 스타일(Style Sheet)까지 사전에 포함시켰기 때문에 아이팟 터치 사전치고는 상당히 깔끔하고 예쁘다는 것을 알 수 있다.


'오다'라는 단어의 뜻 풀이는 동사에 8가지, 보조동사에 한 가지가 나온다. 또 5개의 관용구와 6개의 속담, 한개의 사투리가 나온다. 뜻풀이의 정확성은 장담할 수 없지만 풍부한 사용예가 실려있는 것을 알 수 있다.

옛글

표준국어대사전은 옛글을 지원한다. 예전에 을 소개할 때 소개한 새굴림이라는 글꼴을 설치하면 옛한글도 잘 보인다. 또 사이트가 UTF-8로 설계되어 있기 때문에 눈으로 보이지 않아도 코드 그대로를 복사한 뒤 UTF-8로 저장하면 데이타가 유지된다. 아이팟 터치에서 고어를 보기위해서는 고어를 지원하는 글꼴( 사전체, 다음 사전체, 한컴 바탕, 한컴 굴림등)을 아이팟 터치용으로 바꾼 뒤 아이팟 터치의 글꼴 정보를 바꿔야 볼 수 있다. 이 부분은 다른 강좌로 올릴 생각이다.


위의 그림에서 사용한 글꼴은 한컴 바탕체이다. 옛글을 지원하는 글꼴 중 아이팟 터치의 메인 글꼴로 사용할 수 있는 글꼴을 찾아 봤지만 마음에 드는 글꼴은 없었다. 결국 사전에 옛글이 나올 때만 옛글자를 참조하도록 바꾼 뒤 사용하고 있다. 또 옛글을 지원하는 글꼴 중 공개된 두개의 글꼴(네이버 사전체, 새굴림)을 아이팟 터치용으로 바꿔 웹에 올려 두었다. 따라서 이 글꼴을 설치하고 싶은 사람은 iPod-Touch-NaverDic-and-New-Gulim.zip을 클릭해서 글꼴 파일을 내려받은 뒤 터치에서 다른글꼴 사용하기를 보고 설치하기 바란다.

사진

백과사전은 아니지만 상당히 많은 사진을 제공한다. 고적에 대한 사진, 사물 및 동물에 대한 사진, 수식 그래프등이 포함되어 있다. 동물에 대한 사진은 실물 사진이 더 나을 것 같은데 사진이 아니라 그림이라는 것이 조금 아쉽다. 또 JPG 파일을 사용하면서 무손실로 압축하지 않은 탓에 일부 그림은 색번짐도 있다.


위의 그림을 보면 알 수 있지만 가늠자는 사진이 두개가 포함되어 있다. 포에서 사용되는 가늠자와 소총에서 사용되는 가늠자이다. 백과사전이 아닌데 이런 자세한 사진까지 삽입되어 있다.

수식

국어사전이지만 특이하게 수식도 상당히 많이 나온다. '단조감소수열'이나 '동류근식'은 중고등학교 수학시간에 나오는 것이라 특이할 것은 없다. 그러나 공학에서 사용되는 '라플라스 변환'이나 '로바쳅스키 기하학', 이름도 생소한 '렐니스케이트'까지 나온다. 수학사전이라고 할 수는 없겠지만 이 정도라면 중고등학교 수학에 나오는 수식은 대부분 포함한 것이 아닌가 싶다.


표제어

표제어는 약 51만개 정도가 된다. 표제어만 놓고 보면 국어사전이 아니라 백과사전에 가깝다. 가갸시절이라는 북한말, '행성광행차'와 같은 천문용어, 나경원으로 착각할 수 있는 '나경언의 상변'과 같은 역사적 사건, '라게뢰프'와 같은 인명, '라도가호'와 같은 지명, '라 마들렌 유적'과 같은 고적등 정말 많은 표제어가 포함되어 있다.


표준국어대사전 비판

인터넷에서 표준국어대사전으로 검색해 보면 의외로 표준국어대사전에 대한 비판의 소리가 많다. CaN Tips님처럼 표준국어대사전이면서 웹 표준을 지키지 않는다는 비판 부터, 대개혁이 필요하다는 비판까지 상당히 다양하다. 표준국어대사전은 500여명의 학자가 112억원의 예산으로 8년간 작업한 결과물[1]이다. 그러나 이런 비판을 받는 것은 지나치게 표제어에 집착한 결과가 아닌가 싶다.

50만 단어 중 우리말은 변용되거나 없어지고 반면 중국 한자어와 어 등이 다수 수록되었다

윤철상 민주당 의원이 2004년 문화광광부 종합감사에서 한 말이다. 아울러 윤철상 의원은 다음과 같은 문제를 지적했다.

  1. 우리말은 소홀히 다루고 한자 중심으로 사전을 만들면서 쓰이지 않는 한자말을 다수 첨가하여 단어수를 늘렸다.
  2. 외래어와 파생된 외국어를 올려놓았다.
  3. 에서도 잘 쓰이지 않는 말까지 표준말로 올려놓았다.

나 역시 표준국어대사전을 읽으며 같은 생각이 들었다. 순수한 우리 말과 사투리를 찾아 기록, 보존해야 할 표준국어대사전에서 오히려 우리 말을 홀대하고 중국어와 어를 우대하는 것 같은 인상을 받았기 때문이다.

'푸른 하늘'이란 우리말은 찾아볼 수 없고, 궁창(穹蒼), 벽공(碧空), 벽락(碧落), 벽소(碧소), 벽우(碧宇), 벽천(碧天), 소천(所天), 창공(蒼空), 창천(蒼天), 청명(靑冥), 청천(靑天), 청허(晴虛) 등만 올려져 있다는 것이다. [출처: 학자 500명 8년 작업 '표준국어대사전', 中·日서도 안쓰는 말 '부지기수']

오마이뉴스 기사를 보면 알 수 있지만 '푸른 하늘'이라는 우리 말은 없지만 이름도 생소한 한자는 다수 등장한다. 이런 단어 중 상당수는 이나 중국에서도 거의 사용하지 않는 단어라고 한다. 또 '푸른 하늘'에 대한 유사어 21개 중 11개가 사전에 나오는 단어라고 하니 이런 비판을 면하기는 힘들 것으로 생각된다.

한글은 말을 만드는 능력(조어력)이 약하다. 한글이 만들어진지 상당히 오래됐지만 조어력이 뛰어난 한자를 계속 사용해왔기 때문이다. 따라서 이런 한글의 이런 조어력을 보완하는 것은 옛말이나 사투리에서 적당한 단어를 찾아 내는 것도 한 방법이라 생각한다. 그런데 표준국어대사전에서 '사투리는 끼워넣기용이 아니었나?'하는 생각이 든다. 또 로바쳅스키 기하학, 렐니스케이트, 라도가호와 같은 말을 굳이 우리 말 표준사전에 넣을 필요가 있을지는 여전히 의문이다.

[다음 강좌: iPod Touch 강좌 52. 사전 만들기 2. 클리핑]

관련 글타래


  1. 2002년판에 대한 설명이다. 2009년판은 당연히 더 많은 예산이 들어갔다. 
2009/09/07 08:53 2009/09/07 08:53
글쓴이
author image
운영체제의 모든 것을 운영하고 있는 IT 블로거. IT 블로거라는 이름은 현재 시국때문에 시사 블로거로 바뀐 상태다. 그러나 나는 아직도 시사와 사회에 관심이 많은 IT 블로거일 뿐이다. 컴퓨터, 운영체제, 시사, 가족, 여행, 맛집, 리뷰등과 살면서 느끼는 소소한 일상이 블로그의 주제이다. 왼쪽의 아이콘은 둘째 딸 다예가 그린 내 모습이다.
오늘의 글
인기있는 글
조회수 많은 글 | 베오베
댓글 많은 글 | 베오베

Trackback

Trackback Address :: https://offree.net/trackback/2737

Facebook

Comments

  1. Ankh_Isis 2009/09/07 10:47

    정말 기다려지는 강좌입니다....ㅎㅎ
    알기쉬운 설명 기대하겠습니다.....
    그런데 도아님 트윗을보면 클리핑이 며칠 걸리신거 같은데..
    5년 이상된 제 컴에선 얼마나 걸릴지 미리 걱정입니다.....

    perm. |  mod/del. reply.
    • 도아 2009/09/08 07:52

      아주 많이 걸리지는 않습니다. 하나만 띄워두면 10일 20시간, 두개를 띄워두면 5일 10시간 걸립니다. 저처럼 6개를 사용하면 2틀이고요.

  2. Kael H. 2009/09/08 10:13

    한글의 문제점은 극명합니다.
    "한자를 너무 오래 썼다"는 것입니다.
    1600년대 까지만 해도 아름다운 우리말이 많았다고 합니다.
    (바람소리, 곰의 울음소리, 가람(江) 등..)
    하지만 한자의 공세에 밀려서 19세기에 모두 자취를 감추고 말았지요...
    그래서 그 뒤부터 한글은 한자의 발음을 정하기 위한 수단으로 변질되고 말았습니다.

    원래 한글의 출발점은 <언문일치>였는데, 현재는 <한자음 통일수단>으로 바뀌었지요.

    perm. |  mod/del. reply.
    • 도아 2009/09/08 11:11

      한자 문화권이라 한자를 없앨 수는 없겠지만 한자 대신에 사용할 수 있는 우리말을 찾는 과정은 계속 지속되어야 한다고 봅니다.

    • 공부하는사람 2010/07/12 19:44

      죄송한 말씀이지만 한자를 오래 쓴것이 문제라기 보다는 한자를 중심으로 보았던 조선 당시의 성리학이 문제였다고 보여집니다. 한자는 훈민정음 창제 훨씬 이전부터 계속 써왔었지요. 16세기를 거쳐 성리학이 '소중화 사상'으로 변질되면서 공식적인 자리에서 안그래도 괄시받던 한글을 더욱 괄시하게 되어버린 점이 문제일 것입니다.
      일반 평민들 사이에서는 17~18세기에 한글을 매우 왕성하게 썼다고 전해집니다. 그 당시 전해지던 고전소설의 유통경로만 봐도 그렇습니다.
      한글의 창제 목적이 언문일치이기도 하지만, 이영보래나, 순경음비읍 등을 들어 그 당시의 중국어를 한글로 표기하기 위함이었다는 것이 요즘 학계의 지론입니다.

  3. 얏옹시대 2009/09/08 10:19

    푸른 하늘이 사전에 없는건 당연합니다.
    도아님도 두 단어임을 이미 인식하고 띄어쓰기 하셨잖아요

    푸른 하늘을 사전에 등록시키면, 노란 하늘, 붉은 하늘, 샛노란 하늘, 시퍼런 하늘 , 전부 등록해야 하는데, 그러면 사전 터질거에요

    푸른의 기본형 "푸르다" 와 일반명사 "하늘"만 등록되면 그걸로 족합니다.
    어떻게 결합해서 사용할지는 단어를 사용하는 사람의 몫이겠죠.

    perm. |  mod/del. reply.
    • 도아 2009/09/08 11:19

      알고 있습니다. 논점은 푸른 하늘이 있다, 없다가 아니라 푸른 하늘에 해당하는 한자가 너무 많고 모두 일본식, 중국식이라는 것논점이죠. 그래서 논점만 짚은 것이고요. 푸른 하늘이 없어서 문제다라고 했으면 속된 말로 이빨이 먹혔을까요?

      '푸른 하늘'이란 우리말은 찾아볼 수 없고, 궁창(穹蒼), 벽공(碧空), 벽락(碧落), 벽소(碧소), 벽우(碧宇), 벽천(碧天), 소천(所天), 창공(蒼空), 창천(蒼天), 청명(靑冥), 청천(靑天), 청허(晴虛) 등만 올려져 있다는 것이다.

      이 부분과

      오마이뉴스 기사를 보면 알 수 있지만 '푸른 하늘'이라는 우리 말은 없지만 이름도 생소한 한자는 다수 등장한다.

      이 부분을 보면 알 수 있지만 푸른 하늘이 없다고 한 것은 제가 한 말이 아니죠. 논점을 파악하고 댓글을 달아 주시기 바랍니다.

    • 얏옹시대 2009/09/08 15:13

      그래서 도아님이 말하고자 하는 논점이라는게 무엇인가요?

      표제어가 너무 많고, 많은 표제어들중 한자가 중국식이라서 문제라는게 논점이라는 말이신가요?
      한국식 한자라는것도 있습니까?

      너무 많은게 문제라면 연속 7회독후 서브노트로 정리해서 사용하면 되겠군요??
      생소하니 사전에서 빼버리자는 논리는 말도 안되는것 같네요
      생소한 한자뿐만 아니라 생전 듣도보도 못한 고유어도 빠짐없이 등재하고자 노력한 사전입니다.

      표준국어대사전이 아름다운 고유어의 등재를 등한시하고, 외래어와 외국어 등재에만 열을 올렸다면 욕처먹어 마땅하겠지만, 그게 아닌이상 비난받을 일은 아니라는게 제 생각입니다.

    • 도아 2009/09/08 15:34

      그래서 도아님이 말하고자 하는 논점이라는게 무엇인가요?
      표제어가 너무 많고, 많은 표제어들중 한자가 중국식이라서 문제라는게 논점이라는 말이신가요?

      글 읽어 보세요.

      윤철상 민주당 의원이 2004년 문화광광부 종합감사에서 한 말이다. 아울러 윤철상 의원은 다음과 같은 문제를 지적했다.

      • 우리말은 소홀히 다루고 한자 중심으로 사전을 만들면서 쓰이지 않는 한자말을 다수 첨가하여 단어수를 늘렸다.
      • 외래어와 파생된 외국어를 올려놓았다.
      • 일본에서도 잘 쓰이지 않는 일본말까지 표준말로 올려놓았다.

      나 역시 표준국어대사전을 읽으며 같은 생각이 들었다.

      논점 파악을 못하는 것으로 생각했는데 아예 글을 읽지 않고 댓글을 단 것이군요.

      한국식 한자라는것도 있습니까?

      많습니다. 님이 모른다고 없는 것이 아닙니다. 한국에만 사용되는 글자도 있으니까요.

      너무 많은게 문제라면 연속 7회독후 서브노트로 정리해서 사용하면 되겠군요??
      생소하니 사전에서 빼버리자는 논리는 말도 안되는것 같네요

      국어사전이 무엇인지는 아시나요? 그리고 많아서 문제라거나 생소하니 빼자는 이야기가 아니죠. 여전히 이해는 먼산인듯합니다.

      사람들이 사전을 언제 찾아보는지만 생각해 본다면 이런 발상은 일어나지 않을듯 합니다.

      국어사전이 무엇인지 안다면 이런 글은 쓰지 않을 듯합니다.

  4. keejeong 2009/09/08 15:16

    표준국어사전은 써본적은 없습니다만, 일반적으로 국어사전에 대해서 같은 생각입니다.
    이게 국어사전인지 백과사전인지 구분이 안가요.
    영한사전도 영영사전에 대하여 비슷한 경향이 있더군요.
    사투리같은 건 별도로 모아 사전을 만들면 어떨까 싶습니다.
    영어사전은 종류가 상당히 다양한데,
    국어사전은 그렇지 못해서 좀 서운해요.

    클립강좌 감사드립니다.
    한번 시도해봐야겠네요.

    perm. |  mod/del. reply.
    • 도아 2009/09/08 15:18

      표제어가 많은 것은 좋지만 우리말의 범주에 넣기 힘든 말들이 많은 것 같더군요.

클릭!

(옵션: 없으면 생략)

글을 올릴 때 [b], [i], [url], [img]와 같은 BBCode를 사용할 수 있습니다.