사전 만들기

클리핑

아이팟 터치(iPod Touch)용 표준국어대사전에 대한 기능은 이전 강좌에서 소개했다. 따라서 여기서는 이 사전에 대한 간단한 소개와 클리핑하는 방법을 이야기하겠다. '아이팟 터치'용 표준국어대사전은 이미지를 지원하며 표제어가 51'0440개인 아주 방대한 분량의 사전이다. 웹의 데이타를 그대로 따왔기 때문에 아이팟 터치용 사전 치고는 예쁘며 파일의 크기가 상당히 크다. 이미지를 포함한 사전 파일은 총 566M에 달한다. 사전에 이미지를 포함하고 있기 때문에 weDict에서는 사용할 수 없고 오로지 딕셔너리 유니버샬(Dictionary Universal)에서만 사용할 수 있다.

먼저 가장 왼쪽의 그림은 현재 등록되어 있는 사전 정보다. 두번째 그림은 사전의 정보이다. 표제어의 수는 스타딕 사전 파일을 만들면 자동으로 추가된다. 사전의 이름과 설명은 정보 파일을 직접 편집해서 추가한 것이다. 표준국어대사전을 클리핑하면서 가끔 출몰되는 단어를 보면 재미있는 단어들이 많았다.

먼저 행사다. 행사는 우리말로는 '어떤 일을 시행함. 또는 그 일.'이라고 정의돠어 있지만 북한말로는 '국가나 사회단체 따위가 일정한 계기와 목적 밑에 특별히 조직하는 대중 정치사상 사업의 하나', '기껏하여 한다는 일이나 짓.'이라고 한다. 행정편의주의 때문에 갖은 전시행사가 열리는 우리나라에서 보면 우리말 정의 보다는 북한말 정의가 더 가슴에 와닿는다. 또 사전을 만들다 보니 후장총이라는 단어도 있었다. '후장'이 가지는 비속어적인 이미지가 있기 때문에 이 단어 자체가 조금은 우수웠다. 아무튼 완성된 사전의 파일의 정보는 다음과 같다.

파일 크기 설명
KSD2009.dict 408,417,612 사전 정보를 담고 있는 메인 사전 파일
KSD2009.idx 9899794 표제어의 색인을 담고 있는 인덱스 파일
KSD2009.ifo 985 사전의 설명과 사전에 대한 정보를 담고 있는 정보 파일
res 177,011,084 총 9189개의 이미지를 저장하고 있는 이미지 폴더
KSD2009.tar.bz2 197,218,769 스타딕의 배포본 형태로 압축한 파일

클리핑

국립국어원표준국어대사전 2002년판은 동아출판사에서 사전으로 만들어 배포했다. 그러나 최근에 완성된 표준국어대사전은 무슨 이유인지 모르겠지만 이렇게 배포되지 않는다. 오로지 표준국어대사전 사이트를 통해서만 사전을 사용할 수 있다. 물론 PC에 설치해서 사용할 수 있는 프로그램도 있지만 이 프로그램도 기본적으로 표준국어대사전을 검색한 결과를 되돌려 주는 것에 불과하다. 따라서 표준국어대사전을 딕셔너리 유니버샬에서 사용할 수 있는 사전 파일로 만들기 위해서는 클리핑 작업이 필수적이다.

표준국어대사전의 클리핑 주소는 http://stdweb2.korean.go.kr/search/View.jsp?idx=1로서 'idx'의 값을 1에서 518063까지 바꾸면 '총 510440개의 표제어'를 클리핑할 수 있다. 또 클리핑을 하다 보면 중간에 빠지는 주소가 종종 나타난다. 과거에 표준국어대사전에 등록했지만 표준이라는 말에 걸맞지 않아 삭제한 것으로 보인다. 이렇게 빠진 데이타는 다음과 같다. 5만개 단위로 클리핑했기 때문에 5만개 단위로 빠진 인덱스를 추가했다.

순번 범위 순번 범위
50000 50000-887=49113 350000 50000-634=49366
100000 50000-798=49202 400000 50000-780=49220
150000 50000-734=49266 450000 50000-659=49341
200000 50000-697=49303 500000 50000-596=49404
250000 50000-738=49262 518063 18063-405=17658
300000 50000-695=49305 518063-7623=510440

클리핑 방법

클리핑하는 방법은 간단하다. 다음 그림은 표준국어대사전에서 불국사 페이지를 인덱스로 연 뒤 소스 보기를 한 것이다.

① ①에서 ^를 제거한 뒤 표제어로 사용한다.
② ①과 ②를 합쳐서 사전 페이지의 제목으로 사용한다.
③ ③은 설명으로 사용한다. 다만 이렇게 하면 웹 페이지처럼 표시되지 않기 때문에 'class' 속성 대신에 'style' 속성으로 바꿔야 한다.
④ ④는 이미지이다. 이 주소를 그대로 사용해도 되지만 이렇게 하면 인터넷 연결이 끊기면 그림이 표시되지 않는다. 따라서 이 부분은 filename.jpg로 바꾸고 사전 폴더에 'res'라는 하위 폴더를 만들고 이 폴더에 filename.jpg를 넣어두면 딕셔너리 유니버샬(Dictionary Universal)이 알아서 이미지를 가져온다.

이렇게 클리핑한 데이타를 표제어, , 설명순으로 두면 사전 파일의 한 행이 만들어 진다.

불국사다보탑 <div style='font-weight: bold; font-size: 20px; color: #0000ff; font-family: AppleGothic, nGulim;'>불국사^다보탑(佛國寺多寶塔)</div><span style="font-family:tahoma; font-weight:bold;color:#549606; padding-top:-10px; margin-bottom:-0.1;vertical-align:top">「고적」</span><br><ul style="font-family:AppleGothic, Sans-serif;color:#000000; line-height:1.5; padding:5px;list-style: none;"><li><span style="width:45px; font-weight:bold;color:#cb4a00;vertical-align:top; text-align:right"> </span>경주 불국사 경내에 있는 대웅전 앞에 있는 두 탑 중 동쪽에 있는 탑. 통일 신라 경덕왕 10년(751)에 건립된 것으로 추정된다. 높이는 10.4미터 정도이며 화강암으로 되어 있다. 국보 제20호. ≒다보탑「1」. <br></li></ul><center><img src='fd009sz.jpg' width='300'><br></center>

여기서 'font-family'에서 'AppleGothic' 다음에 'nGulim'을 추가한 이유는 nGulim이 고어를 지원하기 때문이다. 즉, 일반문자는 AppleGothic으로 표시하고 고어는 nGulim으로 표시하게 된다. 이런 작업을 idx 1부터 518063까지 하면 된다. 여기서 주의할 것은 사전 파일에 한글을 포함할 때는 반드시 파일을 UTF-8로 저장(dict, ifo 모두 해당)해야 한다. 그렇지 않으면 글자가 깨지거나 잘못된 사전 파일로 뜬다. 당연한 이야기지만 이 작업은 수작업으로 할 수는 없다. 따라서 주변에 프로그램을 짤 줄 아는 사람이 있다면 부탁하는 것이 좋다.

클리핑 어플

나는 PHP로 간단한 클리핑 프로그램을 짠 뒤 한번에 5만개씩 가져오도록 했다. 1000개의 데이타를 30분에 가져오기 때문에 52만개를 가져오려고 하면 총 10일 20시간이 걸린다. 이런 문제 때문에 총 6개의 프로그램을 돌려 2틀 동안 클리핑 했다. 이과정에서 프로그램의 오류, 브라우저의 오류로 약 100만개의 크리핑 데이타[1]를 날렸다. 즉, 프로그램을 이용해도 쉬운 작업은 아니었다.

프로그램을 짤 줄 모르고 주변에 아는 프로그래머도 없다면 내가 짠 프로그램을 사용해도 된다. 단순히 클리핑을 위해 정말 개발새발로 짠 프로그램이라 소스를 이해하기 조금 힘들 수 있다. 다만 주의할 것은 '이 프로그램에 대한 어떠한 질문도 받지 않는다'는 점이다. 따라서 자신의 호스팅 서버에 이 프로그램을 돌려보고 동작하면 웃고 그렇지 않으면 지우면 된다. 아울러 이 프로그램에 대한 질문이 올라오면 답하지 않고 바로 삭제할 생각이다.

프로그램 받기: ClippingKSD.php

프로그램 보기

이 프로그램은 HTML에서 정확히 데이타를 클리핑하기 위해 PHP Simple HTML DOM Parser라는 해석기를 이용한다. 따라서 이 어플을 저장한 폴더에 'simple_html_dom.php' 파일도 함께 넣어 두어야 한다. 이 파일은 PHP Simple HTML DOM Parser 사이트에서 'simplehtmldom_1_11.zip'을 내려받으면 구할 수 있다.

클리핑 데이타

위의 어플을 적당한 이름(예: ClippingKSD.php)으로 저장한 뒤 자신이 운영하는 웹 사이트에 올린다. 그리고 [tg=Chrome]크롬/tg과 같은 브라우저로 PHP 프로그램을 호출하면 어플과 같은 폴더에 'koreaNNNNNN.txt'와 같은 파일이 만들어 진다. 생성 모드가 아니라 추가 모드이기 때문에 클리핑 중간에 브라우저가 죽었다면 어플 소스에서 $min 값만 적당한 값으로 바꿔 다시 실행하면 된다.

클리핑 어플 실행 결과

클리핑된 원시 데이타

파일의 생성일자를 보면 알 수 있지만 9월 5일 부터 오늘까지 클리핑한 것을 알 수 있다. 5만개씩 6개, 두번을 클리핑했기 때문에 이론상 40시간이 걸린다.

위의 그림은 이렇게 클리핑된 원시 데이타이다. 이 데이타를 합치고 스타딕 편집기로 불러와 Build만 하면 사전 파일이 만들어 진다. 다만 처음 어플을 짤 때 고어까지 함께 표시하는 방법을 생각하지 못해 위의 어플을 이용하면 스타일에 'nGulim'이 추가되지 않는다. 또 본문에 포함된 수식이 여러 개면 인터넷 주소가 그대로 남는다. 이런 문제 때문에 어플을 바꾸거나 나중에 EditPlus와 같은 편집기로 한번 재 가공 해주어야 한다. 다음 그림은 이렇게 재가공된 클리핑 데이타이다.

재가공된 클리핑 데이타

따로 올릴 필요는 없지만 소스를 그대로 이용하면 꼭 '재가공'해 주어야 한다는 것을 강조하기 위해 올렸다.

무서운 저작권법

사실 이런 클리핑 프로그램을 제공하는 것 보다는 '스타딕 사전 파일을 제공하는 것'이 이 글을 쓰는 나나 사전을 쓸 사람이나 서로 편하다. 그런데 굳이 방법도 복잡한 클리핑하는 방법을 소개하는 이유는 간단하다. 우리나라의 저작권법이 너무 무섭기 때문이다. '우리나라의 저작권법은 저작자와 사용자 모두를 보호하지 못한다'. 오로지 묻지마 고소를 일삼는 법무법인과 힘있는 사람들에게만 도움이 된다.

그래서 이 사전 파일은 어떤 경우에도 공개하지 않을 생각이다. 삼자 고발까지 가능한 상황이라면 이런 저작권에 문제가 있을 수 있는 파일을 올리는 것 자체가 사이트를 닫는 첩경[2]이기 때문이다. 따라서 이 사전 파일에 대한 요청도 위 어플과 마찬가지로 전혀 받지 않을 생각이다. 또 안면이 있다고 요청해도 줄 생각은 없다. 사전 파일 정보에 필명과 블로그 주소를 넣은 것도 이런 내 의지의 반영이기 때문이다. 따라서 이 사전이 필요한 사람은 직접 클리핑해서 사용하기 바란다.

남은 이야기

크롬, 오페라, 불여우를 이용해서 클리핑을 시도했다. 이 과정에 크롬이 얼마나 신뢰성있는 브라우저인지 다시 한번 확인하는 계기가 됐다. 그 이유는 다음과 같은 상황이 발생했기 때문이다.

2만개의 데이타 클리핑(크롬 6개, 파폭 6개)
총 1000개의 데이타를 클리핑하는데 걸리는 시간은 30분 정도다. 따라서 한시간에 2000개가 가능하다. 2만개는 10시간 분량이고 6개의 탭을 이용했기 때문에 브라우저당 총 12만개를 클리핑하게 된다. 과 불여우로 동시에 걸었기 때문에 총 24만개의 클리핑이 가능하다. 일단 걸어놓고 퇴근한 뒤 확인해 보니 크롬은 12만개를 모두 클리핑했다. 반면 파폭은 오류를 내뱉고 죽어있었다. 즉, 메모리 사용량이 증가하면 서로 다른 프로세스로 동작하는 크롬은 아무 문제 없이 동작하지만 불여우에서는 문제가 생기는 듯 했다.

5만개의 데이타 클리핑(크롬 6개, 오페라 6개)
한 시간에 2000개가 가능하기 때문에 5만개의 데이타는 총 25시간이 걸린다. 크롬에 6개의 탭으로 1~30만까지를 클리핑하도록 하고 오페라로 30만부터 52만까지 클리핑하도록 했다. 50~52만까지의 데이타는 데이타량이 적기 때문에 전날 완료됐다. 그리고 퇴근한 뒤 출근해 보니 컴퓨터가 장난 아니게 느렸다. 확인해 보니 크롬은 각 프로세스당 200M에서 300M의 메모리를 차지하고 있었고 오페라는 약 1G의 메모리를 차지하고 있었다.

시스템이 너무 느려 일단 크롬을 중지한 뒤 다시 클리핑 하도록 했다. 그리고 지금까지 크리핑된 데이타를 확인해봤다. 크롬으로 클리핑한 데이타는 완벽했다. 클리핑 개수와 빠진 인덱스 모두 일치했다. 그런데 오페라로 클리핑한 자료는 조금 문제가 있었다. 확인해 보니 오페라는 상당히 많은 데이타를 반복 클리핑하고 있었다. 즉 데이타를 요청하다 일정 시간이 지나면 다시 데이타를 요청했기 때문에 발생한 현상으로 보였다. 중요한 것은 모든 데이타를 이렇게 클리핑한 것이 아니라 일부 데이타(35~40만까지, 오페라가 오동작하기 전에 죽은 탭)는 정상적으로 클리핑한 것이 확인되었다.

1만개의 데이타 클리핑(크롬 6개, 사파리 4개)
오페라가 실패한 뒤 이번에는 사파리로 해봤다. 기본 엔진이 같기 때문에 괜찮을 것으로 생각했다. 처음에는 사파리도 잘 동작했다. 그리고 시간이 지남에 따라 취소하지 않았는데도 불구하고 데이타를 가져오지 못하는 탭이 있다는 것을 발견했다. 결국 크롬으로 5만개를 모두 클리핑한 뒤 30만 부터 50만까지 크롬으로 다시 클리핑했다. 조금이라도 더 빨리 처리할 욕심으로 여러 브라우저를 사용했지만 결과적으로 브라우저가 죽는 바람에 헛 고생만 한 셈이다. 이래서 크롬을 좋아한다.

마지막으로 파폭으로 시도하기 전에 'Internet Explorer 8'로도 클리핑을 시도했었다. 조건은 파폭과 같았다. 그러나 채 만개도 클리핑하지 못하고 뻗어 버렸다. 이런 브라우저를 쓰는 사람이 조금 불쌍하다[3].

관련 글타래


  1. 크롬은 한 서버로의 연결을 6개 이상 허용하지 않는다. 따라서 조금이라도 빨리할 욕심에 불여우, 오페라, 사파리등을 이용해서 최고 20개의 프로그램을 동시에 돌렸다. 그러나 크롬을 제외하고 끝까지 정상적으로 동작하는 브라우저는 없었다. 
  2. 정치에 관련된 글을 자주 올리기 때문에 더 위험하다. 
  3. 자세한 내용은 크롬, 역시 가장 믿을 수 있는 브라우저를 읽어보기 바란다.