컴파일

이번에는 사전 만들기의 세번째 강좌로 클리핑된 데이타를 이용해서 스타딕 사전(Stardict Dictionary)을 만드는 방법을 설명하겠다. 클리핑만 정확하게 됐다면 이 클리핑 데이타를 이용해서 사전 파일을 만드는 것은 아주 간단하다. 스타딕 에디터(Stardict Editor)로 컴파일만 하면 바로 .dict, .idx, .ifo 파일이 만들어지기 때문이다. 스타딕 에디터는 스타딕 홈페이지에서 받을 수 있다. 다만 스타딕 에디터는 GTK를 필요로 한다. 따라서 스타딕 에디터(Stardict Editor)를 설치하는 방법은 세가지이다.

사전 만들기

컴파일

이번에는 의 세번째 강좌로 클리핑된 데이타를 이용해서 스타딕 사전(Stardict Dictionary)을 만드는 방법을 설명하겠다. 클리핑만 정확하게 됐다면 이 클리핑 데이타를 이용해서 사전 파일을 만드는 것은 아주 간단하다. 스타딕 에디터(Stardict Editor)로 컴파일만 하면 바로 .dict, .idx, .ifo 파일이 만들어지기 때문이다. 스타딕 에디터는 스타딕 홈페이지에서 받을 수 있다. 다만 스타딕 에디터는 GTK를 필요로 한다. 따라서 스타딕 에디터(Stardict Editor)를 설치하는 방법은 세가지이다.

먼저 스타딕 사전을 설치하는 방법이다. 스타딕 사전에 GTK 런타임이 포함되어 있기 때문이다. 두번째 방법은 스타딕 에디터와 GTK 런타임을 따로 설치하는 방법이다. 그러나 사전을 만들고 확인할 때는 스타딕 사전을 이용하는 것이 좋기 때문에 따로 설치하는 것 보다는 스타딕 사전을 설치하고 사전을 설치한 폴더에 스타딕 에디터를 복사하는 것이 더 좋다.

그러나 나처럼 GTK 런타임을 싫어하는 사람이라면 내가 만든 포터블 스타딕 사전을 설치해도 된다. 이 파일에는 '스타딕 사전'외에 '스타딕 에디터', 'GTK 런타임'까지 포함되어 있고 압축을 풀어 실행하면 아무 문제없이 실행되기 때문이다. 따라서 다음 URL에서 원하는 파일을 내려받아 일단 스타딕 사전을 먼저 설치한다. 이 강좌에서는 내가 만든 포터블 스타딕 사전을 사용하는 것으로 하겠다.

사전 컴파일

클리핑에 대한 글에서 소개한 어플로 1에서 부터 518063까지 돌려다면 korea518063.txt라는 클리핑 데이타가 만들어 진다. 나처럼 5만개 단위로 끊어서 클리핑을 했다면 korea50000.txt부터 korea518063.txt까지의 파일이 만들어 진다. 통으로 클리핑한 것이 아니라면 클리핑 데이타를 컴파일하기 전에 다음과 같은 명령을 이용해서 먼저 클리핑한 데이타를 합쳐야 한다.

echo y|copy korea50000.txt+korea100000.txt+korea150000.txt+korea200000.txt
    +korea250000.txt+korea300000.txt+korea350000.txt+korea400000.txt+korea450000.txt
    +korea500000.txt+korea518063.txt ..\Stardict\korea.txt

잠깐만

여기서 echo y는 같은 파일 있을 때 덮어 쓰기 위해 추가한 것이다. 또 명령을 보면 알 수 있지만 이 명령을 실행하면 클립된 데이타를 Stardict이라는 폴더의 korea.txt라는 파일로 저장하는 것을 알 수 있다.

합쳐진 사전 파일이 만들어 졌다면 다음 절차에 따라 클리핑 데이타를 컴파일한다. 이때 주의할 것은 클리핑된 데이타 파일의 저장 형식이다. 표준국어대사전에도 한글이 포함되어 있기 때문에 이 파일도 'UTF-8로 저장'해야 한다. 클리핑 어플을 저장할 때 UTF-8로 저장하면 저장된 데이타도 UTF-8로 저장된다. 따라서 이 부분은 다음 단계로 진행하기 전에 꼭 확인하기 바란다.

  1. 'Stardict 에디터'를 실행하고 'Compile' 탭의 'Browse...' 단추를 클릭해서 클리핑된 데이타 파일(예: Korea.txt)를 지정한다.
  2. 'Build' 단추를 클릭한다. 컴파일에 문제가 없다면 그림처럼 단어의 수가 표시되며 컴파일이 끝난다. Biuld 단추 왼쪽에는 'Tab file'처럼 사전 파일의 형식을 선택할 수 있다. 그러나 이 부분은 굳이 손댈 필요가 없는 부분이다.

잠깐만

컴파일.txt 파일로 .dict, .idx, .ifo 파일을 만드는 과정이라면 디컴파일은 반대로 .dict, .idx, .ifo로 편집 가능한 .txt 파일을 만드는 과정이다. 디컴파일할 때는 .ifo 파일을 지정하고 Decompile 단추를 클릭하면 된다.

사전 파일의 이해

클리핑된 사전 파일을 컴파일 하면 .dict, .idx, .ifo의 확장자를 같는 세개개의 파일이 만들어 진다. .dict사전의 표제어와 설명이 담겨있는 파일이며, .idx표제어의 색인을 담고 있는 인덱스 파일이다. 이 두개의 파일은 자동으로 만들어지는 것이며 편집할 필요가 없기 때문에 신경쓰지 않아도 된다. 중요한 것은 사전의 정보를 담고 있는 .ifo 파일이다. 컴파일된 .ifo 파일에는 다음과 같은 정보가 담겨 있다.

StarDict's dict ifo file
version=2.4.2               // 스타딕 사전의 판번호
wordcount=510440            // 컴파일된 단어의 갯수
idxfilesize=9899794         // 색인 파일의 크기
bookname=korea              // 사전 파일의 이름
sametypesequence=m          // 사전의 유형

그러나 Format for StarDict dictionary files라는 문서를 보면 이외에 다음과 같은 정보도 지원하는 것을 알 수 있다.

author=도아                   // 사전 파일의 저자
[email protected]       // 저자의 전자우편 주소
website=https://offree.net/ // 저자의 웹사이트 주소
description=                // 사전에 대한 설명
항목 설명
version, wordcount, idxfilesize 수정할 필요가 전혀 없는 항목이다. 단어의 갯수를 속이기 위해 'wordcount'를 바꿔도 동작에는 아무런 문제가 없다. 그러나 굳이 바꿀 필요는 없는 항목이다.
bookname, author, email, website 사전을 만드는 사람이 원하는대로 바꿀 수 있는 항목이다. 이 항목 중 'bookname' 항목만 딕셔너리 유니버샬에 표시된다.
description 사전에 대한 설명을 적는 부분이다. 다른 HTML 태그는 사용할 수 없지만 줄바꿈을 위해 BR 태그는 사용할 수 있다.
sametypesequence 가장 중요한 항목이다. 사전이 어떤 형태의 사전인지 알려 주는 부분이다. 기본값은 'm'이며 표준국어대사전처럼 표제어와 설명에 HTML 태그가 포함되어 있다면 'h'로 바꿔 주어야 한다. 이 항목에 대한 자세한 설명은 Format for StarDict dictionary files을 참조하기 바란다.

따라서 사전에 대한 조금 더 정확한 정보를 추가하고 싶다면 다음처럼 .ifo 파일을 바꾼 뒤 UTF-8 형식으로 저장하면 된다.

StarDict's dict ifo file
version=2.4.2
wordcount=510440
idxfilesize=9899794
bookname=표준국어대사전
sametypesequence=h
author=도아
[email protected]
website=https://offree.net/
description=만든 사람: 도아<br>
제작 강좌: 도아의 세상사는 이야기(https://offree.net/)<br>
만든 목적: 혼자서 사용
<br>만든 방법: 웹 사이트 클리핑<br>
제작 원본: 국립국어원 표준국어대사전<br>
<br>
표준국어대사전은 국립국어원의 표준국어대사전을 클리핑한 것입니다. 순수하게 혼자 사용할 목적으로 만들었으며 따라서 다른 사람에게 배포되는 일은 없을 것입니다. 또 이 사전은 혼자 쓰기위해 만든 것이므로 이 사전 파일을 사용하는 사람이 있다면 불법으로 유출된 것입니다. 이 사전 파일을 웹에 올려 배포하거나 내려받아 설치하는 것 모두 저작권법을 어기는 것일 수 있으므로 반드시 주의하기 바랍니다.

사전 확인

아이팟 터치(iPod Touch)에 표준국어대사전처럼 용량이 큰 사전을 설치하는 시간은 상당히 오래 걸린다. 파일을 압축하는 시간, 아이팟 터치로 내려받는 시간, 압축을 푸는 시간, 사전을 인덱스하는 시간을 고려하면 한시간은 족히 넘어간다. 따라서 아이팟 터치에 사전을 바로 설치하기 보다는 스타딕 사전으로 사전이 정상적인지 먼저 확인하는 것이 좋다.

일단 만들어진 .dict, .idx, .ifo 파일은 스타딕 에디터를 실행한 폴더에 저정된다. 이 파일들을 <스타딕 설치폴더>\dic 폴더에 모두 복사한다. 이미지를 포함하고 있기 때문에 dic 폴더에 res 폴더를 만들고 내려받은 이미지까지 모두 복사한다. 이렇게 한 뒤 스타딕을 실행해서 검색해 보면 사전이 정상적으로 설치됐는지 확인할 수 있다.

또 오른쪽 아래의 아이콘 중 세번째 아이콘(사전 관리)를 클릭한 뒤 사전 목록 탭에서 표준국어대사전을 두번 클릭하면 그림처럼 .ifo에 입력한 정보가 표시된다.

관련 글타래