좋은 정보 감사합니다.
저는 동아에서 나온 사전 CD의 데이터베이스를 직접 수정하면서 사용 중인데, 클리핑은 엄두도 못내고 있었습니다. 제 경우 제공해 주신 PHP 파일로는 오류가 나서 잠시 접어두었다가, 아침에 221번 행과 222번 행에서 "/.../is"를 "~...~is"로 변경하여 현재 클리핑을 잘 하고 있는 중입니다. 크롬에 표제어 하나하나가 추가되고 있습니다.
이제 시간과의 싸움이 남았네요.
그리고 국가에서 국민의 세금으로 만든 자료나 보고서 등은 "저작권"이 없어야 맞는 것 같습니다. 국립국어원의 사전 제작 사업도 정확하게 어떤 예산으로 진행되었는지는 모르겠으나, 국민의 세금으로 진행된 것이 아닌가 합니다.
참고로 여느 관공서 사이트와 마찬가지로 우리 청와대 사이트의 경우 하단에 "ALL RIGHTS RESERVED."라는 간단한 문구로 권리를 주장하고 있지만, 미국의 백악관 사이트의 경우 별도로 작성된 페이지에서 "Pursuant to federal law, government-produced materials appearing on this site are not copyright protected."라는 문구를 찾을 수 있습니다. 그냥 습관적으로 쓰는 "ALL RIGHTS RESERVED."라는 문구가 정부 기관, 관공서의 입장에서 수용자인 국민이나 나아가 세계인의 이해와 권익을 생각해볼 필요가 있다고 보여집니다.
클리핑 사례를 통해 저작권에 대한 언급을 하셔서 몇 자 추가해 보았습니다.
이전 글에 있지만 2002년판이 국가예산 112억이 들어간 것입니다. 여기에 7년이니 들어간 예산은 더 많을 것입니다. 따라서 공개가 원칙입니다. 그런데 2009년판은 아예 공개를 안하고 있으니... 조금 그렇더군요.
그리고 동작하는 프로그램이 동작하지 않는다고 해서 확인해 보니 마크다운 포매터가 쓸데없이 EM 태그를 추가해서 발생한 일이더군요. 따라서 본문에 소스를 추가하지 않고 따로 내려받을 수 있도록 했습니다. 제가 보기에 아무래도 다시 클리핑하셔야 할 것같습니다. 클리핑은 되지만 일부 하이라이팅이 먹지 않을 수 있습니다.
알고 있습니다. 그런데 찾아 보면 아시겠지만 공백을 가지고 있는 표제어가 따로 있습니다. 그래서 붙인 것입니다. 그리고 이 부분은 옳고 그름의 문제가 아닙니다. 사전을 만들면서 어떤 방법이 검색에 더 용이한가를 고려한 것입니다. 보통 DB에 저장하는 인덱스는 공백을 제거합니다. 그래야 검색에 용이하기 때문이죠. 표제어는 바로 인덱스에 저장되는 부분이고요. 그래서 인덱스와는 표제어에는 ^가 그대로 표시되도록 한 것이고요.
예, 데스크탑이 없습니다. 이런 작업은 걸어 놓고 나가거나 잠을 자야하는데...
사실 국어사전을 구매하려다가 너무 부실해서 도아님 글에 사전을 만들어 쓸 수 있다는 것을 스친듯 본 기억이 나서 자세히 읽어보다 좌절을 ㅜ.ㅜ
영어사전(영한사전말고 영어권 국민의 국어사전)과 비교 할수록 좌절감이 느껴지더군요.
도아님의 글을 보고 클리핑을 시도하는 사람입니다. 폐가 되지 않는다면 도아님이 일러두신 범위 안에서 질문을 몇가지 드리고 싶습니다.
첫번째로 크롬호출입니다. 호출이라고 하셨는데 '호출'이라는 것을 좀더 자세하게 설명해 주셨으면 합니다. 콘솔모드에서 작업해봤지만 무슨 이유에선지 클리핑을 하던중 멈춰버리더군요. 오류도 많구요. 아무래도 언급하신 크롬을 사용해야 할것 같아서 입니다.
두번째로 재 가공법입니다. 스타딕 사전파일의 구성을 알고는 있지만 정규식의 장벽에 막혀 재가공을 어떤 부분에서 어떻게 해야하는지 막막합니다. 정규식에 힌트라도 주시면 연구라도 해보겠지만 말이죠... 제가 이제 고등학교를 들어가서 컴퓨터를 만질 시간이 1주일정도 밖에 없는지라(물론 주말은 가능하겠지만..) 입학전에 클리핑을 성공하고 싶네요...
도아님의 소개에 따라 몇일을 고생하다가 결국 잘 되었습니다.
중간또 무슨 에라가 발견될지는 모르지만요 ㅎㅎㅎ
몇가지 경험담입니다.
1. 회사네트워크에 방화벽이 내지 보완장비들을 많이 거치면 100개 또는 천개하다가 멈추어 버립니다. 결국 방화벽 밖에서 했습니다.
2. 크롬으로 하다가 포기하고, 검색해서 php5 윈도우 인스톨버전 c:\\php 폴더에 깔고 거기에 도아님소개해 주신 php소스 넣고 결국 명령창에서 c:\\php>php 100000.php 뭐 이런 식으로 콘솔에서 했습니다.
3. 5만개씩 나누어 실행창(cmd) 6개 씩 각각2대를 이용해 2일 동안 실행되었구요 509962개가 모아졌씁니다.
4. 에디터에서 '마름모모양 활용' (php소스를 utp-8로 저장안했나보죠 제가?) 이란 부분이 깨져있는 거 고치고, 고어표시하도록 태그 고치고
5. 에디터에서 찾기에서 http://로 인터넷주소 표시된 부분 남아있는 것 다시 고치고, 그부분 이미지 다시 다운받아넣고 100여개가 있더군요 노가다였습니다. ^^
6. Txt 화일이 완성되면 컴파일 거쳤고 , ifo 화일에 끝에 m을 h로 고쳐주고
7. 이미지는 res 폴더 밑에 넣어 함께 7집으로 묶어 넣고 사전에서 인스톨 설치했습니다. (참고 전 순정폰)
다시 한번 감사드려요 ^^ 친절하게 사용법을 잘 만들어 주셔서요
8. icon_idiom.gif 와 icon_prov.gif 를 추가로 Res 폴더에 다운해서 넣어 주어야 하네요 그래야 속담, 관용이란 아이콘이 차후 사전에서 보이네요
9. 본문안에 정의글 부분에 대한 스타일시트가 php소스에 누락되었는지 없어서 굵게 표기되지 못하네요. .Definition { width:640px} 이부분이 추가되어야 할 것 같습니다. 혹시 차후 하시는 분들 참고하세요 .. T.T 이미 다 클리핑했는데.. 그렇다고 또하는기는 뭐 하네요.. 혹시 다시 클리핑하지 않고 txt 상태의 자료에서 에디터로 수정할 방도가 있으면 알려주세요
도아님 덕분에 좋은 사전을 제작할 수 있었습니다.
프로그램을 공유해 주셔서 고맙습니다.
전 표제어가 514109 나오네요. 중간에 몇번 서버와 연결이 불안정 해서 조금 빠진 것 같습니다.
서버가 너무 자주 끊겨서 txt 파일이 200여개쯤 나오니 다시해볼 엄두는 안나네요.
finesoul님과 다르게 저는 속담 관용이 잘 나옵니다.
아마 res폴더 내에 default.css를 넣어주지 않아서 그런게 아닌가 싶네요.
아이폰이 너무 유용해 졌네요. 다시한번 감사드립니다.
좋은 자료 감사합니다..
쿠어엉님의 블로그를 통해 이 자료를 보았습니다... 현재 클리핑 중입니다..
도아 님의 자료를 약간 수정을 하여 function 부분을 분리를 하였고, 클리핑이 되지 않은 자료의 번호를 기록하게 하였습니다..
그래서 중지후에 다시 실행을 할때 클리핑이 된 갯수와 에러의 갯수를 합하여 다음 번호부터 클리핑하게 만들었습니다..
에러 파일이 없으니 클리핑한 자료만 보고 재 클리핑 하였더니 중복된 자료가 클리핑이 되어서요...
그리고 오늘 확인을 해보니 국립국어원에 마지막 단어가 518419 이더군요.. 전체를 받은 후 표제어 수가 얼마나 되는지 확인을 해봐야겠습니다... 에러 파일을 이용해 재 클리핑을 해볼까하는데 몇개 test 를 해보면 국어원 사이트에서 없는 것이 더군요.. 클리핑 중 에러나 난 부분은 아닌 듯한데, 확인해보고 올리도록 하겠습니다..
위에 finesoul 님의 9번은 어떤 내용인지 확인 후 수정을 할려고 했는데, 잘 모르겠더군요.. 그래서 일단 그냥 클리핑을 했는데, 좀더 확인을 해보고 에디터에서 수정이 가능한지 확인해야겠습니다..
추석 연휴첫날에 했는데 도스창으로 4개를 띄워서 했습니다.
며칠 걸릴 줄 알았는데 멈춤도 없이 아주 잘 되더군요.
클리핑 시간은 10시간도 안걸렸습니다. 어떤분들은 일주일이 걸렸다고 해서 걱정했는데 ㅎㅎ
이미지가 jpg인 것은 잘 제대로 되는거 같은데 gif인 것은 http://~~로 경로가 남아서 수정해줘야하더라구요.
손으로 하나씩 하면 힘드니까 에디터로 [바꾸기]를 이용해서 한번에 바꾸면 편합니다.
한가지 팁이라면 저는 iStardict 쓰는데 폰트 크기설정에 따라서 AppleGothic이랑 nGulim 이 바뀌더라구요. 글씨크기를 116%인가 이하로 설정하면 AppleGothic글씨체로 표현되고(당연 고어는 사각형표시), 117% 이상으로설정하면 nGulim으로 표시됩니다.(고어 이상없이 잘 나옵니다.)
하나의 댓글로 달면 되는 글을 두개의 댓글로 달면 도배로 차단됩니다. 아울러 저는 비밀 댓글에는 답하지 않습니다. 댓글 달기 전에 최소한 댓글 입력창 옆에 있는 [비밀글로 질문하지 않았으면 합니다.](http://offree.net/entry/Top-Secret)라는 글 정도는 읽고 댓글 달기 바랍니다.