'위키백과'에 해당하는 글 8건

이번에 변환한 위키백과 사전에는 기억해야할 의미가 있습니다.

그것은 드디어 10만 항목을 넘긴 점 입니다.  10만 항목을 넘겼다는 것은 표시되는 숫자가 5자리에서 6자리로 바뀌는 것외에 또 다른 중요한 의미가 있습니다.

영문 위키백과 ( http://en.wikipedia.org )와 한국어 위키백과 ( http://ko.wikipedia.org ) 뿐 아니라 다른 언어로 된 위키백과도 모두 초기화면이 있습니다.  그리고 그 초기화면에는 각 국의 위키백과를 항목수에 따라 분류하고 있습니다.  분류는 보통 25만이상, 10만 이상 등으로 나누는데 드디어 한국어 위키백과가 10만 이상 그룹에 들어간 것입니다.



그 동안 5만그룹 또는 4만그룹에 들어 있었는데 그 그룹의 다른 국가명을 살펴보면 우리나라가 그와 같은 등급이라는 것이 믿기지 않고 억울할 정도였습니다.

우리나라는 위키백과 말고도 궁금증을 해소할 수 있는 포탈의 백과사전이나 커뮤니티, 지X인 같은 대안 매체들이 있어서 다른 나라에 비해 상대적으로 위키백과의 발전이 더디지 않았나 생각해 봅니다.  따라서 위키백과 항목수가 국가 정보화 능력을 반영한다거나 인터넷 문화 성숙도와 관계가 있다고 생각하지 않습니다.  하지만 기왕이면 다른 나라의 위키백과에 크게 뒤쳐지지 않았으면 합니다.  굳이 랭킹으로 따진다면 현재 26위 정도 입니다.

이런 의미있는 버전을 빌드하면서 지난 달에 비해 좀 더 특별하게 개선하거나 보완하지 못한 점이 아쉽습니다.  그리고 한국어 위키백과가 어서 빨리 25만 그룹에도 들어가게 되길 바랍니다.



WRITTEN BY
tinysun

,
위키백과 사이트에 가보니 문서 수가 10만개를 넘었습니다.
축하할 만한 일입니다.



WRITTEN BY
tinysun

,
5월판 mdx 를 빌드하여 투피 에 포스팅 한 지 벌써 보름이 넘었는데 이제 노트를 남김니다. 요새는 wikipedia 백업 사이트의 진행속도를 가늠하지 못하겠습니다.   얼마전 까지만 해도 막 에러가 나서 언제 다음 번 백업이 될까 걱정되었는데 요새는 5일 주기로 백업이 반복되기도 합니다.  

사실 mdx 파일을 만든 5월 6일 이후 5/11, 5/16 에 wikipedia download 사이트에서 백업이 있었습니다.  2일 내로 또 한번 백업 될 것 같군요.  이대로 라면 2달에 1번 릴리즈 하던 것을 1달에 2번 릴리즈 할 수 도 있겠습니다.  릴리즈도 2009년 5월 6일판  이런 식으로 써야겠지요.

참, 앞의 덧글의 강기윤님 께서  wpko_filter.exe 파일을 원하셔서 여기에 첨부합니다.
아이팟을 위해 위키백과를 wedict 과 stardict 포맷으로 변환하여 올린 사이트를 찾았습니다.  (eu81273 님의 블로그)  위키백과의 xml 파일을 바꾸는 코드를 직접 작성하신 것 같아  대단하다는 생각이 듭니다. 한 편, 제가 사용한 방법을 응용하여 stardict 용을 만들어 그 분 것과 비교해보면 어떨지 궁금 합니다.

WRITTEN BY
tinysun

,
http://download.wikipedia.org/backup-index.html  을 처리하는 서버가 1달반 가량 이상했었다.  전세계 wikipedia 의 백업이 되다 말다 하더니 결국 2월에는 MDict 데이터 파일을만들지 못했다.  하마터면 3월도 넘길 뻔 했다.  backup-index 페이지를 모니터링 하다가 덤프가 되자 마자 다운받아서 MDict 데이터 파일을 만들었다.  늘 그랬듯이 투피 에 올렸다.

3월판은 지난 번 판에 비해 표제어 수가 늘면서 파일수가 5개에서 6개로 늘었다.  파일용량이 압축해도 100M를 훌쩍 넘기는데다 투피에 업로드 제한이 있어 5 개 이내로는 맞출 수 가 없었다.   또, 달라진 것은 별거 아니지만 압축 파일명을 위키백과200903.7z 에서 위키백과_v9.03.7z  이런 식으로 바꿨다.  그 밖의 것은 1월판과 동일하다.

백과사전을 주머니에 넣고 다니면서 언제 어디서나 무엇이든 검색하는 것이 아주 편하고 유용하다.  표제어 수가 계속 늘고 있어 최신 판도 계속 만드는데, 투피에서 다운로드한 분들의 호응이 너무 좋아서 의무감 마저 생긴다.

현재 표제어 수가 93,000 여개이다.  두어달 후면 10만건을 넘길 것으로 보인다.  꾸준히 증가하고 있는 것이 고맙고 어찌보면 신통하다.


WRITTEN BY
tinysun

,
http://download.wikipedia.org 에서는 세계 각국 버전의 wikipedia 가 차례대로 순환하며 dump 되고 있다.    한국어 위키백과 dump 가 1바퀴 순환하는데에 지난 11월과 12월사이는 1달이 조금 넘었는데 이번에는 23일 밖에 안걸렸다.  그 사이 dump 서버가 빨라진 것일까?

요사이 kowiki 의 dump 순서가 다가 오는 것을 지켜보고 있다가 아침에 dump 가 된 것을 보자마자 download 하여 잽싸게 MDict 로 변환하였다.   http://todaysppc.com 에 올리기 까지 2시간 남짓 걸렸다.  이렇게 해서 지난 1월 3일 이후 보름여 만에 또 한 무더기의 데이타파일들을 업로드했다.

그런데, About 페이지의 머리글을 2008년 12월 이라고 넣어 버리는 실수를 해버렸다.  어차피 백과사전 본문이 중요한 거니까... 냅 두기로 했다.  다음에는 잘하지 뭐.  다음 dump 는 2월 중순이 될 듯 한데 그 때는 표제어 수가 90,000 을 넘길 것으로 예상된다.


WRITTEN BY
tinysun

,
한 달여만에 또 한번 위키백과 변환 작업을 하였다.

지난 번에는 에러가 나는 부분을 리눅스상에서 스크립트를 사용하여 skip 시켰는데 이번에는 C++ 코드를 작성하여 돌려 보았다.  평소 걸끄러워 보였던 본문 첫 부분의 thumb 문자도 제거해 버렸다.  

제작 방법은 기본적으로 Xcaliber 와 유사하지만 중간에 깨진내용과 thumb 를 처리하기 위한 filtering 프로그램을 한 번 돌려주는 것이 다르다.
 

1. http://download.wikipedia.org/kowiki/ 에서 pages-articles.xml.bz2 파일을 다운받는다. 

2. 알집으로 bz2 압축을 풀고 pages-articles.xml 파일로 이름을 변경한다.

3. WikiToMDict 2.0.exe 을 이용해서 wiki.txt파일로 변환한다.

4. wpko_filter.exe 를 이용해서 wiki_filtered.txt 로 변환한다.

5. MdxBuilder를 이용해서 mdx파일로 변환한다. 
Source : wiki_filtered.txt
Target : 위키백과_v8.12.mdx
Original format : MDict(Html)
Encoding : UTF-8(Unicode)
Title : Korean Wikipedia v8.12
Description :  (About 내용입력)

여기서 MdxBuilder 는 MDict 제작사에서 무료로 제공하는 MDict 사전 빌더 프로그램이다.

중요한 역할을 하는 프로그램은 위키백과의 xml 을 해석하여 MDict 빌더 입력을 위한 txt 파일을 생성하는 프로그램인 WikiToMDict 이다.  

이것은 MDict 에서 제공한 것도 아니고 위키백과에서 제공하는 것도 아니다.

출처인 http://www.hi-pda.com/forum/viewthread.php?tid=357806 로 보아 중국에서 만들어 졌음을 알 수 있다.  그런데 화면에 출력되는 진행 표시를 보면 infodisiac.com 에서 제공하는 툼레이더용 변환툴인 WikiToTome.pl 펄스크립트를 고친 것으로 보인다.

수 많은 위키백과 편집자와 infodisiac 의 TomeRaider 용 오리지널 perl 스크립트 개발자, WikiToMDict 개발자, MDict 개발자의 노력이 들어 있는 파일이다.  그것들에 비하면 내가 들인 노력은 아주 조그마한 것이다.

이 자리를 빌어 한국어 위키백과에 공헌하시는 분들께 또 한 번 감사드립니다.


WRITTEN BY
tinysun

,
지난 번 tomeraider 용 위키백과를 만들었지만 인덱스 기능의 부재 때문에 결국 MDict 용 2008.7 판을 애용하고 있었다.

그러다가 엊그제 위키백과 dump 가 올라온 것을 보고서 바로 MDict 용 판을 만들었다.  

Xcaliber 님이 제시한 방법으로 만들어 나갔지만 순탄하지는 않았다.  깨진 표제어가 있었고 긴 표제어가 있어서 편집을 조금 해야 했다.

어쨌든 100MB 가까이 되는 mdx 파일을 공들여 만들어 todaysppc.com 에 올렸더니 생각보다 인기가 많았다.  잘 했다는 생각이 든다.

이 자리를 빌어 위키백과 표제어 80,000건 달성을 축하합니다.

WRITTEN BY
tinysun

,

위키백과 ebook

위키백과 2008. 10. 25. 09:09
영문 wikipedia ebook 포맷(No image full version .tr3 포맷)을 PDA 에 담아서 오프라인으로 사용하였다.  wikipedia ebook 과 imdb ebook 으로 유명한 tomeraider 와 함께. 크기는 약 1GB 로 2GB 플래쉬 메모리에 넣고도 남았다.

영어의 압박으로 해석하느라 불편함이 있었지만 한글 위키백과는 ebook 버전을 찾을 수 없으니 어쩔 수 없었다.  그래도 방대한 양의 백과사전을 주머니에 넣고 다니면서 임의의 항목을 언제 어디서나 바로 조회하여 궁금함을 달랠 수 있어서 아주 좋았다.

그런데 얼마전 맘마미아 영화를 보고 배우들의 프로필을 알려고 PDA 에서 찾았지만 해당 항목의 내용이 부실해서 아쉬웠다.

wikipedia ebook 이 2006년도 판이라 2008년 개봉 영화에 관해서는 자세한 내용은 없고 제작예정이라는 정보뿐이었다.  최신 wikipedia 용량이 3GB+ 나 되어서 4GB 짜리 메모리카드를 사서 넣으니 좀 자세한 정보가 나왔다.  아마 다음 버전은 4GB 메모리로도 부족할 정도로 방대해 지지 않을까 생각한다.

어쨌든 이런 이유로 PDA 메모리가 업그레이드 되었다.

그런데 메모리카드에 3GB+ 파일을 넣고도 수백메가가 남으니 여기에 한글 위키백과가 있으면 좋겠다는 생각이 점점 커지게 되었다.  한글 위키백과는 영문에 비해 표제어수가 1/10 아래라서 300MB 도 안될 것 같았기 때문이다.  

하지만 또 아무리 인터넷을 뒤져도 한글판 위키백과 ebook 을 찾을 수 없었는데 이번에는 
http://infodisiac.com/Wikipedia/ProcedureTR3.html 를 찾을 수 있었다. 하지만 사이트 내용을 보면 지원되는 언어는 안타깝게도 DE (German), EN (English), EO (Esperanto), ES (Spanish), FR (French), NL (Dutch) or PL (Polish) 뿐이다.

그래도 혹시나 해서 절차를 따라 갔지만 한글 버전에는 역시 안 통했다.  심지어 돌다가 멈춰버린다. 그래도 조금만 손대면 될 수도 있겠다는 생각에 마음먹고 perl 스크립트 삽질을 시작했다.  

결국 일요일 하루와 며칠간의 아침잠을 헌납하여 숯한 시행착오 끝에 한글 tr3 파일을 만들 수 있었다.  처음 표제어 검색을 하려면 수만건의 표제어를 스크롤하여서 찾아야 하는 불편함이 있지만 컨텐츠간의 하이퍼링크는 정확히 작동했다.

이제 영문 wikipedia 와 한글 위키백과를 PDA의 4GB 메모리카드에 넣어 한 손에 들고 다닐 수 있게 되었다.  ^^;

허접 하지만 가져가서 써보고 싶은 분을 위해 링크를 걸어둔다.




WRITTEN BY
tinysun

,