갈퀴 개편 계획 - 위키로 전환

45 views
Skip to first unread message

Changwoo Ryu

unread,
Sep 17, 2017, 5:19:37 AM9/17/17
to spellc...@googlegroups.com
안녕하세요.

갈퀴 사이트를 복구한 지가 얼마 안 됐지만 더 대대적인 개편을
계획하고 있습니다.

이제 우리말샘과 같은 큰 데이터를 import해서 관리해야 하는
시점입니다. 말이야 단어를 갖다 쓴다고는 하지만 세상 일이 그리
간단하게 되지 않죠? 검토를 해 봤지만 여러 정보가 부족해서 단순히
import해서 그대로 쓸 수 있어 보이지는 않습니다. 여전히 향후에도
자동이든 수동이든 지속적으로 데이터를 다듬는 작업이 필요합니다.
문제는 우리말샘도 그렇고 데이터 종류마다 필드가 다르고 같은
정보도 다르게 쓰여 있는데 그때그때 import 프로그램을 만들고 갈퀴
사이트 데이터베이스 구조를 바꾸고 사이트 디자인을 바꾸기는
어렵다는 겁니다. 제 웹 지식이 기초적인 수준이기도 하고, 그렇다고
웹을 잘 아시는 다른 분들에게 의존하기도 어렵고요.

그래서 아예 개념을 바꿔서 기존에 django로 만들어진 galkwi 웹을
버리고 이제 단어 데이터를 위키 안에서 관리해 보려고 합니다.
galkwiki? 갈퀴 사이트는 여러 사람들의 기여로 정보를 생산하는
점에서 여러가지로 위키와 닮아 있습니다. 갈퀴에서 변경 히스토리를
저장하는 데이터베이스 스키마부터 미디어위키의 페이지 스키마를
참고해서 만들었습니다. 물론 여러분들이 흔히 보는 위키 사이트들
처럼 눈에 보이는 문서를 작성하는 위키가 아닌 정형화된 데이터를
관리할 수 있는 위키가 필요합니다.

- Semantic MediaWiki(SMW)를 생각하고 있습니다.
https://www.semantic-mediawiki.org/ 각 단어 하나가 위키 페이지
하나가 됩니다. 각각의 단어 정보 필드를 SMW에서 이해되는 형태로
입력합니다.

- 그렇다고 데이터 편집을 위키 편집처럼 텍스트로 편집하지는 않을
것이고 확장 기능을 통해 적절한 form을 제공할 것입니다. 예:
https://www.semantic-mediawiki.org/wiki/Extension:Page_Forms

- 우리말샘 등 외부 데이터는 가능한 원본 데이터 전부를 그대로
import합니다. 향후 외부데이터가 업데이트됐을 때 동기화를
용이하게 하기 위한 조치입니다. 이걸 기반으로 자동/수동 편집이
들어갈 것이고 그렇게 가공된 데이터를 외부에서 사용합니다.

- 맞춤법 검사가 아닌 다른 용도로 쓰기에도 좋습니다. 오픈소스
라이선스가 허용하는 범위에서 다양한 소스에서 데이터를 가져와서
다양한 용도로 이용할 수 있습니다. 물론 맞춤법 검사에 필요한
데이터를 입력하겠지만, 얼마든지 다른 용도의 데이터를 추가할
수도 있고 다른 용도로 쓸 수도 있습니다. 문법 검사 프로젝트가
쓸만한 수준이 되면 필요한 문법 규칙 데이터 관리도 여기서 할 수
있을 것 같고요.

- 위키처럼 자유롭게 편집할 수 있지만 흔히 보는 위키와 다르게
리뷰를 거친 편집만 외부에서 사용되도록 합니다. 여기에 쓸 수
있는 적당한 미디어위키 확장 기능도 보입니다. 예:
https://www.mediawiki.org/wiki/Extension:FlaggedRevs

- 편집과 리뷰는 최대한 자동화합니다.

- export 형식은 SMW에서 제공해 주는 RDF 형식을 사용합니다.

- 지금까지 검토하기에는 고유의 미디어위키 확장을 만들 필요는 없어
보입니다. 하지만 필요하다면 만들 계획입니다.

시험 운영 뒤에 10월 중에 전환할 예정입니다. 위키로 전환되고
데이터 import가 되면 이제 갈퀴에서 할 일은 예전보다 더 명확해질
겁니다. 우리말샘만 해도 100만 단어이고, 유효한 단어만 추려내면
20만 단어가 좀 넘게 됩니다. 예전처럼 맞춤법 검사에서 빠진 단어를
조회한 다음 입력하는 일은 중요성이 낮아질 것이고, import된 데이터
중에서 부족한 정보를 보충하는 일에 집중할 수 있습니다. 어떤
정보가 부족한지도 (위키 스페셜 페이지를 통해) 명확히 알 수 있어서
진행 상황이 분명해질 것이고요. 그렇다고 반복작업만 하는 건 아니고
위키에 쿼리를 넣어보면서 데이터를 어떻게 가공하느냐의 문제를
고민해 볼 수 있는 영리한 플랫폼도 될 수 있습니다.

갈퀴는 생각대로 제대로 동작하지 않은 점이 많았습니다. 여러가지
이유가 있었겠지만 플랫폼이 너무 고정되어 있었기 때문에 기민하게
대처하지 못한 부분이 컸죠. 위키로 전환한다고 단어 데이터 관리가
갑자기 이상적으로 되진 않겠지만, 위키에서는 여러가지가 고정되어
있지 않고 할 수 있는 일이 많기에 발전된 방향으로 갈 수 있는
기반이 될 거라고 생각합니다.

Changwoo Ryu

unread,
Oct 29, 2017, 11:53:26 AM10/29/17
to spellc...@googlegroups.com
아직 테스트 중이지만 오픈했습니다.

https://galkwiki.pyok.org/

시맨틱 미디어위키 처리 속도가 느려서 RDF 전용 DB를 따로 돌려야 되나 생각이 드는군요;

Changwoo Ryu

unread,
Nov 9, 2017, 7:18:30 PM11/9/17
to spellc...@googlegroups.com
이제 정식으로 전환하고 이 위키 사이트의 데이터 기반으로 릴리스할 예정입니다.


- 부족한 정보는 있지만 일단 릴리스부터 하고 보완해 나가기로 합니다.

- 리뷰 기능 (FlaggedRev) 및 폼 만들기 (PageForms) 기능은 어떻게 사용해야 할지 아직 파악하지 못했습니다. 지금은 위키 텍스트를 직접 편집해야 합니다.

- 보시면 아시겠지만 [[속성이름::속성값]] 형식으로 지정하거나, {{#set:속성이름=속성값}} 식으로 지정할 수 있습니다.

- 대부분은 스크립트로 자동 편집한 내용입니다. 가능하면 자동 편집 방법을 고안해 보는 게 좋습니다.

- RDF export 사용은 취소되었습니다. 시맨틱 미디어위키에는 페이지의 모든 속성을 export하는 기능 밖에 없는데, 그래서 소스 크기도 많이 커지고, 코딩할 수고도 만만치 않아 필요한 속성만 뽑아내서 json을 만드는 스크립트를 만드는 것으로 대신했습니다.

- 현재 국립국어원 한국어기초사전 (https://krdict.korean.go.kr/) 데이터가 들어 있습니다. 이 사전의 단어를 사용한 버전을 곧 릴리스할 예정입니다. 이 사전이 좋을 것 같지만 오류가 굉장히 많습니다. 기존 갈퀴 데이터와 비교하면서 품사가 잘못 쓰여져 있는 동사/형용사도 많이 발견했고요.(그래도 한국어기초사전 사이트의 "의견 제시"에 올리면 빠르게 고쳐집니다.)

Reply all
Reply to author
Forward
0 new messages