안녕하세요.
갈퀴 사이트를 복구한 지가 얼마 안 됐지만 더 대대적인 개편을
계획하고 있습니다.
이제 우리말샘과 같은 큰 데이터를 import해서 관리해야 하는
시점입니다. 말이야 단어를 갖다 쓴다고는 하지만 세상 일이 그리
간단하게 되지 않죠? 검토를 해 봤지만 여러 정보가 부족해서 단순히
import해서 그대로 쓸 수 있어 보이지는 않습니다. 여전히 향후에도
자동이든 수동이든 지속적으로 데이터를 다듬는 작업이 필요합니다.
문제는 우리말샘도 그렇고 데이터 종류마다 필드가 다르고 같은
정보도 다르게 쓰여 있는데 그때그때 import 프로그램을 만들고 갈퀴
사이트 데이터베이스 구조를 바꾸고 사이트 디자인을 바꾸기는
어렵다는 겁니다. 제 웹 지식이 기초적인 수준이기도 하고, 그렇다고
웹을 잘 아시는 다른 분들에게 의존하기도 어렵고요.
그래서 아예 개념을 바꿔서 기존에 django로 만들어진 galkwi 웹을
버리고 이제 단어 데이터를 위키 안에서 관리해 보려고 합니다.
galkwiki? 갈퀴 사이트는 여러 사람들의 기여로 정보를 생산하는
점에서 여러가지로 위키와 닮아 있습니다. 갈퀴에서 변경 히스토리를
저장하는 데이터베이스 스키마부터 미디어위키의 페이지 스키마를
참고해서 만들었습니다. 물론 여러분들이 흔히 보는 위키 사이트들
처럼 눈에 보이는 문서를 작성하는 위키가 아닌 정형화된 데이터를
관리할 수 있는 위키가 필요합니다.
- Semantic MediaWiki(SMW)를 생각하고 있습니다.
https://www.semantic-mediawiki.org/ 각 단어 하나가 위키 페이지
하나가 됩니다. 각각의 단어 정보 필드를 SMW에서 이해되는 형태로
입력합니다.
- 그렇다고 데이터 편집을 위키 편집처럼 텍스트로 편집하지는 않을
것이고 확장 기능을 통해 적절한 form을 제공할 것입니다. 예:
https://www.semantic-mediawiki.org/wiki/Extension:Page_Forms
- 우리말샘 등 외부 데이터는 가능한 원본 데이터 전부를 그대로
import합니다. 향후 외부데이터가 업데이트됐을 때 동기화를
용이하게 하기 위한 조치입니다. 이걸 기반으로 자동/수동 편집이
들어갈 것이고 그렇게 가공된 데이터를 외부에서 사용합니다.
- 맞춤법 검사가 아닌 다른 용도로 쓰기에도 좋습니다. 오픈소스
라이선스가 허용하는 범위에서 다양한 소스에서 데이터를 가져와서
다양한 용도로 이용할 수 있습니다. 물론 맞춤법 검사에 필요한
데이터를 입력하겠지만, 얼마든지 다른 용도의 데이터를 추가할
수도 있고 다른 용도로 쓸 수도 있습니다. 문법 검사 프로젝트가
쓸만한 수준이 되면 필요한 문법 규칙 데이터 관리도 여기서 할 수
있을 것 같고요.
- 위키처럼 자유롭게 편집할 수 있지만 흔히 보는 위키와 다르게
리뷰를 거친 편집만 외부에서 사용되도록 합니다. 여기에 쓸 수
있는 적당한 미디어위키 확장 기능도 보입니다. 예:
https://www.mediawiki.org/wiki/Extension:FlaggedRevs
- 편집과 리뷰는 최대한 자동화합니다.
- export 형식은 SMW에서 제공해 주는 RDF 형식을 사용합니다.
- 지금까지 검토하기에는 고유의 미디어위키 확장을 만들 필요는 없어
보입니다. 하지만 필요하다면 만들 계획입니다.
시험 운영 뒤에 10월 중에 전환할 예정입니다. 위키로 전환되고
데이터 import가 되면 이제 갈퀴에서 할 일은 예전보다 더 명확해질
겁니다. 우리말샘만 해도 100만 단어이고, 유효한 단어만 추려내면
20만 단어가 좀 넘게 됩니다. 예전처럼 맞춤법 검사에서 빠진 단어를
조회한 다음 입력하는 일은 중요성이 낮아질 것이고, import된 데이터
중에서 부족한 정보를 보충하는 일에 집중할 수 있습니다. 어떤
정보가 부족한지도 (위키 스페셜 페이지를 통해) 명확히 알 수 있어서
진행 상황이 분명해질 것이고요. 그렇다고 반복작업만 하는 건 아니고
위키에 쿼리를 넣어보면서 데이터를 어떻게 가공하느냐의 문제를
고민해 볼 수 있는 영리한 플랫폼도 될 수 있습니다.
갈퀴는 생각대로 제대로 동작하지 않은 점이 많았습니다. 여러가지
이유가 있었겠지만 플랫폼이 너무 고정되어 있었기 때문에 기민하게
대처하지 못한 부분이 컸죠. 위키로 전환한다고 단어 데이터 관리가
갑자기 이상적으로 되진 않겠지만, 위키에서는 여러가지가 고정되어
있지 않고 할 수 있는 일이 많기에 발전된 방향으로 갈 수 있는
기반이 될 거라고 생각합니다.