지난주 3월 11일부터 표준국어대사전이 개편되면서 라이선스 정책이 CC-by-SA 2.0 KR로 바뀌었습니다.
https://stdict.korean.go.kr/
https://stdict.korean.go.kr/join/copyrightPolicy.do
이미 그 전에 표준국어대사전 기반의 사용자 참여 사전인 "우리말샘"과 "한국어기초사전"이 같은 라이선스였기 때문에 실질적인
내용상의 차이는 크게 없겠습니다만. 한국어 대표 사전의 라이선스가 풀리는 건 오픈소스 소프트웨어나 한국어 자연어처리 연구자
모두에게 꽤 의미있는 일이라고 할 수 있습니다.
우리말샘과 한국어기초사전 사이트의 시스템도 표준국어대사전에 똑같이 적용되었습니다. 같은 아이디로 로그인됩니다.
제작년 맞춤법 검사 프로젝트에 우리말샘/한국어기초사전 데이터를 활용하면서 겪은 기술적인 문제가 아직 여럿 남아 있기는 합니다.
특히 다운로드할 수 있는 데이터 형태가 활용이 어려운 형태일 수 있는데요. 전체 데이터의 액셀 파일이 미리 준비되어 있어서
다운로드할 수 있는데 좀 활용이 어렵고 검색 결과를 XML로 다운로드하는 방식으로 (시간이 수 시간 걸립니다) 해야 나을
겁니다. 사전 데이터는 단순한 테이블 데이터가 아니고 구조화되어 있고 서로 상호 참조하는 복잡한 데이터인데 내부 DB를
export하면서 제대로 표현되지 못하는 것 같은 부분이 꽤 있습니다.