[제안] 변환된 한글 표기의 분류와 신뢰성 구분

40 views
Skip to first unread message

메이비

unread,
Nov 7, 2011, 4:30:56 AM11/7/11
to Hangulize
원어를 입력하여 한글 표기로 변환되면 그 표기가 100% 표기법에 맞는 것인지 신뢰성을 따져봐야 합니다.
하지만 한글라이즈가 100%의 신뢰성 있는 결과를 도출할지는 알 수 없으므로 변환된 한글 표기는 분류해야 하는 것이 신뢰성을 높
일 수 있다고 생각합니다.

원어의 한글 표기는 국립국어원에서 심의를 거쳐서 사정된 표기가 있을 수 있습니다. 대체로 심의를 거쳐서 사정된 표기를 따라야 한
다고 생각합니다. 이것의 명칭을 '표준'으로 지정합니다.

그리고 그외 다른 단어는 신뢰성에 의심이 있으므로 통용되는 표기(통용 표기)와 외래어 표기법에 따른 표기로 나눌 수 있습니다.
원칙적으로 외래어 표기법에 따라 표기해야 하겠지만 통용되는 표기도 때로는 사정되는 경우도 있어서 함께 참고할 필요가 있습니다.
이렇게 한 단어에 여러 후보의 한글 표기가 존재하는 경우 투표나 해당 논의로 바로 이동할 수 있도록 돕는 것이 올바른 방향으로
표기 방식을 조율해나가기 위해 좋을 듯합니다. 그래서 미상정된 단어는 '미표준'어로서 신뢰성을 담보하기는 어렵기 때문에 '미표
준'이 변환된 한글 표기 옆에 표시됨으로서 신뢰성 정보를 제공하게 됩니다.

[표준] - 신뢰성 100%
[미표준] - 신뢰성이 떨어짐.

그래서 아래와 같은 형식으로 개별 변환결과에 대해 의견을 표명하여 공개하면 신뢰성 또는 오류에 대한 정보를 제공할 수 있을 것이
라고 생각합니다.

[찬성] - [반대] - [중립]
의견의 내용 :

youknowone

unread,
Nov 7, 2011, 4:54:36 AM11/7/11
to Hangulize
현재 한글라이즈에서는 한글 표기를 뽑는데 사전과 같은 외부 데이터베이스를 사용하는 기능을 갖고 있지 않고, 순수하게 규칙 파일
만을 이용해 변환을 처리하고 있습니다.
지금은 어느게 "표준"에 해당하는 표기이고 어느게 아닌 지 알 수 없는 셈입니다.

제가 알기로는 한글라이즈는 외래어 규칙에 따른 외래어 표기를 가능한 자동으로 구하고자 하는 것이 목표이므로, 외래어 표기법에 어
긋나는지 그렇지 않은지를 가리는 것은 지금의 한글라이즈의 목표에서는 약간 무리가 있는것이 아닌가 합니다. (주 개발자들의 의견
이 필요합니다)

물론 사용자의 입장에서는 표준으로 다뤄지고 있는 외래어 사전 이후에 한글라이즈를 참고하는 것이 옳은 방향일텐데요. 이 방향이 한
글라이즈의 방향과 맞냐와는 별개로 종합적인 외래어 표기를 제공하는 서비스가 있으면 좋다는 것은 명백합니다.
위와 같은 요구는 한글라이즈 내에서든 외에서든 궁극적으로 사용자를 위해 다루면 좋은 문제이고, 그렇다면 데이터베이스화 된 외래
어 사전을 사용할 수 있다면 도움이 될 것 같은데 혹시 외래어 사전 데이터베이스를 얻을 방법이 있다면 공유해 주시면 좋을 것 같
습니다.

Heungsub Lee

unread,
Nov 7, 2011, 5:23:27 AM11/7/11
to hang...@googlegroups.com
연초 모임 때도 이야기했듯이, hangulize 파이썬 모듈과는 별개로 hangulize.org에서는 데이터베이스를 관리하여 더 좋은 용례를 제공해야할 것 같습니다.

외래어 사전 데이터베이스라면 간단하게는 국립국어원의 용례집을 크롤링해서 얻을 수 있겠습니다. 하지만 이 용례집도 사람이 작성하는 것이기 때문에 오타와 실수가 적잖이 발견된 바 있습니다. 크롤링한 용례집을 우리가 일일이 확인해보는 것은 너무 힘든 일이니 신뢰도 높은 용례집을 얻을 수 있는 더 좋은 방안이 필요합니다.

–––––––––––––––––––––––––––
Heungsub Lee



2011년 11월 7일 오후 6:54, youknowone <je...@youknowone.org>님의 말:

Brian Jongseong Park

unread,
Nov 7, 2011, 6:38:25 PM11/7/11
to hang...@googlegroups.com
아쉽게도 국립국어원의 용례집(http://korean.go.kr/09_new/dic/rule/rule_foreign.jsp)보다 신뢰도가 높은 용례집은 아직 없는 것 같습니다. 오타와 실수가 많다는 흠이 있지만 이와 별개로 국립국어원에서 작성했다는 어느정도의 공신력이 있기 때문에 충분히 참고할 가치가 있습니다. 이 용례집의 오타와 실수를 지적한 로그를 작성하는 것도 생각해볼만한 일입니다.

2011/11/7 Heungsub Lee <h...@subl.ee>

메이비

unread,
Nov 8, 2011, 12:31:22 AM11/8/11
to Hangulize
"외래어 사전 데이터베이스를 얻을 방법이 있다면 공유해 주시면 좋을 것 같습니다."

이미 알고 있으실 지 모르겠지만 현재 국립국어원 홈페이지의 외래어 표기 용례와 아래의 파일상의 용례는 자료량에서 차이가 납니
다.
파일에는 존재하지만 홈페이지에는 존재하지 않는 어휘들이 많습니다. 즉, 홈페이지보다 파일상의 어휘가 더 많습니다.

국립국어원의 '외래어 표기 용례 자료'
- 일반용어 : http://www.korean.go.kr/09_new/data/etc_view.jsp?idx=105
- 외래어 표기 용례 자료 - 중국 인명과 지명 : http://www.korean.go.kr/09_new/data/etc_view.jsp?idx=113
- 외래어 표기 용례 자료 - 로마자 인명과 지명, 일본 인명과 지명 : http://www.korean.go.kr/09_new/data/etc_view.jsp?idx=119

국립국어원과 협의를 하면 더 많은 정보를 얻을 수 있을지도 모릅니다.

그런데 심의를 거친 신뢰성이 높은 외래어 표기 용례는 언중의 수요에 비해 매우 적다고 생각합니다.
훨씬 더 많은 외래어 표기가 심의를 거쳐서 제때에 공개되어야 한다고 보는데 현실은 그렇지 못 합니다.
그래서 프로그래머가 아니더라도 번역가 등 외래어 표기법에 관심이 있는 다양한 사용자가 참여하여 개방형 DB를 구축하는 것이 필요
하다고 생각합니다.
위키피디아의 표제어나 본문의 단어 표기 방식을 참여자들의 토론을 통해 형성해나가듯이 '개방'과 '참여'를 통해 DB를 유지하는
것이 좋을 듯합니다.
사실상 전세계에 존재하는 언어가 하나 둘도 아니기 때문에 'DB 구축과 유지'와 관련된 자료가 바탕이 되어야 사용자가 궁극적으
로 원하는 정보를 제공
할 수 있다고 생각합니다.

DB상의 오탈자는 피드백 기능(찬성, 반대 그리고 의견 제출)을 마련하여 광범위한 사용자의 참여를 통해 해결했으면 좋겠습니다.
그러기 위해서는 피드백이 무엇보다 쉽고 편리해야 할 것입니다. 아니면 언어별로 DB를 담당할 책임자를 구해서 분산화된 관리를 하

방법도 있다고 봅니다.

Reply all
Reply to author
Forward
0 new messages