안녕하세요, 새로 가입했습니다.

69 views
Skip to first unread message

메이비

unread,
Oct 24, 2011, 10:58:27 PM10/24/11
to Hangulize
반갑습니다. 우연찮게 이 프로젝트에 대해 알게 되어 가입했습니다.
이 프로젝트가 전반적으로 어떤 식으로 운영되는지와 향후 구체적인 계획은 무엇인지 살짝 궁금합니다.
개인적으로 외래어 표기에 관심이 많아서 'hangulize' 서비스에 작은 도움이라도 되고 싶습니다.

Heungsub Lee

unread,
Oct 26, 2011, 11:37:23 PM10/26/11
to hang...@googlegroups.com
안녕하세요? 한글라이즈 개발자 이흥섭입니다. 회사 일이 이래저래 바빠져서 답변이 늦었네요.

현재 한글라이즈 프로젝트의 기여자는 저를 포함하여 박종성 님, 정윤원 님, 3명입니다. 저는 한글라이즈 프로그램과 웹사이트 개발을 맡고있고, 종성 님과 윤원 님은 외래어표기법을 한글라이즈 프로그램에 적용할 수 있는 규칙코드로 만드는 일을 해주고 계십니다. 파생 프로젝트로 제가 만든 josa(http://pypi.python.org/pypi/josa)와
윤원 님께 만드신 한글라이즈 iOS 애플리케이션(http://itunes.apple.com/co/app/hangulize/id418530537?mt=8)도 있습니다.

한글라이즈는 외래어 단어에 다수의 규칙코드를 순차적으로 적용하여 최종적으로 한글 결과를 만들어냅니다. 규칙코드는 이곳(https://github.com/sublee/hangulize/tree/master/hangulize/langs)에 모여있으니 한 번 둘러보셔도 좋을 것 같습니다.

사실 2월에 한 번 모임(http://www.flickr.com/photos/heungsub/5471543924)을 가진 이후로 다들 바빠졌는지 프로젝트 활동은 뜸해져있습니다. 일단 모임 때 이야기한 바로는 영어와 같이 규칙보다 예외가 많은 언어를 처리하기 위해 사용자들이 웹사이트에서 직접 바른 용례를 입력할 수 있도록 하여 용례 DB를 구축하는 것이 다음 목표이긴 합니다
.

메이비 님께서 기여하길 원하신다면 저와 같이 프로그래밍을 하거나 종성 님, 윤원 님과 같이 규칙코드를 작성해주시거나 새로운 파생 프로젝트를 만들어주실 수 있겠습니다.

더 궁금한게 있으면 메일 주세요.

–––––––––––––––––––––––––––
Heungsub Lee



2011년 10월 25일 오전 11:58, 메이비 <maybe...@gmail.com>님의 말:

메이비

unread,
Nov 6, 2011, 11:39:56 PM11/6/11
to Hangulize
흥섭 님, 답변해주셔서 고맙습니다.
답변 덕분에 프로젝트의 방향을 잡아가는데 도움이 되었습니다.

일단은 저도 작은 기여(?)를 하기 위해 일을 했습니다.
네이버와 다음 사이트에 사이트 등록을 요청했고, 현재는 사이트 등록이 완료되었습니다.

- 네이버 : http://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&ie=utf8&query=hangulize&x=0&y=0
- 다음 : http://search.daum.net/search?q=hangulize&w=tot&nil_ch=ffsr

포털 사이트에서 검색어 'hangulize'로 검색을 해보니 사이트 등록도 안 되어 있고, 한글라이즈와 관련된 게시물도 많지는
않았습니다.
일단은 서비스의 접근성을 높이고, 서비스를 조금 더 널리 알리기 위해서 사이트 등록을 요청했는데 제가 요청한 문구와 다른 방향으
로 등록이 되었습니다.
하지만 '한글라이즈' 또는 'hangulize'로 검색을 하면 쉽게 이 사이트로 연결되어 서비스를 이용할 수 있게 되었습니
다.
혹시나 '사이트 등록'에서 문구 수정이 필요하면 문의하여 수정할 수 있으니 참고하십시오.

그리고 '한글라이즈'를 테스트해 본 결과 일부 어휘는 변환이 되지 않는 경우도 있었고, 외래어 표기법이 잘못 적용된 경우도 있었
습니다.
이러한 오류를 최대한 많이 접수해서 해결해야 할 듯한데 어떤 경로를 통해 주로 오류 보고를 받는지 궁금합니다.
'한국어 맞춤법/문법 검사기'의 경우 '의견 보내기' 기능이 있어서 누구나 손쉽게 오류뿐만 아니라 의견을 쉽게 전달할 수 있어
서 편리했습니다.

한국어 맞춤법/문법 검사기의 '의견 보내기' : http://speller.cs.pusan.ac.kr/ (우측 상단의 '의견 보
내기')

많은 익명의 사용자로부터 오류 및 의견 등을 수렴하기 위한 방식이 필요해보입니다.
예를 들어 어떤 한글 변환 결과에 대한 만족/불만족 버튼, 대표 이메일 주소의 입력 등은 오류의 수정을 원활하게 해줄 수 있을
것으로 기대됩니다.

youknowone

unread,
Nov 6, 2011, 11:52:18 PM11/6/11
to Hangulize
쉬운 버그 보고가 가능하면 좋을 것 같습니다.

그 전에 당장은 https://github.com/sublee/hangulize/issues 에서 버그를 보고할 수 있습니다.

On Nov 7, 1:39 pm, 메이비 <maybee1...@gmail.com> wrote:
> 흥섭 님, 답변해주셔서 고맙습니다.
> 답변 덕분에 프로젝트의 방향을 잡아가는데 도움이 되었습니다.
>
> 일단은 저도 작은 기여(?)를 하기 위해 일을 했습니다.
> 네이버와 다음 사이트에 사이트 등록을 요청했고, 현재는 사이트 등록이 완료되었습니다.
>

> - 네이버 :http://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&ie...


> - 다음 : http://search.daum.net/search?q=hangulize&w=tot&nil_ch=ffsr
>
> 포털 사이트에서 검색어 'hangulize'로 검색을 해보니 사이트 등록도 안 되어 있고, 한글라이즈와 관련된 게시물도 많지는
> 않았습니다.
> 일단은 서비스의 접근성을 높이고, 서비스를 조금 더 널리 알리기 위해서 사이트 등록을 요청했는데 제가 요청한 문구와 다른 방향으
> 로 등록이 되었습니다.
> 하지만 '한글라이즈' 또는 'hangulize'로 검색을 하면 쉽게 이 사이트로 연결되어 서비스를 이용할 수 있게 되었습니
> 다.
> 혹시나 '사이트 등록'에서 문구 수정이 필요하면 문의하여 수정할 수 있으니 참고하십시오.
>
> 그리고 '한글라이즈'를 테스트해 본 결과 일부 어휘는 변환이 되지 않는 경우도 있었고, 외래어 표기법이 잘못 적용된 경우도 있었
> 습니다.
> 이러한 오류를 최대한 많이 접수해서 해결해야 할 듯한데 어떤 경로를 통해 주로 오류 보고를 받는지 궁금합니다.
> '한국어 맞춤법/문법 검사기'의 경우 '의견 보내기' 기능이 있어서 누구나 손쉽게 오류뿐만 아니라 의견을 쉽게 전달할 수 있어
> 서 편리했습니다.
>

> 한국어 맞춤법/문법 검사기의 '의견 보내기' :http://speller.cs.pusan.ac.kr/(우측 상단의 '의견 보

Brian Jongseong Park

unread,
Nov 7, 2011, 6:33:19 PM11/7/11
to hang...@googlegroups.com
안녕하세요? 프로젝트 기여자 박종성입니다. 개인적으로 바빠서 한동안 활동이 없었습니다.

사이트 등록을 해주셔서 감사합니다. 포털에서는 사이트 등록을 할 때 요청한 문구가 제대로 반영되지 않는 일이 많은 것 같습니다.

현재 Hangulize는 원 언어 철자를 기계적인 규칙 적용을 통해 한글 표기로 변환합니다. 따라서 철자와 발음의 상관 관계가 규칙적인 언어는 처리가 잘 되는 편이지만 독일어처럼 철자에서 발음을 예측하는 것이 쉽지 않은 언어를 처리하는데는 아직 많이 부족합니다. 규칙적인 대응인 경우 원 철자에 대응하는 한글 자모를 지정해주는 것으로 충분하지만 불규칙한 용례들은 일일이 규칙에 예외 조항으로 다뤄야 합니다.

또 현재 원 언어 철자를 제대로 알아야지만 처리가 가능하다는 불편한 점이 있습니다. 사실 영어 이외의 외국어의 원 언어 철자를 제대로 아는 것이 쉬운 일만은 아닙니다. 특수 문자가 있는 경우가 특히 그렇습니다. 스웨덴어 Göteborg는 '예테보리'로 변환되지만 단순히 Goteborg로 입력하면 '고테보리'라는 틀린 표기가 나옵니다.

러시아어 변환에 대한 문제 제기를 하셨는데 Tchaikovsky를 입력하면 러시아어 철자가 아니기 때문에 러시아어 표기 규칙에서 인식을 못합니다. 러시아어 철자인 Чайковский를 입력해야 합니다. 러시아어의 로마자 표기 방식은 여러 가지가 있기 때문에 규칙 중심의 접근 방식으로는 다루기가 어렵습니다. Tchaikovsky는 전통 영어식 표기이고 독일어에서는 Tschaikowski, 프랑스어에서는 Tchaïkovski, 스페인어에서는 Chaikovski, 스웨덴어에서는 Tjajkovskij 등 언어마다 표기가 다릅니다. 학계나 국제기구에서 쓰는 러시아어의 로마자 표기법도 여러 방식이 공존합니다.

이런 문제를 제대로 다루려면 Tchaikovsky는 러시아어의 Чайковский에 해당하는 영어 표기라는 것을 알려주는 사전이 있어야 합니다. 이런 사전은 우리가 직접 작성하는 것은 아직 무리이지만 인터넷의 번역 사전이나 위키백과 같은 다국어 백과사전 등을 잘 활용하면 해결할 수 있지 않을까 상상해봅니다. 예를 들어 러시아어 변환기에 Tchaikovsky라고 입력하면 Чайковский를 의도한 것이 아니냐는 결과가 뜰 수 있습니다. 이게 현재 얼마나 실현 가능한 일인지는 개발자 분들에게 맡기겠습니다.

저는 그보다 우선 외국어 인명, 지명 등의 발음 사전을 구축하는 작업을 하고 있습니다. 원래 각 이름마다 한글 표기도 같이 제시하는 사전을 만들려는 생각이었지만 기존 외래어 표기법 규정만으로는 한글 표기를 결정하기 어려운 것들이 많기 때문에 국제 음성 기호를 사용한 발음 사전을 만드는 것이 낫다고 생각했습니다. 이 방식의 또다른 장점은 한글을 전혀 모르는 외국인들도 발음 사전 구축에 참여할 수 있다는 것입니다.

국립국어원 홈페이지에는 이미 심의된 외래어 표기 용례를 검색할 수 있게 해 놓은 자료가 있는데 이를 참고할 수 있게 하면 충분할 것 같습니다. 예를 들어 Чайковский를 입력하면 발음 사전을 통해 국제 음성 기호로 발음이 표시되고 국립국어원 데이터베이스를 통해 '차이콥스키'로 심의되었다는 사실이 표시되는 것입니다. 경우에 따라 아직 심의되지 않은 용어이지만 발음 사전에는 실린 것도 있을 수 있고 반대의 경우도 있을 수 있습니다.

이 발음 사전에 대해서 지금까지 구상한 바를 앞으로 조금씩 설명드리려고 합니다. Hangulize에서 쓰는 변환 규칙을 한글로 변환하는 것 뿐만이 아니라 발음 기호 간의 변환에도 적용하려는 생각입니다. 지금은 막연하게 들릴지 모르지만 앞으로 차츰 구체적으로 설명드리겠습니다. 너무 거창한지 모르겠지만 잘하면 Hangulize가 제대로 발전할 수 있는 방향이 될 수 있다고 생각합니다.

2011/11/7 youknowone <je...@youknowone.org>

youknowone

unread,
Nov 7, 2011, 7:10:43 PM11/7/11
to Hangulize
러시아어에 대해 잘 몰라 두 분께 여쭙니다.

러시아어의 로마자 표기에서 키릴자와 로마자는 정확한 규칙대로 대응하나요, 아니면 한국어의 경우 처럼 통용되는 로마자 표기가 여
럿 있나요?

로마자 표기를 보고 키릴자로 어떻게 표기되나 완전히 추측해 낼 수 있거나, 그렇지 않더라도 로마자 표기만 보고 외래어 표기를 만
들어 낼 수 있다면, 현재의 러시아어 처리에 로마자 표기를 처리하는 규칙을 추가하는 것도 좋은 방법이 아닌가 생각합니다.

> > 그 전에 당장은https://github.com/sublee/hangulize/issues에서 버그를 보고할 수 있습니다.

youknowone

unread,
Nov 8, 2011, 12:48:05 AM11/8/11
to Hangulize
제가 위 글을 잘 이해하지 못한 것 같고 또 질문도 모호하게 드린듯 하여 종성님께 조금 더 여쭙습니다.

위에서 하신 말씀이 러시아에서는 러시아어의 로마자 표기에 관한 규칙을 정하지 않고 있고 현재 통용되는 로마자 표기가 영어식, 톡
일어식, 프랑스어식 등등이 우열을 가릴 수 없이 있다는 뜻인가요?

러시아에서 공인하고 있거나 널리 쓰고 있는 로마자 표기가 있을거라는 막연한 추측만 가지고 위 글을 써버렸습니다.

Brian Jongseong Park

unread,
Nov 8, 2011, 4:38:27 PM11/8/11
to hang...@googlegroups.com
러시아어의 로마자 표기는 중국어의 한어병음처럼 널리 쓰이는 방식이 없습니다. 말씀드린 것처럼 언어마다 표기 방식이 다를 뿐만이 아니라 각 언어에서 쓰는 표기 방식도 체계적이지 않습니다. 러시아어의 ч는 영어에서 보통 ch로 쓰지만 Чайковский의 ч는 특이하게 tch로 옮겨 Tchaikovsky라고 씁니다. 같은 한국어 이름도 사람마다 로마자 표기를 다르게 하는 것처럼 같은 러시아어 이름도 Andrey와 Andrei, Andrej, Nadia와 Nadya, Nadja 등으로 여러 표기를 쓸 수 있습니다. 거기다 옛 소련 여권에서 쓰던 로마자 표기는 프랑스어식을 기준으로 했기 때문에 널리 알려진 로마자 표기가 꼭 영어식이라고 단정할 수도 없습니다(전 테니스 선수 '쿠르니코바'는 프랑스어식 로마자 표기인 Kournikova로 널리 알려져 있습니다). 그러니 로마자 표기에서 원 키릴 문자 표기를 복원하는 것도 간단한 문제가 아닙니다.

세르보크로아트어는 키릴 문자와 로마 문자를 둘 다 사용하는 언어로 두 문자 체계 사이에 거의 일대일 대응이 가능합니다. Hangulize 세르보크로아트어 예제를 보시면 키릴 문자로 된 것도 있고 로마 문자로 된 것도 있습니다. 물론 언어 자체에서 로마 문자를 사용하는 것과 러시아어처럼 외국어로 옮길 때만 로마자 표기를 쓰는 것은 비교할 수가 없습니다.

2011/11/8 youknowone <je...@youknowone.org>

메이비

unread,
Nov 9, 2011, 6:24:16 AM11/9/11
to Hangulize
원어가 다수의 로마자로 표기되고, 그러한 로마자를 입력했을 때 변환이 이루어진다면 사용자를 고려하여 변환될 수 있는 문자 형태
로 입력해야 한다는 사실을 사용자에게 알려주는 것이 바람직하다고 봅니다. 로마자자 원어와 변환이 될 수 있는 원어의 대응이 변환
에 반영되기 전까지는 사용자에게 그러한 변환 노하우를 '사용 설명서' 형태로 알려줄 필요가 있다고 생각합니다.

Heungsub Lee

unread,
Nov 9, 2011, 8:12:34 AM11/9/11
to hang...@googlegroups.com
한글라이즈는 포탈사이트가 아닌 자동 전사 프로그램인 만큼 어느정도 정확한 입력을 강요하는 것은 크게 문제되지 않는다고 생각합니다. 따라서 우선순위가 높은 작업은 아닌 것 같지만, 전사 결과에 아무런 변환규칙이 적용되지 않았거나(러시아어를 선택하고 로마자를 입력한 경우) 최종 결과에 한글 이외의 문자가 들어갔을 경우 프로그램에서는 Warning을 내주고, 웹페이지에서는 경고 표시를 띄워주는 방법으로 사용자에게 안내해줄 수 있을 것 같습니다.

–––––––––––––––––––––––––––
Heungsub Lee



2011년 11월 9일 오후 8:24, 메이비 <maybe...@gmail.com>님의 말:
Reply all
Reply to author
Forward
0 new messages