Я совсем недавно занялся изучением библиотеки NLTK (Python) и темы обработки естественных языков в целом. В моей идее, естественно, будут присутствовать неточности терминологии, т.к. в тему полностью я еще не въехал.
На данный момент меня интересует тема машинного перевода текстов. И есть небольшая идея, которая заключается в следующем:
1. Берем какой-либо текст, например, на немецком языке.
2. Переводим его через google translate на английский язык. (На этом этапе, мы позволяем готовому переводчику, разработанному специалистами, сделать наиболее точный машинный перевод. Естественно, в тексте присутствуют стилистические или даже грамматические ошибки и неточности перевода.)
3. Берем основное ключевое слово этого текста (возможно, весь title топика, если это статья в блоге)
4. Вводим запрос в
google.com и получаем 100 - 1000 страничек текстов на данную тематику на английском языке.
5. Составляем корпус из всех этих текстов.
6. Полируем переведенный текст с помощью готового корпуса.
Я хотел поинтересоваться у людей, сталкивавшихся с подобными задачами, каким образом/инструментами/алгоритмами можно реализовать 5й и 6й пункт. Обязательно ли наличие пар текстов на немецком и точного перевода на английский? Можно ли откалибровать машинный текст по тематически текстам до вменяемого состояния? Т.к. мне приходит в голову лишь поиск наиболее встречающихся биграмм/триграмм в корпусе и какой-то критерий по которому мы заменяем их в переведенном тексте если они никогда не встречаются рядом. А также, каким образом проверяется грамматика текста с помощью nltk.
Также буду благодарен за тематические полезные ссылки.