Есть задача обрабатывать строки такого вида: "John is a 6’4" quarterback who has a 30 in vertical, runs a 4.8 40 yard dash and weighs less that 250 pounds". Необходимо выделить рост и вес спортсмена (если они есть в предложении) и его результаты в определенных упражнениях (если они есть, количество их в строке может быть неограниченно, но количество типо конечно (на самом деле пока требуется выделять 5)) Рабочий алгоритм сделал на обычных преобразованиях строк и регэксах, без nltk, но чувствую что все очень костыльно и думаю внедрить nltk в процесс. Как я действую сейчас: делю предложения на части основываясь на словах 'who', 'that', 'and' и т.д. Выделяю в частях числовые значения - в том числе те, которые записаны прописью. Нахожу значащие слова - 'height', 'weighs', 'jump', '40 yard dash' и т.д. Используя простую эвристику (мне известны минимальные и максимальные значения показателей- например человек не может быть 3 метров высотой) ассоциирую слова со значениями. Что можно поправить или улучшить?