s5/run.sh는 음향 모델만을 학습하고, 추가로 미리 준비된 언어 모델과 발음 사전을 음향 모델과 합성해 디코딩을 진행하는 정도입니다.
추가 데이터의 script들은 언어 모델과 발음 사전에 영향을 끼치지 않습니다. 오직 음향 모델 학습에만 사용이 됩니다.
음향 모델이 하는 일이 신호를 음소로 인식하는 것이니 이 부분에서 성능 향상은 당연히 있습니다.
그러나 이 음소들로 단어를 표현하거나 그 단어들로 문장을 표현하는 부분은 발음 사전과 언어 모델의 역할입니다.
이 부분에서는 성능 향상이 없습니다.
추가 데이터를 이용해 새롭게 LM을 구축하려면 data/local/lm/run.sh를 참고하시면 됩니다. 이 경우 LM 구축에 사용될 텍스트 데이터는 따로 준비해서 적절한 경로에 위치해야 합니다. 이 부분은 해당 스크립트를 보시면 알 수 있습니다.
또는 이미 가지고 있는 LM에 추가를 하고 싶으시면 data/local/lm/run_task.sh와 data/local/lm/run_merge.sh를 참고하시면 됩니다. run_task.sh를 먼저 실행해 작은 LM을 구축하고 기존 LM과 결합하는 방식입니다.
음소 정보만을 필요로 하신다면 굳이 LM과 발음 사전을 건드릴 필요는 없을 것 같습니다.