Need clarity on endpointing

74 views

Skip to first unread message

Dipesh singh

unread,

Dec 28, 2023, 2:56:50 AM12/28/23

to kaldi-help

Hi,

I have two audio files that got decoded with following configurations:

./ThreadedOnlineDecoder --samp-freq=11025 \
--frames-per-chunk=20 \
--extra-left-context-initial=0 \
--frame-subsampling-factor=3 \
--config=$model_dir/conf/online.conf \
--min-active=200 \
--max-active=10000 \
--beam=15.0 \
--lattice-beam=8.0 \
--acoustic-scale=1.0 \
--port-num=$1 \
--produce-time=true \
--read-timeout=-1 \
--frame_reset_value=10000 \
--verbose=3 \
--endpoint.rule1.must-contain-nonsilence=false \
--endpoint.rule1.min-trailing-silence=0.75 \
--endpoint.rule1.min-utterance-length=0.0 \
--endpoint.rule2.must-contain-nonsilence=true \
--endpoint.rule2.min-trailing-silence=0.5 \
--endpoint.rule2.max-relative-cost=2.0 \
--endpoint.rule2.min-utterance-length=0.0 \
--endpoint.rule3.must-contain-nonsilence=false \
--endpoint.rule3.min-trailing-silence=0.5 \
--endpoint.rule3.max-relative-cost=2 \
--endpoint.rule3.min-utterance-length=0.0 \
--endpoint.rule4.must-contain-nonsilence=true \
--endpoint.rule4.min-trailing-silence=2 \
--endpoint.rule4.min-utterance-length=0.0 \
--endpoint.rule5.must-contain-nonsilence=false \
--endpoint.rule5.min-trailing-silence=0.25 \
--endpoint.rule5.min-utterance-length=20 \
--ivector-silence-weighting.silence-phones="1:2:3:4:5" \
--ivector-silence-weighting.silence-weight=0.5 \
$model_dir/final.mdl \
$model_dir/HCLG.fst \
$model_dir/words.txt \
$model_dir/phones/word_boundary.int

First file got endpoint as:

VLOG[2] (ThreadedOnlineDecoder[5.5.1074~1-71f3]:RuleActivated():online-endpoint.cc:38) Endpointing rule rule1 activated: true,0.75,4.56717,5.67 Second file got endpoint as: VLOG[2] (ThreadedOnlineDecoder[5.5.1074~1-71f3]:RuleActivated():online-endpoint.cc:38) Endpointing rule rule1 activated: true,0.93,4.56717,6.3 Since, the rule1 is having --endpoint.rule1.must-contain-nonsilence=false \
--endpoint.rule1.min-trailing-silence=0.75 \
--endpoint.rule1.min-utterance-length=0.0 \
then why with first audio endpoint got detected at 0.75 but second at 0.93?

Reply all

Reply to author

Forward

0 new messages