a abordagem seria ter algo relacionado a MIR que procurasse combinar processos de detecção de ataque, detecção de parciais, e etc para discretizar a informação do áudio recebido. É uma boa tentar prototipar isso em linguagens que já tem bons recursos de MIR, como PD e SuperCollider. Em Matlab tem o MIRtoolbox...
https://www.jyu.fi/hum/laitokset/musiikki/en/research/coe/materials/mirtoolbox
A partir dessa informação (que poderia se limitar a altura, instrumento, duração, dinâmica, como no midi, ou combinar parâmetros mais diversos como articulação, características de timbre, etc), seria necessário trabalhar em um processo de quantificação e inferência do tempo métrico.
Eu já fiz algo de quantificação e tenho me interessado bastante em MIR, mas nunca tive como objetivo fazer algo assim - mesmo porque é provável que esse sistema tenha que ser "afinado" a partir do áudio de entrada (e, além disso, que ele não funcione tão bem em contextos polifônicos).
abs!