Em Python não cheguei a fazer isso, mas creio que a lib pywin(32/64) deva te auxiliar. Fiz algo semelhante já tem um (bom) tempo. Na ocasião, precisava modificar o atalho da área de trabalho de um usuário indicando o novo servidor. O problema era que em muitos computadores (maioria deles na verdade) não existia o acesso ao compartilhamento. E por algum motivo desconhecido, se não marcasse o compartilhamento como persistente, o sistema apresentava instabilidade (sistema feito em delphi, 3 camadas usando COM+). Fiz um executável (em Delphi) que acessava o compartilhamento e modificava o atalho do servidor antigo, apontando para o novo. O caso é que, nestes computadores que não tinham acesso ao compartilhamento do novo servidor, abria a tela solicitando usuário e senha de acesso, além de um checkbox para marcar, indicando se era para persistir (salvar no "cofre" do windows) o usuário e senha. O executável que fiz, ao detectar que a janela abria, preenchia com usuário/senha padrão e marcava a caixa, e acionava o botão OK. Isso era executado bem rápido e o usuário normalmente via que alguma tela aparecia, mas se fechava rapidamente. Na época fiz em Delphi este executável, usando mensagens do windows. Como eu disse, não fiz em Python na época, porém, creio que dê para fazer, com certa pesquisa, pois mesmo em delphi, usei apenas a API padrão do windows pra isso (findwindow, sendmessage e postmessage, e estas podem ser acessadas/utilizadas a partir da pywin32 ou pywin64).
Basicamente, você teria que capturar o handle da janela (usando findwindow) e depois, usando postmessage, enviar mensagens solicitando os elementos da janela. FindWindow nesse caso, captura pelo Título da janela. O chato vai ser ler os componentes porque, na janela do próprio Windows (que foi onde apliquei isso), para pegar o "checkbox" tinha uns 4 frames, mais umas 2 classes (tipo Container). O maior trabalho foi esse, mapear os elementos da tela. Creio que em uma tela com mais elementos você terá um grande trabalho, ou alguém aqui do grupo tenha alguma outra solução. Lembro que eu havia visto algo semelhante há um tempo, que mapeava as telas pegando e enviando informações (cliques, preenchimento de campos de texto, etc), mas que funcionava especificamente para o MacOS (algo do tipo: você colava a imagem e ele executava ou preenchia o campo).
Talvez seja uma ideia também, uma vez que, pela API do windows você pode selecionar os elementos que estão em uma determinada região (chamada de Rect), passando as coordenadas de topo/esquerda e base/direita (pra pegar a posição exata tinha que usar uma outra função disponível na API chamada ScreenToClient). Mas isso é uma especulação, não fiz dessa forma.