Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Dialogues_Tagging automatico

8 views
Skip to first unread message

MarioCPPP

unread,
Feb 18, 2023, 8:59:48 AM2/18/23
to

Gli audiolibri pare stiano spopolando, eppure a me fanno
caghare.
Sapete perché ? Perché la recitazione dei DIALOGHI è inadeguata.

Bisognerebbe fare un passo ulteriore : stabilire una mappa
di associazioni biunivoca o quasi tra i personaggi
dialoganti e le rispettive voci audio.
Almeno tutti i principali attori dovrebbero avere una voce
loro. Nei film di animazione lo sanno bene : la VOCE è parte
del personaggio.

Quindi, a che minchia serve una anche magnifica voce
leggente, se appiattisce i dialoghi ?

Ora però il problema è uno diverso e tecnicamente MOLTO
COMPLESSO (sto cominciando a pensarci per il semplice fatto
che tra MidJourney e ChatGPT3 ed altri le IA stanno
migliorando la loro gestione e trasformazione degli input).


Veniamo al problema (di certo MIO ma immagino non solo mio)
: la stragrande parte delle volte, quando scriviamo "i
sorgenti" dei libri, non TAGGHIAMO in nessuna maniera con
METADATI univoci (che potrebbero anche essere il colore del
testo e/o del background) le parti dialogate in modo da
rendere il testo univocamente associabile ad un personaggio.
Questo perché il lettore non ne ha bisogno, lo capisce da
varie diciture prefisse o suffisse o dal contesto a volte.
Ma un programma di generazione audio magari no. E Neppure un
set di lettori/lettrici potrebbe riuscirci senza avere prima
studiato il testo.

Ora il problema è serio perché talvolta (nel mio caso lo è
di certo, perché le sei branche sorelle della PluriLogia
hanno raggiunto 2’842’181 parole / 17’910’067 di caratteri,
e la Rilettura integrale con il TAGGING manuale delle parti
dialogate è materialmente impossibile a meno di non
dedicarci un paio d'anni consecutivi di noia e fatica.

Il punto è : una IA specializzata nell'analisi del testo,
può già comprendere le associazioni parte <=> personaggio ?


Una parte, esigua del lavoro l'ho fatta con la
FORMATTAZIONE. Il parlato è sempre tra virgolette inglesi
doppie, in corsivo, il pensato sempre tra apici singoli
inversi, ancora in corsivo .... poi ci sono il telepatico in
grassetto corsivo non delimitato ed il parlato "divino" o
gattese o di altre entità salienti in ALL-UPPERCASE. In
altre parole è abbastanza uniformememnte riconoscibile il
testo che NON DEVE venire assegnato a nessuna voce specifica
(e quindi lasciato alla voce narrante *) : il testo privo di
qualsiasi formattazione.

Ma una IA saprebbe associare gli interventi ai personaggi ?
Che sono sovente indicati con una pletora di alias per
evitare ripetizioni ?

Riuscirebbe a TAGGARE le parti per assegnarle agli strumenti ?

Qualcuno ha idee di come si potrebbe affrontare, in modo non
manuale, questo problema ?
A voi piacciono gli audiolibri "piatti" ad una sola voce ? O
vi fanno caghare come a me ?

Lancio la pietra nello stagno !


--
1) Resistere, resistere, resistere.
2) Se tutti pagano le tasse, le tasse le pagano tutti
MarioCPPP

Dan

unread,
Feb 21, 2023, 7:40:52 AM2/21/23
to
Ho appena fatto conoscenza con ChatGPT, ed in preda ad un certo
turbamento sono andato a cercare di capire come funziona, il che mi ha
un po' tranqullizzato (poco).
Per fortuna, è molto meno "intelligente" di quanto sembra, ma alla fin
fine se cammina come un'oca, ha la forma di un'oca e fa il verso dell'oca...
Ciò detto, esclusa ogni forma di comprensione "vera" del narrato,
qualunque risultato compatibile con qualche semplice trucco da
programmatore può essere ottenuto. Quindi distinzioni tra diversi
virgolettati o corsivi, maiuscoli ecc. saranno facilmente
implementabili. Il problema è la disponibilità di un lettore di testi in
qualche misura personalizzabile dall'utente, a cui poter impartire di
leggere tutto quello che è scritto in verde come la voce della Grande
Lucertola di Altair, ecc. Bisogna aspettare che qualcuno lo scriva.

Per quanto riguarda il tono di voce, che è un aspetto importantissimo
per non rendere la lettura superpiatta, ho il sospetto che ci sia già in
giro qualcosa. Recentemente mi sono imbattuto su Youtube in alcuni video
di divulgazione scientifica fatti piuttosto bene dal punto di vista
video, con dei testi che sembravano traduzuioni automatiche e voce
narrante altrettanto somigliante ad una voce sintetica. Lo speaker non
si limita a leggere con pronuncia perfetta e senza mai impappinarsi
neanche un decimo di secondo (e i testi sono lunghi, anche un'ora di
sbrodolata) senza mai un ehm, uhmm, oooh... ecc. La cosa bella è che
rispetta il tono di voce che si usa per rendere comprensibili frasi
interrogative, coordinate e subordinate. Proprio in certe frasi involute
o con coordinate e subordinate chenonsicapiscenkaz ogni tanto va un po'
in crisi.

Ma il punto davvero rognoso nel tuo caso è che il bot dovrebbe proprio
fare delle concordanze a senso per capire di chi è una voce, se non
chiaramente attribuita, e qui la vedo dura. A quanto ho capito ChatGPT
ha un eccellente modulo sintattico. Puoi usarlo come correttore di bozze
immettendo un testo e chiedendogli se ci sono errori, tanto per
intenderci. Bisognerebbe provare a sottoporgli delle frasi del tipo "e
lui disse..., e l'altro rispose... e il terzo intervenne... per capire
se riesce a fare un lavoro simile. Se ci riesce, beh, allora sei a posto.

Ma poi, chi vuoi che si faccia leggere un audiolibro da 16 milioni di
parole?... =:0

Dan



MarioCPPP

unread,
Feb 21, 2023, 10:14:35 AM2/21/23
to
uhm, ma questa è la parte di problema che NON è un problema,
nel senso che non ho mai usato formati personalizzati per
personaggio, solo per "forma espressiva", il ché non
consente di attribuire le parti, ma solo di capire se parli,
pensi, o trasmetti telepaticamente o parli GATTESE a gesti.

> Il problema è la
> disponibilità di un lettore di testi in qualche misura
> personalizzabile dall'utente, a cui poter impartire di
> leggere tutto quello che è scritto in verde come la voce
> della Grande Lucertola di Altair, ecc. Bisogna aspettare che
> qualcuno lo scriva.

e chi l'avrebbe assegnato il VERDE alla Grande Lucertola di
Altair ed il Nero al Demonio ?
Nessuno lo ha fatto !
ChatGPT3.5 secondo te saprebbe farlo ? Saprebbe anche solo
capire quel che gli si sta chiedendo ?

>
> Per quanto riguarda il tono di voce, che è un aspetto
> importantissimo per non rendere la lettura superpiatta, ho
> il sospetto che ci sia già in giro qualcosa. Recentemente mi
> sono imbattuto su Youtube in alcuni video di divulgazione
> scientifica fatti piuttosto bene dal punto di vista video,
> con dei testi che sembravano traduzuioni automatiche e voce
> narrante altrettanto somigliante ad una voce sintetica. Lo
> speaker non si limita a leggere con pronuncia perfetta e
> senza mai impappinarsi neanche un decimo di secondo (e i
> testi sono lunghi, anche un'ora di sbrodolata) senza mai un
> ehm, uhmm, oooh... ecc. La cosa bella è che rispetta il tono
> di voce che si usa per rendere comprensibili frasi
> interrogative, coordinate e subordinate. Proprio in certe
> frasi involute o con coordinate e subordinate
> chenonsicapiscenkaz ogni tanto va un po' in crisi.

sì, questo lo sapevo, ma non è il mio problema.
Il mio problema è riconoscere chi parla/pensa/miagola e
TAGGARLO. Poi attribuire le parti diventa il meno

>
> Ma il punto davvero rognoso nel tuo caso è che il bot
> dovrebbe proprio fare delle concordanze a senso per capire
> di chi è una voce,

esatto !

> se non chiaramente attribuita, e qui la

non è tanto questo, è che è un attribuzione SEMANTICA, ossia
basata sul significato semantico delle strutture
linguistiche usate.


> vedo dura. A quanto ho capito ChatGPT ha un eccellente
> modulo sintattico. Puoi usarlo come correttore di bozze
> immettendo un testo e chiedendogli se ci sono errori, tanto
> per intenderci. Bisognerebbe provare a sottoporgli delle
> frasi del tipo "e lui disse..., e l'altro rispose... e il
> terzo intervenne... per capire se riesce a fare un lavoro
> simile. Se ci riesce, beh, allora sei a posto.

non avrei idea di come tentare (ho anche provato a farmi un
accaun ma chiedeva il telefono e ho dovuto declinare ...
perché devo fornire il mio telefono ad OpenAI ??? A parte
spiarmi, esiste qualche ragione plausibile ?).
Cmq il problema non è solo nelle attribuzioni criptiche, ma
anche relativamente normali.

Mario rispose : "Fanculo !". Al che Roberto si inalberò :
"Fottiti tu". "Smettetela entrambi". Cercò di calmarli
Silvia. Dopodiché la bionda sorrise. "Ecco bravi, così va
meglio"

In definitiva dovrebbe capire che le identità possono venire
prima o dopo il parlato / pensato, e venire espresse con
diversa "prossimità" alle virgolette, in connessione con
verbi di espressione o riflessione, e QUASI SEMPRE con vari
alias (La Bionda qui è Silvia, per capirci).
Abbastanza di rado i riferimenti sono criptici, ed il BOT
potrebbe segnarli con un colore di NON RICONOSCIUTO, per
guidare la revisione manuale ai soli punti cruciali.
Però dovrebbe riuscire a fare tutto il resto, che è il
grosso del lavoro.
Servirebbe un progetto crowdfunding per non vedenti, per
migliorare la loro esperienza coi testi narrati. Lo so, sono
stato veramente pidocchioso con questa uscita :D :D :D

Boh ... posso pazientare altri 4 anni per vedere se si
smuove qualcosa :\


>
> Ma poi, chi vuoi che si faccia leggere un audiolibro da 16
> milioni di parole?... =:0
>
> Dan
>
>
>

Dan

unread,
Feb 22, 2023, 5:01:29 AM2/22/23
to
Il 21/02/2023 16:14, MarioCPPP ha scritto:
> On 21/02/23 13:40, Dan wrote:
>>>
>> Ciò detto, esclusa ogni forma di comprensione "vera" del narrato,
>> qualunque risultato compatibile con qualche semplice trucco da
>> programmatore può essere ottenuto. Quindi distinzioni tra diversi
>> virgolettati o corsivi, maiuscoli ecc. saranno facilmente implementabili.
>
> uhm, ma questa è la parte di problema che NON è un problema, nel senso
> che non ho mai usato formati personalizzati per personaggio, solo per
> "forma espressiva", il ché non consente di attribuire le parti, ma solo
> di capire se parli, pensi, o trasmetti telepaticamente o parli GATTESE a
> gesti.
>

Ops, giusto. Mi era rimasta impressa la VOCE DI DIO che a sto punto però
potrebbe essere di vari dei con voce diversa... non va.

>> Il problema è la disponibilità di un lettore di testi in qualche
>> misura personalizzabile dall'utente, a cui poter impartire di leggere
>> tutto quello che è scritto in verde come la voce della Grande
>> Lucertola di Altair, ecc. Bisogna aspettare che qualcuno lo scriva.
>
> e chi l'avrebbe assegnato il VERDE alla Grande Lucertola di Altair ed il
> Nero al Demonio ?
> Nessuno lo ha fatto !

Ecco appunto ci vorrebbe un tool con un bel menu "VOCI DEI PERSONAGGI" e
le varie opzioni di associazione: 1) nome del personaggio 2) nomignolo
n.1, (ecc) ...N Formattazione del testo (con submenu : virgolettato,
inciso, colore, grassetto...) e naturalmente Voce n.1 ... voce n. <n>


> ChatGPT3.5 secondo te saprebbe farlo ? Saprebbe anche solo capire quel
> che gli si sta chiedendo ?
>
ChatGPT usa un approccio statistico ed una rete neurale BESTIALE con 1
miliardo e sette di nodi e una base dati di nonsoquanti Terabytes (c'è
dentro tutta Wikipedia tra l'altro...)

L'approccio gli fa scegliere le frasi che statisticamente sono più
rilevanti dato l'input che ha ricevuto e la sua direttiva primaria
(essendo un chatbot), che è quella di rispondere sempre qualcosa
cercando di ampliare e completare quanto gli viene fornito in input, fa
il resto.

Detto così pare semplice (e non lo è) ma ovviamente ci deve essere
dell'altro che non viene spiegato (qualche trucchetto da programmatore,
eh eh) perché CGPT fornisce risposte estremamente pertinenti e tiene
conto tra una domanda e l'altra di quello che si è detto, per esempio se
parlavo di Silvia e gli dico "e inoltre è molto gelosa", dovrebbe
rispondere ipotizzando che io stiaparlando appunto di S.

Nel mio cassetto c'è un progetto di IA verbale che teneva conto di
questo aspetto, io avevo ipotizzato la creazione di un "contesto" ad
ogni sessione di conversazione col mio prog, in cui lui tenesse una
lista dei "concetti", cioè delle parole significative usate nella
sessione, che forniscono dei paletti per interpretare le frasi. Così se
si sta parlando di pesca e io ad un certo punto gli dico "E poi le canne
devono essere robuste" lui può elaborare frasi in cui le canne sono
quelle da pesca, e non cadrà nella risposta sbagliata "Certo! canne
robuste e magari un goccetto!". :-D

>> vedo dura. A quanto ho capito ChatGPT ha un eccellente modulo
>> sintattico. Puoi usarlo come correttore di bozze immettendo un testo e
>> chiedendogli se ci sono errori, tanto per intenderci. Bisognerebbe
>> provare a sottoporgli delle frasi del tipo "e lui disse..., e l'altro
>> rispose... e il terzo intervenne... per capire se riesce a fare un
>> lavoro simile. Se ci riesce, beh, allora sei a posto.
>
> non avrei idea di come tentare (ho anche provato a farmi un accaun ma
> chiedeva il telefono e ho dovuto declinare ... perché devo fornire il
> mio telefono ad OpenAI ??? A parte spiarmi, esiste qualche ragione
> plausibile ?).

Sì infatti. Ma io ero talmente ansioso di provarlo che gli avrei dato
anche il telefono della mia sorellina piccola e innocente (che per
fortuna non ho).

> Cmq il problema non è solo nelle attribuzioni criptiche, ma anche
> relativamente normali.
>
> Mario rispose : "Fanculo !". Al che Roberto si inalberò : "Fottiti tu".
> "Smettetela entrambi". Cercò di calmarli Silvia. Dopodiché la bionda
> sorrise. "Ecco bravi, così va meglio"
>
> In definitiva dovrebbe capire che le identità possono venire prima o
> dopo il parlato / pensato, e venire espresse con diversa "prossimità"
> alle virgolette, in connessione con verbi di espressione o riflessione,
> e QUASI SEMPRE con vari alias (La Bionda qui è Silvia, per capirci).

Argh, io credevo che fosse un'altra persona ...

> Abbastanza di rado i riferimenti sono criptici, ed il BOT potrebbe
> segnarli con un colore di NON RICONOSCIUTO, per guidare la revisione
> manuale ai soli punti cruciali.
> Però dovrebbe riuscire a fare tutto il resto, che è il grosso del lavoro.
> Servirebbe un progetto crowdfunding per non vedenti, per migliorare la
> loro esperienza coi testi narrati. Lo so, sono stato veramente
> pidocchioso con questa uscita :D :D :D
>

Che cinismo! ;-) Però è probabilmente vero...

> Boh ... posso pazientare altri 4 anni per vedere se si smuove qualcosa :\

Se vuoi posso postare i dialoghi di cui dispongo, così ti fai un'idea. E
poi, visto che ormai ci ho l'accaun, voglio testare questa cosa dei
personaggi indicati indirettamente, e maggari riferire.

Dan
0 new messages