Hamster e importazione messaggi: visualizzazione data non corretta

72 views
Skip to first unread message

Mail MasterC

unread,
Apr 7, 2021, 11:11:33 AM4/7/21
to
Salve a tutti.

Anni e anni fa avevo scaricato tramite uno script (suckgoogle) annate di post da un gruppo di discussione, adesso finalmente mi sono messo in testa di importare tutti i singoli messaggi in hamster e da lì usare un qualsiasi newsreader.
La funzione di importazione in hamster da riga di comando funziona, anche se pur riconoscendo il numero degli articoli di prova che ho indicato poi ne importa effettivamente un numero minore, e non ho capito perché.

Il problema è il riconoscimento della data, che evidentemente è in un formato non standard.
Di tutti i newsreader che ho a disposizione (Agent, Xnews, Thunderbird, Gravity, News Xpress) solo News Xpress riesce a gestire la data correttamente. Tutti gli altri no.

Vorrei sapere se avete delle idee su come gestire la cosa, o altri newsreader da provare, possibilmente in ambiente windows.

Grazie.

Mandi
MMC

John Smalls

unread,
Apr 8, 2021, 2:20:10 PM4/8/21
to
On 07/04/21 17:11, Mail MasterC wrote:

> Vorrei sapere se avete delle idee su come gestire la cosa, o altri newsreader da provare, possibilmente in ambiente windows.

Usavo Hamster forse 20 anni fa, e ancora mi manca :-) Con lo scripting
dovresti farcela, ma non ricordo molto, io darei un occhio all'help...

Mail MasterC

unread,
Apr 8, 2021, 3:15:57 PM4/8/21
to
Eh, non so nulla di scripting, e ho già guardato l'help. Le impostazioni che si possono dare al momento dell'import non riguardano il formato della data, purtroppo, e gli altri esempi nell'help non mi sembrano pertinenti.

Però ho fatto qualche prova in più considerando blocchi di post più recenti, e alcuni di questi li importa correttamente e altri no. Quindi mi viene il dubbio che non sia un problema di formato con cui suckgoogle all'epoca scaricò i singoli post, ma di come sono nati all'origine. Dovrei provare a modificare la data come compare nei post che vede correttamente e provare ad importare di nuovo... poi mi troverei a dover gestire migliaia di post, ma è un altro problema! :)

Grazie comunque dell'aiuto.

Mandi
MMC

John Smalls

unread,
Apr 8, 2021, 8:33:40 PM4/8/21
to
On 08/04/21 21:15, Mail MasterC wrote:

> poi mi troverei a dover gestire migliaia di post, ma è un altro problema! :)

Beh, dovrebbe farlo lui da solo...

> Grazie comunque dell'aiuto.

Mi dispiace di non poter ricordare di piu': ai tempi, usavo Hamster sia
con posta che con le news, adesso invece (nemmeno sempre) uso Leafnode
su Linux. Non ricordo come salvava gli articoli, probabilmente tutti
assieme, magari - facendo un backup - si potrebbe controllare che tutte
le righe che iniziano per "Date: " siano poi nel formato corretto.
Oppure usare l'utilita', che mi pare si chiamasse ham.exe, a linea di
comando per esportare i messaggi e reimportarli, dopo aver controllato
la riga della data.

Mail MasterC

unread,
Apr 9, 2021, 4:14:43 AM4/9/21
to
Il giorno venerdì 9 aprile 2021 alle 02:33:40 UTC+2 John Smalls ha scritto:
> On 08/04/21 21:15, Mail MasterC wrote:
>
> > poi mi troverei a dover gestire migliaia di post, ma è un altro problema! :)
> Beh, dovrebbe farlo lui da solo...

Si, ma non essendo io pratico di automazione, ho sempre il dubbio che qualcosa non vada per il verso giusto. :)

> Oppure usare l'utilita', che mi pare si chiamasse ham.exe, a linea di
> comando per esportare i messaggi e reimportarli, dopo aver controllato
> la riga della data.

Infatti ham.exe è il modo migliore per importare ed esportare, ed ho usato quello. Il problema è importare dei messaggi che, se ho capito bene, non hanno il formato della data standardizzato per hamster, quindi quando i newsreader vanno a prendersi i post risultano date sballate.

Ad ogni modo se riesco questo fine settimana faccio altre prove e vediamo quello che viene fuori.

Grazie.

Mandi
MMC

issdr

unread,
Apr 10, 2021, 6:42:11 AM4/10/21
to
Mail MasterC wrote:

> Infatti ham.exe è il modo migliore per importare ed esportare, ed ho
> usato quello. Il problema è importare dei messaggi che, se ho capito
> bene, non hanno il formato della data standardizzato per hamster,
> quindi quando i newsreader vanno a prendersi i post risultano date
> sballate.

probabile un problema in fase di "suzione". ritengo che hamster segua gli
standard.

se riesci posta l'header `Date:' preso dal raw di un articolo problematico

Mail MasterC

unread,
Apr 10, 2021, 9:14:01 AM4/10/21
to
Il giorno sabato 10 aprile 2021 alle 12:42:11 UTC+2 issdr ha scritto:

> probabile un problema in fase di "suzione". ritengo che hamster segua gli
> standard.

Concordo con te, essendo lo script fatto un volontario, i bug sono possibili.

> se riesci posta l'header `Date:' preso dal raw di un articolo problematico

Post con data NON visualizzata correttamente:
Date: 1996/11/02

Post con data corretta:
Date: Sat, 25 Nov 2000 10:36:29 GMT

Ho modificato a mano 5 post che prima erano errati con il formato della data corretta, ma ham.exe ne importa bene solo 1 su 5.
Ho provato con altri 5 e ne vede correttamente 3 su 5. Il campo data visualizzato nel messaggio dentro il newsreader è corretta, ma l'ordinamento del post nel thread non la rispetta in tutti i casi.

Non so bene quali altre prove potrei fare, ma ci rifletto ancora un po'. :(

Mandi
MMC

Termoregolato

unread,
Apr 10, 2021, 5:06:16 PM4/10/21
to
On 10/04/21 15:14, Mail MasterC wrote:

> Ho modificato a mano 5 post che prima erano errati con il formato della data corretta, ma ham.exe ne importa bene solo 1 su 5.
> Ho provato con altri 5 e ne vede correttamente 3 su 5. Il campo data visualizzato nel messaggio dentro il newsreader è corretta, ma l'ordinamento del post nel thread non la rispetta in tutti i casi.

Il campo Date deve avere quel formato, vista la RFC, e sicuramente il
primo e' sbagliato. L'ordinamento non credo sia fatto sulla data, ma
sulla combinazione tra msg-id dell'arricolo sul news server: in
References ci va a finire infatti il messaggio a cui si risponde, la
data e' accessoria,

Mail MasterC

unread,
Apr 11, 2021, 4:42:11 AM4/11/21
to
Il giorno sabato 10 aprile 2021 alle 23:06:16 UTC+2 Termoregolato ha scritto:
> On 10/04/21 15:14, Mail MasterC wrote:
>
> > Ho modificato a mano 5 post che prima erano errati con il formato della data corretta, ma ham.exe ne importa bene solo 1 su 5.
> > Ho provato con altri 5 e ne vede correttamente 3 su 5. Il campo data visualizzato nel messaggio dentro il newsreader è corretta, ma l'ordinamento del post nel thread non la rispetta in tutti i casi.
> Il campo Date deve avere quel formato, vista la RFC, e sicuramente il
> primo e' sbagliato.

E ok, fino a qui ci sono.
Però non capisco come mai se modifico a mano la data come da RFC alcuni li prende altri ancora no.

> L'ordinamento non credo sia fatto sulla data, ma
> sulla combinazione tra msg-id dell'arricolo sul news server: in
> References ci va a finire infatti il messaggio a cui si risponde, la
> data e' accessoria,

Qui mi sono un po' perso, puoi spiegarmi meglio?
Pensavo che l'ordinamento e il raggruppamento del thread si facesse in base al subject e alla data. Se ci si mette anche il message-ID è finita, non riuscirò mai ad avere i thread in ordine. :(
Hai idea di come possa fare per ordinare i messaggi correttamente dentro hamster?
Grazie.

--
Mandi
MMC

Termoregolato

unread,
Apr 11, 2021, 10:14:04 AM4/11/21
to
On 11/04/21 10:42, Mail MasterC wrote:

> E ok, fino a qui ci sono.
> Però non capisco come mai se modifico a mano la data come da RFC alcuni li prende altri ancora no.

Forse c'e' un indice? Magari, cambiando la dimensione totale del
messaggio, sballa.

> Pensavo che l'ordinamento e il raggruppamento del thread si facesse in base al subject e alla data. Se ci si mette anche il message-ID è finita, non riuscirò mai ad avere i thread in ordine. :(

Quando vedi un messaggio con il References: che contiene il Message-Id
di un altro post, e' segno, se e' l'ultimo, che sta rispondendo a
quello. Per esempio, il tuo messaggio a cui rispondo, era una risposta
al mio con

Message-ID: <ideia5...@mid.individual.net>

nel campo References, infatti, c'era alla fine un

References: <5795bc6e-491e-4f0b...@googlegroups.com>
<id8vqo...@mid.individual.net>
<72742621-8e0c-4745...@googlegroups.com>
<id9ln2...@mid.individual.net>
<dd673c9f-28aa-4495...@googlegroups.com>
<868s5qt...@ID-313311.news.uni-berlin.de>
<dc67fa60-1b6d-40ef...@googlegroups.com>
<ideia5...@mid.individual.net>

Sinceramente, ora non ricordo perche' c'erano tutti e non solo l'ultimo,
che basterebbe pure a ricreare i thread: 25 anni fa mi dilettavo a
scrivere un offline/newsreader, ma appunto sono passati molti anni.

Una cosa che usavo molto era applicare un Message-ID con una parte
riconoscibile, tipo "abcdefg", in modo che poi, cercando i campi
References che lo contenevano, vedevo le risposte ai miei messaggi.

> Hai idea di come possa fare per ordinare i messaggi correttamente dentro hamster?

Credo che ci debba pensare il newsreader, non Hamster...

issdr

unread,
Apr 11, 2021, 12:40:49 PM4/11/21
to
Mail MasterC wrote:

[...]

> Post con data NON visualizzata correttamente:
> Date: 1996/11/02

hai perso informazioni. potresti mettere tutto a mezzanotte, decidendo tu
una fascia oraria (vedo che esci con -7)

> Post con data corretta:
> Date: Sat, 25 Nov 2000 10:36:29 GMT

• hai una shell o un editor di testo serio sul pc in cui lavori?
powershell andrebbe bene.

• hai un articolo per file? in caso affermativo, sono in un'unica
directory o sono suddivisi (che so, per gruppo)?

> Ho modificato a mano 5 post che prima erano errati con il formato
> della data corretta, ma ham.exe ne importa bene solo 1 su 5.
> Ho provato con altri 5 e ne vede correttamente 3 su 5.

questo è strano

> Il campo data visualizzato nel messaggio dentro il newsreader è
> corretta, ma l'ordinamento del post nel thread non la rispetta in tutti
> i casi.

come ti è stato risposto altrove, la struttura del 3ad è data dalla
sequenza degli identificativi di messaggio riportata nel campo
`References' degli articoli.

Mail MasterC

unread,
Apr 13, 2021, 12:04:15 PM4/13/21
to
Il giorno domenica 11 aprile 2021 alle 16:14:04 UTC+2 Termoregolato ha scritto:

> > Però non capisco come mai se modifico a mano la data come da RFC alcuni li prende altri ancora no.
>
> Forse c'e' un indice? Magari, cambiando la dimensione totale del
> messaggio, sballa.

Non saprei, non sono così addentro questi meccanismi.

> > Pensavo che l'ordinamento e il raggruppamento del thread si facesse in base al subject e alla data. Se ci si mette anche il message-ID è finita, non riuscirò mai ad avere i thread in ordine. :(
> Quando vedi un messaggio con il References: che contiene il Message-Id
> di un altro post, e' segno, se e' l'ultimo, che sta rispondendo a
> quello.

Ok, grazie per la spiegazione, purtroppo non vedo come sistemare il problema che ho.

> > Hai idea di come possa fare per ordinare i messaggi correttamente dentro hamster?
>
> Credo che ci debba pensare il newsreader, non Hamster...

E curiosamente solo un newsreader su tutti quelli che ho provato lo fa correttamente.

Ci ragiono ancora un po'. Grazie.


--
Mandi
MMC

Mail MasterC

unread,
Apr 13, 2021, 12:10:59 PM4/13/21
to
Il giorno domenica 11 aprile 2021 alle 18:40:49 UTC+2 issdr ha scritto:

> > Post con data NON visualizzata correttamente:
> > Date: 1996/11/02
> hai perso informazioni. potresti mettere tutto a mezzanotte, decidendo tu
> una fascia oraria (vedo che esci con -7)

Si, l'ora non è un problema, mi interessa il giorno ovviamente.

> > Post con data corretta:
> > Date: Sat, 25 Nov 2000 10:36:29 GMT
> • hai una shell o un editor di testo serio sul pc in cui lavori?
> powershell andrebbe bene.

Non sono un programmatore, mi sfugge il concetto di "editor di testo serio". :)
Ho usato Notepad++, se hai consigli dimmi pure.

> • hai un articolo per file? in caso affermativo, sono in un'unica
> directory o sono suddivisi (che so, per gruppo)?

Un articolo per file, raggruppati per mesi: 1997.01, 1997.02, ecc.
C'è un solo gruppo.

> > Ho modificato a mano 5 post che prima erano errati con il formato
> > della data corretta, ma ham.exe ne importa bene solo 1 su 5.
> > Ho provato con altri 5 e ne vede correttamente 3 su 5.
>
> questo è strano

Infatti. Spero di fare altre prove nei prossimi giorni, con altri gruppi di articoli.

> > Il campo data visualizzato nel messaggio dentro il newsreader è
> > corretta, ma l'ordinamento del post nel thread non la rispetta in tutti
> > i casi.
> come ti è stato risposto altrove, la struttura del 3ad è data dalla
> sequenza degli identificativi di messaggio riportata nel campo
> `References' degli articoli.

Si, adesso ho capito. Resta il punto che non saprei come andare ad ordinare in automatico anche il campo Reference, per la data magari qualche sistema trovo, ma a dover gestire anche il Reference va oltre le mie forze e il mio tempo. :)

Alla fin fine si tratta quasi di un passatempo, mi sarebbe piaciuto avere tutto lo storico di un gruppo a cui sono legato in locale, ma se non ci riesco pazienza, campo lo steso. :)
Però qualche tentativo volevo farlo, grazie dell'aiuto. :)

Se ho altri aggiornamenti li condivido.

--
Mandi
MMC

issdr

unread,
Apr 13, 2021, 2:03:15 PM4/13/21
to
Mail MasterC <mailm...@gmail.com> writes:

> Si, adesso ho capito. Resta il punto che non saprei come andare ad
> ordinare in automatico anche il campo Reference, per la data magari
> qualche sistema trovo

se le date errate hanno tutte formato aaaa/MM/gg, ho buttato giù questo
script da copincollare in powershell.

se hai W10 sei abbastanza sicuro che funzioni. entri nella cartella che
contiene tutto e fai click destro tenendo premuto shift. prima di tutto
devi dare questi due comandi, perché le date vengano generate in
inglese:

#v+
Set-Culture en-US

powershell
#v-

(il primo cambia lo standard con cui vengono visualizzati data, ora,
valuta -ti accorgi che ha avuto effetto anche solo aprendo il calendario
in tray area; il secondo lancia una shell nella shell, in modo che
prenda la nuova impostazione di sistema)

poi copi e incolli (nel terminale di powershell basta un click destro e
ti spara il testo dal cursore in giù, le righe -anche se spezzate- si
confermano con un'unica pressione del tasto invio) questo, adattando la
maschera dei file in modo da beccare quelli degli articoli (ho
ipotizzato *.txt):

#v+
ls -Recurse *.txt | Select -Expand FullName |
%{
(Select-String -Path $_ '^Date: .*(\d{4}/\d{2}/\d{2}).*$' |
Select -First 1 |
?{
$datapost = $_.Matches[0].Groups[1].Value
If ($datapost -ne "") {
$vdatapost= [Regex]::Escape($_.Matches[0].Value)
$datapost = [DateTime]::ParseExact($datapost,"yyyy/MM/dd",$null)
$ndatapost= "Date: "+(
Get-Date $datapost -Format "ddd, dd MMM yyyy HH:mm:ss"
)+" +0100"
}
}
)
If ($ndatapost -ne $null) {
$_,$vdatapost,$ndatapost -Replace "\n+","\n"
(Get-Content $_) -Replace "^$vdatapost",$ndatapost | Set-Content $_
}
Remove-Variable *datapost
}
#v-

(i simboli del verbatim non vanno copiati)

cosa fa? la lista di tutti i file di testo, ricorsivamente anche per le
sottodirectory, poi espande il percorso di tutti i file trovati e li
passa ad una ricerca in ciascuno dei campi della data errati; seleziona
solo il primo incontrato nel file (metti che ci siano esempi o più
header della data), lo mette da parte in una variabile, poi ci crea un
oggetto tipo data e ne salva il valore in un'altra variabile con il
formato voluto (ho messo il ns. fuso); se quest'ultima variabile risulta
non nulla, viene effettuata la sostituzione di testo nel file. in output
vedrai il nome del file che ha subito la correzione, la stringa trovata
(con gli escape per la ricerca letterale) e la nuova data.

una volta finito, ricorda di togliere le impostazioni anglosassoni
en-US, utilizzando it-IT

se decidi di provare, lavora su una copia dei dati.

PS - Notepad++ è serio, ma dovendo operare su più file questo mi pare il
modo migliore.

Mail MasterC

unread,
Apr 15, 2021, 9:00:28 AM4/15/21
to
Il giorno martedì 13 aprile 2021 alle 20:03:15 UTC+2 issdr ha scritto:

Io copio e incollo, vado sulla fiducia, eh! :)

> se le date errate hanno tutte formato aaaa/MM/gg, ho buttato giù questo
> script da copincollare in powershell.

Grazie infinite, le date dei post non sono tutte così, alcune si, altre no. Che succede se trova date nel formato corretto? Le salta o modifica anche qelle?

> se hai W10 sei abbastanza sicuro che funzioni.

Faccio una copia in win10, non ho problemi.

> se decidi di provare, lavora su una copia dei dati.

Grazie infinite della cortesia, questo fine settimana mi ci metto, ovviamente su una copia!

> PS - Notepad++ è serio, ma dovendo operare su più file questo mi pare il
> modo migliore.

Grazie ancora.

--
Mandi
MMC

issdr

unread,
Apr 15, 2021, 5:18:20 PM4/15/21
to
Mail MasterC <mailm...@gmail.com> writes:

>> se le date errate hanno tutte formato aaaa/MM/gg, ho buttato giù questo
>> script da copincollare in powershell.
>
> Grazie infinite, le date dei post non sono tutte così, alcune si,
> altre no. Che succede se trova date nel formato corretto? Le salta o
> modifica anche qelle?

cerca solo le date con il formato indicato sopra (non corretto),
saltando tutte quelle che hanno un altro formato (che sia giusto o
sbagliato)

se hai dubbi o curiosità, chiedi.

ciao

Mail MasterC

unread,
Apr 16, 2021, 4:28:29 AM4/16/21
to
Il giorno giovedì 15 aprile 2021 alle 23:18:20 UTC+2 issdr ha scritto:

> cerca solo le date con il formato indicato sopra (non corretto),
> saltando tutte quelle che hanno un altro formato (che sia giusto o
> sbagliato)
>
> se hai dubbi o curiosità, chiedi.

Benissimo, grazie dell'aiuto. Nel fine settimana faccio un po' di prove.

--
Mandi
MMC

P/ero

unread,
Apr 16, 2021, 12:17:26 PM4/16/21
to
"issdr" [by Gnus/5.13 (Gnus v5.13) Emacs/25.1 (gnu/linux)] on 13/04/21 20:03
wrote:

..._skipped!_
> #v+
> Set-Culture en-US

> powershell
> #v-

..._skipped!_
> #v+
> ls -Recurse *.txt | Select -Expand FullName |
> %{
> (Select-String -Path $_ '^Date: .*(\d{4}/\d{2}/\d{2}).*$' |
> Select -First 1 |
> ?{
> $datapost = $_.Matches[0].Groups[1].Value
> If ($datapost -ne "") {
> $vdatapost= [Regex]::Escape($_.Matches[0].Value)
> $datapost =
> [DateTime]::ParseExact($datapost,"yyyy/MM/dd",$null)
> $ndatapost= "Date: "+(
> Get-Date $datapost -Format "ddd, dd MMM yyyy HH:mm:ss"
> )+" +0100"
> }
> }
> )
> If ($ndatapost -ne $null) {
> $_,$vdatapost,$ndatapost -Replace "\n+","\n"
> (Get-Content $_) -Replace "^$vdatapost",$ndatapost | Set-Content
> $_
> }
> Remove-Variable *datapost
> }
> #v-

> (i simboli del verbatim non vanno copiati)

Chissà chi riesce a leggere i verbatim_marks. :-?
Solo chi usa Gnus e slrn, oltre al mio NR. :-)
Per fortuna non c'erano smileys da intrepretare...

..._skipped!_
--
* b *
* y *
* Pierо *
#v+
Ho nascosto qualche grammo di cervello per uso personale.
#v-


Mail MasterC

unread,
Apr 16, 2021, 12:35:31 PM4/16/21
to
Il giorno martedì 13 aprile 2021 alle 20:03:15 UTC+2 issdr ha scritto:

> (i simboli del verbatim non vanno copiati)

Mi era sfuggito di chiederti: cosa sono i simboli del verbatim (che non devo copiare)?

Grazie.


--
Mandi
MMC

issdr

unread,
Apr 17, 2021, 4:58:43 AM4/17/21
to
Mail MasterC wrote:

> Il giorno martedì 13 aprile 2021 alle 20:03:15 UTC+2 issdr ha scritto:
>
>> (i simboli del verbatim non vanno copiati)
>
> Mi era sfuggito di chiederti: cosa sono i simboli del verbatim (che non
> devo copiare)?

#v+
˄˄˄
simboli verbatim
˅˅˅
#v-

(che in ps rappresenterebbero commenti, quindi non è un problema se per
sbaglio ne prendi su qualcuno)

Mail MasterC

unread,
Apr 17, 2021, 5:18:57 AM4/17/21
to
Il giorno giovedì 15 aprile 2021 alle 23:18:20 UTC+2 issdr ha scritto:

> se hai dubbi o curiosità, chiedi.

Dovrai avere molta pazienza con me! :)

Alla fine ho capito cosa intendevi per "verbatim", grazie. :)

Allora, al momento di copia&incollare il tuo script in powershell dalla seconda riga in poi ogni riga ha all'inizio un doppio simbolo di maggiore ">>".
Ho dato invio lo stesso ma non è cambiato nulla.
Ho cancellato a mano ogni doppio maggiore e messo uno spazio, e poi invio ma non è successo nulla lo stesso, nel senso che la data nei singoli file non è cambiata. I file sono senza estensione, quindi ho cambiato solo il primo parametro dello script mettendo un *.*

Se copio prima lo script in blocco note e poi da qui lo ricopio in powershell mi fa lo stesso problema.

Può essere perché Windows 10 è in una macchina virtuale sotto OSX?

Lunedì dovrei provare in ufficio direttamente in una macchina win10.

Grazie.

--
Mandi
MMC

issdr

unread,
Apr 17, 2021, 7:11:35 AM4/17/21
to
Mail MasterC wrote:

> Allora, al momento di copia&incollare il tuo script in powershell
> dalla seconda riga in poi ogni riga ha all'inizio un doppio simbolo di
> maggiore ">>".

quel simbolo indica che la serie di comandi è su più righe, lascia tutto
com'è. l'intera serie di comandi è confermata pigiando una sola volta
invio.

> Ho dato invio lo stesso ma non è cambiato nulla.
> Ho cancellato a mano ogni doppio maggiore e messo uno spazio, e poi
> invio ma non è successo nulla lo stesso, nel senso che la data nei
> singoli file non è cambiata. I file sono senza estensione, quindi ho
> cambiato solo il primo parametro dello script mettendo un *.*

quella maschera cerca <file>.<ext>, se non hai estensioni devi usare
solamente * (che però becca anche le directory, quindi aggiungi un `-File'
al `ls' iniziale)

> Se copio prima lo script in blocco note e poi da qui lo ricopio in
> powershell mi fa lo stesso problema.
>
> Può essere perché Windows 10 è in una macchina virtuale sotto OSX?

non credo. avessi saputo prima che avevi un mac... (lo script io l'ho
fatto andare da linux, immagino che powershell sia disponibile anche per
la mela)

> Lunedì dovrei provare in ufficio direttamente in una macchina win10.

ripeto, la piattaforma non dovrebbe influire.

Mail MasterC

unread,
Apr 17, 2021, 9:55:00 AM4/17/21
to
Il giorno sabato 17 aprile 2021 alle 13:11:35 UTC+2 issdr ha scritto:
> Mail MasterC wrote:
>
> > Allora, al momento di copia&incollare il tuo script in powershell
> > dalla seconda riga in poi ogni riga ha all'inizio un doppio simbolo di
> > maggiore ">>".
>
> quel simbolo indica che la serie di comandi è su più righe, lascia tutto
> com'è. l'intera serie di comandi è confermata pigiando una sola volta
> invio.

Ok, riprovo.

> > cambiato solo il primo parametro dello script mettendo un *.*
>
> quella maschera cerca <file>.<ext>, se non hai estensioni devi usare
> solamente * (che però becca anche le directory, quindi aggiungi un `-File'
> al `ls' iniziale)

Ok, grazie, io ho tutto in una cartella, nel senso ho la cartella "post" dentro questa apro powershell e lancio lo script, ma non ci sono sottocartelle.

> > Può essere perché Windows 10 è in una macchina virtuale sotto OSX?
>
> non credo. avessi saputo prima che avevi un mac... (lo script io l'ho
> fatto andare da linux, immagino che powershell sia disponibile anche per
> la mela)

Su Mac c'è il terminale che è una shell BASH.

Riprovo, grazie.

--
Mandi
MM

P/ero

unread,
Apr 18, 2021, 9:17:39 AM4/18/21
to
"Mail MasterC" [by G2/1.0] on 16/04/21 18:35 wrote:

> Il giorno martedì 13 aprile 2021 alle 20:03:15 UTC+2 issdr ha scritto:

>> (i simboli del verbatim non vanno copiati)

> Mi era sfuggito di chiederti: cosa sono i simboli del verbatim (che
> non devo copiare)?

Usando i verbatim_marks (#V+ #V-) si evita che certe sequenze di
caratteri vengano trasformate in smileys, bold, underlined, italic,
facendo vedere il testo così com'è stato scritto.

Questo è importante quando si deve copiare fedelmente, per esempio lo
script postato.

Qui trovi maggiori info: http://www.slrn.org/docs/slrn-manual-6.html

Però sono ben pochi i reader che hanno tale possibilità, e quelli l'ho
già citati :-)

Il testo viene visto così: https://postimg.cc/CR7q6zBW

Con il mio NR posso anche modificarlo: https://postimg.cc/Mn9nmNgw

Le due immagini sono diverse perché ho create due visualizzazioni: una
modificata per i miei messaggi, e la classica per tutti gli altri.

> Grazie.

Ma niente...
--
* b *
* y *
* Pierо *
#v+
-panem et circenses-
#v-


Mail MasterC

unread,
Apr 21, 2021, 5:01:58 AM4/21/21
to
Il giorno mercoledì 7 aprile 2021 alle 17:11:33 UTC+2 Mail MasterC ha scritto:

Aggiornamento (scusate il ritardo).

Il cambio data con lo script di issdr ha funzionato, grazie!

Ho importato i post dentro hamster e sono visibili con Xnews (che uso attualmente).

Ho riscontrato i seguenti punti:

1) di tutti i post di un mese, quando sono andato a fare l'importazione, hamster mi dice che ne ha riconosciuti una certa quantità ma ne ha importati molti di meno, circa il 50% sono scartati (ma non ho indicazioni di quali e del perché). Per i post dei mesi che erano già dentro hamster mi sta bene, ma per i mesi nuovi non capisco il motivo. Posso aspettarmi qualche errore di formattazione o post per qualche motivo non nel formato corretto al momento della suzione da google, ma la metà mi pare un po' troppo. Ma non ho elementi per capire cosa sia successo. I log di hamster non segnalano nulla.

2) i thread non sono ricostruiti correttamente, mancando il referenceID come mi avete spiegato, quindi sono raggruppati solo per subject e per data. Diciamo che me lo faccio bastare. :)

3) Molti thread non sono completi, probabilmente per gli errori del punto 1. Se avete qualche idea posso riprovare ad importarli di nuovo con qualche variazione, ma nel manuale di hamster non sono riuscito a trovare nessun aiuto.

Grazie comunque per l'aiuto che mi avete dato. :)

--
Mandi
MMC

P/ero

unread,
Apr 21, 2021, 9:12:50 AM4/21/21
to
"Mail MasterC" [by G2/1.0] on 21/04/21 11:01 wrote:

..._skipped!_

> 3) Molti thread non sono completi, probabilmente per gli errori del
> punto 1. Se avete qualche idea posso riprovare ad importarli di nuovo
> con qualche variazione, ma nel manuale di hamster non sono riuscito a
> trovare nessun aiuto.

> Grazie comunque per l'aiuto che mi avete dato. :)

Ringrazia pure issdr, il suo script ha fatto miracoli. :-)
Pur essendo corretto quello script, non credevo ci riuscisse, visto il
casino che si era creato nell'importare i messaggi...

--
* b *
* y *
* Pierо *
#v+
-deus ex machina-
#v-


Mail MasterC

unread,
Apr 21, 2021, 4:34:10 PM4/21/21
to
Il giorno mercoledì 21 aprile 2021 alle 15:12:50 UTC+2 P/ero ha scritto:
> "Mail MasterC" [by G2/1.0] on 21/04/21 11:01 wrote:
> > Grazie comunque per l'aiuto che mi avete dato. :)
>
> Ringrazia pure issdr, il suo script ha fatto miracoli. :-)

Sicuramente!

> Pur essendo corretto quello script, non credevo ci riuscisse, visto il
> casino che si era creato nell'importare i messaggi...

Mi resta il dubbio di capire come mai ci siano così tanti errori di importazione, soprattutto nei mesi più vecchi, ma dovrei fare un controllo puntuale post per post e capire quali legge e quali no e poi desumere eventuali motivi di errori... ma la vedo lunga... Vediamo se nei prossimi giorni mi resta la voglia di provarci. :)


--
Mandi
MMC

P/ero

unread,
Apr 22, 2021, 6:26:56 AM4/22/21
to
"Mail MasterC" [by G2/1.0] on 21/04/21 22:34 wrote:

> Il giorno mercoledì 21 aprile 2021 alle 15:12:50 UTC+2 P/ero ha scritto:
>> "Mail MasterC" [by G2/1.0] on 21/04/21 11:01 wrote:
>>> Grazie comunque per l'aiuto che mi avete dato. :)

>> Ringrazia pure issdr, il suo script ha fatto miracoli. :-)

> Sicuramente!

>> Pur essendo corretto quello script, non credevo ci riuscisse, visto
>> il casino che si era creato nell'importare i messaggi...

> Mi resta il dubbio di capire come mai ci siano così tanti errori di
> importazione, soprattutto nei mesi più vecchi,

Forse perché suckgoogle non fa il suo sporco lavoro come dovrebbe...

> ma dovrei fare un controllo puntuale post per post e capire quali
> legge e quali no e poi desumere eventuali motivi di errori... ma la
> vedo lunga... Vediamo se nei prossimi giorni mi resta la voglia di
> provarci. :)

Auguri e tanta pazienza, perché sarà un lungo lavoro. :-)
--
* b *
* y *
* Pierо *
#v+

issdr

unread,
Apr 22, 2021, 5:43:05 PM4/22/21
to
Mail MasterC wrote:

> Posso aspettarmi qualche errore di formattazione o post per
> qualche motivo non nel formato corretto al momento della suzione da
> google, ma la metà mi pare un po' troppo. Ma non ho elementi per
> capire cosa sia successo. I log di hamster non segnalano nulla.

seleziona un po' di articoli scartati e condividili in qualche modo. il
campo `References' risulta proprio mancante in alcuni?

Mail MasterC

unread,
Apr 23, 2021, 4:10:49 AM4/23/21
to
Il giorno giovedì 22 aprile 2021 alle 23:43:05 UTC+2 issdr ha scritto:
>
> seleziona un po' di articoli scartati e condividili in qualche modo. il
> campo `References' risulta proprio mancante in alcuni?

Mi ci metto questo fine settimana, poi vi aggiorno.

Grazie.

--
Mandi
MMC

Mail MasterC

unread,
Apr 23, 2021, 4:21:12 PM4/23/21
to
Il giorno giovedì 22 aprile 2021 alle 23:43:05 UTC+2 issdr ha scritto:
>
> seleziona un po' di articoli scartati e condividili in qualche modo. il
> campo `References' risulta proprio mancante in alcuni?

Ho importato il primo mese con ham.exe, su 68 articoli riconosciuti ne ha importati 44.
Dopo averli aperti uno ad uno su notepad e sul newsreader, ho scoperto che 23 erano doppioni e quindi sono stati giustamente scartati. Ne è rimasto fuori solo uno che non è stato riconosciuto.

Poi ho provato con il secondo mese ma siamo passati a 1002 post su 1002 file riconosciuti e importati solo 444. Francamente mi è passata la voglia di andare a controllare quanti eventuali doppioni ci fossero! :)
Ho fatto un po' di prove a campione con una decina di post e ci sono, e nei mesi successivi il volume dei post aumenta ancora. Quindi anche no! :)
La cosa curiosa è che il secondo mese è dicembre 1996 ma mi trovo post del 2003, e a giudicare dagli argomenti datati 2003 non potevano essere argomenti "nati" nel 1996. Dio solo sa cosa ho combinato all'epoca in cui li ho scaricati, o cosa abbia fatto lo script suckgoogle! :)

Mi sembra che ham.exe abbia lavorato bene, scartando i doppioni, sicuramente alla fonte mancano diversi post (come dicevo i thread non sono completi), ma considerata la quantità di articoli non mi basterebbero altri 10 lockdown per venirne a capo, quindi mi accontento!

Riporto qui gli header dell'unico post che non è stato riconosciuto da ham.exe, se trovate qualche aspetto strano posso provare ad indagare sugli altri post scartati e fare un secondo passaggio di importazione.

#v+

From: xx...@iol.it (xxxx )
Subject: Re: PERFAVORE, MANDATEMI UNA MAIL, SONO SOLO E DISPERATO.
Date: Sat, 26 Oct 1996 00:00:00 +0100
Message-ID: <54srto$2...@mikasa.iol.it>#1/1
references: <54q9f5$7...@nuhou.aloha.net> <1102.6872...@mbox.vol.it>
organization: Italia Online
newsgroups: it.fan.cuore,soc.culture.italian,it.cultura.cybersocieta,it.politica

#v-

Adesso che rileggo con calma, io ho fatto lo scarico solo per il gruppo it.arti.fumetti, che in questo post non è nemmeno elencato. Ma non credo che sia il motivo della mancata importazione, ad ham.exe ho detto di importare tutto quello che c'era in una cartella specifica senza dare altre indicazioni.

Ad ogni modo, rileggere post di 25 anni fa è un tuffo nella psicologia dei primi internauti italiani non da poco. :)

Grazie ancora a tutti.

--
Mandi
MMC

issdr

unread,
Apr 23, 2021, 5:45:24 PM4/23/21
to
Mail MasterC wrote:

> Message-ID: <54srto$2...@mikasa.iol.it>#1/1

dubito ci possa essere qualcosa dopo la parentesi angolare
chiusa. cancella gli ultimi quattro caratteri e ritenta l'import. se
questo risolve il problema, i file si possono ripulire in automatico.

anche per i doppioni, non vanno cercati uno per uno, basta un monoriga
ben impostato:

#v+
awk '/^Message-ID: /{if (d[$0]++) print FILENAME}' *
#v-

dovrebbe essere uno strumeto disponibile in bash. cerca all'interno dei
file le righe che iniziano in quel modo, le utilizza come indice di un
vettore (d)uplicati, incrementandolo (++) ogni volta che l'indice si
ripete (la prima volta `++' crea una voce a 0). poichè 0 è falso ed è vero
ciò che è diverso da 0 (in caso di doppione sarà maggiore), la
condizione sarà soddisfatta solo da ID già incontrati in precedenza e
in quei casi verrà emesso il nome del file.

John Smalls

unread,
Apr 23, 2021, 10:17:20 PM4/23/21
to
On 23/04/21 22:21, Mail MasterC wrote:

> Riporto qui gli header dell'unico post che non è stato riconosciuto da ham.exe, se trovate qualche aspetto strano posso provare ad indagare sugli altri post scartati e fare un secondo passaggio di importazione.

Io non mi ricordo piu' le RFC, che allora leggevo piu' dei quotidiani,
pero' di solito l'header References ha l'iniziale maiuscola (come gli
altri header, del resto), se anche fosse non necessario, i vari
programmi che usi potrebbero comunque ricercare la forma comune...

Mail MasterC

unread,
Apr 24, 2021, 4:47:04 AM4/24/21
to
Il giorno sabato 24 aprile 2021 alle 04:17:20 UTC+2 John Smalls ha scritto:
>
> Io non mi ricordo piu' le RFC, che allora leggevo piu' dei quotidiani,
> pero' di solito l'header References ha l'iniziale maiuscola (come gli
> altri header, del resto), se anche fosse non necessario, i vari
> programmi che usi potrebbero comunque ricercare la forma comune...

Ho verificato sui post importati correttamente, e, dove presente, il campo "reference" ha la minuscola, quindi non dovrebbe essere il problema, ma se questo può aumentare in qualche modo la quantità di post importati, meglio.

Grazie.

--
Mandi
MMC

Mail MasterC

unread,
Apr 24, 2021, 4:55:38 AM4/24/21
to
Il giorno venerdì 23 aprile 2021 alle 23:45:24 UTC+2 issdr ha scritto:
> Mail MasterC wrote:
>
> > Message-ID: <54srto$2...@mikasa.iol.it>#1/1
>
> dubito ci possa essere qualcosa dopo la parentesi angolare
> chiusa. cancella gli ultimi quattro caratteri e ritenta l'import. se
> questo risolve il problema, i file si possono ripulire in automatico.

BINGO! Post importato correttamente. :)
Ma sono andato a guardare anche gli altri post già importati correttamente e quei caratteri ci sono lo stesso.
Ad ogni modo val la pena tentare, e ti chiedo aiuto ancora una volta:

* come faccio a cancellare in automatico quei caratteri in più (se posso farlo da windows meglio)?
* come faccio, dietro suggerimento di John Smalls, a cambiare in automatico la maiuscola del campo reference?

> anche per i doppioni, non vanno cercati uno per uno, basta un monoriga
> ben impostato:

Eh, ma ve l'ho detto che non so nulla di programmazione (purtroppo!).

> #v+
> awk '/^Message-ID: /{if (d[$0]++) print FILENAME}' *
> #v-

Posso usarlo in powershell come l'altro script che hai fatto? Come sopra, se posso farlo sotto windows sarebbe meglio perché posso farlo in multitasking mentre lavoro. :)

Grazie infinite!

--
Mandi
MMC

Termoregolato

unread,
Apr 24, 2021, 9:54:43 AM4/24/21
to
On 24/04/21 10:47, Mail MasterC wrote:

> Grazie.

Prego, ma ora ti chiedo una cosa io. Visto che ho iniziato a leggere il
thread non all'inizio, dove trovi i vecchi post del '96? Ricordo che
Google butto' via tutto, sperando che la gente andasse sui suoi
gruppi... tra l'altro, ricordo anche che quelli che postavano da
Googlegroups mandavano messaggi non proprio conformi alle RFC, nel piu'
puro stile di Google di rompere le scatole agli altri per trarne
vantaggi, e questo potrebbe essere causa di altri problemi nel threading
di Hamster...

Mail MasterC

unread,
Apr 24, 2021, 1:44:36 PM4/24/21
to
Il giorno sabato 24 aprile 2021 alle 15:54:43 UTC+2 Termoregolato ha scritto:
>
> Prego, ma ora ti chiedo una cosa io. Visto che ho iniziato a leggere il
> thread non all'inizio, dove trovi i vecchi post del '96?

Li ho scaricati ad inizio anni 2000 grazie ad uno script chiamato suckgoogle, fatto da un utente di usenet con lo scopo di scaricare ogni post su google per ogni gruppo indicato.
Lo script ce l'ho ancora, ma non essendo un programmatore non sono minimamente in grado di capire come funzioni. Fra l'altro mi pare che lo stesso autore ad un certo punto si arrese e non lo sviluppò più.
Quindi sicuramente lo script non era perfetto, sicuramente il suo lavoro l'ha fatto ma non in modo ottimale. Io finalmente ho un po' di tempo da dedicare a sistemare un po' di cose e quindi mi sono messo a lavorare su quasi 120.000 post con l'idea di importarli in hamster e da lì poterli gestire. Con il vostro aiuto ci sono quasi riuscito. :)

> Ricordo che
> Google butto' via tutto, sperando che la gente andasse sui suoi
> gruppi... tra l'altro, ricordo anche che quelli che postavano da
> Googlegroups mandavano messaggi non proprio conformi alle RFC, nel piu'
> puro stile di Google di rompere le scatole agli altri per trarne
> vantaggi, e questo potrebbe essere causa di altri problemi nel threading
> di Hamster...

Infatti, tutto purtroppo vero. Non sapendo io come devono essere fatti i messaggi per essere conformi alla RFC, e non sapendo se l'autore dello script ne fosse a conoscenza, il rischio che qualcosa non sia andato per il verso giusto c'è tutto. :)

--
Mandi
MMC

issdr

unread,
Apr 24, 2021, 2:13:18 PM4/24/21
to
Mail MasterC wrote:

> Ma sono andato a guardare anche gli altri post già importati
> correttamente e quei caratteri ci sono lo stesso.

misteri...

> Ad ogni modo val la pena tentare, e ti chiedo aiuto ancora una volta:
>
> * come faccio a cancellare in automatico quei caratteri in più (se posso
> farlo da windows meglio)?

#v+
(ls -Recurse -File * | Select-String "^Message-ID:.*\>.+$").Path |
%{ ( gc $_ ) -replace "^(Message-ID: .*>).+",'$1' | sc $_ }
#v-

> * come faccio, dietro suggerimento di John Smalls, a cambiare in
> automatico la maiuscola del campo reference?

#v+
(ls -Recurse -File * | Select-String -CaseSensitive "^references: \<").Path |
%{ ( gc $_ ) -replace "^references: \<","References: <" | sc $_ }
#v-

[cancellare doppioni]
>> #v+
>> awk '/^Message-ID: /{if (d[$0]++) print FILENAME}' *
>> #v-
>
> Posso usarlo in powershell come l'altro script che hai fatto?

no, come t'ho scritto, funziona con *nix (ti avrebbe dato solo la lista
dei file da eliminare, senza farlo). linux si può avere in 10' sotto W10,
avendo diritti di amministratore, una linea veloce e riavviando una
volta. ad ogni modo, ps:

#v+
ls -Recurse -File * | Select-String "^Message-ID.*>$" | group line |
%{ if ( $_.count -ge 2 ) {
rm -WhatIf ( $_.group.path | select -f ( $_.count - 1 ) ) }
}
#v-

togli il `-WhatIf' quando ti senti sicuro.


Termoregolato

unread,
Apr 24, 2021, 5:54:09 PM4/24/21
to
On 24/04/21 19:44, Mail MasterC wrote:

> Li ho scaricati ad inizio anni 2000 grazie ad uno script chiamato suckgoogle, fatto da un utente di usenet con lo scopo di scaricare ogni post su google per ogni gruppo indicato.

Ah, ecco...

> Con il vostro aiuto ci sono quasi riuscito. :)

Il mio e' stato pochino, me ne dolgo perche' fino al 2005 usavo Hamster
per mail e news massivamente, lo conoscevo bene e avevo decine di script
anche semplici per modificare e reindirizzare i post, e magari facevano
comodo adesso. Trs l'altro uno dei migliori programmi Windows mai usati
(sicuramente sul mio podio con Foobar2000)

> Infatti, tutto purtroppo vero. Non sapendo io come devono essere fatti i messaggi per essere conformi alla RFC, e non sapendo se l'autore dello script ne fosse a conoscenza, il rischio che qualcosa non sia andato per il verso giusto c'è tutto. :)

Non c'e' da sapere poi gran cose. Il messaggio e' fatto come quello
delle mail. Gli header importanti sono quelli che indicavi, quelli con
X- sono tutti degli extra, References serve invece per indicare non solo
il messaggio padre, ma anche tutta la conversazione.

Mail MasterC

unread,
Apr 25, 2021, 6:34:51 AM4/25/21
to
Il giorno sabato 24 aprile 2021 alle 20:13:18 UTC+2 issdr ha scritto:
>
> > Ad ogni modo val la pena tentare, e ti chiedo aiuto ancora una volta:

Grazie infinite, domani provo e ti faccio sapere.

> linux si può avere in 10' sotto W10,
> avendo diritti di amministratore, una linea veloce e riavviando una
> volta. ad ogni modo, ps:

Si lo so, mi piace giocare con le VM, ma in questi giorni di lavoro sono abbastanza tranquillo, quindi se posso lanciare gli script dal pc ufficio recupero un po' di tempo. :)

Per dirti che ham.exe non funziona sotto win10, nemmeno in shell da amministratore (dice che non riesce a creare una app e non so perché), quindi tutte le prove le ho fatte in una VM di XP. :)

> togli il `-WhatIf' quando ti senti sicuro.

Lavoro sempre su backup multipli, ho imparato "the hard way"! :)

Grazie.

--
Mandi
MMC

issdr

unread,
Apr 25, 2021, 9:55:44 AM4/25/21
to
Mail MasterC wrote:

> Si lo so, mi piace giocare con le VM, ma in questi giorni di lavoro
> sono abbastanza tranquillo, quindi se posso lanciare gli script dal pc
> ufficio recupero un po' di tempo. :)

pensavo a wsl 2 in realtà. si tratta pur sempre di una virtualizzazione,
ma gira gomito a gomito col sistema (me lo dimostrano i tempi impiegati
in alcuni task, stessa distro in W10 e su vbox). credo che la tecnologia
sia sempre hyper-v, anche se home formalmente non ce l'ha (almeno
l'ultima volta che ho guardato) e quindi non gestisce macchine virtuali

> Per dirti che ham.exe non funziona sotto win10, nemmeno in shell da
> amministratore (dice che non riesce a creare una app e non so perché),
> quindi tutte le prove le ho fatte in una VM di XP. :)

quindi potevi pasticciare e installare gawk tramite cygwin... quel tool
è molto particolare e utile.

provato a far girare ham.exe in una "gabbia" xp? (non so se w10 le ha
ancora, mi pare di averle usate in 7 l'ultima volta)

Mail MasterC

unread,
Apr 26, 2021, 9:03:36 AM4/26/21
to
Il giorno domenica 25 aprile 2021 alle 15:55:44 UTC+2 issdr ha scritto:
>
> pensavo a wsl 2 in realtà.

Anche. Personalmente non ne so abbastanza di CLI da poterlo utilizzare con profitto, quindi ho bisogno di una GUI e di un sistema "completo".

> > Per dirti che ham.exe non funziona sotto win10, nemmeno in shell da
> > amministratore (dice che non riesce a creare una app e non so perché),
> > quindi tutte le prove le ho fatte in una VM di XP. :)
>
> quindi potevi pasticciare e installare gawk tramite cygwin... quel tool
> è molto particolare e utile.

Ah si, se dovessi fare script in bash. :)
cygwin lo provai troppi anni fa, quando ancora pensavo di fare una carriera informatica, ma non mi sono mai cimentato troppo e quindi ho lasciato perdere.

> provato a far girare ham.exe in una "gabbia" xp? (non so se w10 le ha
> ancora, mi pare di averle usate in 7 l'ultima volta)

Infatti la "gabbia" che dici tu esiste solo in Windows 7, in modo nativo, che io sappia. Poi bisogna usare Virtual PC o Virtual Box.
La VM di XP che ho usato sta sotto Parallels in OSX, per dire i giri tortuosi. :)

--
Mandi
MMC

Mail MasterC

unread,
Apr 26, 2021, 9:44:27 AM4/26/21
to
Il giorno sabato 24 aprile 2021 alle 20:13:18 UTC+2 issdr ha scritto:

> > * come faccio a cancellare in automatico quei caratteri in più (se posso
> > farlo da windows meglio)?
> #v+
> (ls -Recurse -File * | Select-String "^Message-ID:.*\>.+$").Path |
> %{ ( gc $_ ) -replace "^(Message-ID: .*>).+",'$1' | sc $_ }
> #v-
>
> > * come faccio, dietro suggerimento di John Smalls, a cambiare in
> > automatico la maiuscola del campo reference?
> #v+
> (ls -Recurse -File * | Select-String -CaseSensitive "^references: \<").Path |
> %{ ( gc $_ ) -replace "^references: \<","References: <" | sc $_ }
> #v-

Sicuramente sbaglio qualcosa io, ma quando lancio lo script dalla cartella padre che contiene le varie cartelle figlie (che a loro volta contengono i singoli post), ottengo questo errore con entrambi gli script:

#v+
Get-Content : Impossibile associare l'argomento al parametro 'Path' perché è
null.
In riga:2 car:9
+ %{ ( gc $_ ) -replace "^(Message-ID: .*>).+",'$1' | sc $_ }
+ ~~
+ CategoryInfo : InvalidData: (:) [Get-Content], ParameterBindingVa
lidationException
+ FullyQualifiedErrorId : ParameterArgumentValidationErrorNullNotAllowed,Mic
rosoft.PowerShell.Commands.GetContentCommand
#v-

Ho visto che c'è il parametro -recurse e mi aspettavo che lavorasse anche nelle sottocartelle.
Se invece lo lancio da ogni cartella che contiene i post funziona senza problemi.

Grazie.

--
Mandi
MMC

issdr

unread,
Apr 26, 2021, 11:23:49 AM4/26/21
to
Mail MasterC wrote:

> Sicuramente sbaglio qualcosa io, ma quando lancio lo script dalla
> cartella padre che contiene le varie cartelle figlie (che a loro volta
> contengono i singoli post), ottengo questo errore con entrambi gli
> script:

l'errore è causato dalla ricerca della stringa andata a vuoto (non ha
trovato nessun file corrispondente in quella cartella). non l'ho gestito
perché non interrompe l'esecuzione.

dopo la prima esecuzione, in teoria dovrebbe darti solo errori, perché
tutte le stringhe sono state sistemate

Mail MasterC

unread,
Apr 27, 2021, 9:11:36 AM4/27/21
to
Il giorno lunedì 26 aprile 2021 alle 17:23:49 UTC+2 issdr ha scritto:
>
> l'errore è causato dalla ricerca della stringa andata a vuoto (non ha
> trovato nessun file corrispondente in quella cartella). non l'ho gestito
> perché non interrompe l'esecuzione.

In pratica ho interi mesi di post senza il campo reference. Andando avanti in altri mesi lo script funziona di nuovo senza errori, e aprendo dei post a campione nelle cartelle in cui mi ha dato errore il campo proprio non c'è.

> dopo la prima esecuzione, in teoria dovrebbe darti solo errori, perché
> tutte le stringhe sono state sistemate

Infatti sui mesi già fatti se rilancio lo script mi da lo stesso errore.
Ok, vado avanti.

Grazie ancora.

--
Mandi
MMC

issdr

unread,
Apr 27, 2021, 10:44:07 AM4/27/21
to
Mail MasterC <mailm...@gmail.com> writes:

> In pratica ho interi mesi di post senza il campo reference.

su questo si può poco. alcuni poster riportavano il m-id di colui a cui
rispondevano, avrebbe fatto comodo in questa situazione.

a parziale discolpa dello script, c'è il fatto che google con i ng ne ha
combinate d'ogni, sempre senza preavviso.

ciao

Mail MasterC

unread,
Apr 27, 2021, 10:54:59 AM4/27/21
to
Il giorno martedì 27 aprile 2021 alle 16:44:07 UTC+2 issdr ha scritto:

> a parziale discolpa dello script, c'è il fatto che google con i ng ne ha
> combinate d'ogni, sempre senza preavviso.

Ne sono ben consapevole, è che all'epoca google era l'unico repository a libero accesso (sort of), se non ricordo male si inglobò lo storico di dejanews e come sappiamo se lo gestì a proprio uso e consumo.
Non ne faccio certo una colpa a te o al tuo preziosissimo lavoro. :)

Finito di lanciare gli script e di sfoltire, sembra che ci fossero circa 5000 doppioni (mi aspettavo qualcosa di più, ma va bene).

A breve riprovo ad importare con hamster e vediamo se miglioriamo la performance. :)

--
Mandi
MMC

issdr

unread,
Apr 27, 2021, 1:11:55 PM4/27/21
to
Mail MasterC wrote:

> se non ricordo male si inglobò lo storico
> di dejanews e come sappiamo se lo gestì a proprio uso e consumo.

bei tempi quelli di dejanews, ho ri-scoperto così usenet (assistei
all'antefatto da bambino, amici più grandi che passavano le sere sui
bbs)

> Non ne faccio certo una colpa a te o al tuo preziosissimo lavoro. :)

mi riferivo a suckgoogle

Mail MasterC

unread,
Apr 29, 2021, 6:36:14 AM4/29/21
to
Il giorno martedì 27 aprile 2021 alle 19:11:55 UTC+2 issdr ha scritto:
>
> bei tempi quelli di dejanews, ho ri-scoperto così usenet (assistei
> all'antefatto da bambino, amici più grandi che passavano le sere sui
> bbs)

Io ero poco più di un ragazzino con BBS, ma usenet lo scoprii più avanti, ma capisco il concetto dei "bei tempi" :)

> > Non ne faccio certo una colpa a te o al tuo preziosissimo lavoro. :)
> mi riferivo a suckgoogle

Ah ok, non avevo capito. :)

--
Mandi
MMC

Mail MasterC

unread,
Apr 29, 2021, 7:09:30 AM4/29/21
to
Il giorno martedì 27 aprile 2021 alle 16:44:07 UTC+2 issdr ha scritto:

Aggiornamento.

Dopo aver lanciato gli script di modifica caratteri e di "sfoltimento" doppioni (grazie issdr!), mi trovo con circa 5000 post in meno da importare in hamster, ossia 106.000 e rotti.

L'importazione in hamster ne vede poco meno di 84.000, quindi 22.000 non riesce a riconoscerli. Sicuramente alcuni post sono in html, ne ho trovati alcuni mentre facevo delle prove a campione, e se come immagino hamster non li riconosce li scarta per forza. Temo che di questi sia difficile estrapolare solo il body e i campi corretti senza i tag e confezionare un post rispettoso delle RFC che possa piacere ad hamster. Smentitemi se mi sbaglio. Mi sembrano comunque tanti se fossero solo in html, ma non saprei come altro interpretare il risultato.

La differenza fra post riconosciuti da hamster ed effettivamente importati resta comunque elevata: 58.000 riconosciuti ma non importati.
Mi viene da pensare che molti di questi sono però doppioni. Come avevo già notato tempo fa dopo aver importato tutto l'anno 1997 mi sono trovato con post del 2001, quindi anche qui temo che ci sia lo zampino di suckgoogle.
Posso provare a lanciare lo script di eliminazione dei doppioni su tutti i post e vedere se ci sono effettivamente doppioni e quanti.

Capire quali post non sono stati riconosciuti e perché la vedo difficile per me, dopo aver trovato il caso del campo messageID "sporco", dovrei aprirne uno a uno e confrontarli con quello che vedo nel newsreader, ribadisco che non sono un manipolatore di testi in automatico. Però se potessi recuperare 50.000 e passa post potrei anche farlo. :)

Come sempre se avete altri suggerimenti sono ben lieti di provarli.

Mail MasterC

unread,
May 1, 2021, 11:09:55 AM5/1/21
to
Aggiornamento 2:

come immaginavo c'erano molti doppioni sparsi fra le varie cartelle, circa 20.000. Adesso il rapporto fra riconosciuti e importati da hamster è di 70.000 contro 27.000, ossia qusi 42.000. Ma di questi a ben vedere 41.000 sono doppioni che avevo già in hamster (un calcolo che non avevo fatto nei conteggi precedenti). Quindi sembra che me ne "manchino" circa 1.000.

Come dicevo sicuramente alcuni sono in HTML (non so quanti), ne riporto qui uno. Se avete altri suggerimenti su come trasformare questo tipo di post in articolo standard per hamster, vi ascolto. :)

Grazie.

#v+
<html><head><meta HTTP-EQUIV="content-type" CONTENT="text/html; charset=ISO-8859-1"><title>Cerca con Google: </title><style><!--
body,td,div,.p,a{font-family:arial,sans-serif }
div,td{color:#000}
.f,.fl:link{color:#6f6f6f}
a:link,.w,a.w:link,.w a:link{color:#00c}
a:visited,.fl:visited{color:#551a8b}
a:active,.fl:active{color:#f00}
.t a:link,.t a:active,.t a:visited,.t{color:#000000}
.t{background-color:#ffcc33}
.h{color:#ddaa11;font-size:14px}
.i,.i:link{color:#a90a08}
.a,.a:link{color:#008000}
.z{display:none}
div.n {margin-top: 1ex}
.n a{font-size:10pt; color:#000}
.n .i{font-size:10pt; font-weight:bold}
.q a:visited,.q a:link,.q a:active,.q {text-decoration: none; color: #00c;}
.b{font-size: 12pt; color:#00c; font-weight:bold}
.ch{cursor:pointer;cursor:hand}
//-->
</style>
<script>
<!--
function ss(w){window.status=w;return true;}
function cs(){window.status='';}
//-->
</script>
<script>
<!--
function ga(o,e){if (document.getElementById){a=o.id.substring(1); p = "";r = "";g = e.target;if (g) { t = g.id;f = g.parentNode;if (f) {p = f.id;h = f.parentNode;if (h) r = h.id;}} else{h = e.srcElement;f = h.parentNode;if (f) p = f.id;t = h.id;}if (t==a || p==a || r==a) return true;location.href=document.getElementById(a).href}}
//-->
</script>
</head><body bgcolor=#ffffff onLoad="document.gs.reset()"><table border=0 cellpadding=0 cellspacing=0><tr><td rowspan=3 valign=top><table cellpadding=0 cellspacing=0 border=0><tr><td align=right valign=bottom><a href=http://groups.google.com/grphp?hl=it><img src=/images/res0.gif alt="Vai alla pagina principale dei Gruppi Google" border=0 width=110 height=58></a></td><td valign=bottom><a href=http://groups.google.com/grphp?hl=it><img src=/images/res1.gif border=0 width=38 height=58 alt=""></a></td><td valign=bottom><a href=http://groups.google.com/grphp?hl=it><img src=/images/res2.gif border=0 width=52 height=58 alt=""></a></td></tr><tr><td align=right valign=top class=h><b>Gruppi</b></td><td valign=top><a href=http://groups.google.com/grphp?hl=it><img src=/images/res3.gif border=0 width=38 height=20 alt=""></a></td><td valign=top><font color=#6f6f6f style=font-size:14px>&nbsp;</font></td></tr></table></td><td nowrap><font size=-1><a href=/advanced_group_search?dq=&hl=it&lr=&ie=UTF-8&th=dca39d24f50850cb>Ricerca avanzata nei Gruppi</a>&nbsp;&nbsp;&nbsp;&nbsp;<a href=/preferences?dq=&hl=it&lr=&ie=UTF-8&th=dca39d24f50850cb>Preferenze</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</font></td></tr><tr><td valign=middle><form name=gs method=GET action=/groups><input type=hidden name=hl value="it"><input type=hidden name=lr value=""><input type=hidden name=ie value="ISO-8859-1"><input type=text name=q size=31 maxlength=2048 value=""><font size=-1> <input type=submit name="btnG" value="Cerca con Google"><span id=hf></span></font></td></tr><tr><td><font size=-1>&nbsp;</font></td></tr></form></table><body bgcolor=#ffffff onload="window.focus();"><table border=0 cellpadding=2 cellspacing=0 width=100%><tr><td><font face=arial,sans-serif size=-1><a href=/groups?dq=&hl=it&lr=&ie=UTF-8&threadm=7hkpj8%243ig%241%40nslave1.tin.it&rnum=2&prev=/&frame=on>View with frames</a></font><td align=right><font face=arial,sans-serif size=-1><b>Ordinati per risposta</b>&nbsp;&nbsp;<a href=/groups?dq=&hl=it&lr=&ie=UTF-8&th=dca39d24f50850cb&seekm=7hkpj8%243ig%241%40nslave1.tin.it&scoring=d>Ordina per data</a></font></td></tr></table>
<table bgcolor=#ffcc33 border=0 cellPadding=2 width=100%><tr><td bgcolor=#ffcc33><font face=arial,sans-serif>Tutti i messaggi del tema &quot;<b>[IAF] per chi usa Outlook: mettete Re: invece di R:</b>&quot;</font></td></tr></table>
&nbsp;&nbsp;<a name="link1"></a>

<table width=100% bgcolor=#e0e0e0 cellpadding=2 cellspacing=0 border=0><tr><td><font face=arial,sans-serif>

<table cellpadding=0 cellspacing=0 border=0 align=right><tr><td><font face=arial,sans-serif>1 messaggio/i nel thread</font></td></tr></table>
Da:<a href=/groups?hl=it&lr=&ie=UTF-8&q=author:p%40iol.it+ target=_top>Marco Pesce</a> (<a href=mailto:p%40iol.it>p...@iol.it</a>)<br>Soggetto:[IAF] per chi usa Outlook: mettete Re: invece di R: <br><font face=arial,sans-serif><table cellpadding=0 cellspacing=0 border=0 align=right><tr><td><tr><td>&nbsp;</td></tr><tr><td><a href=/groups?dq=&hl=it&lr=&ie=UTF-8&selm=373a8ae5.1380044%40news.iol.it target=_top>View this article only</a></td></tr></table></font>
Newsgroups:<a href=/groups?hl=it&lr=&ie=UTF-8&group=it.arti.fumetti target=_top>it.arti.fumetti</a><br>Data:1999/05/13 <br></font></td></tr></table><pre>
invito rivolto a chi usa Outlook Express

chi utilizza Agent come newreader vede molti vostri messaggi fuori
thread: se possibile, settate il programma in modo che nel subject la
risposta cominci con Re: e NON con R: (o eventualmente aggiungete la
&quot;e&quot; a mano)

farete contenti un sacco di utenti Agent :-)

--
Marco Pesce - la vera e-mail e' m...@iol.it</pre> <a name="link2"></a>
<a name="s"></a>

<table width=100% bgcolor=#e0e0e0 cellpadding=2 cellspacing=0 border=0><tr><td><font face=arial,sans-serif>

<table cellpadding=0 cellspacing=0 border=0 align=right><tr><td><font face=arial,sans-serif>2 messaggio/i nel thread</font></td></tr></table>
Da:<a href=/groups?hl=it&lr=&ie=UTF-8&q=author:tobix%40iname.com+ target=_top>TobiX</a> (<a href=mailto:tobix%40iname.com>to...@iname.com</a>)<br>Soggetto:Re: [IAF] per chi usa Outlook: mettete Re: invece di R: <br><font face=arial,sans-serif><table cellpadding=0 cellspacing=0 border=0 align=right><tr><td><tr><td>&nbsp;</td></tr><tr><td><a href=/groups?dq=&hl=it&lr=&ie=UTF-8&selm=7hkpj8%243ig%241%40nslave1.tin.it target=_top>View this article only</a></td></tr></table></font>
Newsgroups:<a href=/groups?hl=it&lr=&ie=UTF-8&group=it.arti.fumetti target=_top>it.arti.fumetti</a><br>Data:1999/05/15 <br></font></td></tr></table><pre><font color="#660066">&gt; invito rivolto a chi usa Outlook Express
&gt; [...] se possibile, settate il programma in modo che nel subject la
&gt; risposta cominci con Re: e NON con R:</font>

lo fa già automaticamente!
cioè, mette Re: da solo, non si può cambiare
(forse usano una versione vecchia :-)

TobiX</pre> <a name="link3"></a>

<table width=100% bgcolor=#e0e0e0 cellpadding=2 cellspacing=0 border=0><tr><td><font face=arial,sans-serif>

<table cellpadding=0 cellspacing=0 border=0 align=right><tr><td><font face=arial,sans-serif>3 messaggio/i nel thread</font></td></tr></table>
Da:<a href=/groups?hl=it&lr=&ie=UTF-8&q=author:fra%40freemail.it+ target=_top>Lazarus Long</a> (<a href=mailto:fra%40freemail.it>f...@freemail.it</a>)<br>Soggetto:Re: [IAF] per chi usa Outlook: mettete Re: invece di R: <br><font face=arial,sans-serif><table cellpadding=0 cellspacing=0 border=0 align=right><tr><td><tr><td>&nbsp;</td></tr><tr><td><a href=/groups?dq=&hl=it&lr=&ie=UTF-8&selm=7hl007%24spf%241%40nslave1.tin.it target=_top>View this article only</a></td></tr></table></font>
Newsgroups:<a href=/groups?hl=it&lr=&ie=UTF-8&group=it.arti.fumetti target=_top>it.arti.fumetti</a><br>Data:1999/05/16 <br></font></td></tr></table><pre>Marco Pesce &lt;p...@iol.it&gt; wrote:

<font color="#660066">&gt; chi utilizza Agent come newreader vede molti vostri messaggi fuori
&gt; thread: se possibile, settate il programma in modo che nel subject la
&gt; risposta cominci con Re: e NON con R: (o eventualmente aggiungete la
&gt; &quot;e&quot; a mano)</font>

Non si puo', e aggiungerlo a mano e' fuori questione.
Pero' si puo' scaricare una dll che ripara a questo bug di OE da questo
sito:
<a target=_top href="http://vene.tsx.org/">http://vene.tsx.org/</a>
link diretto al file:
<a target=_top href="http://www.geocities.com/FashionAvenue/1075/msoeres.zip">http://www.geocities.com/FashionAvenue/1075/msoeres.zip</a>

Se non avete voglia mandatemi una mail che ve lo mando io .. son solo 257 k
<font color="#660066">:)</font>

--
Ciao! [[-3 days!!!]]
Cdr. Lazarus Long - OOO - Capo della sicurezza di TIS1
l...@startrekmail.com - ICQ 26989309

&quot;Everything in excess! To enjoy the flavour of life, take big bites.
Moderation is for monks&quot;
(from the Notebooks of Lazarus Long)</pre> &nbsp;&nbsp;<table border=0 width=100% cellpadding=0 cellspacing=0><tr><td bgcolor=#ffcc33><img height=3 alt="" src="/images/cleardot.gif"></td></tr></table><br><center><font size=-1>&copy;2003 Google</font></center></body></html>
#v-


--
Mandi
MMC

Termoregolato

unread,
May 1, 2021, 5:19:12 PM5/1/21
to
On 01/05/21 17:09, Mail MasterC wrote:

> Come dicevo sicuramente alcuni sono in HTML (non so quanti), ne riporto qui uno

Ma, a parte il fatto che i post in html su usenet nemmeno vale la pena
di leggerli :-), dato che chi li faceva non era evidentemente in grado
di capire come funzionava usenet stessa, tutto quello che c'e' nel
messaggio dopo la prima riga vuota e' indifferente per Hamster.

Hai postato il body di un messaggio, appunto. La parte che da' problemi
nell'importazione e' quella precedente, gli header, salvo bug del
programma, abbastanza improbabili dato che Hamster era fatto bene e il
lavoro non e' complesso (leggere il body)

issdr

unread,
May 2, 2021, 4:24:36 AM5/2/21
to
Termoregolato wrote:

> Hai postato il body di un messaggio, appunto. La parte che da'
> problemi nell'importazione e' quella precedente, gli header, salvo bug
> del programma, abbastanza improbabili dato che Hamster era fatto bene
> e il lavoro non e' complesso (leggere il body)

no, i messaggi originali erano probabilmente completi e creati secondo
standard. il problema è l'interazione tra lo script e l'interfaccia di
gruppi:

,----[ lynx -dump post.html ]
| [1]Vai alla pagina principale dei Gruppi Google
| Gruppi
| [2]Ricerca avanzata nei Gruppi [3]Preferenze
| _______________________________ Cerca con Google
|
| [4]View with frames Ordinati per risposta [5]Ordina per data
|
| Tutti i messaggi del tema "[IAF] per chi usa Outlook: mettete Re:
| invece di R:"
|
|
|
| 1 messaggio/i nel thread
|
| Da:[6]Marco Pesce ([7]p...@iol.it)
| Soggetto:[IAF] per chi usa Outlook: mettete Re: invece di R:
|
|
| [8]View this article only
|
| Newsgroups:
| [9]it.arti.fumetti
| Data:1999/05/13
|
| invito rivolto a chi usa Outlook Express
|
| chi utilizza Agent come newreader vede molti vostri messaggi fuori
| thread: se possibile, settate il programma in modo che nel subject la
| risposta cominci con Re: e NON con R: (o eventualmente aggiungete la
| "e" a mano)
|
| farete contenti un sacco di utenti Agent :-)
|
| --
| Marco Pesce - la vera e-mail e' m...@iol.it
|
| 2 messaggio/i nel thread
|
| Da:[10]TobiX ([11]to...@iname.com)
| Soggetto:Re: [IAF] per chi usa Outlook: mettete Re: invece di R:
|
|
| [12]View this article only
|
| Newsgroups:
| [13]it.arti.fumetti
| Data:1999/05/15
|
| > invito rivolto a chi usa Outlook Express
| > [...] se possibile, settate il programma in modo che nel subject la
| > risposta cominci con Re: e NON con R:
|
| lo fa già automaticamente!
| cioè, mette Re: da solo, non si può cambiare
| (forse usano una versione vecchia :-)
|
| TobiX
|
| 3 messaggio/i nel thread
|
| Da:[14]Lazarus Long ([15]f...@freemail.it)
| Soggetto:Re: [IAF] per chi usa Outlook: mettete Re: invece di R:
|
|
| [16]View this article only
|
| Newsgroups:
| [17]it.arti.fumetti
| Data:1999/05/16
|
| Marco Pesce <p...@iol.it> wrote:
|
| > chi utilizza Agent come newreader vede molti vostri messaggi fuori
| > thread: se possibile, settate il programma in modo che nel subject la
| > risposta cominci con Re: e NON con R: (o eventualmente aggiungete la
| > "e" a mano)
|
| Non si puo', e aggiungerlo a mano e' fuori questione.
| Pero' si puo' scaricare una dll che ripara a questo bug di OE da questo
| sito:
| [18]http://vene.tsx.org/
| link diretto al file:
| [19]http://www.geocities.com/FashionAvenue/1075/msoeres.zip
|
| Se non avete voglia mandatemi una mail che ve lo mando io .. son solo 257 k
| :)
|
| --
| Ciao! [[-3 days!!!]]
| Cdr. Lazarus Long - OOO - Capo della sicurezza di TIS1
| l...@startrekmail.com - ICQ 26989309
|
| "Everything in excess! To enjoy the flavour of life, take big bites.
| Moderation is for monks"
| (from the Notebooks of Lazarus Long)
|
|
|
| ©2003 Google
|
| References
|
| Visible links:
| 1. http://groups.google.com/grphp?hl=it
| 2. file:///advanced_group_search?dq=&hl=it&lr=&ie=UTF-8&th=dca39d24f50850cb
| 3. file:///preferences?dq=&hl=it&lr=&ie=UTF-8&th=dca39d24f50850cb
| 4. file:///groups?dq=&hl=it&lr=&ie=UTF-8&threadm=7hkpj8$3ig$1...@nslave1.tin.it&rnum=2&prev=/&frame=on
| 5. file:///groups?dq=&hl=it&lr=&ie=UTF-8&th=dca39d24f50850cb&seekm=7hkpj8$3ig$1...@nslave1.tin.it&scoring=d
| 6. file:///groups?hl=it&lr=&ie=UTF-8&q=author:p...@iol.it+
| 7. mailto:p...@iol.it
| 8. file:///groups?dq=&hl=it&lr=&ie=UTF-8&selm=373a8ae5...@news.iol.it
| 9. file:///groups?hl=it&lr=&ie=UTF-8&group=it.arti.fumetti
| 10. file:///groups?hl=it&lr=&ie=UTF-8&q=author:to...@iname.com+
| 11. mailto:to...@iname.com
| 12. file:///groups?dq=&hl=it&lr=&ie=UTF-8&selm=7hkpj8$3ig$1...@nslave1.tin.it
| 13. file:///groups?hl=it&lr=&ie=UTF-8&group=it.arti.fumetti
| 14. file:///groups?hl=it&lr=&ie=UTF-8&q=author:f...@freemail.it+
| 15. mailto:f...@freemail.it
| 16. file:///groups?dq=&hl=it&lr=&ie=UTF-8&selm=7hl007$spf$1...@nslave1.tin.it
| 17. file:///groups?hl=it&lr=&ie=UTF-8&group=it.arti.fumetti
| 18. http://vene.tsx.org/
| 19. http://www.geocities.com/FashionAvenue/1075/msoeres.zip
|
| Hidden links:
| 21. http://groups.google.com/grphp?hl=it
| 22. http://groups.google.com/grphp?hl=it
| 23. http://groups.google.com/grphp?hl=it
`----

questo è il contenuto dell'html nel file, sono stati "succhiati" e non
interpretati un paio di articoli. mancano diverse informazioni
essenziali, tipo ora, m-id e references.

Mail MasterC

unread,
May 2, 2021, 4:39:20 AM5/2/21
to
Il giorno sabato 1 maggio 2021 alle 23:19:12 UTC+2 Termoregolato ha scritto:

> Ma, a parte il fatto che i post in html su usenet nemmeno vale la pena
> di leggerli :-), dato che chi li faceva non era evidentemente in grado
> di capire come funzionava usenet stessa, tutto quello che c'e' nel
> messaggio dopo la prima riga vuota e' indifferente per Hamster.

Eh, anche all'epoca c'era tanta ignoranza. Ricordo le lotte per far smettere di usare outlook express ai nuovi arrivati. :)

> Hai postato il body di un messaggio, appunto. La parte che da' problemi
> nell'importazione e' quella precedente, gli header, salvo bug del
> programma, abbastanza improbabili dato che Hamster era fatto bene e il
> lavoro non e' complesso (leggere il body)

Quello che ho postato è il contenuto di tutto il post che ho, se mancano i campi di riferimento è chiaro che lo script di suzione non li ha interpretati correttamente e quindi mi pare di capire che non sia "recuperabile".

--
Mandi
MMC

Mail MasterC

unread,
May 2, 2021, 4:45:00 AM5/2/21
to
Il giorno domenica 2 maggio 2021 alle 10:24:36 UTC+2 issdr ha scritto:

> mancano diverse informazioni
> essenziali, tipo ora, m-id e references.

Ok, quindi mi confermi che non sono praticamente recuperabili.
Mi va bene, ci mancherebbe. Vorrei solo capire se posso mettere la parola FINE a questo lavoro o se c'è qualche altra cosa che posso fare. :)

Per ironia della sorte, è proprio un post che parla di leggibilità su usenet... :)

Grazie.

--
Mandi
MMC

issdr

unread,
May 2, 2021, 5:03:08 AM5/2/21
to
Mail MasterC wrote:

> Ok, quindi mi confermi che non sono praticamente recuperabili.
> Mi va bene, ci mancherebbe. Vorrei solo capire se posso mettere la
> parola FINE a questo lavoro o se c'è qualche altra cosa che posso
> fare. :)

ci sarebbe da vedere se c'è regolarità, perché magari uno si smazza per
separare gli aricoli - ripulirli - creare gli header (references anche no,
ma il m-id lo "inventi" tipo data+rndno+email), mentre esistono anche
altri problemi e questo caso era minoritario

Mail MasterC

unread,
May 2, 2021, 12:35:50 PM5/2/21
to
Il giorno domenica 2 maggio 2021 alle 11:03:08 UTC+2 issdr ha scritto:

> ci sarebbe da vedere se c'è regolarità, perché magari uno si smazza per
> separare gli aricoli - ripulirli - creare gli header (references anche no,
> ma il m-id lo "inventi" tipo data+rndno+email), mentre esistono anche
> altri problemi e questo caso era minoritario

Hai ragionissima, sono d'accordo con te, ormai per 1000 post non ne vale la pena. :)
Direi che il lavoro fatto è stato notevole ed egregio, grazie infinite.

Nei prossimi giorni faccio ancora un po' di controlli incrociati, non è escluso che torni a chiedere il vostro aiuto, in ogni caso grazie veramente di tutto l'aiuto e il supporto.

--
Mandi
MMC

P/ero

unread,
May 3, 2021, 12:12:00 PM5/3/21
to
"Mail MasterC" [by G2/1.0] on 01/05/21 17:09 wrote:

> Aggiornamento 2:

> come immaginavo c'erano molti doppioni sparsi fra le varie cartelle,
> circa 20.000. Adesso il rapporto fra riconosciuti e importati da
> hamster è di 70.000 contro 27.000, ossia qusi 42.000. Ma di questi a
> ben vedere 41.000 sono doppioni che avevo già in hamster (un calcolo
> che non avevo fatto nei conteggi precedenti). Quindi sembra che me ne
> "manchino" circa 1.000.

> Come dicevo sicuramente alcuni sono in HTML (non so quanti), ne
> riporto qui uno. Se avete altri suggerimenti su come trasformare
> questo tipo di post in articolo standard per hamster, vi ascolto. :)

Con alcuni è possibile, ma questo in particolare non si può trasformarlo
da .htm a plain text, ma se interessa leggere il solo testo puoi farlo
con un file che feci per utilizzarlo con MagicMailMonitor, considera che
trasforma un solo post alla volta.

Il file puoi scaricarlo da qui:
http://wikisend.com/download/192316/Html_to_Text_Converter.zip

..._skipped!_

--
* b *
* y *
* Pierо *
#v+
-deus ex machina-
#v-


Mail MasterC

unread,
May 4, 2021, 3:33:22 AM5/4/21
to
Il giorno lunedì 3 maggio 2021 alle 18:12:00 UTC+2 P/ero ha scritto:

> Con alcuni è possibile, ma questo in particolare non si può trasformarlo
> da .htm a plain text, ma se interessa leggere il solo testo puoi farlo
> con un file che feci per utilizzarlo con MagicMailMonitor, considera che
> trasforma un solo post alla volta.

Ottimo, grazie. File scaricato.

Adesso mi resta un'ultima cosa da chiedervi.
Come faccio ad identificare al volo fra 80.000 file quelli che sono HTML senza aprirli uno per uno?

Grazie.

--
Mandi
MMC

issdr

unread,
May 4, 2021, 4:21:39 AM5/4/21
to
Mail MasterC wrote:

> Adesso mi resta un'ultima cosa da chiedervi.
> Come faccio ad identificare al volo fra 80.000 file quelli che sono
> HTML senza aprirli uno per uno?

( gci -Recurse -File * | ?{ gc -First 1 $_ | Select-String "^\<html" } ).FullName

la semplice lista. potresti anche aggiungere un'estensione per marcarli


Mail MasterC

unread,
May 4, 2021, 5:13:13 AM5/4/21
to
Il giorno martedì 4 maggio 2021 alle 10:21:39 UTC+2 issdr ha scritto:

> ( gci -Recurse -File * | ?{ gc -First 1 $_ | Select-String "^\<html" } ).FullName
>
> la semplice lista. potresti anche aggiungere un'estensione per marcarli

Sempre da powershell, giusto?

Si, decisamente l'aggiunta di una estensione o modifica al nome del file o la copia in un'altra cartella mi farebbe comodo.
Posso chiederti anche questa aggiunta? Grazie. :)

--
Mandi
MMC

issdr

unread,
May 4, 2021, 5:23:10 AM5/4/21