Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Trovare stringhe simili in una stessa colonna

221 views
Skip to first unread message

Final Job

unread,
Nov 27, 2023, 8:50:09 PM11/27/23
to
Buongiorno
anni fa, era il 2016, sia Casanmaner che Norman Jones trattarono con
successo il caso della segnalazione di doppioni in una stessa colonna
evidenziando, nella cella a fianco di ogni stringa in esame, le righe he
contenevano doppioni.

Questa soluzione è perfetta per stringhe non sofisticate tipo Nomi e
Cognomi, codici identificativi ecc, strutturate tutte nello stesso modo.

Diverso è il caso di stringhe più articolate che possono essere scritte
con composizioni differenti da una cella all'altra pur identificando uno
stesso significato esempio:
1 finestra doppia anta pvc 200 X 120
2 finestra doppia apertura pvc 2,0 X 1,2

La domanda:
è pensabile di poter cercare "possibili" doppioni con una procedura che,
partendo dalla stringa 1, vada a capire (pur se con un ovvio margine di
errore, anche ampio) se nella stessa colonna possano esistere stringhe
simili? L'applicazione è destinata ad una rapida scansione e
comprensione di corpose liste di descrizioni articoli.

Aggiungo che attualmente ce la caviamo con una procedura molto
accroccata e parecchio laboriosa che però funziona e che,
sostanzialmente, ci consente di segnalare alcune parole chiave che
identifichiamo nella stringa in esame (la 1) che vanno ad interagire con
un filtro. Il risultato della sua applicazione è che nel foglio
rimangono visualizzate solo le righe che, nella colonna in esame,
contengono le parole chiave segnalate e da li facciamo il resto. Questo
per dire che, siccome in qualche modo riusciamo a raggiungere il
risultato, la domanda è valida solo se non diventa un grosso lavoro in
quanto è mirata solo ad una velocizzazione di operazioni che già è
possibile portare a termine (quindi nulla di grave).

Le stringhe sono mediamente formate da circa 100 caratteri massimo e
possono contenere alcuni caratteri speciali che però non fanno la
differenza ai fini delle analisi quindi possono essere non presi in esame.

Forse è stato già trattato l'argomento ma non trovo riferimenti. In tal
caso mi scuso.
Grazie
Ale

casanmaner

unread,
Nov 28, 2023, 1:52:10 AM11/28/23
to
Ciao Ale,
con una elenco simile
Descrizione
finestra doppia anta pvc 200 X 120
finestra doppia apertura pvc 2,0 X 1,2
finestra pvc doppia anta 200 X 120
finestra pvc doppia apertura 2,0 X 1,2
porta finestra doppia anta pvc 200 X 200
porta finestra doppia apertura pvc 2,0 X 2
porta finestra pvc doppia anta 200 X 200
porta finestra pvc doppia apertura 2,0 X 2
finestra doppia anta pvc 200 X 160
finestra doppia apertura pvc 2,0 X 1,6
finestra pvc doppia anta 200 X 160
finestra pvc doppia apertura 2,0 X 1,6
finestra singola anta pvc 1,4 X 0,8
finestra singola anta pvc 140 X 80
finestra pvc singola anta 1,4 X 0,8
finestra pvc singola apertura 1,4 X 0,8


la procedura che utilizzi attualmente cosa ti restituirebbe se tu volessi cercare la prima voce e quelle "corrispondenti"?

L'ottimo sarebbe che trovasse solo le prime 4.
Ma anche andando per filtri di più parole chiave, penso, sia difficile non trovare anche tutte le altre tranne, probabilmente, quelle a "singola anta".


issdr

unread,
Nov 28, 2023, 2:50:19 AM11/28/23
to
Final Job wrote:

> Diverso è il caso di stringhe più articolate che possono essere
> scritte con composizioni differenti da una cella all'altra pur
> identificando uno stesso significato esempio:
> 1 finestra doppia anta pvc 200 X 120
> 2 finestra doppia apertura pvc 2,0 X 1,2
>
> La domanda:
> è pensabile di poter cercare "possibili" doppioni con una procedura
> che, partendo dalla stringa 1, vada a capire (pur se con un ovvio
> margine di errore, anche ampio) se nella stessa colonna possano
> esistere stringhe simili? L'applicazione è destinata ad una rapida
> scansione e comprensione di corpose liste di descrizioni articoli.

la risposta breve è no. quella più articolata è che ci vogliono i
muscoli, si tratta di fuzzy matching. qui trovi un metodo per trovare hn
singolo "modello", con una percentuale di similarità da impostare:

https://www.excel-university.com/perform-approximate-match-and-fuzzy-lookup-in-excel/

nella tua applicazione, ciò andrebbe fatto per ogni riga (saltando
magari quelle già individuate come "simili") nei confronti dell'elenco
(saltando magari...).

le power query permettono la fusione di tabelle con il FM, nell'articolo
sopra c'è un pointer.

casanmaner

unread,
Nov 28, 2023, 3:33:06 AM11/28/23
to
Qui avrei trovato un articolo microsoft sull'argomento

https://learn.microsoft.com/it-it/power-query/fuzzy-matching

casanmaner

unread,
Nov 28, 2023, 3:38:37 AM11/28/23
to
Comunque una possibile soluzione, anche se richiede un certo impegno, sarebbe quella di creare una tabella di raccordo (determinando quale potrebbe essere la più opportuna) a cui associare una corrispondenza univoca alle varie descrizioni.
Certo richiederebbe un gran lavoro di preparazione all'inizio e aggiornamento costante.

issdr

unread,
Nov 28, 2023, 4:00:23 AM11/28/23
to
buona idea, ma la realizzazione non è alla mia portata...

casanmaner

unread,
Nov 28, 2023, 4:07:04 AM11/28/23
to
Più che altro sarebbe da realizzare "manualmente" associando all'inizio degli "ID" alle voci ora già presenti e poi, man mano che si presentano nuove voci, verificare se sono da considerare "duplicati" di precedenti a cui assegnare il medesimo "ID" o associare un nuovo "ID", da utilizzare poi per altre voci che rappresentino una "duplicazione" di quest'ultima.

Bruno Campanini

unread,
Nov 28, 2023, 10:11:30 AM11/28/23
to
Final Job wrote on 28-11-23 :
Due domande:
- le ambiguità del tipo che hai segnalato - ed altre -
afferiscono a un solo campo o a più campi dei record;
- quanti sono i record da trattare.

???

Bruno

Final Job

unread,
Nov 28, 2023, 12:20:49 PM11/28/23
to
Prova


casanmaner

unread,
Nov 28, 2023, 12:31:20 PM11/28/23
to
Il giorno martedì 28 novembre 2023 alle 18:20:49 UTC+1 Final Job ha scritto:
> Prova
Io ti leggo .... ma tu leggi me? :-)

casanmaner

unread,
Nov 28, 2023, 12:45:04 PM11/28/23
to
Final Job ha qualche difficoltà a inviare la risposta e mi ha chiesto il favore di inoltrarla.
Fa seguito la sua risposta:

----------------
Grazie a tutti.
Le ambiguità sono quelle che appaiono nelle 12 stringhe di esempio postate da Casanmaner. Le stringhe sono tutte molto simili ma non identiche. Dal punto di vista del loro merito, le prime quattro della serie presentano un significato esattamente sovrapponibile quindi sono da ritenersi doppioni a tutti gli effetti; sono riferite tutte ad uno stesso articolo.

Il filtro, applicato su tre parole chiave (finestra, 2, 1), restituisce proprio le prime quattro stringhe e quello è il risultato su cui a noi serve fare le considerazioni operative.

Ma oltre alle 4 stringhe con significato esattamente sovrapponibile, lo stesso filtro restituisce anche altre 4 voci che non sono pertinenti. Questa è la condizione di ambiguità con la quale abbiamo a che fare.

Affinare la ricerca utilizzando ulteriori parole chiave rischia di ridurre il numero di risultati validi quindi non conviene andare troppo per il sottile e questa è la condizione di approssimazione.

I records sono parecchi ed aumentano in continuazione perchè ogni volta che ci presentano nuovi listini di grossisti si cerca di accorpare le informazioni in arrivo ai dati preesistenti proprio secondo identità di articolo e quindi le informazioni aumentano. Diciamo che attualmente siamo attorno agli 8000.

Il campo da vagliare è sempre e solo la descrizione articolo quindi sempre la stessa colonna.

Appare evidente che la cosa è complicata, mi basta anche avere avuto il confronto. Se non ci sono soluzioni a bassa perdita di tempo, possiamo anche chiudere qui.
Grazie nuovamente
Ale

Final Job

unread,
Nov 28, 2023, 12:48:28 PM11/28/23
to
Grazie Casanmaner

Final Job

unread,
Nov 28, 2023, 12:59:14 PM11/28/23
to
In questo caso si ma la tua risposta che conteneva le stringhe di
esempio non l'ho letta dal newsreader (dal quale scrivo ora). L'ho
trovata accedendo al gruppo da google; non è la prima volta.

Inoltre, la risposta che cerco di postare da qualche ora non mi viene
accettata in quanto viene rilevato dal server delle news un contenuto
binario che non esiste.
Boh
Ale

issdr

unread,
Nov 28, 2023, 2:32:08 PM11/28/23
to
Final Job wrote:

> Inoltre, la risposta che cerco di postare da qualche ora non mi viene
> accettata in quanto viene rilevato dal server delle news un contenuto
> binario che non esiste.

a questo punto è lecito pensare che sia un problema del nostro
teutonico. je scrivo.

issdr

unread,
Nov 28, 2023, 2:58:58 PM11/28/23
to
Final Job wrote:

| Content-Type: text/plain; charset=UTF-8; format=flowed
| Content-Transfer-Encoding: base64

riesci ad evitare di uscire in base64?

non so se può essere questo il busillis. aspettiamo la risposta
di individual IAC.

issdr

unread,
Nov 28, 2023, 4:00:13 PM11/28/23
to
Final Job wrote:

> Inoltre, la risposta che cerco di postare da qualche ora non mi viene
> accettata in quanto viene rilevato dal server delle news un contenuto
> binario che non esiste.

ho fatto un account di prova con un buon provider, ora vedo tutto...

i tuoi post senza codifica (in ASCII) passano in individual. basta
un'accentata e ti parte la codifica in base64. credo che un modo per
evitarlo sia andare nelle regole di composizione di TB e disattivare
l'HTML.

invece non riesco a capire perché alcuni post di casanmaner passano e
altri no. l'ISP è un'università, penso leggeranno domattina.

Final Job

unread,
Nov 28, 2023, 4:02:31 PM11/28/23
to
Grazie
ma intendi il settaggio della Codifica testo predefinita?
Ora è su Unicode (UTF-8) ma non è che ci sia scelta differente se non:
Centro Europeo (ISO-8859-2)
Centro Europeo (Windows-1250)
Il resto delle scelte sono relative a lingue con caratteri particolari
che non possono essere pertinenti alla nostra.

issdr

unread,
Nov 28, 2023, 4:08:46 PM11/28/23
to
no, intendo il transfer encoding. nelle impostazioni, vai nelle regole
di composizione e disattiva l'HTML.

Final Job

unread,
Nov 28, 2023, 4:24:50 PM11/28/23
to
tolto l'html ma non va, cambiata anche la codifica ma continua a non
andare. Sempre il problema binario.

per quanto riguarda casanmaner la mancata ricezione sul newsreader di
alcuni suoi messaggi succede anche a me (non so se potrebbe succedere
anche con altre discussioni che seguo meno) ma siccome i messaggi
mancanti li trovo su google pensavo fosse più un problema di thunderbird
che di trasmissione.

Visto che sei più conoscitore di me, approfitto della tua pazienza per
sapere se la vecchia soluzione news.aioe.org che non mi ha dato problemi
è stata sostituita con altra o se esista un'alternativa, sempre che tu
sappia.

Ti ringrazio
Ale

Final Job

unread,
Nov 28, 2023, 4:24:55 PM11/28/23
to

Final Job

unread,
Nov 28, 2023, 4:25:18 PM11/28/23
to
tolto l'html ma non va, cambiata anche la codifica ma continua a non
andare. Sempre il problema binario.

Final Job

unread,
Nov 28, 2023, 4:25:23 PM11/28/23
to

Final Job

unread,
Nov 28, 2023, 4:25:33 PM11/28/23
to
tolto l'html ma non va, cambiata anche la codifica ma continua a non
andare. Sempre il problema binario.

Ti ringrazio
Ale

Final Job

unread,
Nov 28, 2023, 4:25:46 PM11/28/23
to

Final Job

unread,
Nov 28, 2023, 4:26:19 PM11/28/23
to
tolto, non funziona
Ale

Final Job

unread,
Nov 28, 2023, 4:27:14 PM11/28/23
to
Il 28/11/2023 22:00, issdr ha scritto:

> invece non riesco a capire perché alcuni post di casanmaner passano e
> altri no. l'ISP è un'università, penso leggeranno domattina.

per quanto riguarda casanmaner la mancata ricezione sul newsreader di
alcuni suoi messaggi succede anche a me (non so se potrebbe succedere
anche con altre discussioni che seguo meno) ma siccome i messaggi
mancanti li trovo su google pensavo fosse più un problema di thunderbird
che di trasmissione.

Final Job

unread,
Nov 28, 2023, 4:38:10 PM11/28/23
to
Scusate ma ho visto ora che, benchè i tentativi di invio non andassero e
buon fine, tutte le prove di modifica del testo attuate per capire cosa
mandasse in tilt l'operazione di invio è stata passata nel gruppo.

Mi fermo in attesa di capire meglio

issdr

unread,
Nov 28, 2023, 4:40:06 PM11/28/23
to
Final Job wrote:

> se la vecchia soluzione news.aioe.org che non mi ha dato
> problemi è stata sostituita con altra o se esista un'alternativa

no, è rimasto eternal september, e non porta più microsoft.*

ovvero, li vedevi, ma erano vuoti, avevo segnalato la cosa, non so se
hanno sistemato.

stai uscendo sempre "sbagliato", arrivo a un TB e vedo che si può
fare. in ogni caso, alcuni base64 passano, altri no.

Final Job

unread,
Nov 28, 2023, 5:27:36 PM11/28/23
to
ok

Bruno Campanini

unread,
Nov 28, 2023, 5:48:41 PM11/28/23
to
Final Job wrote on 28-11-23 :
News.Individual.NET è a pagamento (l'uultimo bonifico di
qualche anno fa mi sembra sia stato di 10 Euro per 5 anni).

Son passato per aioe, september, solani o salani, poi sono arrivato:
- sulla marina ove il Po discende
- per aver pace coi seguaci sui

Bruno

issdr

unread,
Nov 28, 2023, 6:04:25 PM11/28/23
to
Il 28/11/2023 23:27, Final Job ha scritto:
> Il 28/11/2023 22:32, issdr ha scritto:
[...]
>> stai uscendo sempre "sbagliato", arrivo a un TB e vedo che si può
>> fare. in ogni caso, alcuni base64 passano, altri no.
>>
>
> ok

sto provando dopo aver tolto la composizione in HTML sia dalle
impostazioni globali, sia da quelle dell'account usenet (va fatto in
entrmabi i punti). non ho riavviato il programma dopo averlo fatto,
vediamo che succederà.

issdr

unread,
Nov 28, 2023, 6:06:55 PM11/28/23
to
| Content-Type: text/plain; charset=UTF-8; format=flowed
| Content-Transfer-Encoding: 8bit
[...]
| User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:102.0)
| Gecko/20100101 Thunderbird/102.15.1

andata. Ale, tu che versione hai?

issdr

unread,
Nov 28, 2023, 6:11:49 PM11/28/23
to
Il 29/11/2023 00:07, issdr ha scritto:

> andata. Ale, tu che versione hai?

ho appena assistito al passaggio di un 3 numeri di versione. altra
prova, firulì firulà.

Final Job

unread,
Nov 28, 2023, 6:31:47 PM11/28/23
to
Il 29/11/2023 00:07, issdr ha scritto:

> | Gecko/20100101 Thunderbird/102.15.1
>
> andata. Ale, tu che versione hai?

Windows 10 Pro


Final Job

unread,
Nov 28, 2023, 6:35:44 PM11/28/23
to
Il 29/11/2023 00:04, issdr ha scritto:
le impostazioni globali usenet dove le trovo?
nelle impostazioni dell'account ho tolto HTML da tutte le parti

Final Job

unread,
Nov 28, 2023, 6:37:40 PM11/28/23
to
Il 28/11/2023 23:48, Bruno Campanini ha scritto:

>
> News.Individual.NET è a pagamento (l'uultimo bonifico di
> qualche anno fa mi sembra sia stato di 10 Euro per 5 anni).
>
> Son passato per aioe, september, solani o salani, poi sono arrivato:
> - sulla marina ove il Po discende
> - per aver pace coi seguaci sui
e infatti io pago ! e va a carbonella rispetto a aioe

dov'è che sei arrivato poi? Ma com'è che sei così complicato tu? :-))

Bruno Campanini

unread,
Nov 28, 2023, 7:05:06 PM11/28/23
to
Final Job has brought this to us :
È una metafora per dire che sono arrivato alla fine della
corsa e lì ho trovato (mi sembra... finora!) la pace nel
server che funziona.

Bruno

Final Job

unread,
Nov 28, 2023, 8:08:19 PM11/28/23
to
Il 29/11/2023 01:05, Bruno Campanini ha scritto:

>
> È una metafora per dire che sono arrivato alla fine della
> corsa e lì ho trovato (mi sembra... finora!) la pace nel
> server che funziona.
>
> Bruno

Si può sapere quale è?

issdr

unread,
Nov 29, 2023, 12:07:37 AM11/29/23
to
anche lui individual

issdr

unread,
Nov 29, 2023, 12:07:37 AM11/29/23
to
Final Job wrote:

> le impostazioni globali usenet dove le trovo?
> nelle impostazioni dell'account ho tolto HTML da tutte le parti

per impostazioni globali, intendevo quelle del programma, non legate
alla tipologia di account utilizzato.

qui invece ti mostro come arrivare all'account usenet (da te potrebbe
chiamarsi diversamente. accertati di avere tolto la spunta dal
quadratino nella seconda immagine, la prima ti mostra come arrivarci,
nota il riquadro rosso in alto a destra (penso tu abbia TB 115):

https://i.imgur.com/wENxvYU.jpeg

https://i.imgur.com/wcnB6LA.jpg


issdr

unread,
Nov 29, 2023, 12:07:37 AM11/29/23
to
dicevo di TB, ma non è importante...

issdr

unread,
Nov 29, 2023, 5:41:02 AM11/29/23
to
casanmaner wrote:

> Qui avrei trovato un articolo microsoft sull'argomento
>
> https://learn.microsoft.com/it-it/power-query/fuzzy-matching

ho trovato (ma non provato) questo:

https://www.microsoft.com/en-us/download/details.aspx?id=15011

Final Job

unread,
Nov 29, 2023, 6:45:22 AM11/29/23
to
115.5.1 (32 bit)

Final Job

unread,
Nov 29, 2023, 6:56:03 AM11/29/23
to
Devo necessariamnte provare domani, oggi sono full. Extra full.
Ma grazie per il tempo che dedichi
Ale

Bruno Campanini

unread,
Nov 29, 2023, 7:18:35 AM11/29/23
to
Final Job explained on 29-11-23 :
La mia citazione è una metafora, i versi citati non lo sono.
Inferno, V, è Francesca che dice a Dante:

Siede la terra dove nata fui
sulla marina dove il Po discende
per aver pace coi seguaci sui

Bruno

issdr

unread,
Nov 29, 2023, 7:33:27 AM11/29/23
to
Final Job wrote:

> Il 28/11/2023 18:31, casanmaner ha scritto:
>> Il giorno martedì 28 novembre 2023 alle 18:20:49 UTC+1 Final Job ha scritto:
>>> Prova
>> Io ti leggo .... ma tu leggi me? :-)
>
> In questo caso si ma la tua risposta che conteneva le stringhe di
> esempio non l'ho letta dal newsreader (dal quale scrivo ora). L'ho
> trovata accedendo al gruppo da google; non è la prima volta.
>
> Inoltre, la risposta che cerco di postare da qualche ora non mi viene
> accettata in quanto viene rilevato dal server delle news un contenuto
> binario che non esiste.

i post di casanmaner finiscono nel siatema antispam a cui si appoggia
individual, l'admin ha scritto al provider di questo servizio (che per
inciso, ha anche un bel newsserver gratuito, ma devo ancora refistrarmi
per vedere come va. non pare, ma il mio indirizzo è buono come lo si
vede...)


issdr

unread,
Nov 29, 2023, 8:10:44 AM11/29/23
to
issdr wrote:

> Final Job wrote:
>
>> Il 28/11/2023 18:31, casanmaner ha scritto:

[...]

>> Inoltre, la risposta che cerco di postare da qualche ora non mi viene
>> accettata in quanto viene rilevato dal server delle news un contenuto
>> binario che non esiste.
>
> i post di casanmaner finiscono nel siatema antispam a cui si appoggia
> individual, l'admin ha scritto al provider di questo servizio (che per
> inciso, ha anche un bel newsserver gratuito, ma devo ancora refistrarmi
> per vedere come va. non pare, ma il mio indirizzo è buono come lo si
> vede...)

arrivata la risposta dell'antispam: avevano impostato la lingua
principale del gruppo su inglese. risolto, ma ci chiedono di segnalare
altri eventuali falsi positivi.

casanmaner

unread,
Nov 29, 2023, 8:44:13 AM11/29/23
to
Il giorno mercoledì 29 novembre 2023 alle 13:33:27 UTC+1 issdr ha scritto:
> Final Job wrote:
>
> > Il 28/11/2023 18:31, casanmaner ha scritto:

> i post di casanmaner finiscono nel siatema antispam a cui si appoggia
> individual,

Va bene che a volte sono prolisso e scrivo diversi post di seguito ... ma addirittura spammer ... mi sembra una esagerazione!!!! :-D

issdr

unread,
Nov 29, 2023, 1:32:27 PM11/29/23
to
purtroppo ancora non ti vedo (vediamo) di là... ho scritto di nuovo.

Final Job

unread,
Nov 30, 2023, 10:16:16 AM11/30/23
to
Il 29/11/2023 06:06, issdr ha scritto:

> per impostazioni globali, intendevo quelle del programma, non legate
> alla tipologia di account utilizzato.
>
> qui invece ti mostro come arrivare all'account usenet (da te potrebbe
> chiamarsi diversamente. accertati di avere tolto la spunta dal
> quadratino nella seconda immagine, la prima ti mostra come arrivarci,
> nota il riquadro rosso in alto a destra (penso tu abbia TB 115):
>
> https://i.imgur.com/wENxvYU.jpeg
>

Fatto

Final Job

unread,
Dec 2, 2023, 9:23:32 AM12/2/23
to
Il 29/11/2023 11:40, issdr ha scritto:

> ho trovato (ma non provato) questo:
> https://www.microsoft.com/en-us/download/details.aspx?id=15011

Grazie
Ale

0 new messages