Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

salvare un file .txt da browser togliendo caratteri asiatici

2 views
Skip to first unread message

ciccio_the_best

unread,
Apr 3, 2017, 5:48:02 AM4/3/17
to
C'è questa pagina web:

https://bitbucket.org/diogin/scite/src/7e687deef5522754b8314e651196bbe22d1cda36/misc/readme.txt

che contiene anche caratteri asiatici. Visualizzando il "RAW"
della pagina si ottiene questo:

https://bitbucket.org/diogin/scite/raw/7e687deef5522754b8314e651196bbe22d1cda36/misc/readme.txt

ed i caratteri asiatici vengono "spappati" tutti.

C'è un modo per salvare la pagina rimuovendo al contempo
tutti i caratteri asiatici?



--
Newsgroup robomoderato - gli articoli vengono approvati automaticamente

Alessandro Pellizzari

unread,
Apr 3, 2017, 6:54:02 AM4/3/17
to
On 03/04/17 10:46, ciccio_the_best wrote:

> C'è questa pagina web:
>
> https://bitbucket.org/diogin/scite/src/7e687deef5522754b8314e651196bbe22d1cda36/misc/readme.txt
>
> che contiene anche caratteri asiatici.

e che specifica il Content-type come "text/html; charset=utf-8"

> Visualizzando il "RAW"
> della pagina si ottiene questo:
>
> https://bitbucket.org/diogin/scite/raw/7e687deef5522754b8314e651196bbe22d1cda36/misc/readme.txt

che non contiene il Content-type

> ed i caratteri asiatici vengono "spappati" tutti.

perche` il default del tuo browser non e` UTF-8.

> C'è un modo per salvare la pagina rimuovendo al contempo
> tutti i caratteri asiatici?

Il raw non specifica il Content-type perche`, essendo raw, non puo`
sapere quale sia quello corretto.

Ma tu lo sai: e` UTF-8

Quindi ti basta considerare il file come UTF-8 encoded in tutti i tuoi
processi, e puoi anche tenere i caratteri asiatici.

Rimuoverli non e` cosi` semplice, perche` potresti rimuovere anche altri
caratteri (le accentate, i simboli grafici, i simboli matematici, ecc.)

Bye.

Maurizio Pistone

unread,
Apr 3, 2017, 7:12:02 AM4/3/17
to
ciccio_the_best <21669i...@mynewsgate.net> wrote:

> C'č questa pagina web:
>
>
https://bitbucket.org/diogin/scite/src/7e687deef5522754b8314e651196bbe22
d1cda36/misc/readme.txt

>
> che contiene anche caratteri asiatici. Visualizzando il "RAW"
> della pagina si ottiene questo:
>
>
https://bitbucket.org/diogin/scite/raw/7e687deef5522754b8314e651196bbe22
d1cda36/misc/readme.txt

>
> ed i caratteri asiatici vengono "spappati" tutti.
>
> C'č un modo per salvare la pagina rimuovendo al contempo
> tutti i caratteri asiatici?

poiché la pagina ti presenta esattamente il file .txt, se la salvi
ottieni il file con tutti i suoi caratteri

i caratteri cinesi li devi eliminare con un editor di testo; se hai un
editor che supporta le espressioni regolari puoi usare come pattern di
ricerca

[\x{0100}-\x{FFFFF}]

in questo modo potrai sostituire tutti i caratteri non ISO Latin 1


--
Maurizio Pistone strenua nos exercet inertia Hor.
http://blog.mauriziopistone.it
http://www.lacabalesta.it
0 new messages