Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Τρόπος διάκρισης μεταξύ ISO_8859-7 και WINDOWS-1253 αρχείων

49 views
Skip to first unread message

Sophoklis Goumas

unread,
Jul 12, 2016, 3:36:13 AM7/12/16
to Linux Greek Users
Υπάρχει τρόπος διάκρισης μεταξύ αρχείων ISO-8859-7 και WINDOWS-1253;

Παραθέτω τμήμα σχετικού λήμματος της wikipedia [1], που περιγράφει
την επίμαχη διαφορά:

Windows-1253 is a Windows code page used to write modern Greek.
It is not capable of supporting the older polytonic Greek.
It is not fully compatible with ISO 8859-7 because the letters like Ά
are located at different byte values.

Σοφοκλής

[1] https://en.wikipedia.org/wiki/Windows-1253

P. Christeas

unread,
Jul 12, 2016, 3:50:18 AM7/12/16
to linux-gr...@lists.hellug.gr, Sophoklis Goumas
Στις Τρι 12 Ιουλ 2016 10:35:31 π.μ. Sophoklis Goumas έγραψε:
> Υπάρχει τρόπος διάκρισης μεταξύ αρχείων ISO-8859-7 και WINDOWS-1253;
>
Αν δεν έχουν το " Ά " κάπου, ίσως να μην μπορείς να τα ξεχωρίσεις. Εγώ θα
κοίταγα και το CR-LF, ως ένδειξη αν το αρχείο έχει παραχθεί από σοβαρό ΛΣ.

Sophoklis Goumas

unread,
Jul 12, 2016, 3:54:49 AM7/12/16
to Linux Greek Users, P. Christeas
2016-07-12 10:49 GMT+03:00 P. Christeas <x...@linux.gr>:
> Αν δεν έχουν το " Ά " κάπου, ίσως να μην μπορείς να τα ξεχωρίσεις.
>

Κι αν το έχουν;

Σοφοκλής

Sophoklis Goumas

unread,
Jul 12, 2016, 4:14:06 AM7/12/16
to Linux Greek Users
2016-07-12 10:54 GMT+03:00 Sophoklis Goumas <olspook...@gmail.com>:
> Κι αν το έχουν;
>

Όχι ακριβώς πρόοδος αλλά ίσως βοηθήσει κάποιον να με βοηθήσει.

$ cat sample_text.UTF-8.txt
αβγδεζηθικλμνξοπρστυφχψω
ΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤΥΦΧΨΩ
ά έ ή ί ό ύ ώ
Ά Έ Ή Ί Ό Ύ Ώ
ϊ ϋ
ΐ ΰ
Ϊ Ϋ

abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ

$ file sample_text.*.txt
sample_text.ISO-8859_7.txt: ISO-8859 text
sample_text.UTF-8.txt: UTF-8 Unicode text
sample_text.WIN-1253.txt: ISO-8859 text
$ diff <( hexdump sample_text.ISO-8859_7.txt ) <( hexdump
sample_text.WIN-1253.txt )
5c5
< 0000040 20fc 2020 fd20 2020 fe20 b60a 2020 b820
---
> 0000040 20fc 2020 fd20 2020 fe20 a20a 2020 b820
$

Σοφοκλής

Thanos Kyritsis

unread,
Jul 12, 2016, 4:26:24 AM7/12/16
to Sophoklis Goumas, Linux Greek Users, P. Christeas
2016-07-12 10:54 GMT+03:00 Sophoklis Goumas <olspook...@gmail.com>:
>
Εγώ θα έγραφα ένα μίνι "κώδικα" (είτε σε shell script [grep?], είτε σε
language script [perl/python/php/κλπ]) που ακριβώς μετά την εκτέλεση
της file και εφόσον μιλάμε για "iso-8859 text", θα έψαχνε την ύπαρξη ή
όχι του Α τονούμενου και θα σου έδινε την απάντηση στο αρχικό ερώτημα
...

Δεν ακούγεται λογικό κάτι τέτοιο;

Sophoklis Goumas

unread,
Jul 12, 2016, 4:41:40 AM7/12/16
to Linux Greek Users, P. Christeas, Thanos Kyritsis
2016-07-12 11:25 GMT+03:00 Thanos Kyritsis <dj...@linux.gr>:
>
> Εγώ θα έγραφα ένα μίνι "κώδικα" (είτε σε shell script [grep?], είτε σε
> language script [perl/python/php/κλπ]) που ακριβώς μετά την εκτέλεση
> της file και εφόσον μιλάμε για "iso-8859 text", θα έψαχνε την ύπαρξη ή
> όχι του Α τονούμενου και θα σου έδινε την απάντηση στο αρχικό ερώτημα
> ...
>
> Δεν ακούγεται λογικό κάτι τέτοιο;
>

Λογικότατο.

Αυτό φτιάχνω τώρα και αναρωτιόμουν τι να προτιμήσω από τα:
grep, od, hexdump, xxd, ... (και γιατί;)

Είναι κι εκείνο το "like" στο λήμμα της wikipedia που με προβληματίζει
μη τυχόν και υπάρχουν και άλλοι ασύμβατοι χαρακτήρες μεταξύ των
δύο αυτών κωδικοποιήσεων.

Σοφοκλής

0 new messages