Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

[ot] MS Word/open office - zmiana kodowania dokumentu

8 views
Skip to first unread message

1634Racine

unread,
Feb 6, 2024, 7:31:50 PMFeb 6
to
w ms word 2000 pro i w open office (apache), pklik *.doc tak wyglada (plik
dostalem,jak byl zapisywany - nie wiem):

https://imgsh.net/a/u6LfGAj.png

- w jaki sposob zmienic kodowanie calego pliku, aby bylo ok?

(metoda dla ms word: opcje > ogolne > zaklikac potwierdzenie konwersji przu
otwieraniu - nie dziala, bowiem idac taka droga mam po wyborze "otworz plik
*.doc jako czysty txt" --> wybierz kodowanie z dostepnych, ale zadne z
dostepnych kodowan nie pasuje, nie pozwala otworzyc pliku z prawidl.
czcionkami)

Grzegorz Niemirowski

unread,
Feb 7, 2024, 4:42:17 AMFeb 7
to
1634Racine <mnj...@j.cbqebml> napisał(a):
Nie ma czegoś takiego jak zmiana kodowania w .doc. To co znalazłeś, dotyczy
otwierania plików .txt. Office stosuje kodowanie UTF-16LE. Problem, który
widzisz, wygląda na brak czcionek. W środkowej części tekstu widać, że udaje
się znaleźć czcionkę zastępczą. Z jakiegoś powodu w innych miejscach się to
nie udało. Spróbuj zmienić czcionkę w całym dokumencie na którąś z
dostępnych w systemie.

--
Grzegorz Niemirowski
https://www.grzegorz.net/

1634Racine

unread,
Feb 7, 2024, 6:41:04 AMFeb 7
to
Grzegorz Niemirowski w news:upvj9n$780$1$grze...@news.chmurka.net
> 1634Racine <mnj...@j.cbqebml> napisał(a):
>> w ms word 2000 pro i w open office (apache), pklik *.doc tak wyglada
>> (plik dostalem,jak byl zapisywany - nie wiem):
>> https://imgsh.net/a/u6LfGAj.png
>> - w jaki sposob zmienic kodowanie calego pliku, aby bylo ok?
>> (metoda dla ms word: opcje > ogolne > zaklikac potwierdzenie konwersji
>> przu otwieraniu - nie dziala, bowiem idac taka droga mam po wyborze
>> "otworz plik *.doc jako czysty txt" --> wybierz kodowanie z dostepnych,
>> ale zadne z dostepnych kodowan nie pasuje, nie pozwala otworzyc pliku z
>> prawidl. czcionkami)
> Nie ma czegoś takiego jak zmiana kodowania w .doc. To co znalazłeś,
> dotyczy otwierania plików .txt.

ok, malo precyz. wyrazilem sie, chodzi o wybor - sposrod mozliwych -
kodowania, ktore umozliwia odczytanie dokumentu. W sposob powyzszy nie udaje
sie wybrac.

> Spróbuj zmienić czcionkę w
> całym dokumencie na którąś z dostępnych w systemie.

nie pisalem, ale probowalem wszystkie (sensowne), zadna nie pasuje.



Grzegorz Niemirowski

unread,
Feb 7, 2024, 6:45:50 AMFeb 7
to
1634Racine <mnj...@j.cbqebml> napisał(a):
> nie pisalem, ale probowalem wszystkie (sensowne), zadna nie pasuje.

Może plik jest źle zapisany. Wskazywałyby na to fragmenty gdzie polskie
litery są wyświetlane poprawnie. W każdym razie po to wybrano UTF żeby nie
trzeba było kombinować z kodowaniami. Możesz gdzieś wystawić ten plik?

1634Racine

unread,
Feb 7, 2024, 9:36:06 AMFeb 7
to
Grzegorz Niemirowski w news:upvqhc$sb2$1$grze...@news.chmurka.net
> 1634Racine <mnj...@j.cbqebml> napisał(a):
>> nie pisalem, ale probowalem wszystkie (sensowne), zadna nie pasuje.
> Może plik jest źle zapisany. Wskazywałyby na to fragmenty gdzie polskie
> litery są wyświetlane poprawnie. W każdym razie po to wybrano UTF żeby
> nie trzeba było kombinować z kodowaniami. Możesz gdzieś wystawić ten
> plik?

mam dwa pliki, doc i rtf, z identyczna przypadloscia.
a konkretnie - co zrobisz, jak je zlapiesz? moze moge to samo u siebie.
Tylko - co?
(btw: moge wystawic @ na grzegorz.net, moze byc?)

PureNick

unread,
Feb 7, 2024, 11:28:51 AMFeb 7
to
Ja mam skojarzenie z glifami azjatyckimi (chińskimi, japońskimi?)
W kilku miejscach taki domniemany glif zastępuje dwie litery,
a w innych tylko jedną - dosyć dziwne...
Może jednak zamieścisz gdzieś ten plik? - jeśli nie jest super tajny :)

Pozdruffka

--
~~PP~~SF~~

Grzegorz Niemirowski

unread,
Feb 7, 2024, 12:55:20 PMFeb 7
to
1634Racine <mnj...@j.cbqebml> napisał(a):
> mam dwa pliki, doc i rtf, z identyczna przypadloscia.
> a konkretnie - co zrobisz, jak je zlapiesz? moze moge to samo u siebie.
> Tylko - co?

Wystawienie jest ogólnie dobrym pomysłem, bo nie wiem jak ktoś na grupie
miałby Ci pomóc patrząc tylko na zrzut ekranu :)
Ja bym 1) sprawdził jakie kody Unicode kryją się tam za polskimi znakami, 2)
pomyślałbym nad skryptem podmieniającym kody

> (btw: moge wystawic @ na grzegorz.net, moze byc?)

Tak

Grzegorz Niemirowski

unread,
Feb 7, 2024, 4:46:43 PMFeb 7
to
Otrzymałem oba dokumenty. I już na początku niespodzianka: oba pliki są w
formacie RTF, w tym ten z rozszerzeniem .doc. Więc problem w ogóle nie
dotyczy formatu .doc.
Otwieramy więc plik w Notatniku lub podobnym programie i patrzymy na jakieś
miejsce, gdzie jest źle zakodowana polska literka, np.:

{\cf1\afs24\rtlch \ltrch\loch\fs24\loch\f7
co pomy\'9cl\'b9

Widać więc kody 9C i B9 w miejscu literek ś i ą. Szybkie przejrzenie stron
kodowych pokazuje, że są to kody ze strony Windows1250. Dlaczego więc użyta
jest jakaś azjatycka? Przed tekstem widzimy znaczniki, w tym ostatni
znacznik \f7. Oznacza on, że do tekstu ma być zastosowana czcionka 7 z
tabeli czcionek. Tabela czcionek jest na początku pliku, w znaczniku
\fonttbl. Szukamy tam definicji \f7:

{\f7\froman\fprq2\fcharset128 Bookman Old Style;}

Widzimy, że ma być użyta czcionka Bookman Old Style wraz ze stroną kodową
128. Z tabelki na https://en.wikipedia.org/wiki/Rich_Text_Format widać, że
to strona Windows-932, czyli japońska. Tymczasem strona Windows-1250 ma kod
238. Czyli ktoś pomylił strony kodowe dla czcionek. Widać, że taki sam błąd
jest w przypadku czcionki \f10, czyli Mangal. Wystarczy więc w tym dwóch
miejscach podmienić 128 na 238. Analogicznie w drugim pliku. Naprawa tych
plików jest więc bardzo prosta i sprowadza się do zamiany jednej liczby na
drugą w kodzie RTF.

1634Racine

unread,
Feb 8, 2024, 4:55:55 AMFeb 8
to
Grzegorz Niemirowski w news:uq0to1$3v7$1$grze...@news.chmurka.net
ups, faktycznie, oba sa rtf.
i wow, jaka mistrzowska analiza/metoda, dzieki :) Pozniej te chwyty
przepracuje na plikach, bowiem koniecznie chce z nich mobi wykonac w
calibre, czyli niech najpierw rtf-y beda doprowadze do jadalnej postaci.
I rozumiem (+ widze, sprawdzilem), ze jesli takim pogruchotanym plikiem
bylby (faktyczny) doc, to trzeba go najpierw zapisac/przekonwertowac do rtf.
btw:
ta metoda, com opisal wczesniej, dawala mi co prawda postac pliku typu
"....{\cf1\afs24\rtlch \ltrch\loch\fs24\loch\f7...." (mam na mysli "wyglad"
tekstu) i widzialem jakies zagadkowe nazwy czcionek, typu mangal wlasnie,
zaczalem nabierac przekonania, ze jest jakies "pomieszane" kodowanie,moze
inaczej: pomieszanie stron kodowania. Ale nie czulem, co z tym zrobic.
zobacze, jak bedzie problem, dopytam.
thx

1634Racine

unread,
Feb 8, 2024, 5:11:09 AMFeb 8
to
0 new messages