Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.

Dismiss

use encoding utf.Czy da się innaczej ?

16 views

Skip to first unread message

yoa...@gmail.com

unread,

Jun 7, 2013, 9:27:04 AM6/7/13

Czy da się zmienić znaki diakrytyczne polskie na duże jeszcze przed encode ?
Jak bym to teraz chciał zrobić wrzucając uc befor encode to literki pl zostały by małymi.

W sumie to tego nie rozumiem działania do końca :wewnętrzne kodowanie mam prawdopodobnie unicode a może latin1 i chyba dlatego muszę wpierw zrobić encode by uc rozpoznawało poprawnie diakrytyki polskie .Czy to poprawny tok myślenia czy nie?

#!/usr/bin/perl -w

use Encode;

#chardet wydaw_file.txt
#wydaw_file.txt: utf-8 (confidence: 0.99)
#file -i wydaw_file.txt
#enca nie zwraca nic

open(DS,"wydaw_file.txt");

while(<DS>){

#przerobienie tekstu na kodowanie wewnętrzne
$line=decode("utf-8",$_);
$upline=uc $line;
lookfor($upline);#Tu nie znajduje słowo POŁOŻNICTWO ,ale znajduje GINEKOLOGIA.Wniosek nie znajduje słów z polskimi znakami diakrytycznymi
#print encode("utf-8",$upline);

$rt=encode("utf-8",$upline);
#Tu w zasadzie cecha tego skryptu,przykladu .Po zakodowaniu na utf-8 da sie zamienic wszystkie litery na polskie.

lookfor($rt);#Tu znajduje wyrazy z polskimi znakami diakrytycznymi

}

sub lookfor
{

my $line=shift;
$line =~ /(POŁOŻNICTWO)/ig;
print "Znaleziono:\|$1\|\n";

}

Tomasz Konojacki

unread,

Jun 17, 2013, 3:50:44 PM6/17/13

Czeďż˝ďż˝!

yoa...@gmail.com wrote:

> Czy da siďż˝ zmieniďż˝ znaki diakrytyczne polskie na duďż˝e jeszcze przed encode ?
> Jak bym to teraz chciaďż˝ zrobiďż˝ wrzucajďż˝c uc befor encode to literki pl zostaďż˝y by maďż˝ymi.

Da siďż˝. Problem tkwi w tym, ďż˝e Perl nie wie jakie jest kodowanie pliku
ze skryptem (traktuje go jako strumieďż˝ bajtďż˝w, a nie tekst w UTF-8).
Musisz mu powiedzieďż˝, ďż˝e jest inaczej, dodajďż˝c na poczďż˝tku tego skryptu
nastďż˝pujďż˝cďż˝ dyrektywďż˝:

use utf8;

Gdy tej dyrektywy nie ma, ta linia:

$line =~ /(POďż˝Oďż˝NICTWO)/ig;

jest ďż˝le interpretowana, poniewaďż˝ zawiera znaki spoza ASCII ktďż˝re sďż˝
interpretowane jako jakieďż˝ pozbawione sensu bajty, a nie, tak jak
powinny, jako UTF-8.

$rt=encode("utf-8",$upline);

To wďż˝aďż˝nie powoduje, ďż˝e $rt teďż˝ zawiera strumieďż˝ bajtďż˝w, pozbawiony
flagi UTF-8 i dlatego wtedy to "dziaďż˝a".

Pzdr,
Tomasz

PS. Dobrym zwyczajem jest nieuďż˝ywanie fileglobowych uchwytďż˝w plikďż˝w.
Czyli zamiast:

open(DS,"wydaw file.txt");

daj:

open(my $ds, "wydaw file.txt");

Podstawowym problemem z tymi pierwszym uchwytem jest to, ďż˝e jest on
zawsze w globalnym zakresie, z czego mogďż˝ wyniknďż˝ďż˝ rďż˝ne, dziwne bďż˝ďż˝dy,
na przykďż˝ad:

sub open_handle {
open (A, '>', 'lol.txt');
}

open_handle;
print A "test";

To nie wyďż˝wietli bďż˝ďż˝du mimo iďż˝ wydawaďż˝oby siďż˝, ďż˝e A jest lokalne tylko
dla funkcji open_handle. Nastďż˝pujďż˝cy kod juďż˝ wywoďż˝a bďż˝ďż˝d:

sub open_handle {
open (my $a, '>', 'lol.txt');
}

open_handle;
print $a "test";

PS2. strict i warnings nie bolďż˝ :)

--
"Lisp has all the visual appeal of oatmeal with fingernail clippings
mixed in." - Larry Wall

0 new messages