>>> text1
<Text: Moby Dick by Herman Melville 1851>
|
Хм, т.к. много книг, наверное, и не надо, то вышлю парочку, только до
инста доберусь.
> решение (довольно хакерское) есть тут:http://stackoverflow.com/questions/3557095/printing-objects-and-unico...
> - оно может потребовать патчей в nltk или просто использоваться в наших
> адаптированных ресурсах.
>
> Вот этот пример:
>
> >>> sorted(set(text3)) [image: [1]] <http://nltk.googlecode.com/svn/trunk/doc/book/ch01.html#ref-sorted-set>['!', "'", '(', ')', ',', ',)', '.', '.)', ':', ';', ';)', '?', '?)','A', 'Abel', 'Abelmizraim', 'Abidah', 'Abide', 'Abimael', 'Abimelech','Abr', 'Abrah', 'Abraham', 'Abram', 'Accad', 'Achbor', 'Adah', ...]
Download Mar 9, 2012 4:02 AM by Steven Bird
Although Python 3.0 is now available, NLTK has not yet been ported.
Так что пока третий Питон отпадает. Мне кажется, что небольшого
раздела, описывающего работу с Юникодом в Python 2.6 - 2.7, будет
вполне достаточно.