Не реализован поиск слов с ударением

37 просмотров
Перейти к первому непрочитанному сообщению

Zadd

не прочитано,
3 авг. 2010 г., 05:04:0703.08.2010
– Fiction Book Editor
http://lib.rus.ec/node/233967#comment-141778
Заметил, что FBE не может найти слово, если в нем есть знак ударения,
напр.
в строке
Цитата:

Вождь ха́йхаев, Арджуна Тысячерукий

нужно вставить комментарий
Цитата:

Хайхаи — племя, которому приписывается скифское происхождение. Их
вождем был Арджуна Картавирья (Тысячерукий).

и невозможно найти такую строку, потому что проставлено ударение
Вождь ха́́йхаев, Арджуна Тысячерукий
соответственно строку с ударением найти невозможно, а примечание
написано на строку без ударения и найти по тексту невозможно. Хорошо,
что есть PDF-ка(распознанная, естественно), по которой можно найти
следующую строку на этой странице и таким образом найти текст, а то
вообще труба…

Прошу реализовать поиск с отбрасыванием символа ударения

SeNS

не прочитано,
3 авг. 2010 г., 22:34:1803.08.2010
– Fiction Book Editor
Не уверен, что это можно реализовать (нужно смотреть, сейчас нет
времени). А почему бы тебе не искать через регэкспы? Я в них не мастак
(хоть и "прикрутил" мощные PCRE), но тут есть камрады, весьма в них
шарящие (например, наш Sclex ;), спроси...

Zrt Qrt Zrt

не прочитано,
3 авг. 2010 г., 23:57:2903.08.2010
– fiction-b...@googlegroups.com
Ну хорошо, а как искать через регэкспы? И вообще, чё за зверь такой — регэкспы?
Мне было бы гораздо легче поискать обычным поиском, чем изучать регэкспы


04.08.10, SeNS<sens....@gmail.com> написал(а):

Zadd

не прочитано,
4 авг. 2010 г., 00:27:2604.08.2010
– Fiction Book Editor
А вообще, можно ли найти строку, если некоторые символы в этой строке
обозначены другим шрифтом?Напр. <emphasis> или <strong>?
Если можно, то и пропуск-игнорирование в строке символа УДАРЕНИЕ-
ОСТРЫЙ-КОМБИНИРОВАННЫЙ-АКЦЕНТ сделать уж никак не сложнее, чем пропуск-
игнорирование <emphasis> или <strong>!

Sclex

не прочитано,
4 авг. 2010 г., 03:35:4504.08.2010
– Fiction Book Editor
On 3 авг, 12:04, Zadd <zzzqp...@gmail.com> wrote:
> Вождь ха́йхаев, Арджуна Тысячерукий
Следующее регулярное выражение найдет это слово и с ударением и без:
ха\x{0301}?йхаев

Sclex

не прочитано,
4 авг. 2010 г., 03:39:4004.08.2010
– Fiction Book Editor
Можно без нуля:

ха\x{301}?йхаев

Zrt Qrt Zrt

не прочитано,
4 авг. 2010 г., 22:04:1504.08.2010
– fiction-b...@googlegroups.com
проблема в том, что заранее неизвестно, <b>где именно</b> в тексте
располагается ударение.
Предлагаете после <b>каждой</b> буквы писать регэксп?
Почему-то при обычном поиске по CtrlF можно найти текст, если даже
часть этого текста заключена в <emphasis> и/или <strong>
напр. если бы строка была бы напр. такая:
Вождь х<strong>А</strong>йхаев, Арджуна <emphasis>Тысячерукий</emphasis>
то строка была бы найдена по простому указанию CtrlF
Это уже реализовано в коде FBE.
Я всего лишь прошу разработчиков, чтобы и игнорирование символа
<b>ударение-острый-комбинированный-акцент</b> тоже было бы реализовано
аналогичным образом.

04.08.10, Sclex<scl...@gmail.com> написал(а):

Zadd

не прочитано,
5 авг. 2010 г., 00:23:0405.08.2010
– Fiction Book Editor

SeNS

не прочитано,
5 авг. 2010 г., 00:25:5905.08.2010
– Fiction Book Editor
К сожалению, это невозможно реализовать в FBE. Поиск производится
средствами MSHTML (см. http://msdn.microsoft.com/en-us/library/aa741525(VS.85).aspx
), программисты Микрософт не предусмотрели поиск комбинированных
символов (точнее, их пропуск).

SeNS

не прочитано,
5 авг. 2010 г., 00:38:2805.08.2010
– Fiction Book Editor
Zadd, прежде чем кричать на либрусеке про "противоестественные
нежелания разработчиков", неплохо-бы для начала уяснить суть
вопроса...

Выше я дал тебе разъяснение, почему это нельзя реализовать в текущей
архитектуре FBE. Вдобавок, замечу, что мое _естественное_ нежелание
делать что-то является необходимым и достаточным условием для
игнорирования _любых_ просьб (например, мне может просто не понравится
невежливый/оскорбительный/излишне требовательный/хамский тон
просящего). _Никто никому в этом проекте не обязан ничего делать_, и
_никто_ не имеет права требовать и возмущаться. Можно вежливо
попросить, и сказать "Спасибо", при любом исходе.

On Aug 5, 12:23 am, Zadd <zzzqp...@gmail.com> wrote:
> http://lib.rus.ec/node/232788#comment-141877

Sclex

не прочитано,
5 авг. 2010 г., 01:17:2005.08.2010
– Fiction Book Editor
On 5 авг, 05:04, Zrt Qrt Zrt <zzzqp...@gmail.com> wrote:
> Почему-то при обычном поиске по CtrlF можно найти текст, если даже
> часть этого текста заключена в <emphasis> и/или <strong>
> ...

> Я всего лишь прошу разработчиков, чтобы и игнорирование символа
> <b>ударение-острый-комбинированный-акцент</b> тоже было бы реализовано
> аналогичным образом.
emphasis и strong в html-коде представлены тегами. А ударение
представлено текстом. MSHTML имеет средства для работы с текстом без
учета тегов. Игнорировать же отдельные символы текста функции MSHTML
не умеют. Неверно вам кажется, что игнорирование тегов и символа
ударения можно сделать схожим (в плане способа реализации) образом.

Zrt Qrt Zrt

не прочитано,
5 авг. 2010 г., 02:53:5705.08.2010
– fiction-b...@googlegroups.com
Ну что ж, извините, НО мой "крик" на Либрусеке был ДО того, как вы
дали ответ о том, почему такую простую опцию нельзя прикрутить к
редактору.
Кстати, я просил ДО этого НЕОДНОКРАТНО, и ответа мне не было.
Стоило только упомянуть на Либрусеке, как получаю И объяснение, почему
это "невозможно" И гневный КРИК от вас, что я кричу.
Ладно, оставим это. Я не кричу, а болею за дело и попросил УВАЖИТЕЛЬНО.
НИЖАЙШЕ прошу вас со всем почтением, низкий вам поклон, ну
пожаалустаааАААА! PlEEEEsE. Ласкава просымо! :'(((((
Итак, ТЕПЕРЬ я уяснил суть вопроса.
Тогда такое предложение:
можно же придумать новый тэг, который будет действовать ТОЛЬКО и
ИСКЛЮЧИТЕЛЬНО во время работы FBE.
Напр:
заменить символ ударения тэгом <combine></combine> и тогда никто не
помешает при поиске игнорировать этот тэг, а потом при записи делать
обратную подстановку.
Разве не ВЫХОД из положения?
Конечно, НЕразработчику не понять ВСЕХ подводных камней. Напр. я
считал, что и символ ударения и тэги <strong> и <emphasis> суть и то и
другое - наборы символов, но это оказалось слишком низкого уровня
представление. У вас оказалось написано на более высоком уровне. Ну
тогда может, тот обходной маневр, что я предложил, может все же
подойдет? Ну поожааалуйстааа!....


05.08.10, SeNS<sens....@gmail.com> написал(а):

Sclex

не прочитано,
5 авг. 2010 г., 04:02:5005.08.2010
– Fiction Book Editor
On 5 авг, 09:53, Zrt Qrt Zrt <zzzqp...@gmail.com> wrote:
> заменить символ ударения тэгом <combine></combine> и тогда никто не
> помешает при поиске игнорировать этот тэг, а потом при записи делать
> обратную подстановку.
> Разве не ВЫХОД из положения?
В режиме Body текст хранится в HTML-формате, а не в fb2. Если сделать
ударение каким-нибудь HTML-тегом, этот тег при печатании символов
будет расползаться на несколько символов, как например полужирность
или курсив. Кроме того, тогда не сделаешь, чтобы ударение
отображалось, как сейчас (наклонная черточка над буквой).

Zadd

не прочитано,
5 авг. 2010 г., 04:41:1905.08.2010
– Fiction Book Editor
Тут я немного не понял. Я ничего не говорил про HTML-теги. Наоборот,
придумал НЕ-HTML-тег. Или теги должны быть строго HTML?
Не обязательно тэг должен распространяться на несколько символов, есть
и безсимвольные тэги <br> напр.
Что значит "при печати"? Вроде FBE пока ничего на печать не выводит,
это не Ворд?
Но и не беда, даже если и ОДИН символ будет внутри тэга: ударяемый
символ и будет внутри тэга, а потом при записи по F2 этот тэг и
преобразовать в символ ударения после буквы.
Или такой вариант: раз уж у вас в режиме Body текст все равно
представлен в HTML, а не FB2, тогда может быть не помешает сделать и
ещё одно представление текста специально для поиска?Или специальную
опцию поиска с исключением символа ударения? Или может, скрипт какой?
Пусть скрипт сам дописывает после каждой буквы комбинацию {\x{301}?}
он железный, выдержит, только тогда размер буфера для поиска символов
надо увеличить. Так можно? Ну пожалуйста. Ну сделайте же что-нибудь.

Sclex

не прочитано,
5 авг. 2010 г., 08:27:2805.08.2010
– Fiction Book Editor
On 5 авг, 11:41, Zadd <zzzqp...@gmail.com> wrote:
> Тут я немного не понял. Я ничего не говорил про HTML-теги. Наоборот,
> придумал НЕ-HTML-тег. Или теги должны быть строго HTML?
Строго HTML, все остальное IE вырежет.

> Не обязательно тэг должен распространяться на несколько символов, есть
> и безсимвольные тэги <br> напр.

Хорошо. Какой конкретно тег вы предлагаете для ударения? <br>? Вас
устроит, если ударение будет обозначаться переносом строки?

> Что значит "при печати"? Вроде FBE пока ничего на печать не выводит,
> это не Ворд?

Под "печатанием" я имел в виду "ввод", "набор" (на клавиатуре).

> Но и не беда, даже если и ОДИН символ будет внутри тэга: ударяемый
> символ и будет внутри тэга, а потом при записи по F2 этот тэг и
> преобразовать в символ ударения после буквы.

Вначале тег будет на одном символе, а при вводе символов с клавиатуры
расползется на несколько.

> Ну сделайте же что-нибудь.
Разве что посимвольный поиск - собственным кодом сравнивать каждый
символ отдельно и пропускать ударения. Какая получится скорость, вот
вопрос.

Zrt Qrt Zrt

не прочитано,
5 авг. 2010 г., 20:37:4205.08.2010
– fiction-b...@googlegroups.com
спасибо


05.08.10, Sclex<scl...@gmail.com> написал(а):

ccaid

не прочитано,
7 авг. 2010 г., 15:43:3307.08.2010
– Fiction Book Editor
в качестве подручного решения проблемы можно использовать поиск
символа ударения в режиме исходника. то есть, если не удается найти
какое-то слово, или есть подозрение, что не все вхождения найдены,
можно поискать острый комбинированный акцент, и он как маяк покажет
все подозрительные места. а там уж глазками и ручками...

Zrt Qrt Zrt

не прочитано,
7 авг. 2010 г., 21:54:0307.08.2010
– fiction-b...@googlegroups.com
Неа, "Маяк" не подойдёт. Слишком много этих символов в книжке. А вот
еще есть книжка тыщавосемсот мохнатого года "Пословицы и поговорки",
так там тоже ударений - как собак нерезанных.
Договорились вроде, что пока напишут скрипт для поиска, который будет
искать фразу у которой после каждой буквы может стоять, а может и не
стоять знак ударения?


08.08.10, ccaid<cca...@gmail.com> написал(а):

Ответить всем
Написать сообщение автору
Переслать
0 новых сообщений