Новый скрипт - "Превратить таблицы в простой текст"

65 views
Skip to first unread message

Sclex

unread,
May 9, 2020, 10:20:02 AM5/9/20
to Fiction Book Editor
Я сделал новый скрипт - "Превратить таблицы в простой текст". Текущая версия 1.1. Находится в подменю скриптов "Обработка форматирования".

Данный скрипт все теги table и tr удаляет (сохраняя их содержимое), а теги th и td превращает в обычные теги p. То есть содержимое таблиц превращается в простые абзацы текста.

Просто я прочитал, что после ФайнРидера получаются файлы, в которым картинки и подписи к ним сформатированы в виде таблиц, но это форматирование излишне, поэтому его приходится удалять.

Скрипт залит в GIT-хранилище исходников:

MCat78

unread,
May 9, 2020, 8:47:25 PM5/9/20
to Fiction Book Editor
Огромное спасибо!

суббота, 9 мая 2020 г., 19:20:02 UTC+5 пользователь Sclex написал:

Sclex

unread,
May 10, 2020, 5:13:28 AM5/10/20
to Fiction Book Editor
MCat78, случалось избавляться от такого рода таблиц?

воскресенье, 10 мая 2020 г., 3:47:25 UTC+3 пользователь MCat78 написал:

MCat78

unread,
May 10, 2020, 6:50:37 AM5/10/20
to Fiction Book Editor
Частенько!

воскресенье, 10 мая 2020 г., 14:13:28 UTC+5 пользователь Sclex написал:

Sclex

unread,
May 10, 2020, 12:15:28 PM5/10/20
to Fiction Book Editor
Скрипт "Превратить таблицы в простой текст v1.1"выложил также сюда:


суббота, 9 мая 2020 г., 17:20:02 UTC+3 пользователь Sclex написал:

Sclex

unread,
May 11, 2020, 8:50:14 AM5/11/20
to Fiction Book Editor
MCat78, а вы работаете верстальщиком в ЛитРесе? Разве верстальщикам ЛитРеса приходится иметь дело с документами из-под FineReader-а? У вас же, по идее, должны быть издательские тексты, не требующие OCR.

воскресенье, 10 мая 2020 г., 13:50:37 UTC+3 пользователь MCat78 написал:

MCat78

unread,
May 11, 2020, 9:22:15 AM5/11/20
to Fiction Book Editor
По всякому бывает. Бывает, что правообладатель может дать только PDF. 

понедельник, 11 мая 2020 г., 17:50:14 UTC+5 пользователь Sclex написал:

Олег Власов

unread,
May 11, 2020, 11:03:28 AM5/11/20
to fiction-b...@googlegroups.com
как у меня, так 90 процентов pdf,да еще и не всегда хорошего качества

пн, 11 мая 2020 г. в 16:22, MCat78 <mca...@gmail.com>:
--
Вы получили это сообщение, поскольку подписаны на группу "Fiction Book Editor".
Чтобы отменить подписку на эту группу и больше не получать от нее сообщения, отправьте письмо на электронный адрес fiction-book-ed...@googlegroups.com.
Чтобы посмотреть обсуждение на веб-странице, перейдите по ссылке https://groups.google.com/d/msgid/fiction-book-editor/e2b54ffe-d54d-4053-8466-b3543217829a%40googlegroups.com.

Sclex

unread,
May 14, 2020, 12:20:14 PM5/14/20
to Fiction Book Editor
У элементов td и th, согласно схеме формата, могут иметься такие атрибуты:

- id
- style
- colspan
- rowspan
- align
- valign

При превращении элементов td и th в элемент p атрибуты colspan, rowspan, align и valign однозначно надо удалять.

А надо ли удалять атрибуты id и style?

Олег Власов

unread,
May 14, 2020, 12:27:38 PM5/14/20
to fiction-b...@googlegroups.com
если по мне, то да, мне легче работать с чистым фб,  а уж стилей во время работы я и сам наставлю:)

чт, 14 мая 2020 г. в 19:20, Sclex <scl...@gmail.com>:
--
Вы получили это сообщение, поскольку подписаны на группу "Fiction Book Editor".
Чтобы отменить подписку на эту группу и больше не получать от нее сообщения, отправьте письмо на электронный адрес fiction-book-ed...@googlegroups.com.
Чтобы посмотреть обсуждение на веб-странице, перейдите по ссылке https://groups.google.com/d/msgid/fiction-book-editor/64e45aea-1d44-4e90-b8d4-d7feeb9f6f0d%40googlegroups.com.

Олег Власов

unread,
May 14, 2020, 12:35:49 PM5/14/20
to fiction-b...@googlegroups.com
<p align="center" valign="top">
<p align="left" valign="top">

чт, 14 мая 2020 г. в 19:27, Олег Власов <pru...@gmail.com>:

Sclex

unread,
May 14, 2020, 12:40:03 PM5/14/20
to Fiction Book Editor
Скрипт "Превратить таблицы в простой текст" обновлен до версии 1.2.

Теперь, при превращении элементов td и th в элементы p, удаляются атрибуты id, style, align, valign, rowspan, colspan.

Скрипт "Превратить таблицы в простой текст v1.2", ссылка для скачивания:

Также скрипт залит в хранилище исходников FBE:

Олег Власов

unread,
May 14, 2020, 12:58:52 PM5/14/20
to fiction-b...@googlegroups.com
спасибо. Супер.

чт, 14 мая 2020 г. в 19:40, Sclex <scl...@gmail.com>:
--
Вы получили это сообщение, поскольку подписаны на группу "Fiction Book Editor".
Чтобы отменить подписку на эту группу и больше не получать от нее сообщения, отправьте письмо на электронный адрес fiction-book-ed...@googlegroups.com.
Чтобы посмотреть обсуждение на веб-странице, перейдите по ссылке https://groups.google.com/d/msgid/fiction-book-editor/3b0b3590-4de1-4c30-95de-d042ec7deaf4%40googlegroups.com.

Олег Власов

unread,
May 27, 2020, 9:06:26 AM5/27/20
to fiction-b...@googlegroups.com
Я просто только сейчас понимаю, что именно этих последних скриптов мне и не хватало. Еще раз спасибо. Всё супер!

чт, 14 мая 2020 г. в 19:58, Олег Власов <pru...@gmail.com>:

Sclex

unread,
May 28, 2020, 4:08:21 AM5/28/20
to Fiction Book Editor
pruss, спасибо за положительную обратную связь. Она ценна.

среда, 27 мая 2020 г., 16:06:26 UTC+3 пользователь pruss написал:
Я просто только сейчас понимаю, что именно этих последних скриптов мне и не хватало. Еще раз спасибо. Всё супер!

чт, 14 мая 2020 г. в 19:58, Олег Власов <pru...@gmail.com>:
спасибо. Супер.

чт, 14 мая 2020 г. в 19:40, Sclex <scl...@gmail.com>:
Скрипт "Превратить таблицы в простой текст" обновлен до версии 1.2.

Теперь, при превращении элементов td и th в элементы p, удаляются атрибуты id, style, align, valign, rowspan, colspan.

Скрипт "Превратить таблицы в простой текст v1.2", ссылка для скачивания:

Также скрипт залит в хранилище исходников FBE:

--
Вы получили это сообщение, поскольку подписаны на группу "Fiction Book Editor".
Чтобы отменить подписку на эту группу и больше не получать от нее сообщения, отправьте письмо на электронный адрес fiction-book-editor+unsub...@googlegroups.com.

Zrt Qrt Zrt

unread,
May 29, 2020, 6:41:47 AM5/29/20
to fiction-b...@googlegroups.com
Вот до чего люди доходят, лишь бы не убирать галочку в Файнридере
"Оставлять картинки в fb2"
>> <https://www.google.com/url?q=https%3A%2F%2Fgithub.com%2Fsensboston%2Ffictionbookeditor&sa=D&sntz=1&usg=AFQjCNGcSqzbtn0sZf9a778haS_N7agPMA>
>>
>>
>

stokber

unread,
Jun 8, 2020, 6:03:13 AM6/8/20
to Fiction Book Editor
Спасибо за проделанную работу! 
Все надписи вверху и внизу рисунков превращаются в текст и это то, что и требуется. Рисунки при этом остаются рисунками в тексте, т.е. размещены они не по центру, а с левого края. Часть же рисунков распознаются FineReader все же не как таблицы, а как рисунки. Расположены они именно по центру, и после работы скрипта все-таки приходится лезть в код, чтобы привести все иллюстрации к единому виду. В папке "05_Иллюстрации" имеется скрипт "09_Сделать обычный рисунок из рисунка в тексте", но работает он с каждой иллюстрацией отдельно. Можно ли дополнить скрипт "Превратить таблицы...", так чтобы картинки все же при его выполнении оставались все же простыми картинками? Или сделать это опционально, по запросу?

Sclex

unread,
Jun 8, 2020, 7:13:05 AM6/8/20
to Fiction Book Editor
> Можно ли дополнить скрипт "Превратить таблицы...", так чтобы картинки все же при его выполнении оставались все же простыми картинками?
Вы имеете в виду "чтобы картинки *превращались* в простые картинки"? Это же не скрипт их делает инлайновыми.

А картинка в таблице может быть только одна внутри своего абзаца? Кроме нее в ее абзаце ничего не может быть?

Можете предоставить какой-нибудь файл для тестов?

понедельник, 8 июня 2020 г., 13:03:13 UTC+3 пользователь stokber написал:

Sclex

unread,
Jun 8, 2020, 7:19:59 AM6/8/20
to Fiction Book Editor
> А картинка в таблице может быть только одна внутри своего абзаца? Кроме нее в ее абзаце ничего не может быть?
Хотя в любом случае надо дорабатывать скрипт исходя из расчета, что инлайновых картинок в абзаце может быть любое количество.

Sclex

unread,
Jun 8, 2020, 7:24:45 AM6/8/20
to Fiction Book Editor
Может быть, сделать, чтобы если в теге th или td есть и текст и по
меньшей мере одна картинка, то такая картинка (или несколько их)
оставалась инлайновой. А если в теге th или td кроме картинки ничего
нет, то превращать такую картинку в не-инлайновую.

08.06.2020, Sclex<scl...@gmail.com> написал(а):
> --
> Вы получили это сообщение, так как подписаны на группу "Fiction Book
> Editor".
> Чтобы отменить подписку на эту тему, перейдите по ссылке
> https://groups.google.com/d/topic/fiction-book-editor/NOsB2gNeO0E/unsubscribe.
> Чтобы отменить подписку на эту группу и все ее темы, отправьте письмо на
> электронный адрес fiction-book-ed...@googlegroups.com.
> Просмотреть это обсуждение в Сети можно по адресу
> https://groups.google.com/d/msgid/fiction-book-editor/f6335d8b-4985-4619-a4de-4a1df63637a4o%40googlegroups.com.
>

TaKir

unread,
Jun 8, 2020, 8:25:07 AM6/8/20
to Fiction Book Editor
Как мне кажется, инлайновые картинки - зло, кроме совершенно конкретных случаев.
И картинки из таблиц надо по умолчанию делать обычными, поскольку это 100% кривой текст, полученный автоматом из файнридера.


суббота, 9 мая 2020 г., 17:20:02 UTC+3 пользователь Sclex написал:
Я сделал новый скрипт - "Превратить таблицы в простой текст". Текущая версия 1.1. Находится в подменю скриптов "Обработка форматирования".

stokber

unread,
Jun 8, 2020, 10:50:40 AM6/8/20
to Fiction Book Editor
Я тоже считаю, что картинки из таблиц надо по умолчанию делать обычными. В fb2 нет обтекания текста, и картинка, особенно небольшая, будучи прижатой к левому краю, выглядит не очень. Если я в коде удаляю регекспом все теги таблиц (</?t(able|h|r|d/?)[^>]*?>), то на выходе получаю "растабличенный" текст и обычную картинку. После же скрипта с текстом все в порядке, а картинка - инлайн. Картинка, распознанная в FR как таблица в коде документа fb2 примерно выглядит так: <td><image l:href="#image3.jpg"/></td>.  После замены регекспом в коде - <image l:href="#image3.jpg"/>.  Желательно, чтобы и после скрипта она так выглядела.  После FR в теги th или td могут попасть как подпись под картинкой, так и строка текста внизу, так и строка выше (заголовок, колонтитул и др). Исправить это в FR практически невозможно, он с упорством продолжает из обычной картинки делать таблицу.
Пример файла отправил в личку.

Sclex

unread,
Jun 8, 2020, 10:59:31 AM6/8/20
to Fiction Book Editor
Все понял, собираюсь доработать сабжевый скрипт.

Sclex

unread,
Jun 9, 2020, 5:41:11 AM6/9/20
to Fiction Book Editor
Скрипт "Превратить таблицы в простой текст" обновлен до версии 1.3.
Изменение: картинки, находившиеся до запуска скрипта внутри тегов th или td, будут теперь делаться не инлайновыми, а простыми.

Скачать скрипт можно по ссылке:

Также скрипт залит в GIT-хранилище исходников FBE (папка "files/Scripts/19_Обработка форматирования"):

понедельник, 8 июня 2020 г., 13:03:13 UTC+3 пользователь stokber написал:
Спасибо за проделанную работу! 

stokber

unread,
Jun 9, 2020, 8:02:44 AM6/9/20
to Fiction Book Editor
Отлично! Спасибо!

вторник, 9 июня 2020 г., 12:41:11 UTC+3 пользователь Sclex написал:

TaKir

unread,
Jun 9, 2020, 8:50:46 AM6/9/20
to Fiction Book Editor
Спасибо!

вторник, 9 июня 2020 г., 12:41:11 UTC+3 пользователь Sclex написал:
Скрипт "Превратить таблицы в простой текст" обновлен до версии 1.3.
Reply all
Reply to author
Forward
0 new messages