Я при активном содействии TaKir-а написал два новых скрипта на замену предыдущему «20_Поиск (без замены) нецензурщины, упоминаний FB и Insta», который работал не так чтобы очень. Новый скрипт «Поиск нецензурных слов» находит, ну, хочется надеяться, почти все изыски табуированной лексики, плюс добавлены слова, в которых отдельные буквы заменены звёздочками, решётками или похожими буквами латиницы. Не забыты и упоминания FB и Инстаграм.
Скрипт «Статистика нецензурных слов» покажет списком все найденные слова и их количество для каждого отдельно. Латиница (псевдокириллица) в русских словах будет выделена красным шрифтом. Также красным будет выделена матерная основа составных английских слов-матов. Здесь возможны ложные срабатывания, типа нашего слова «педикюр» и др. К сожалению, поверхностное знание английской грамматики не позволило сделать эту часть функционала более совершенной. Упоминания ФБ и т. п. будут размещены в конце списка и выделены зелёным шрифтом. По запросу можно будет оставить в аннотации упоминание о наличии в книге подобной лексики.
За основу был взят регексп-антимат за авторством ув. imDaniX (за что ему отдельная признательность)(
https://gist.github.com/imDaniX/8449f40655fcc1b92ae8d756cbca1264#file-swears-javascript-regex), частично переработанный для работы в FBE. Добавлены недостающие слова и исключения, слова со звёздочками и решетками, английский мат-перемат и прочие Insta-Meta. Также отдельная благодарность TaKir-у за помощь в написании, тестировании и иконки к этим двум сценариям. За ставший уже универсальным, скрипт «Поиск по набору регекспов», на базе которого собран один из представленных скриптов отдельное спасибо Sclex-у.