Форум » Справочная » Как быстро и качественно подготовить текст » Ответить

Как быстро и качественно подготовить текст

MoppoH: 1 Надо скачать словари Мои словари и excword, эти словари уменьшат поиск новых слов и омографов. (в принципе это не обязательно, но тогда подготовка текста может затянуться) 2 Открываем текст, проверяем его словарями только Римские, Числительные, clean и сохраняем его 3 Открываем окно отладки проекта переходим в режим Отображать обработанный словарями текст проекта, выделяем все и копируем текст создаем новый текстовый файл и вставляем туда скопированный текст 4 Открываем новый созданный файл, открываем панель поиска и замены (бинокль рядом с режимом редактирования) и переходим в Режим отображение текста - редактирование редактируем текст рег выражением - в найти пишем \bвсе([\,.!?]) - в заменить на пишем всё$1 ( это быстрый поиск и замена все со знаками препинания, так как оно может читать в одно и том же месте по разному) если надо заменить на всё жмем кнопку заменить и найти следующее, если не надо жмем поиск в перед 5 После редактирования сохраняем текст в режиме Только чтение проверяем его всеми словарями кроме 09Омографы 6 Ищем в тексте новые слова в настройках выбираем все слова, скрыть имеющиеся в словарях, скрыть имеющиеся в списке исключений (новые слова которые встречаются в тексте 1 раз я даже не проверяю, обычно на книгу 8 часов новых слов получается около 100-150) 7 Открываем Отладку проекта в режиме Отображать обработанный словарями текст проекта и в строку поиска вставляем [more]\b(бега|(за|про|с)бега(в|л)|бедра|беды|белка|белье|берег|берега|берегу|бока|бороды|борозды|бою|бревна|бункера|бытие|вдовы|ведра|веера|века|веку|вертела|весла|ветра|вечера|!вина|виски|воды|возу|войны|войска|волны|ворон|ворона|ворону|вороной|вороном|ворот|ворота|временная|временной|временную|временные|вырезать|главы|глаза|глотка|глотке|глотки|глотку|глоток|глубины|гнезда|года|головы|голоса|города|горе|горы|гребли|грозы|груди|губы|двери|дела|директора|добром|договора|доктора|дома|дорог|дорога|дороги|дорогой|доски|древнее|другом|дружки|дуги|духи|духов|душа|души|дыры|егеря|жара|жаркого|жемчуга|жены|забеги|замка|замке|замки|замку|замков|замком|замок|заморозки|заплачу|заросли|звезды|земли|зеркала|зерна|зимы|змеи|змея|знаком|иглы|избы|игры|катера|качка|качки|качку|кирки|козы|колбасы|колеса|колокола|кольца|копье|копья|корма|короба|коробок|корпуса|косы|красоты|краю|края|крейсера|кружка|купола|лагеря|леса|лесу|лиса|лица|лозы|ловлю|мастера|места|метлы|меха|моря|мука|муку|мытье|начал|начала|начало|небу|ноги|ноздри|номера|норы|ношу|облака|облачка|овцы|озера|окна|округа|округе|ордена|осел|острие|острова|острога|отпуска|отрезать|отсек|паруса|пекло|переходите|петли|печи|письма|плачу|плиты|повара|повести|погреба|поезда|позднее|полосы|поля|поступи|пояса|права|пристань|провода|пропустите|пропуска|проруби|профессора|пугало|пустоты|!пыли|пятна|пяток|ребра|реки|ремесла|рога| рода|родов|роду|руды|ружья|руки|самого|самой|сверла|свечи|свиньи|седла|сектора|села|село|семьи|сердца|сестры|сети|сироты|скалы|скачка|скачки|скачками|скачках|скобы|следа|слез|слезы|слова|слуги|снега|совершенного|совы|сорока|соски|сосны|спины|становитесь|стекла|стены|степи|стоим|стоит|стоите|стоят|стоящий|стопы|сторожа|стороны|страны|стрелка|стрелки|стрелкам|стрелками|стрелку|стрелок|стрелы|стрельбы|строки|счету|судьбы|судьи|суете|суши|счета|тела|тельца|термоса|толпы|тону|тормоза|травы|трактора|треску|тропы|трубы|трусов|трусы|тылу|узнаю|узнают|учителя|хлеба|хлопка|хлопок|ходу|холода|цвета|целую|цены|цепи|цеха|чаек|чайку|частоты|черепа|шторма|щеки|щетины|ядра|яйца|(?-i)Машин|(?-i)Семена)\b[^<][/more] он покажет все Омографы в которых не проставилось ударение (обычно на книгу 8 часов это где то 150-200 омографов) создаем свой словарь и добавляете в свой словарь те омографы которые вы найдете в тексте (в моем словаре 09Омографы большенство их идут в единственном числе, головы<, горы<( исключения глаза<, ру<ки, но<ги, слёзы - они во множественном числе) 8 Выбираем все словари и 09Омографы тоже и проверяем заново текст книги Все текст готов, как показала практика, на книгу 8 часов при прослушивание всего 40-50 слов будет прочитано не правильно, такая обработка текста у меня занимает от 30 до 50 минут, в зависимости от книги.

Ответов - 27, стр: 1 2 All

odinokiyklaus: Пожалуйста, выложите кто-нибудь профили к программе, чтобы было с чем сравнить.... И кстати, в версии [v2.1.2.1416] 15.05.2015 в режиме Настройки программы -> Настройки -> Синтез речи -> Паузы нет тире, то есть невозможно выставить паузу перед, к примеру, выражение Сактывкар - (пауза 150 мс) город и т.д. Это очень печально. Может стоиить это исправить?

MoppoH: точно не знаю какой файл отвечает за профили, возможно это файл settings

wasyaka: Есть вопросы: 1. редактируем текст рег выражением - в найти пишем \bвсе([\,.!?]) - в заменить на пишем всё$1 ( это быстрый поиск и замена все со знаками препинания, так как оно может читать в одно и том же месте по разному), - а если вначале задействовать словарь(и) все-всё ? 2. Поиск новых слов + омографы, - при такой!!! базе вылавливать "неправильные" слова и использовать очень малое количество омографов??? ... Спасибо за словари омографов, пользуюсь голосом ИВОНА Максим, словари переделал в основном. Вопросы ещё есть(много), но по мере поступления...


odinokiyklaus: wasyaka пишет: 1. редактируем текст рег выражением - в найти пишем \bвсе([\,.!?]) - в заменить на пишем всё$1 ( это быстрый поиск и замена все со знаками препинания, так как оно может читать в одно и том же месте по разному), - а если вначале задействовать словарь(и) все-всё ? у меня это организовано следующим образом. Поскольку слово всё встречается чаще чем слово все, то в словаре омографов. который идёт в самом конце списка словарей, я установил все=всё. в словаре регулярных выражений оставил только правила, в основном исправляющие все на все. т.е. все=всеъ. Надеюсь я ответил на ваш вопрос. Поиск данного омографа в режиме отладка проекта выполняю включив в поиске регулярное выражение /bвсе/b - и далее по мере необходимости добавляю правила в словарь все->всеъ wasyaka пишет: 2. Поиск новых слов + омографы, - при такой!!! базе вылавливать "неправильные" слова и использовать очень малое количество омографов??? посмотрите это - ссылка и и пост № 159

wasyaka: MoppoH пишет: новые слова которые встречаются в тексте 1 раз я даже не проверяю, обычно на книгу 8 часов новых слов получается около 100-150 Это из оставшихся по одному в среднем полторы тысячи (у меня, при использовании голоса ИВОНА - МАКСИМ), и как их , выбрав при прослушке "неправильные", добавить в список исключений? Словаоь "02 самом" - какя понял, должен менять заглавную букву в омографах на прописную - у меня меняет только в серелине строки, а если начальная - нет.(или так и задумано? - смысл?) Поступил проще: $Ангара=ангара и т.д.

HoqqoM: wasyaka пишет: должен менять заглавную букву в омографах на прописную - у меня меняет только в серелине строки, а если начальная - нет. так и задумано, потому что чаще всего если предложение начинается с омографа то он во множественном числе. wasyaka пишет: выбрав при прослушке "неправильные", добавить в список исключений? добавляет в словарь исключений который находится в корневой папке программы называется excwords

wasyaka: выбрав при прослушке "неправильные", добавить в список исключений? Имелось ввиду после записи. Как в MP3book2005 > Поиск новых слов > Сохранить в файл. Здесь такое возможно? http://shot.qip.ru/00QDGw-5lA1oXmp5/

MoppoH2: зачем сохранять в список исключений слова которые ты еще не прослушал? при нажатие на тот крестик слово автоматом сохраняется в этот словарь

odinokiyklaus: wasyaka пишет: $Ангара=ангара В этом случае, вы из обычного нарицательного существительного дополнительно получаете омограф, который может читаться по разному (стало 2 варианта: сама река Ангара, ангАра (р.п. слова ангАр)), в зависимости от контекта. Не советую выполнять такие ообобщающие решения. лучше вместо выражения $Ангара=ангара использовать решулярное выражение #(?-i)\bАнгар([ауыео])?([а-я]{1,5})?\b=Ангар$1<$2 Подобный тип регулярки можно использовать и во всех других словах, где ударение скачет по слогам.

odinokiyklaus: Что так много Морронов (MoppoH, HoqqoM, MoppoH2) то расплодилось?

wasyaka: MoppoH пишет: новые слова которые встречаются в тексте 1 раз я даже не проверяю, обычно на книгу 8 часов новых слов получается около 100-150 зачем сохранять в список исключений слова которые ты еще не прослушал? при нажатие на тот крестик слово автоматом сохраняется в этот словарь Я их прослушал в "записи", и выписал 100-150 новых "неправильных"слов. Остальные от 1000 до 2000 прозвучали "правильно", и чтобы поновой их не слушать и "не нажимать на тот крестик(правильные, зачем?)," как их добавить в словарь excwords? Исходя из того что в дальнейшем эти слова могут встречатся более одного раза. В MP3book2005 я по новой включил поиск новых слов, сохранил их и добавил в known_words, аналог excwords. Для голоса Ивона ударения делаются заглавной буквой через словарь фонем. В koobaudio это делать удобней. И как добавить фото, а то только ссылка получается? odinokiyklaus пишет: В этом случае, вы из обычного нарицательного существительного дополнительно получаете омограф, который может читаться по разному (стало 2 варианта: сама река Ангара, ангАра (р.п. слова ангАр)), в зависимости от контекта. Не советую выполнять такие ообобщающие решения. лучше вместо выражения $Ангара=ангара использовать решулярное выражение #(?-i)\bАнгар([ауыео])?([а-я]{1,5})?\b=Ангар$1<$2 Подобный тип регулярки можно использовать и во всех других словах, где ударение скачет по слогам. Для "Николая" да, а для "Максима"... Для разметки(расстановки) омографов с ударением заглавной буквой есть классная прога: click here Так что это с учётом того что эти два слова совместно встречаются редко (ангар(А,У,Е,Ы) - вообще дефицит),а слово в тексте ангар([ауыео])( звучить как ангАр([ауыео]), - пропустил и ОК.

MoppoH2: odinokiyklaus пишет: Что так много Морронов (MoppoH, HoqqoM, MoppoH2) то расплодилось? не могу восстановить пароль от MoppoH wasyaka пишет: и чтобы поновой их не слушать и "не нажимать на тот крестик(правильные, зачем?)," как их добавить в словарь excwords? выбрав эти два пункта слова из всех словарей уже не будет показывать в списке новых слов Ангара не было видно. да такое выражение заменит на Ангара<, когда я встречаю такое в тексте я просто добавляю в регулярное выражение сочетание |не было| и в следующий раз читать будет нормально, а если мы добавим правило ангар=анга<р и будет книга что много раз будет встречаться название Ангара, то добавить такое уже тяжело в рег выражения wasyaka пишет: И как добавить фото, а то только ссылка получается? залей на хостинг картинку и нажми эту кнопку и вставь туда ссылку

wasyaka: MoppoH2 пишет: выбрав эти два пункта слова из всех словарей уже не будет показывать в списке новых слов Не то. 2464 слова остались не прослушанными (по одному - трата времени). После записи книги и прослушки оказалось 164 слова из 2464 неправильно произносящихся. Исправил - добавились в словарь, а оставшиеся 2300 правильных, как их извлеч из редактора и добавить в список excwords. так в MP3book2005

MoppoH2: с этим предложением сюда http://koobaudio.borda.ru/?1-3-0-00000016-000-0-0-1461839524

odinokiyklaus: wasyaka пишет: Для разметки(расстановки) омографов с ударением заглавной буквой есть классная прога: click here Ух ты! что-то новенькое . Посмотрим-посмотрим

MoppoH2: odinokiyklaus пишет: Ух ты! что-то новенькое . Посмотрим-посмотрим посмотрел эту программу с заменой омографов, ее главный недостаток, это что она добавляет только словосочетания, загрузив текст книги, где у меня выдало после обработки словарями всего 174 омографа, эта программа предложила мне просмотреть 2889 необработанных омографов. наверное чтобы обработать все омографы надо потратить столько же времени сколько займет прочитать эту книгу

wasyaka: MoppoH2 пишет: odinokiyklaus пишет:  цитата: Ух ты! что-то новенькое . Посмотрим-посмотрим посмотрел эту программу с заменой омографов, ее главный недостаток, это что она добавляет только словосочетания, загрузив текст книги, где у меня выдало после обработки словарями всего 174 омографа, эта программа предложила мне просмотреть 2889 необработанных омографов. наверное чтобы обработать все омографы надо потратить столько же времени сколько займет прочитать эту книгу Прога используется после обработки словарями. остаток так сказать. и при использовании фильтра можно менять "пачкой." Удобно для редко втречаемых и "сложнословарных" омографов типа вАлите=валИте; нахОдиться=находИться(Беспрепятственно нахОдиться(находИться) на воде,) и т. д.

wasyaka: Привет. Как избавится от появление в обрабатываемом тексте (вкл. режим чтения) от <em>? Как из я знаю

odinokiyklaus: wasyaka пишет: Привет. Как избавится от появление в обрабатываемом тексте (вкл. режим чтения) от <em>? Привет. На этот счет у меня есть вот такое правило. Его требуется разместить в предварительную обработку в числе самых первых, например в словарь 0.0_clean (он у меня самый первый в папке 1) у меня данные правила в словаре описаны так: // удаляем вставки в текст (файлы fb2) вида <em>бла..бла..</em>, <img>1</img> #<img>\d+</img>= #(\<[\/]?img\>)= #(\<[\/]?em\>)=

wasyaka: Привет. Вопрос (фото почему-то не катит) В окне"Результат обработки словарями" проставляется точка после названия. а в окне "Показать обработанный текст" их нет. Не срабатывают правила: #(([A-Za-zА-яЁё]+)\s\d+)(\r+)=$1. #([A-Za-zА-яЁё]+)(\r+)=$1. Почему исчезают точки?

odinokiyklaus: "Результат обработки словарями" Не нашел такого окна.... "Показать обработанный текст" а это окно где расположено? Не срабатывают правила: и одновременно Почему исчезают точки? как такое может быть?

wasyaka: odinokiyklaus пишет:  цитата: "Результат обработки словарями" Не нашел такого окна....  цитата: "Показать обработанный текст" а это окно где расположено?  цитата: Не срабатывают правила: и одновременно  цитата: Почему исчезают точки? как такое может быть? В поисках рая.. http://shot.qip.ru/00STD0-3768CoQD0/ http://shot.qip.ru/00STD0-5768CoQD1/ click here Как добавить скрин чтобы отображался?

odinokiyklaus: У меня также в режиме "отображать обработанный словарями текст проекта" не отобразились эти точки в конце. В режиме чтения вслух эти точки так же отсутсвуют. Но если посмотреть на текст в режиме разметки TTS, то разметка \pause{150ms}. перед точкой присутствует, а значит эти точки обрабатываются корректно, и на прослушивание в режиме чтения и/или в последующей записи никак не влияют. Видимо небольшой баг.

wasyaka: odinokiyklaus пишет: У меня также в режиме "отображать обработанный словарями текст проекта" не отобразились эти точки в конце. В режиме чтения вслух эти точки так же отсутсвуют. Но если посмотреть на текст в режиме разметки TTS, то разметка \pause{150ms}. перед точкой присутствует, а значит эти точки обрабатываются корректно, и на прослушивание в режиме чтения и/или в последующей записи никак не влияют. Видимо небольшой баг. Спасибо! Для чтения использую MP3book2005 из-за удобства "правки на лету" и им же поиск новых слов. В читалке KooBAudio не понял(сильно и не пытался) как быстро исправить часто встречающуюся ошибку без возврата в окно редактора.

wasyaka: А как такое может быть? начальный текст: И все же что-то его останавливало. все же все же обработанный текст: И все же что-то его останавливало. всё же все же http://shot.qip.ru/00SVMK-4768CoQE0/ Если в словарь добавляю строчку: все же что-то=всё же что-то то срабатывает Нижняя строчка - копия из верхней(и добавлена в словарь) средняя - набрана вручную. Попробовал: в Балаболке - ОК... из 6! ттхт прог только: SynWrite - ОК Книга: Корн 01 Восемнадцать капсул красного цвета

odinokiyklaus: рисунок Для проверки программы я завёл пустую программу и удалил все словари из папок 1, 2 и папки DIС. После в папке DIC завел файл с правилами для проверки - в моём случае он называется Проверка-2.dic, в котором и разместил ваши правила: [pre2] #(([A-Za-zА-яЁё]+)\s\d+)(\r+)=$1. #([A-Za-zА-яЁё]+)(\r+)=$1. все же=всё же [/pre2] как видите из рисунка программа отработала нормально. То есть дело в правилах. Из за них у вас не правильно отработа 3 строчка [pre2] всё же все же [/pre2] То есть в неправильной обработке виноваты правила, а не программа.

wasyaka: odinokiyklaus пишет: То есть в неправильной обработке виноваты правила, а не программа Там была причина в разметке текста в fb2 и не только все ещё нем.два. это за три главы прослушки... А правила : click here 2.1 2.2 2.3 2.4 и папка 2 - второй заход. Словарь ударений в формате pls в виде фонетической транскрипции. Если интересно - дополню(нужен установленный голос Speech2Go IVONA) <lexeme> <grapheme>УСО</grapheme> <phoneme>ˈusˈɛˈo</phoneme> <lexname>макс_prostee</lexname> </lexeme> <lexeme> <grapheme>Уффф</grapheme> <grapheme>уффф</grapheme> <phoneme>ˈufffː</phoneme> <lexname>макс_prostee</lexname> </lexeme> <lexeme> <grapheme>ФБР</grapheme> <phoneme>fɛbɛ ˈɛr</phoneme> <lexname>макс_prostee</lexname> </lexeme> <lexeme> <grapheme>ФЗУ</grapheme> <phoneme>fˈɛzˈɛˈu</phoneme> <lexname>макс_prostee</lexname> </lexeme> Озвучено с помощью 247_S2G_Maxim(2 1.6.74) click here



полная версия страницы