Как быстро и качественно подготовить текст

Ответов - 27, стр: 1 2 All

odinokiyklaus: Пожалуйста, выложите кто-нибудь профили к программе, чтобы было с чем сравнить.... И кстати, в версии [v2.1.2.1416] 15.05.2015 в режиме Настройки программы -> Настройки -> Синтез речи -> Паузы нет тире, то есть невозможно выставить паузу перед, к примеру, выражение Сактывкар - (пауза 150 мс) город и т.д. Это очень печально. Может стоиить это исправить?

MoppoH: точно не знаю какой файл отвечает за профили, возможно это файл settings

wasyaka: Есть вопросы: 1. редактируем текст рег выражением - в найти пишем \bвсе([\,.!?]) - в заменить на пишем всё$1 ( это быстрый поиск и замена все со знаками препинания, так как оно может читать в одно и том же месте по разному), - а если вначале задействовать словарь(и) все-всё ? 2. Поиск новых слов + омографы, - при такой!!! базе вылавливать "неправильные" слова и использовать очень малое количество омографов??? ... Спасибо за словари омографов, пользуюсь голосом ИВОНА Максим, словари переделал в основном. Вопросы ещё есть(много), но по мере поступления...

odinokiyklaus: wasyaka пишет: 1. редактируем текст рег выражением - в найти пишем \bвсе([\,.!?]) - в заменить на пишем всё$1 ( это быстрый поиск и замена все со знаками препинания, так как оно может читать в одно и том же месте по разному), - а если вначале задействовать словарь(и) все-всё ? у меня это организовано следующим образом. Поскольку слово всё встречается чаще чем слово все, то в словаре омографов. который идёт в самом конце списка словарей, я установил все=всё. в словаре регулярных выражений оставил только правила, в основном исправляющие все на все. т.е. все=всеъ. Надеюсь я ответил на ваш вопрос. Поиск данного омографа в режиме отладка проекта выполняю включив в поиске регулярное выражение /bвсе/b - и далее по мере необходимости добавляю правила в словарь все->всеъ wasyaka пишет: 2. Поиск новых слов + омографы, - при такой!!! базе вылавливать "неправильные" слова и использовать очень малое количество омографов??? посмотрите это - ссылка и и пост № 159

wasyaka: MoppoH пишет: новые слова которые встречаются в тексте 1 раз я даже не проверяю, обычно на книгу 8 часов новых слов получается около 100-150 Это из оставшихся по одному в среднем полторы тысячи (у меня, при использовании голоса ИВОНА - МАКСИМ), и как их , выбрав при прослушке "неправильные", добавить в список исключений? Словаоь "02 самом" - какя понял, должен менять заглавную букву в омографах на прописную - у меня меняет только в серелине строки, а если начальная - нет.(или так и задумано? - смысл?) Поступил проще: $Ангара=ангара и т.д.

HoqqoM: wasyaka пишет: должен менять заглавную букву в омографах на прописную - у меня меняет только в серелине строки, а если начальная - нет. так и задумано, потому что чаще всего если предложение начинается с омографа то он во множественном числе. wasyaka пишет: выбрав при прослушке "неправильные", добавить в список исключений? добавляет в словарь исключений который находится в корневой папке программы называется excwords

wasyaka: выбрав при прослушке "неправильные", добавить в список исключений? Имелось ввиду после записи. Как в MP3book2005 > Поиск новых слов > Сохранить в файл. Здесь такое возможно? http://shot.qip.ru/00QDGw-5lA1oXmp5/

MoppoH2: зачем сохранять в список исключений слова которые ты еще не прослушал? при нажатие на тот крестик слово автоматом сохраняется в этот словарь

odinokiyklaus: wasyaka пишет: $Ангара=ангара В этом случае, вы из обычного нарицательного существительного дополнительно получаете омограф, который может читаться по разному (стало 2 варианта: сама река Ангара, ангАра (р.п. слова ангАр)), в зависимости от контекта. Не советую выполнять такие ообобщающие решения. лучше вместо выражения $Ангара=ангара использовать решулярное выражение #(?-i)\bАнгар([ауыео])?([а-я]{1,5})?\b=Ангар$1<$2 Подобный тип регулярки можно использовать и во всех других словах, где ударение скачет по слогам.

odinokiyklaus: Что так много Морронов (MoppoH, HoqqoM, MoppoH2) то расплодилось?

wasyaka: MoppoH пишет: новые слова которые встречаются в тексте 1 раз я даже не проверяю, обычно на книгу 8 часов новых слов получается около 100-150 зачем сохранять в список исключений слова которые ты еще не прослушал? при нажатие на тот крестик слово автоматом сохраняется в этот словарь Я их прослушал в "записи", и выписал 100-150 новых "неправильных"слов. Остальные от 1000 до 2000 прозвучали "правильно", и чтобы поновой их не слушать и "не нажимать на тот крестик(правильные, зачем?)," как их добавить в словарь excwords? Исходя из того что в дальнейшем эти слова могут встречатся более одного раза. В MP3book2005 я по новой включил поиск новых слов, сохранил их и добавил в known_words, аналог excwords. Для голоса Ивона ударения делаются заглавной буквой через словарь фонем. В koobaudio это делать удобней. И как добавить фото, а то только ссылка получается? odinokiyklaus пишет: В этом случае, вы из обычного нарицательного существительного дополнительно получаете омограф, который может читаться по разному (стало 2 варианта: сама река Ангара, ангАра (р.п. слова ангАр)), в зависимости от контекта. Не советую выполнять такие ообобщающие решения. лучше вместо выражения $Ангара=ангара использовать решулярное выражение #(?-i)\bАнгар([ауыео])?([а-я]{1,5})?\b=Ангар$1<$2 Подобный тип регулярки можно использовать и во всех других словах, где ударение скачет по слогам. Для "Николая" да, а для "Максима"... Для разметки(расстановки) омографов с ударением заглавной буквой есть классная прога: click here Так что это с учётом того что эти два слова совместно встречаются редко (ангар(А,У,Е,Ы) - вообще дефицит),а слово в тексте ангар([ауыео])( звучить как ангАр([ауыео]), - пропустил и ОК.

MoppoH2: odinokiyklaus пишет: Что так много Морронов (MoppoH, HoqqoM, MoppoH2) то расплодилось? не могу восстановить пароль от MoppoH wasyaka пишет: и чтобы поновой их не слушать и "не нажимать на тот крестик(правильные, зачем?)," как их добавить в словарь excwords? выбрав эти два пункта слова из всех словарей уже не будет показывать в списке новых слов Ангара не было видно. да такое выражение заменит на Ангара<, когда я встречаю такое в тексте я просто добавляю в регулярное выражение сочетание |не было| и в следующий раз читать будет нормально, а если мы добавим правило ангар=анга<р и будет книга что много раз будет встречаться название Ангара, то добавить такое уже тяжело в рег выражения wasyaka пишет: И как добавить фото, а то только ссылка получается? залей на хостинг картинку и нажми эту кнопку и вставь туда ссылку

wasyaka: MoppoH2 пишет: выбрав эти два пункта слова из всех словарей уже не будет показывать в списке новых слов Не то. 2464 слова остались не прослушанными (по одному - трата времени). После записи книги и прослушки оказалось 164 слова из 2464 неправильно произносящихся. Исправил - добавились в словарь, а оставшиеся 2300 правильных, как их извлеч из редактора и добавить в список excwords. так в MP3book2005

MoppoH2: с этим предложением сюда http://koobaudio.borda.ru/?1-3-0-00000016-000-0-0-1461839524

odinokiyklaus: wasyaka пишет: Для разметки(расстановки) омографов с ударением заглавной буквой есть классная прога: click here Ух ты! что-то новенькое . Посмотрим-посмотрим

MoppoH2: odinokiyklaus пишет: Ух ты! что-то новенькое . Посмотрим-посмотрим посмотрел эту программу с заменой омографов, ее главный недостаток, это что она добавляет только словосочетания, загрузив текст книги, где у меня выдало после обработки словарями всего 174 омографа, эта программа предложила мне просмотреть 2889 необработанных омографов. наверное чтобы обработать все омографы надо потратить столько же времени сколько займет прочитать эту книгу

wasyaka: MoppoH2 пишет: odinokiyklaus пишет: цитата: Ух ты! что-то новенькое . Посмотрим-посмотрим посмотрел эту программу с заменой омографов, ее главный недостаток, это что она добавляет только словосочетания, загрузив текст книги, где у меня выдало после обработки словарями всего 174 омографа, эта программа предложила мне просмотреть 2889 необработанных омографов. наверное чтобы обработать все омографы надо потратить столько же времени сколько займет прочитать эту книгу Прога используется после обработки словарями. остаток так сказать. и при использовании фильтра можно менять "пачкой." Удобно для редко втречаемых и "сложнословарных" омографов типа вАлите=валИте; нахОдиться=находИться(Беспрепятственно нахОдиться(находИться) на воде,) и т. д.

wasyaka: Привет. Как избавится от появление в обрабатываемом тексте (вкл. режим чтения) от <em>? Как из я знаю

odinokiyklaus: wasyaka пишет: Привет. Как избавится от появление в обрабатываемом тексте (вкл. режим чтения) от <em>? Привет. На этот счет у меня есть вот такое правило. Его требуется разместить в предварительную обработку в числе самых первых, например в словарь 0.0_clean (он у меня самый первый в папке 1) у меня данные правила в словаре описаны так: // удаляем вставки в текст (файлы fb2) вида <em>бла..бла..</em>, <img>1</img> #<img>\d+</img>= #(\<[\/]?img\>)= #(\<[\/]?em\>)=

wasyaka: Привет. Вопрос (фото почему-то не катит) В окне"Результат обработки словарями" проставляется точка после названия. а в окне "Показать обработанный текст" их нет. Не срабатывают правила: #(([A-Za-zА-яЁё]+)\s\d+)(\r+)=$1. #([A-Za-zА-яЁё]+)(\r+)=$1. Почему исчезают точки?

odinokiyklaus: "Результат обработки словарями" Не нашел такого окна.... "Показать обработанный текст" а это окно где расположено? Не срабатывают правила: и одновременно Почему исчезают точки? как такое может быть?

wasyaka: odinokiyklaus пишет: цитата: "Результат обработки словарями" Не нашел такого окна.... цитата: "Показать обработанный текст" а это окно где расположено? цитата: Не срабатывают правила: и одновременно цитата: Почему исчезают точки? как такое может быть? В поисках рая.. http://shot.qip.ru/00STD0-3768CoQD0/ http://shot.qip.ru/00STD0-5768CoQD1/ click here Как добавить скрин чтобы отображался?

odinokiyklaus: У меня также в режиме "отображать обработанный словарями текст проекта" не отобразились эти точки в конце. В режиме чтения вслух эти точки так же отсутсвуют. Но если посмотреть на текст в режиме разметки TTS, то разметка \pause{150ms}. перед точкой присутствует, а значит эти точки обрабатываются корректно, и на прослушивание в режиме чтения и/или в последующей записи никак не влияют. Видимо небольшой баг.

wasyaka: odinokiyklaus пишет: У меня также в режиме "отображать обработанный словарями текст проекта" не отобразились эти точки в конце. В режиме чтения вслух эти точки так же отсутсвуют. Но если посмотреть на текст в режиме разметки TTS, то разметка \pause{150ms}. перед точкой присутствует, а значит эти точки обрабатываются корректно, и на прослушивание в режиме чтения и/или в последующей записи никак не влияют. Видимо небольшой баг. Спасибо! Для чтения использую MP3book2005 из-за удобства "правки на лету" и им же поиск новых слов. В читалке KooBAudio не понял(сильно и не пытался) как быстро исправить часто встречающуюся ошибку без возврата в окно редактора.

wasyaka: А как такое может быть? начальный текст: И все же что-то его останавливало. все же все же обработанный текст: И все же что-то его останавливало. всё же все же http://shot.qip.ru/00SVMK-4768CoQE0/ Если в словарь добавляю строчку: все же что-то=всё же что-то то срабатывает Нижняя строчка - копия из верхней(и добавлена в словарь) средняя - набрана вручную. Попробовал: в Балаболке - ОК... из 6! ттхт прог только: SynWrite - ОК Книга: Корн 01 Восемнадцать капсул красного цвета

odinokiyklaus: рисунок Для проверки программы я завёл пустую программу и удалил все словари из папок 1, 2 и папки DIС. После в папке DIC завел файл с правилами для проверки - в моём случае он называется Проверка-2.dic, в котором и разместил ваши правила: [pre2] #(([A-Za-zА-яЁё]+)\s\d+)(\r+)=$1. #([A-Za-zА-яЁё]+)(\r+)=$1. все же=всё же [/pre2] как видите из рисунка программа отработала нормально. То есть дело в правилах. Из за них у вас не правильно отработа 3 строчка [pre2] всё же все же [/pre2] То есть в неправильной обработке виноваты правила, а не программа.

wasyaka: odinokiyklaus пишет: То есть в неправильной обработке виноваты правила, а не программа Там была причина в разметке текста в fb2 и не только все ещё нем.два. это за три главы прослушки... А правила : click here 2.1 2.2 2.3 2.4 и папка 2 - второй заход. Словарь ударений в формате pls в виде фонетической транскрипции. Если интересно - дополню(нужен установленный голос Speech2Go IVONA) <lexeme> <grapheme>УСО</grapheme> <phoneme>ˈusˈɛˈo</phoneme> <lexname>макс_prostee</lexname> </lexeme> <lexeme> <grapheme>Уффф</grapheme> <grapheme>уффф</grapheme> <phoneme>ˈufffː</phoneme> <lexname>макс_prostee</lexname> </lexeme> <lexeme> <grapheme>ФБР</grapheme> <phoneme>fɛbɛ ˈɛr</phoneme> <lexname>макс_prostee</lexname> </lexeme> <lexeme> <grapheme>ФЗУ</grapheme> <phoneme>fˈɛzˈɛˈu</phoneme> <lexname>макс_prostee</lexname> </lexeme> Озвучено с помощью 247_S2G_Maxim(2 1.6.74) click here

полная версия страницы