Esperanto новости
http://www.e-novosti.info/forumo/

Могут ли быть сочетания "ch", "sh"...
http://www.e-novosti.info/forumo/konsultejo/topic5670.html
Страница 1 из 1

Автор:  bugmenot [ Ср окт 21, 2009 22:57 pm ]
Заголовок сообщения:  Могут ли быть сочетания "ch", "sh"...

Доброго времени суток.

Я совсем новичок в эсперанто. И очень раздражают варианты написания "ch", "c!x" (восклицательный знак здесь потому, что без него форум сам заменяет на ĉ), "c^" вместо ĉ (ну и остальные, соответственно).

Собираюсь приводить в нормальный вид книги перед прочтением, письма на эсперанто. С "c!x" и "c^" всё просто, таких сочетаний в нормальном эсперанто быть не должно, можно спокойно заменять автоматически. А вот "uh", "sh", "gh", "hh", "jh", "ch"? Они могут быть в словах на эсперанто? А то боюсь испортить совершенно нормальные пары букв.

Думаю, было бы логично, если бы они не встречались - буквы с "крышечками" вроде именно такие звуки и передают, как эти пары (кроме ŭ). Да и странно было бы добавлять "h", если это может внести неоднозначность. Но не уверен. Не подскажете, пожалуйста?..

Автор:  skirlet [ Ср окт 21, 2009 23:25 pm ]
Заголовок сообщения: 

Увы, могут. Вот один пример: ĉashundo (это не ĉaŝundo). С иксами легче шапочки надевать, а вот в этими h... Кроме внимательной вычитки, даже не знаю, что можно сделать.

Автор:  Матюшов [ Чт окт 22, 2009 7:52 am ]
Заголовок сообщения: 

Увы, но в нормальном тексте можен встретиться и ĉ - это 110 римскими цифрами, а ŭ может встретиться в французских именах и в слове linŭ - так что и для x-стиля автоматическая замена не работает.

Автор:  leonicxjo [ Чт окт 22, 2009 8:32 am ]
Заголовок сообщения: 

skirlet писал(а):
Увы, могут. Вот один пример: ĉashundo (это не ĉaŝundo). <...>

При правильном h-skribo, вроде, в этих случаях должен присутствовать дефис: chas-hundo.

Автор:  Hemulo [ Чт окт 22, 2009 11:34 am ]
Заголовок сообщения:  Re: Могут ли быть сочетания "ch", "sh"..

bugmenot писал(а):
А вот "uh", "sh", "gh", "hh", "jh", "ch"? Они могут быть в словах на эсперанто?


Да, такие сочетания встречаются часто. Простых слов я на вскидку вспомнить не смог (может быть их и нет, нужно проверить по словарю). Но в составных слов существует довольно много.

Например: «disharmonio», «mishelpo», «dishaki», «dishavigi», «eblechava», «eksceshava», «transhaŭli», «proceshalo», «mushordo», «seshora», «kruchurdo», «devighalto», «necesejhejtilo», «prononchonto», «preshoro», «ekshipio», «bushaltejo», «sukceshalo»,«ekshundo» (кастрированный пёс) и т.д. и т.п.

Это примеры на вскидку. Прикол в том, что в тексте могут оказаться совершенно произвольные оказианализмы и заранее предусмотреть все варианты будет фактически невозможно.

Так же возможны ситуации, когда компьютеру будет непонятно как правильно анализировать составляющие сложное слово элементы.
Например: «mushhoro» это «muŝhoro» или «musĥoro».
или «devighhina» это «deviĝhina» или «devigĥina».

Конечно, человек, владеющий языком, по контексту практически всегда сможет понять какая форма должна стоять в определённом месте. Но здесь речь идёт об автоматической обработке текстов.

leoniĉjo писал(а):
При правильном h-skribo, вроде, в этих случаях должен присутствовать дефис: chas-hundo.


Возможно, но таким „правильным“ образом практически никто, к сожалению, не пишет. Некоторые люди просто загоняют тексты с крышечками в макрос и тот тупо подставляет соответствия «ĉ» —› «ch», «ŭ» —› «u», и т.п. и получают на выходе неудобоваримую h-систему.

Например, так обрабатывал тексты для своего сайта один из бывших форуман. Логику, по которой он портил тексты, которые изначально уже содержали крышечки я понять не могу до сих пор.

Лично я категорически против какого-то бы ни было использование h-системы где бы то ни было именно из-за того, что преобразовать её обратно автоматически без коррекции человеком не возможно.


Кроме того, в случае использования h-системы «ŭ» заменяется на «u», а не на «uh». Это тоже не удобно, т.к. несмотря на то, что в эсперанто «ŭ» чаще всего используется в связках «aŭ», «eŭ» в эсперанто присутствуют частотные слова, в которых после «a» или «e» используется именно гласная «u». (например во всех случаях когда подставляется суффиксы «ul» или «uj» а так же глагольные окончания «u» или «us»)

Например: «fraŭlo» но «praulo» (!!!)
«baldaŭ», но «balau» и «balaus»
«Eŭro», но «araneuloj» (зоол. „пауки, отряд Araneae“)
«pseŭda», но «hordeujo»

Разницу между «aŭ», «eŭ» и «au», «eu» акцентировал ещё сам Заменгоф в своих Lingvaj Respondoj.

Автор:  Hemulo [ Чт окт 22, 2009 12:10 pm ]
Заголовок сообщения: 

Матюшов писал(а):
Увы, но в нормальном тексте можен встретиться и ĉ - это 110 римскими цифрами, а ŭ может встретиться в французских именах и в слове linŭ - так что и для x-стиля автоматическая замена не работает.


В „нормальных“ эсперантских текстах встретиться практически не может. Т.к. собственно в эсперанто не используются римские цифры и не используется «x».

Тот же «линукс» на эсперанто будет: «linukso».

Другое дело, что в тексте на эсперанто могут встречаться заимствованные слова в их естественном написании. Например имена известных людей, оригинальные названия. В тексте на эсперанто могут быть вставки на других языках.

Но всё это относится не к „нормальным“ текстам, а к текстам „специальным“.

Подобные проблемы с обработкой „специальных“ текстов возникают во всех языках и должны решаться отдельными способами.

Автор:  bugmenot [ Чт окт 22, 2009 15:03 pm ]
Заголовок сообщения: 

Увы... Спасибо.

А по каким причинам люди не пользуются нормальными буквами с "шапочками"? Ну, можно понять когда кто-то только присматривающийся к эсперанто не хочет настраивать ввод таких букв. Но мне попадались книги в x-системе... Или это наследие того времени, когда с "особыми" буквами были проблемы?

Автор:  Матюшов [ Чт окт 22, 2009 16:40 pm ]
Заголовок сообщения: 

Почти все книги проекта Гуттенберг написаны в x-стиле - почему-то они не хотят использовать Unicode.
Некоторые преобразуют этот текст в другие форматы, в том числе в pdf, не потрудившись вернуть буквы с крушками.
Римскими цифрами в эсперанто пользуются также часто, как в английском или русском - но, как правило, до 110 дело не доходит.

Автор:  Kravejs [ Чт окт 22, 2009 20:36 pm ]
Заголовок сообщения: 

Эта тема актуальна и для меня.

Многие тексты на сайте http://infanejo.urbeto.info/ были преобразованы из h кодировки и могут содержать ошибки.

По возможности вычитываю, но гаранти полной нет что всё верно.

Автор:  Kravejs [ Пт окт 23, 2009 13:22 pm ]
Заголовок сообщения: 

bugmenot писал(а):
Или это наследие того времени, когда с "особыми" буквами были проблемы?

Проблемы остались. Многие современные компьютеры не работают с крышечками. Этот текст я печатаю на iPod а на нём невозможно набрать спецсимволы Эсперанто.

То же самое относится к большинству других наладонников.

Автор:  Kravejs [ Пт окт 23, 2009 15:17 pm ]
Заголовок сообщения: 

Вопрос :megafon:


Есть ли готовый макрос для опэн офиса или какая утилита, которая переводит текст из кодировки sh, ch в нормальный уникодоский формат?

Хорошая утилита должна иметь словарь, чтоб принимать решение оставлять sh или конвертировать в ŝ.

Автор:  Kostik [ Ср окт 28, 2009 20:18 pm ]
Заголовок сообщения:  Об автоматическом конвертировании и смежных проблемах

Готового нет, но можно написать скрипт, облегчающий эту работу: очевидно присутствующие в словаре варианты заменяются без разговоров, а сомнительные и двухвариантные — предъявляются человеку для вынесения решения.

Теоретически можно эти решения потом накапливать в нейронной сети, но насколько это будет достоверно на практике, я пока не знаю.

Также словарь можно сделать не только в пользу замены, но и в пользу оставления исходного варианта, т.е. если имеем acheti, то очевидно заменяем, если Linux, то не заменяем. Если же словоxh-вариантами букв, разумеется) в словаре не найдено, то выдаем человеку для принятия решения.

Вышеописанное будет работать, если точно известно, что текст на эсперанто и там нет всяческих имен, записанных в родной транслитерации, или цитат на других языках, содержащих что-то вроде "auxiliary". Дать такое заключение может только человек, а для автоматического конвертирования нужно еще усложнить алгоритм попытками определить, эсперантский ли текст.

Подходы же к автоматическому определению языка текста (хотя бы в виде «эсперанто — не эсперанто») — это уже отдельная тема, одним частотным анализом букв, окончаний и слов тут не обойдешься.

Автор:  balamutick [ Ср окт 28, 2009 22:27 pm ]
Заголовок сообщения: 

Дело попахивает "регулярными выражениями", но к сожалению, подсказать я тут пока ничего не могу.

Автор:  uxvz [ Чт окт 29, 2009 0:50 am ]
Заголовок сообщения: 

Kravejs писал(а):
Åñòü ëè ãîòîâûé ìàêðîñ äëÿ îïýí îôèñà èëè êàêàÿ óòèëèòà, êîòîðàÿ ïåðåâîäèò òåêñò èç êîäèðîâêè sh, ch â íîðìàëüíûé óíèêîäîñêèé ôîðìàò?


Vidu http://www.bertilow.com/komputo/openoffice.html#makrooj

Автор:  Kostik [ Вс ноя 01, 2009 9:22 am ]
Заголовок сообщения:  Re: Могут ли быть сочетания "ch", "sh"..

bugmenot писал(а):
...
"c!x" (восклицательный знак здесь потому, что без него форум сам заменяет на ĉ)
...

Кстати, на этом форуме можно писать в x-системе, если перед иксом ставить точку: c.x ->cx

Страница 1 из 1 Часовой пояс: UTC + 3 часа
Powered by phpBB® Forum Software © phpBB Group
https://www.phpbb.com/