Список форумов

Esperanto новости

Форум об эсперанто и языках вообще

Избранное:
En Esperanto: UEA :: REU :: Vikipedio :: Libera Folio
По-русски: Esperanto новости :: Что такое эсперанто? :: Курс эсперанто по эл. почте


Сейчас Пт ноя 15, 2019 12:34 pm

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 57 ]  На страницу 1, 2, 3  След.
Автор Сообщение
СообщениеДобавлено: Сб май 30, 2009 22:29 pm 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
Известно, что если составить такой словарь языка, в котором слова располагались бы в порядке убывания частоты их употребления, то во всяком естественном языке наблюдается универсальная закономерность, называемая законом Ципфа: частота употребления каждого слова обратно пропорциональна его номеру в данном частотном списке.
Почему закон Ципфа имеет место, лично мне непонятно, и я еще не встречал ни одной сколько-то убедительной теории, объясняющей эту странную закономерность. Потому пока я склонен рассматривать его как некий фундаментальный принцип, несводимый к каким-либо иным известным нам законам природы. Но если закон Ципфа действительно является таким фундаментальным принципом, то он должен по крайней мере не вступать в противоречие с иными наблюдаемыми закономерностями реальности. Между тем, согласовать его с этими «иными закономерностями» оказывается совсем непросто.
Сейчас мы попробуем это осуществить.
А затем рассмотрим важные следствия, которые будут следовать из нашего рассмотрения в отношении общей теории плановых языков.
Сразу оговорюсь: речь идет о плановых языках, предназначенных для человеческого общения. Плановый язык может и не использоваться для вербального общения людей между собой. Примером успешных плановых языков, не предназначенных для общения, являются языки программирования, а также многие экспериментальные плановые языки, создающиеся со специальными целями. Но если плановый язык будет использоваться для реального общения и если закон Ципфа действительно есть некий фундаментальный закон природы, то можно с известной долей уверенности полагать, что этот язык неизбежно подпадет под действие закона Ципфа, как до сих пор подпадали под него все прочие языки.
Рассмотрим все тексты данного языка (для устного – устные, для письменного – письменные), когда-либо созданные его носителями. Составим суммарный частотный словарь этих текстов. Допустим, что для этого словаря будет выполняться закон Ципфа. Исходя из закона этого предположения, можно сделать некоторые общие заключения.
Прежде всего, введем для краткости речи некоторые обозначения. Если количество случаев употребления n-го слова в частотном списке обозначить как f(n), то количество употреблений ВСЕХ слов (от n=1 до n=L, где L есть число всех слов языка) любого текста данного языка должна равняться общему количеству всех слов во всех текстах данного языка, которое обозначим как W. Итак, W – это общее количество всех случаев употребления любого слова данного языка.
Если положить f(n)=k/n (где k есть количество употреблений самого первого слова в списке), то Summa(f(n))[n=1…L] в первом приближении пропорциональна к*Ln(L). Но она есть не что иное, как общий объем всех случаев употребления слов данного языка. Значит, можно оценить число употреблений самого частого слова в данном языке так: к=W/Ln(L).
Тогда количество употреблений самого последнего слова в частотном списке приблизительно W/(L*Ln(L)). Но это означает, что если данный язык успел накопить достаточно большое количество случаев употребления W, значительно превышающий L*Ln(n), то самое редкое слово данного языка встретится там многократно. Но это означает, что частотный словарь данного языка не подчиняется закону Ципфа! А именно, частотный список данного языка резко обрывается.
И это вполне естественно: предполагая, что закон Ципфа есть некий фундаментальный принцип функционирования знаковых систем, мы изначально обрекли себя на встречу с бесконечностью. Ведь закон 1/n не предполагает какого-либо фиксированного L, после которого слова в словаре кончаются, и закон Ципфа прекращает свое действие! То есть, любой язык, реально соответствующий закону Ципфа, должен потенциально заключать в себе неограниченный лексикон; в нем не может быть какого-либо определенного L.
В принципе, в этом ничего страшного нет. С точки зрения математики, нет ничего особенного в том, чтобы рассматривать язык с бесконечным количеством слов. Модель есть модель. Нас же не смущает, что в любом языке имеется потенциально бесконечное количество предложений! Это нормально. Ведь де-факто любой реальный язык на любой данный момент времени имеет некоторое ограниченное W, и можно предполагать, что слишком уж редкие слова, потенциально присутствующие в его словаре, просто пока и разу не употреблялись. Также можно рассматривать наряду с частотами слов также и частоты словосочетаний, которых действительно бесконечно много. Можно было бы предполагать, что общий лексический фонд, включающий слова и словосочетания, действительно бесконечен и его частоты распределяются по закону Ципфа.
Но реально дело обстоит гораздо хуже: ведь Summa(f(n))[n=1…L] есть расходящийся ряд! То есть, любой язык, в котором актуально выполняется закон Ципфа, должен либо актуально иметь бесконечное W, либо же выйдет (как показано выше), что частота самого частого слова в данном языке равна нулю. То есть, либо слов бесконечно много, либо царит полная тишина.
Я полагаю, такого рода парадоксы заставили многих исследователей отказаться от мысли считать закон Ципфа действительно фундаментальным законом природы, описывающим поведение реальных знаковых систем.
Однако мне представляется другая возможность, иной подход к этой интригующей загадке.
Можно рассмотреть закон Ципфа динамически, не как раз навсегда заданную модель языка, а как тенденцию, к которой неуклонно стремится всякая знаковая система. Проводя аналогию с термодинамикой, можно сравнить распределение Ципфа с состоянием термодинамического равновесия, реально никогда не достигаемого в природе (тепловая смерть), но исподволь определяющего направление течения процессов. Правда, в отличие от термодинамики, здесь мы имеем дело с «равновесием» действительно недостижимом при конечных значениях лексикона.
В любой данный момент времени любой язык может соответствовать законы Ципфа только приблизительно. Однако мы предполагаем, что существует механизм, обеспечивающий ципфовскую тенденцию эволюции языка. То есть, если частотный словарь какого-либо языка в данный момент времени уклоняется от Ципфа, должно предполагать возникновение процессов, направленных на достижение этого недостижимого «идеала».
Будем исходить из этой модели.
Summa(f(n))[n=1…L] стремится к бесконечности, когда L стремится к бесконечности. Это означает, что ни в одном реальном языке нет и не может быть какого-либо ограниченного лексикона, раз навсегда задающего число L. Число слов словаря любого языка должно нарастать со временем (по крайней мере, если не исключать из словаря слова устаревающие и забываемые). Напротив, с нарастанием количества текстов на данном языке накопленный им лексикон неизбежно раздувается – например, через заимствование иностранных слов. Это обстоятельство можно любить или не любить, но оно является механическим следствием закона Ципфа, если считать его универсальной закономерностью для языков реального общения.
Скорость нарастания лексикона L может быть оценена таким образом. Положим, что тексты на данном языке создаются с некоторой скоростью V, так что общее количество употреблений слов данного языка есть N = V*t, где t – время существования данного языка. Это, конечно, идеализация! так как реально V меняется со временем – оно зависит, в частности, от количества носителей данного языка. Но для грубой оценки сойдет.
Потребуем, чтобы частота самого последнего слова в частотном списке не превышала, например, m случаев употребления. Действительно, если m значительно больше единицы, то кривая Ципфа будет грубо обрываться в конце списка. Значит, если мы считаем закон Ципфа универсальной тенденцией развития реально употребляемых языков, то чтобы V*t / (L*Ln(L)) не превышало m, лексикон данного языка L должен нарастать так, чтобы L*Ln(L) увеличивалось пропорционально V*t. Продифференцируем эту пропорцию. Получим скорость изменения лексикона L пропорциональна V/(Ln(L)+1). То есть, новые слова должны проникать в язык с почти постоянной скоростью, так как Ln(L) в любом случае величина не слишком большая. Кстати, если лексикон L сокращается вследствие устаревания и забвения старых слов, то скорость проникновения новых слов неизбежно должна нарастать.
Какие отсюда выводы следуют для теории плановых языков?
1) Если наше предположение относительно универсального характера закона Ципфа не является ошибочным, то бесполезно стремиться выявить раз и навсегда определенный набор слов языка, который позволил бы выразить на данном языке любую мысль. Подобного рода фиксированный лексикон возможен только для искусственного языка, не предназначенного для употребления в человеческом общении (скажем, для языка программирования). Реально употребляемый язык – это живая система, и лексикон языка не может не обновляться без грубого насилия над языком. Развиваясь, язык неизбежно порвет это рамки.
2) Плановый язык, предназначенный для реального общения, должен иметь встроенные механизмы, позволяющие с удобством вбирать все новые и новые слова, заимствуя их других языков. Такое заимствование характерно для живых языков, оно должно быть также свойственно и плановому языку, предназначенному для общения.
Примером языка, в котором имеется неплохая «опция» для усвоения слов из иных языков, является плановый язык toki pona. Поскольку «официальный словарь» токипоны включает в себя всего лишь 120 слов, реальное общение на этом языке было бы невозможным без заимствования. Хотя в токипоне предусмотрен только механизм заимствования имен собственных – имен, географических названий, однако он может послужить исходным образцом для разработки общего механизма заимствования.
Прежде всего, с точки зрения удобства заимствования чужих слов, аналитические языки имеют несомненное преимущество перед синтетическими, так как они в них нет жесткой связи между звучанием слова и его грамматической функцией. Слово может звучать как угодно, так как его роль определяется только местом в предложении. В токипоне, например, любое чужое слово, поставленное после «jan», воспринимается как имя человека. Грамматически оно рассматривается как некоторое прилагательное к существительному «jan» (которое означает «человек»). Незнакомое слово, поставленное после «ma» означает географическое название, так как «ma» по токипонски «земля». Подобный способ усвоения иноязычных слов удобно взять на вооружение, так как он не требует какого-либо искажения ассимилируемого слова.
Развивая эту идею, доводя ее до логического конца, можно представить себе экзотический плановый язык, состоящий из всего лишь нескольких слов, назначение которых – правильная ассимиляция чужих слов и усвоение этим словам определенной грамматической роли в предложении. Когда мы сталкиваемся с незнакомым словом, пытаясь понять предложение чужого языка, нам прежде всего необходимо бывает понять, какую роль играет данное слово.
Допустим, мы встретили некое слово, например, «tutuma».
Что это? Может быть, это имя собственное, индивидуальное обозначене какого-то единичного объекта? «Вождь Тутума».
Или же это общее имя целого класса однородных объектов? Например, «кокосовая пальма».
Или это некий признак, прилагательное? Например, «длинный».
Или это некое действие? «Он делает tuutuma».
Или это некоторое состояние, претерпевание, положение? «С ним приключилась tutuma».
Или это какое-то отношение? «Он является tutum-ой для такого-то».
Или это обозначение какого-то времени? «Уже tutuma».
Или это обозначение места? «Мы едем в Tutum-у».
Или это некий образ действия, наречие? Например, «tutuma» значит «весьма, очень».
Или это числительное? «Tutuma» значит 17.
Имея такую минимальную информацию о значении данного слова уже можно по контекст догадываться о значении слова. По этому принципу можно организовать в языке заимствование чужих слов.
То есть, вводятся несколько служебных слов, означающих, что следующее за ними слово (или даже группа слов) относится к одной из перечисленных семантических категорий. Устанавливаются грамматические правила, согласно которым строится предложение. И вот мы имеем уже некое подобие языка. Назовем его, скажем, «лонсона».
Как ни странно, но даже этот крайне бедный набор базовых семантических категорий может сходу использоваться в общении двух человек, которые не имеют никаких общих слов, кроме данных опорных терминов, позволяющих определить семантическую категорию следующего за ними слова. Используя вперемежку слова каждый своего родного языка, построенные в правильные предложения согласно механике данного международного языка, два человека, ищущие взаимопонимания, найдут способы донести друг до друга необходимую информацию.
Конечно, это не плановый язык, а только его заготовка. Однако эта заготовка рассчитана на рост, на дополнение словаря.
Идеология данного языка состоит в следующем. Каждый человек, приступающий к изучению языка, начинает говорить на нем сразу, после первого же урока, используя слова известного ему (например, родного) языка там, где ему не хватает лексикона. Построенные им фразы не являются неправильными, «ломаными» (именно так обычно воспринимаются подобные конструкции в других языках, не столь дружелюбных к чужым лексемам). Это полноценные предложения. Так МОЖНО говорить. Однако если он хочет, чтобы его с легкостью понимал иноязычный носитель «лонсоны», ему желательно понемногу осваивать собственный словарь лонсоны.
Преимущество такого подхода - в его максимальной естественности. Именно так де-факто и происходит усвоение чужого языка человеком, оказавшимся в иноязычном окружении. Вначале полное непонимание сменяется смутным пониманием, потом начинается говорение на «ломаном» языке, потом правильная речь с акцентом, затем полноценное владение языком.
Идея «лонсоны» заключается в том. Что «окультурить» этот стихийный процесс, сделать его как можно более удобным благодаря специфическим свойствам «лонсоны», как живого языка, с легкостью принимающего чуждую лексику на равных с собственной. Потому Лонсона должна быть легкой и удобной в обучении. Эта особенность и позволяет ей выдвинуться на роль языка международного общения.
Что касается собственного словаря и фонетики лонсоны, здесь необходима отельная тема.

_________________
Только учусь...


Вернуться к началу
 Профиль  
Ответить с цитатой  

 Заголовок сообщения:
СообщениеДобавлено: Сб май 30, 2009 23:29 pm 
Не в сети
Plenrajta Forumano

Зарегистрирован: Сб май 19, 2007 9:21 am
Сообщения: 377
Закон Ципфа не применим к языку в целом, а только к отдельному тексту.


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вс май 31, 2009 0:19 am 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
Матюшов писал(а):
Закон Ципфа не применим к языку в целом, а только к отдельному тексту.

Нельзя сказать, что он вообще не применим. Он применим даже для такого хаотического набора текстов, как Википедия.
Я могу привести частотный словарь Википедии, и Вы увидите, что даже там этот закон выполняется неплохо.
Другое дело, что для отдельного текста он выполняется лучше.
Я сознаю это.

На самом деле соответствие закону Ципфа - это некий тест на цельность данного текста. Если закон выполняется плохо - значит, с текстом что-то не так.
Но виноват не Ципф.

Я подхожу к этой проблеме как физик (я астрофизик). Если бы мы, изучая падение предметов и заметив, что легкие предметы падают медленнее, на этом основани отказались бы от механики Ньютона, мы были бы глубоко неправы.
Просто трение об воздух надо учитывать.
Думаю, так обстоит дело и с Ципфом.
В каком-то смысле этот закон уиверсален и исполняется всегда. Но в некоторых случаях в действие вступают дополнительные факторы (трение об воздух) , которые искажают картину.
Наблюдая искажение картины, надо не терять мужества и не говорить себе: "Наверное, Ципф в данном случае не годится", а поискать эти дополнительные факторы.
Такой подход дал отличные результаты при исследовании природы, и я не вижу причин отказываться от него, когда дело касается лингвистики.

Но если поглядеть на проблему глубже, у каждого текста свой язык, не так ли?

_________________
Только учусь...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вс май 31, 2009 0:29 am 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
Матюшов писал(а):
Закон Ципфа не применим к языку в целом, а только к отдельному тексту.

Вот частотный словарь Википедии (начало списка)
331355 на 17 5633035
293966 с 18 5291388
286039 категория 19 5434741
203390 по 20 4067800
132624 из 21 2785104
131155 не 22 2885410
120424 к 23 2769752
104721 а 24 2513304
103864 для 25 2596600
92604 от 26 2407704
92051 до 27 2485377
87933 как 28 2462124
86517 его 29 2508993
86486 что 30 2594580
80276 также 31 2488556
77918 фильм 32 2493376
76556 году 33 2526348
72236 был 34 2456024
69997 о 35 2449895

Видно, что не считая первых 6-ти слов произведение частоты на номер слова дает примерно 2500000.
Вот фрагмент середины списка.

8335 связи 286 2383810
8281 станция 287 2376647
8230 созвездии 288 2370240
8175 восхождение 289 2362575
8169 высота 290 2369010
8158 еще 291 2373978
8128 сын 292 2373376
8122 раз 293 2379746
8121 оригинальной 294 2387574
8099 каталога 295 2389205
8082 склонение 296 2392272
8077 видимая 297 2398869
8057 реки 298 2400986
8056 конце 299 2408744
8031 интересные 300 2409300
8004 перечисленных 301 2409204
7987 родился 302 2412074
7981 навигатор 303 2418243
7979 сергей 304 2425616
7973 детям 305 2431765
7944 языки 306 2430864
7939 кинематограф 307 2437273
7929 этих 308 2442132
7929 многие 309 2450061

Как видите, здесь произведение дает 2400000. Почти то же самое!
А вот конец известого мне списка
4132 павел 630 2603160
4117 формы 631 2597827
4116 советского 632 2601312
4115 целью 633 2604795
4108 конца 634 2604472
4087 орден 635 2595245
4068 москвы 636 2587248
4063 другими 637 2588131
4055 св 638 2587090
4055 населённые 639 2591145
4044 кг 640 2588160
4042 плотность 641 2590922
4039 сан 642 2593038
4034 император 643 2593862
4024 разных 644 2591456
4021 путь 645 2593545
4016 числа 646 2594336
4016 отец 647 2598352
4013 писатели 648 2600424

Как видите, даже в Википедии Ципф чувствует себя совсе-свсем неплохо.
Хотя более тяжелую обстаовку трудно и представить. Хаос информации обо всем на свете, от разных авторов! Это настоящий экстрим с точки зрения Ципфа.
А он, как видите, чувствует себя почти превосходно.

_________________
Только учусь...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вс май 31, 2009 8:34 am 
Не в сети
Plenrajta Forumano

Зарегистрирован: Сб май 19, 2007 9:21 am
Сообщения: 377
Ну и среди "авторов" есть некоторое количество "роботов" (Их не столько сколько в воляпюкской википедии, но наверняка они тоже есть). Их вроде бы тоже надо убрать.

Закон Ципфа вроде бы также не применим к стихотворной форме, когда нужно специально подбирать рифму и ритм.


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вс май 31, 2009 14:00 pm 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
Матюшов писал(а):
Ну и среди "авторов" есть некоторое количество "роботов" (Их не столько сколько в воляпюкской википедии, но наверняка они тоже есть). Их вроде бы тоже надо убрать.
Закон Ципфа вроде бы также не применим к стихотворной форме, когда нужно специально подбирать рифму и ритм.

Понимаете, вся фишка в том, что он выполняется НЕСМОТРЯ НИ НА ЧТО.
Когда говорят, что "закон Ципфа не выполняется", это надо понимать так, что просто не очень хорошо выполняется.

Ребята, поймите! Если бы физики рассуждали на привычном вам языке, они должны были бы говорить примерно так: закон всемирного тяготения плохо выполняется на платнетах с атмосферой. Например, воздушные шары его грубо нарушают. Также и пыль, и птицы.
Когда "лирики" говорят: "закон Ципфа в таком-то и таком-то случае не выполняется", в переводе на язык "физиков" это звучит так: "в таком-то и таком-то случае помимо закона Ципфа действуют какие-то иные существенные факторы".

_________________
Только учусь...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вс май 31, 2009 15:36 pm 
Не в сети
Fervora Forumano
Fervora Forumano
Аватара пользователя

Зарегистрирован: Вс июн 01, 2008 12:25 pm
Сообщения: 1339
Ципф - полбеды, гораздо сложнее удовлетворить условие, при котором самые частотные слова - самые короткие. Частота-то тех или иных слов в ходе развития общества и условий его существований может изменяться!

_________________
Не бывает ни чисто белого, ни чисто чёрного. Однако жить, навешивая ярлыки, куда проще.
За разнообразие в мире языков: http://vk.com/lingvomir


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вс май 31, 2009 22:16 pm 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
Artem писал(а):
Ципф - полбеды, гораздо сложнее удовлетворить условие, при котором самые частотные слова - самые короткие. Частота-то тех или иных слов в ходе развития общества и условий его существований может изменяться!
Думаю, тот хаос, который мы наблюдаем в естественых языках, имеет объективные и неустранимые причины.
Например, я полагаю, что в тот день, когда язык Эсперанто наконец удалось бы сделать всемирным языком, начался бы неконтролируемый, лавиноообразный процесс деформации языка, результат которого оказался бы неожиданным для всех.

_________________
Только учусь...


Последний раз редактировалось Солохин Максим Пн июн 01, 2009 6:15 am, всего редактировалось 1 раз.

Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Пн июн 01, 2009 0:44 am 
Не в сети
Fervora Forumano
Fervora Forumano
Аватара пользователя

Зарегистрирован: Вс июн 01, 2008 12:25 pm
Сообщения: 1339
Да ну что вы. Норма есть норма. Английский, русский подобны лавинам в настоящее время?

_________________
Не бывает ни чисто белого, ни чисто чёрного. Однако жить, навешивая ярлыки, куда проще.
За разнообразие в мире языков: http://vk.com/lingvomir


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Пн июн 01, 2009 0:48 am 
Не в сети
Esperantisto
Esperantisto

Зарегистрирован: Ср дек 22, 2004 23:29 pm
Сообщения: 3777
Цитата:
язык Эспиранто


Он зовётся "эсперанто".


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Пн июн 01, 2009 6:13 am 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
skirlet писал(а):
Цитата:
язык Эспиранто

Он зовётся "эсперанто".

Ох, skirlet, простите! Опять выскочило это "и".
Сам не люблю безграмотность...
...я полагаю, что в тот день, когда язык Эсперанто наконец удалось бы сделать всемирным языком, начался бы неконтролируемый, лавиноообразный процесс деформации языка, результат которого оказался бы неожиданным для всех.
Artem писал(а):
Да ну что вы. Норма есть норма. Английский, русский подобны лавинам в настоящее время?

ИМХО, они скорее продукт, следствие лавины, имевшей место в отдаленном прошлом.

_________________
Только учусь...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Пн июн 01, 2009 8:27 am 
Не в сети
Plenrajta Forumano
Аватара пользователя

Зарегистрирован: Ср май 09, 2007 10:50 am
Сообщения: 308
Откуда: 56°oriente, 58°norde
Artem писал(а):
Ципф - полбеды, гораздо сложнее удовлетворить условие, при котором самые частотные слова - самые короткие. Частота-то тех или иных слов в ходе развития общества и условий его существований может изменяться!


Может и изменяется. Но как изменяется? В соответствии с принципом экономии усилий. То есть, если слово стало часто употребляться в обыденной жизни, оно укорачивается. Была электронно-вычислительная машина, стал компьютер. Был компьютер, стал комп.
К программам на процедурных языках это тоже приложимо. Если некий фрагмент часто повторяется, его выносят в подпрограмму, то есть фрагмент заменяется вызовом. Вызов подпрограммы без параметров занимает 5 байт.

Вот я сейчас возьму некий exe-файл и запущу программу oftecomn.exe ...и всё без толку :)

fajl=chess.exe longeco=220160
1 - montri kvantojn de kodoj.

Код:
 0     0   1   2   3   4   5   6   7   8   9   A   B   C   D   E   F
0_: 7629 906 842 881 866 812 812 887 859 880 845 862 845 817 838 755
1_:  765 845 809 810 856 847 820 830 779 811 772 787 801 821 789 823
2_:  802 770 854 830 908 844 808 776 835 903 947 854 836 844 824 765
3_:  831 828 775 961 836 811 846 849 767 798 839 830 777 841 767 837
4_:  762 823 880 889 941 857 882 888 853 875 902 795 843 834 854 840
5_:  833 832 789 919 889 838 876 831 812 824 793 812 851 826 891 844
6_:  816 797 862 813 859 885 926 913 828 828 825 777 891 911 848 795
7_:  833 832 838 834 911 818 814 815 796 784 816 815 833 792 816 802
8_:  902 813 832 846 847 856 860 840 814 898 8501046 814 884 818 820
9_:  835 792 807 783 815 861 816 831 827 926 824 815 798 803 745 766
A_:  777 833 833 780 794 796 814 780 838 809 788 811 860 870 798 819
B_:  797 804 814 803 845 846 812 823 806 864 828 824 803 804 837 852
C_:  847 910 807 803 885 834 878 870 825 830 806 833 927 886 862 823
D_:  834 767 798 864 818 770 829 871 794 843 825 853 795 855 843 806
E_:  857 818 762 833 879 788 827 805 896 845 785 854 816 835 828 841
F_:  855 819 803 820 794 841 778 792 876 882 793 849 840 795 8011021

_________________
В научных вопросах ссылки на уголовный кодекс неуместны!


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Пн июн 01, 2009 9:06 am 
Не в сети
Plenrajta Forumano

Зарегистрирован: Сб май 19, 2007 9:21 am
Сообщения: 377
В английской википедии в статье Zipf's law приведён график распределия частоты слов в википедии в логарифмических координатах. Из него ясно видно, что закон Ципфа работает только до середины(логарифмической!) списка.
f(k,s) = const / k ^ s; k - номер слова, s = 1 для Цифпа, но в конце распределиня s > 1, а в начале немного меньше.
(При s > 1 ряд 1/k^s сходящийся)


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Пн июн 01, 2009 16:36 pm 
Не в сети
Fervora Forumano
Fervora Forumano

Зарегистрирован: Ср мар 02, 2005 13:43 pm
Сообщения: 3067
Откуда: Ensko
kapriculo писал(а):
Может и изменяется. Но как изменяется? В соответствии с принципом экономии усилий. То есть, если слово стало часто употребляться в обыденной жизни, оно укорачивается. Была электронно-вычислительная машина, стал компьютер. Был компьютер, стал комп.
Не только. Я вот недавно вспоминил, чтораньше программы составляли а сейчас пишут и понял, что не знаю, когда произошла такая перемена.
А ЭВМ стаа компьютером, когда все кроме импортных машинок перстали признавать

_________________
Malfacila kaj tre trista estas vivo programista.


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Пн июн 01, 2009 17:27 pm 
Не в сети
Plenrajta Forumano
Аватара пользователя

Зарегистрирован: Ср май 09, 2007 10:50 am
Сообщения: 308
Откуда: 56°oriente, 58°norde
У, давно. Вероятно, это связано с переходом от перфокарт к дисплеям.
Зато клавиатура стала клавой независимо от импорта.

_________________
В научных вопросах ссылки на уголовный кодекс неуместны!


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Пн июн 01, 2009 19:46 pm 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
Матюшов писал(а):
В английской википедии в статье Zipf's law приведён график распределия частоты слов в википедии в логарифмических координатах. Из него ясно видно, что закон Ципфа работает только до середины(логарифмической!) списка.
f(k,s) = const / k ^ s; k - номер слова, s = 1 для Цифпа, но в конце распределиня s > 1, а в начале немного меньше.
(При s > 1 ряд 1/k^s сходящийся)

Ясно, что для реального человеческого языка закон Ципфа В ПРИНЦИПЕ невыполним, так как при k=1 в таком языке должно быть бесконечно много слов (или словосочетаний), притом АКТУАЛЬНО бесконечно много. Не то, чтобы в принципе можно было создать бесконечно много словосочетаний (это так оно и есть, конечно). Нет. Если закон Ципфа работает полностью, без оговорок, то количество слов в тексте должно быть бесконечным!
Если количество слов в тексте конечно, значит, Ципф однозначно отдыхает. Я же об этом открытым текстом сказал в заглавном сообщении темы.
Суть в том, что мы не знаем никаких принципов, к которым можно было бы сести Ципфа и из которых его можно было бы вывести. Он просто наблюдается.
И если считать, что этот закон выражает собой какой-то неизвестный науке и несводимый к статистике (а так оно и есть!) принцип мироздания, то этот закон должен быть ТОЧНЫМ, как точным является законвсемирного тяготения.
НИ одна планета не движется точно по закону Ньютона, так как в реальности НЕТ тех условий, при которых этот закон точно бы выполнялся. Закон Ньютона описывает движение небесных тел ПРИБЛИЗИТЕЛЬНО (хотя и со страшной точностью, но все-таки не точно!).
НО сам-то закон - ТОЧНЫЙ.
Так и Ципф. Ну и что, что ему не соответствуют реальные языки. Тем хуже для языков!
Действие закона Ципфа приводит к тому, что они деформируются под него. А поскольку ни один конечный язык не может ему ТОЧНО соответствовать, постольку закон Ципфа становится причиной бесконечной, неудержимой эволюции. Язык "гонится" за 1/k, как за линией горизонта или как за морковкой, которая болтается перед носом ослика.

_________________
Только учусь...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вт июн 02, 2009 8:03 am 
Не в сети
Plenrajta Forumano

Зарегистрирован: Сб май 19, 2007 9:21 am
Сообщения: 377
Закон Ньютона не точный - для объяснения движения Меркурия пришлось изменять закон (Эйнштейн), а не искать ещё одну планету ближе к Солнцу.

Закон Ципфа применим к отдельному достаточно большому тескту (насколько большому?), написанному одним автором.
Википедия - набор статей, написанных различными авторами, зачастую одну и та же статья многократно переписывается несколькими авторами.
Посмотрите на график по приведённой мной ссылке - там почти идеальная прямая, соответствующая распределению по Ципфу const1/k, затем идёт излом и распределение const2/k^s (судя по графику s ≈ 2).
Моё предположение: начальная часть графика соответвует общей лексике, и при объединенни большого количества текстов, в каждом из которых слова рапределены по Ципфу (а отдельный текст всегда конечен, и ряд где-то оборван), в результате остаётся распределение по Ципфу. Остальная часть графика - специализированная лексика, и при объединении образуется другое распределение (какое - вероятно уже можно определить математическими методами, исходя из того, что слова в объединяемых частях распределены по Ципфу + возможно ещё какое-то предположение, возможно получится как раз const/k²).


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вт июн 02, 2009 11:44 am 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
Матюшов писал(а):
Закон Ньютона не точный - для объяснения движения Меркурия пришлось изменять закон (Эйнштейн), а не искать ещё одну планету ближе к Солнцу.
Вот тут Вы правы на 100%!
Но заметьте! Если бы Эйнштейн просто плюнул на закон Ньютона, сказав: "да он же в реальности выполняется далеко не всегда!" - то Общая Теория Относительности не была бы создана. Эйнштейн же, напротив, твердо стоял на плеяах Ньютона.
Когда он выводил свое занменитое уравнение для тензора кривизны R, он исходил из того, что в пределе слабых, исчезающе слабых гравитационных полей искомое уравнение сводилось бы к обычному закону Ньютона.
Строго говоря, по закону Ньютона не движется ни одно небесное тело. Но теория Эйнштейна не моггла бы быть создана без опры на Ньютона!
Так надо относиться и к Ципфу.

Цитата:
Закон Ципфа применим к отдельному достаточно большому тескту (насколько большому?), написанному одним автором.
Википедия - набор статей, написанных различными авторами, зачастую одну и та же статья многократно переписывается несколькими авторами.

То-то и удивительно, что несмотря на это закон Ципфа неплохо выполняется даже в этих экстремальных условиях!


Цитата:
Посмотрите на график по приведённой мной ссылке - там почти идеальная прямая, соответствующая распределению по Ципфу const1/k, затем идёт излом и распределение const2/k^s (судя по графику s ≈ 2)

Согласен. Вы правы! Но понимаете ли Вы, что тот факт, что закон Ципфа вообще имеет место хотя бы где-то - это удивительный, необъяснимый феномен?!

Цитата:
Моё предположение: начальная часть графика соответвует общей лексике, и при объединенни большого количества текстов, в каждом из которых слова рапределены по Ципфу (а отдельный текст всегда конечен, и ряд где-то оборван), в результате остаётся распределение по Ципфу. Остальная часть графика - специализированная лексика, и при объединении образуется другое распределение (какое - вероятно уже можно определить математическими методами, исходя из того, что слова в объединяемых частях распределены по Ципфу + возможно ещё какое-то предположение, возможно получится как раз const/k²).
Возможно. А вот иная версия: надо наряду с отдельными словами включить в рассмотрение словосочетания, ведь де-факто мы используем для обозначения смыслов не слова только, но словосочетания.
Тогда - уверен на 95%! - даже в Википедии закон Ципфа будет выполняться еще более строго.
Но конечно, в конце-концов график должен, просто обязан завалиться. Ведь ряд 1/n расходится! НИ один реальный язык не может полностью соответствовать Ципфу.
Я интерпретирую это так: любой реальный язык есть лишь конечная проекция некоторого бесконечного объекта, существующего в ментальной сфере - языка нашей мысли. То есть, наши МЫСЛИ точно соттветствуют статистике Ципфа.

_________________
Только учусь...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вт июн 02, 2009 11:44 am 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
Матюшов писал(а):
Закон Ньютона не точный - для объяснения движения Меркурия пришлось изменять закон (Эйнштейн), а не искать ещё одну планету ближе к Солнцу.
Вот тут Вы правы на 100%!
Но заметьте! Если бы Эйнштейн просто плюнул на закон Ньютона, сказав: "да он же в реальности выполняется далеко не всегда!" - то Общая Теория Относительности не была бы создана. Эйнштейн же, напротив, твердо стоял на плеяах Ньютона.
Когда он выводил свое занменитое уравнение для тензора кривизны R, он исходил из того, что в пределе слабых, исчезающе слабых гравитационных полей искомое уравнение сводилось бы к обычному закону Ньютона.
Строго говоря, по закону Ньютона не движется ни одно небесное тело. Но теория Эйнштейна не моггла бы быть создана без опры на Ньютона!
Так надо относиться и к Ципфу.

Цитата:
Закон Ципфа применим к отдельному достаточно большому тескту (насколько большому?), написанному одним автором.
Википедия - набор статей, написанных различными авторами, зачастую одну и та же статья многократно переписывается несколькими авторами.

То-то и удивительно, что несмотря на это закон Ципфа неплохо выполняется даже в этих экстремальных условиях!


Цитата:
Посмотрите на график по приведённой мной ссылке - там почти идеальная прямая, соответствующая распределению по Ципфу const1/k, затем идёт излом и распределение const2/k^s (судя по графику s ≈ 2)

Согласен. Вы правы! Но понимаете ли Вы, что тот факт, что закон Ципфа вообще имеет место хотя бы где-то - это удивительный, необъяснимый феномен?!

Цитата:
Моё предположение: начальная часть графика соответвует общей лексике, и при объединенни большого количества текстов, в каждом из которых слова рапределены по Ципфу (а отдельный текст всегда конечен, и ряд где-то оборван), в результате остаётся распределение по Ципфу. Остальная часть графика - специализированная лексика, и при объединении образуется другое распределение (какое - вероятно уже можно определить математическими методами, исходя из того, что слова в объединяемых частях распределены по Ципфу + возможно ещё какое-то предположение, возможно получится как раз const/k²).
Возможно. А вот иная версия: надо наряду с отдельными словами включить в рассмотрение словосочетания, ведь де-факто мы используем для обозначения смыслов не слова только, но словосочетания.
Тогда - уверен на 95%! - даже в Википедии закон Ципфа будет выполняться еще более строго.
Но конечно, в конце-концов график должен, просто обязан завалиться. Ведь ряд 1/n расходится! НИ один реальный язык не может полностью соответствовать Ципфу.
Я интерпретирую это так: любой реальный язык есть лишь конечная проекция некоторого бесконечного объекта, существующего в ментальной сфере - языка нашей мысли. То есть, наши МЫСЛИ точно соттветствуют статистике Ципфа.

_________________
Только учусь...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вт июн 02, 2009 11:55 am 
Не в сети
Fervora Forumano
Fervora Forumano

Зарегистрирован: Ср мар 02, 2005 13:43 pm
Сообщения: 3067
Откуда: Ensko
Солохин Максим писал(а):
Но конечно, в конце-концов график должен, просто обязан завалиться. Ведь ряд 1/n расходится! НИ один реальный язык не может полностью соответствовать Ципфу.
Еще раз: расходимсость тут при чем????
расходимость ряда (в бесконечности!) означает всего лишь расходимость ряда и все! Число слов любого языка конечно, поэтому расхходимость ряда в бесконечности ни к чему не обязывает
Возьмем язык из 2х слов и 1е слово пусть встречается в 1/3 случаев, 2е в остальных. Распределение ципфа соблюдается. Для языка из 3х слов тоже несложно подобрать вероятности 6/11, 3/11, 2/11 и для любоко гонечного числоа слов тоже А число слов в языке всегда конечно и если оно равно k то самое частое слово если я не ошибаюсь будет встречаться с вероятностью примерно 1/ln(k)

_________________
Malfacila kaj tre trista estas vivo programista.


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Вт июн 02, 2009 12:35 pm 
Не в сети
Plenrajta Forumano

Зарегистрирован: Ср фев 25, 2004 11:39 am
Сообщения: 185
Ìàòþøîâ писал(а):
Çàêîí Öèïôà ïðèìåíèì ê îòäåëüíîìó äîñòàòî÷íî áîëüøîìó òåñêòó (íàñêîëüêî áîëüøîìó?), íàïèñàííîìó îäíèì àâòîðîì.


Çàêîí Öèïôà ïðèìåíèì äàæå ê "òåñêòó", ñãåíåðèðîâàíîìó êîìïüþòåðîì.


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: Ср июн 03, 2009 11:53 am 
Не в сети
Novico

Зарегистрирован: Пн май 25, 2009 17:45 pm
Сообщения: 98
Откуда: Московская область
Матюшов писал(а):
Закон Ципфа применим к отдельному достаточно большому тескту (насколько большому?), написанному одним автором.
Trurl писал(а):
Закон Ципфа применим даже к "тескту", сгенерированому компьютером.

Верно! В 1992 была статья
http://www.nslij-genetics.org/wli/pub/ieee92_pre.pdf
Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution
Wentian Li
Santa Fe Institute, 1660 Old Pecos Trail, Suite A, Santa Fe, NM 87501
Published in IEEE Transactions on Information Theory, 38(6), 1842-1845 (1992). The ?gures are scanned from a copy of the paper (apologize for the poor quality).
Основная идея работы такова: строго доказывается, что текст, генерируемый случайным образом как последовательность равновероятных букв, одна из которых считается пробелом, разделяющим "слова" произвольной длины, имеет распределение Ципфа. Точнее, распределение стремится к Ципфу при числе букв алфавита, стремящимся к бесконечности.
Гипотетический вывод автора: закон Ципфа - это чисто статистический эффект, не имеющий отношения к проблемам лингвистики.

_________________
Только учусь...


Вернуться к началу
 Профиль  
Ответить с цитатой  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 57 ]  На страницу 1, 2, 3  След.

Часовой пояс: UTC + 3 часа


Похожие темы форума | Similaj temoj en la forumo
 Темы   Автор   Ответы   Просмотры   Последнее сообщение 
В этой теме нет новых непрочитанных сообщений. Частотность словосочетаний и закон Ципфа

[ На страницуНа страницу: 1, 2 ]

palaman

42

17528

Вс июл 15, 2012 12:15 pm

Матюшов Перейти к последнему сообщению

Эта тема закрыта, вы не можете редактировать и оставлять сообщения в ней. Закон элементарных артикуляций, алфавит Симметрица и др.

[ На страницуНа страницу: 1, 2, 3 ]

valenok

49

25240

Чт окт 08, 2009 5:20 am

Sxak' Перейти к последнему сообщению

В этой теме нет новых непрочитанных сообщений. Монгольские языки

barkist

0

3523

Пн май 17, 2004 15:00 pm

barkist Перейти к последнему сообщению

В этой теме нет новых непрочитанных сообщений. Языки в Европе (вот она правда)

Sergej Ch

19

11267

Вт янв 27, 2004 14:31 pm

Erinaceus Перейти к последнему сообщению

 


Кто сейчас на конференции

Сейчас этот форум просматривают: Bing [Bot] и гости: 2


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
News News Plan de site Plan de site SitemapIndex SitemapIndex Flux RSS Flux RSS Liste des flux Liste des flux
Создано на основе phpBB® Forum Software © phpBB Group