Esperanto новости
http://www.e-novosti.info/forumo/

Закон Ципфа и плановые языки: как совместить несовместимое
http://www.e-novosti.info/forumo/ne-esperanto/topic5496-44.html
Страница 3 из 3

Автор:  Солохин Максим [ Вс июн 07, 2009 16:24 pm ]
Заголовок сообщения: 

Ŝak' писал(а):
Тут гланое правильно составить матмодель. А как - не имею понятия... Вон одна матмодель в задаче разбирлась, на которую вы ссылку дали...

Так я как раз и взял эту самую матмодель. Именно модель случайного текста из данной статьи, ни что иное. Математика - в полном порядке. Проблема с физикой, с реальной природой вещей.
Если существует вышеописанная лента судьбы или что-то в этом роде, то закон Ципфа - тривиальная статистика. Если же нечего подобного в действительности, в природе, не существует, то данная математическая модель нам не поможет.
Вот какая штука.

Автор:  Матюшов [ Ср июн 10, 2009 18:04 pm ]
Заголовок сообщения: 

Я тоже не лингвист, окончил мехмат.
Написал программу на java, которая читает файл в формате fb2 и подсчитывает статистику и рисует график в логарифмических осях.
Вот например, Stevenson Robert, Doktoro Jekyll kaj sinjoro Hyde:
всего слов: 23286
различных слов: 5076
1. la 1703
2. kaj 884
3. de 779
4. mi 700
5. li 406
6. estis 392
7. en 334
8. al 295
9. ke 253
10. ne 231
11. estas 210
12. vi 197
13. mia 187
14. kun 174
Хвост:
Слов встречающихся 1 раз: 3363 (больше половины!),
2 раза - 701,
3 раза - 302,
4 раза - 169,
5 раз - 96,
6 раз - 59,
7 раз - 52,
8 раз - 34,
9 раз - 24,
10 раз - 17,
11 раз - 21.
График почти прямой (1/n^p, p = 0.872), но с выступом вверх на 3 и 4 словах (de, mi), хвост с более сильным наклоном и ступеньками из-за дикретности (слово не может встречаться 1,5 раза!), так что для хвоста нужен другой закон распределения.
Хвост распределения, по всей видимости, имеет статистическую природу и к лингвистике не имеет отношения.
de, возможно, встречается чаще чем нужно из-за его перегруженности (но нужно проверить на более длинном тексте!)

Автор:  Матюшов [ Чт июн 11, 2009 0:04 am ]
Заголовок сообщения: 

Fundamenta Krestomatio:
1. la 9655
2. de 3879
3. kaj 3859
4. en 2375
5. al 2016
6. mi 1607
7. estas 1559
8. ne 1532
9. li 1452
10. ke 1239
Тоже практически идеальная прямая, но опять de её портит.
El la Biblio (tradukita de Zamenhof):
1. kaj 459
2. la 435
3. de 305
4. mi 195
5. Dio 192
6. estas 183
7. al 164
8. ne 162
9. li 146
10. vi 130
11-20. en, mia, via, ĉar, por, min, kiu, ili, kiel, vian
Первая двацатка слов встречается чаще, чем положено по Ципфу, хотя это может быть из-за того, что артикль употребляется реже.

Автор:  Солохин Максим [ Вс июн 14, 2009 17:15 pm ]
Заголовок сообщения: 

Ради интереса глянул информацию о распространенности естественных языков (китайский - рекордсмен, английский второй). Решил для прикола проверить распределение на соответствие закону Ципфа.
Угадайте, что получилось?
(первое число - млн человек говорящих, второе - номер в частотной таблице, третий - произведение одного на другое)

1. Китайский (путунхуа-«мандаринский») (сино-тибетская семья) 1075- 1- 1075
2/1 (?) [112]. Английский (германская ветвь; западногерманская подгруппа)
514- 2- 1028
4/1 (?). [113] Хинди
496- 3- 1488
1/2/3 (?) [111]. Испанский (романский язык; иберо-романская группа)
425- 4- 1700
6. Русский (славянская ветвь; восточнославянская подгруппа) 275- 5- 1375
¾. Бенгальский (восточная подгруппа индоарийской группы внутри индоиранской ветви) 215 6 1290
5. Португальский (романский язык; иберо-романская группа) 194- 7- 1358
7. Немецкий (германская ветвь; западногерманская подгруппа) 129- 8- 1032
8. Французский (романский язык; галло-романская подгруппа) 129- 9- 1161
2. Японский (алтайская семья; корейско-японская группа) 126- 10- 1260
10. Урду (центральная подгруппа индоарийская группы внутри индоиранской ветви, ср. хинди) 109- 11- 1199
3. Яванский (западная ветвь малайско-полинезийской группы австронезийской семьи) 75,5- 12- 906
4. Китайский диалект/вариант у (сино-тибетская семья) 75,2- 13- 977,6
5. Корейский (алтайская семья; корейско-японская группа) 75- 14- 1050
6. Вьетнамский (вьетмыонгская группа аустроазиатских) 67,7- 15- 1015,5
7. Телугу (дравидийская семья) 66,4 16 1062,4
8. Кантонский (юэ) диалект/вариант китайского (сино-тибетская семья) 66- 17- 1122
9. Маратхи (южная подгруппа индоарийской группы внутри индоиранской ветви) 64,8 18 1166,4
9. Тамильский (дравидийская семья) 63,1 19 1198,9
10. Турецкий (алтайская семья; тюрко-монгольская группа) 59- 20- 1180
11. Вариант/диалект китайского языка минь (сино-тибетская семья) 49- 21- 1029
12. Вариант/диалект китайского языка цзяньоу [109] (?) (сино-тибетская семья)
45- 22- 990
11/12. Гуджарати (западная подгруппа индоарийской группы внутри индоиранской ветви) 44- 23- 1012
11/12. Польский (славянская ветвь; лехитская зона внутри западнославянской подгруппы) 44- 24- 1056
13/2-3 (?). Египетский вариант разговорного арабского (семитская семья, южно-центральная группа) [110]
42,5- 25- 1062,5
13. Украинский (славянская ветвь; восточнославянская подгруппа) 41- 26- 1066
14. Итальянский (романский язык; итало-романская подгруппа) 37- 27- 999
14. Вариант/диалект китайского языка сян (сино-тибетская семья) 36- 28- 1008
20/21. Персидский (фарси; западноиранская группа внутри индоиранской ветви) 36- 29- 1044
15. Малаялам (дравидийская семья) 34- 30- 1020
16. Вариант/диалект китайского языка хакка (сино-тибетская семья) 34- 31- 1054
17. Каннада (дравидийская семья) 33,7- 32- 1078,4
15. Ория (восточная подгруппа индоарийской группы внутри индоиранской ветви) 31- 33- 1023
16. Западный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви) 30- 34- 1020
18. Сунда (австронезийская семья) 27- 35- 945
17/18/11 [114]. Восточный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви)
26- 36- 936
17/18. Румынский (романский язык; дако-романская подгруппа) 26- 37- 962
19. Бходжпури (восточная подгруппа индоарийской группы внутри индоиранской ветви); язык близок к хинди 25- 38- 950
19. Южноазербайджанский (алтайская семья, тюрко-монгольская группа) 24,4- 39- 951,6
20/21. Майтхили (восточная подгруппа индоарийской группы внутри индо-иранской ветви) 24,3- 40- 972
20. Хауса (чадская ветвь афроазиатских или семито-хамитских) 24,2- 41- 992,2
21. Алжирский вариант разговорного арабского (семитская семья, южно-центральная группа), ср выше, 13 22,4- 42- 940,8
22. Бирманский (тибето-бирманская группа сино-тибетской семьи) 22- 43- 946
22. Сербохорватский (славянская ветвь; западно-южнославянская подгруппа); по политическим причинам распадается на сербский и хорватский 21- 44- 924
23. Вариант/диалект китайского языка гань (сино-тибетская семья) 20,6- 45- 927
23. Авадхи (центральная подгруппа индоарийской группы внутри индоиранской ветви); иногда рассматривается как вариант хинди 20,5- 46- 943
24. Тайский (тайская группа внутри предполагаемой австро-тайской семьи) 20- 47- 940
25. Йоруба (подсемья ква нигеро-конголезской макросемьи) 20- 48- 960
24/25. Голландский (вместе с фламандским; германская ветвь; западногерманская подгруппа) 20- 49- 980
24/25. Курдский (северо-западноиранская группа внутри индоиранской ветви) 20- 50- 1000
26/27. Синдхи (северо-западная подгруппа индоарийской группы внутри индо-иранской ветви) 19- 51- 969
26/27. Пашту (восточноиранская группа внутри индоиранской ветви) 19- 52- 988
26. Индонезийский/малайский (На индонезийском/малайском языке как общем для Индонезии говорит около 176 (140) млн; западная ветвь малайско-полинезийской группы австронезийской семьи.) 17- 53- 901

Автор:  Солохин Максим [ Вс июн 14, 2009 17:47 pm ]
Заголовок сообщения: 

Информацию почерпнул из книги
Вяч. Вс. Иванов
ЛИНГВИСТИКА ТРЕТЬЕГО ТЫСЯЧЕЛЕТИЯ: ВОПРОСЫ К БУДУЩЕМУ. II (гл 11)

Картина, как видим, такая.

Распределение неплохо соответствует законц Ципфа, хотя наблюдаеются отклонения за пределами статистики.

(Кстати, это своеобразный аргумент против того, что данный закон - чисто статистический. Если он статистический, то почему наблюдаются уклонения, нарушающие вероятностые статистические уклонения?!)

"Слишком" большая численность наблюдается у следующих языков:
4/1 (?). [113] Хинди
496- 3- 1488
1/2/3 (?) [111]. Испанский (романский язык; иберо-романская группа)
425- 4- 1700
6. Русский (славянская ветвь; восточнославянская подгруппа) 275- 5- 1375
¾. Бенгальский (восточная подгруппа индоарийской группы внутри индоиранской ветви) 215 6 1290
5. Португальский (романский язык; иберо-романская группа) 194- 7- 1358

ПРичину этого уклонения не знаю, однако кое-что для меня очевидно. Скорее всего, число 275 млн для РУССКОГО языка завышено по идеологическим соображениям - вероятно, Иванов включил украинцев в состав русского народа.
Подозреваю, что та же ситуация с ХИНДИ, как государственным языком Индии.
Не знаю, как объяснить аномалию с ИСПАНСКИМ, БЕНГАЛЬСКИМ, ПОРТУГАЛЬСКИМ, но подозреваю что-то в этом же роде, какую-то политику...

И еще - видно, что к концу списка распределение все-таки заваливается... как и положено, чтобы ряд сходился.
Все-таки ТОЧНО соответствовать закону Ципфа ничто материальное не может, так как в материальном мире все конечно.
А закон Ципфа - это ласточка из мира идей...

Автор:  Солохин Максим [ Вс июн 14, 2009 19:03 pm ]
Заголовок сообщения: 

А вот что получается, если рассмотреть распространенность языков, которые их носитель считает РОДНЫМИ.

1. Китайский (путунхуа-«мандаринский») (сино-тибетская семья) 885- 1- 885
1%2%3 (?) [111]. Испанский (романский язык; иберо-романская группа)
332- 2- 664-
20%21. Персидский (фарси; западноиранская группа внутри индоиранской ветви) 324,3 3 972,9
2%1 (?) [112]. Английский (германская ветвь; западногерманская подгруппа)
322- 4- 1288
3%4. Бенгальский (восточная подгруппа индоарийской группы внутри индоиранской ветви) 210- 5- 1050
4%1 (?). [113] Хинди
182- 6- 1092
5. Португальский (романский язык; иберо-романская группа) 178- 7- 1246
6. Русский (славянская ветвь; восточнославянская подгруппа) 165- 8- 1320
2. Японский (алтайская семья; корейско-японская группа) 125- 9- 1125
7. Немецкий (германская ветвь; западногерманская подгруппа) 98- 10- 980
3. Яванский (западная ветвь малайско-полинезийской группы австронезийской семьи) 75,5 11 830,5
4. Китайский диалект%вариант у (сино-тибетская семья) 75,2- 12- 902,4
5. Корейский (алтайская семья; корейско-японская группа) 75- 13- 975
8. Французский (романский язык; галло-романская подгруппа) 72- 14- 1008
9. Маратхи (южная подгруппа индоарийской группы внутри индоиранской ветви) 71- 15- 1065
6. Вьетнамский (вьетмыонгская группа аустроазиатских) 67,7- 16- 1083,2
7. Телугу (дравидийская семья) 66,4- 17- 1128,8
8. Кантонский (юэ) диалект%вариант китайского (сино-тибетская семья) 66- 18- 1188
9. Тамильский (дравидийская семья) 63,1- 19- 1198,9
10. Турецкий (алтайская семья; тюрко-монгольская группа) 59- 20- 1180
10. Урду (центральная подгруппа индоарийская группы внутри индоиранской ветви, ср. хинди) 58- 21- 1218
11. Вариант-диалект китайского языка минь (сино-тибетская семья) 49- 22- 1078
12. Вариант-диалект китайского языка цзяньоу [109] (?) (сино-тибетская семья)
45- 23- 1035
11%12. Гуджарати (западная подгруппа индоарийской группы внутри индоиранской ветви) 44- 24- 1056
11%12. Польский (славянская ветвь; лехитская зона внутри западнославянской подгруппы) 44- 25- 1100
13%2-3 (?). Египетский вариант разговорного арабского (семитская семья, южно-центральная группа) [110]
42,5- 26- 1105
13. Украинский (славянская ветвь; восточнославянская подгруппа) 41- 27- 1107
14. Итальянский (романский язык; итало-романская подгруппа) 37- 28- 1036
14. Вариант-диалект китайского языка сян (сино-тибетская семья) 36- 29- 1044
15. Малаялам (дравидийская семья) 34 30 1020
16. Вариант-диалект китайского языка хакка (сино-тибетская семья) 34- 31- 1054
17. Каннада (дравидийская семья) 33,7 32 1078,4
15. Ория (восточная подгруппа индоарийской группы внутри индоиранской ветви) 31- 33- 1023
16. Западный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви) 30- 34- 1020
18. Сунда (австронезийская семья) 27- 35- 945
19. Бходжпури (восточная подгруппа индоарийской группы внутри индоиранской ветви); язык близок к хинди 26,3- 36- 946,8
17%18%11 [114]. Восточный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви)
26- 37- 962
17%18. Румынский (романский язык; дако-романская подгруппа) 26- 38- 988
19. Южноазербайджанский (алтайская семья, тюрко-монгольская группа) 24,4- 39- 951,6
20%21. Майтхили (восточная подгруппа индоарийской группы внутри индо-иранской ветви) 24,3- 40- 972
20. Хауса (чадская ветвь афроазиатских или семито-хамитских) 24,2- 41- 992,2
21. Алжирский вариант разговорного арабского (семитская семья, южно-центральная группа), ср выше, 13 22,4- 42- 940,8
22. Бирманский (тибето-бирманская группа сино-тибетской семьи) 22- 43- 946
22. Сербохорватский (славянская ветвь; западно-южнославянская подгруппа); по политическим причинам распадается на сербский и хорватский 21- 44- 924
23. Вариант-диалект китайского языка гань (сино-тибетская семья) 20,6- 45- 927
23. Авадхи (центральная подгруппа индоарийской группы внутри индоиранской ветви); иногда рассматривается как вариант хинди 20,5- 46- 943
24. Тайский (тайская группа внутри предполагаемой австро-тайской семьи) 20- 47- 940
25. Йоруба (подсемья ква нигеро-конголезской макросемьи) 20- 48- 960
24%25. Голландский (вместе с фламандским; германская ветвь; западногерманская подгруппа) 20- 49- 980
24%25. Курдский (северо-западноиранская группа внутри индоиранской ветви) 20- 50- 1000
26%27. Синдхи (северо-западная подгруппа индоарийской группы внутри индо-иранской ветви) 19- 51- 969
26%27. Пашту (восточноиранская группа внутри индоиранской ветви) 19- 52- 988
26. Индонезийский%малайский (На индонезийском%малайском языке как общем для Индонезии говорит около 176 (140) млн; западная ветвь малайско-полинезийской группы австронезийской семьи.) 17- 53- 901

Автор:  Солохин Максим [ Вс июн 14, 2009 19:16 pm ]
Заголовок сообщения: 

Внимательно глядя на полученный результат, приходишь к неутешительным выводам: если природа и вправду "стремится" соответствовать законц Ципфа, то можно предвидеть, что
1) численность считающих родным языком китайский и испанский должна возрастать
2) численность родным языком русский, португальский, урду, тамильский должна скращаться.
При этом самая большая динамика прироста прдвидится для испанского, а смое быстрое убывание, увы, для русского.

Автор:  Матюшов [ Вс июн 14, 2009 23:50 pm ]
Заголовок сообщения: 

Добавил в свою программу возможность сохранять и повторно загружать результаты, а не анализировать текст и ввел Вашу первую таблицу с языками.
В результате, график не похож на гиперболу в обычных координатах и на прямую в логарифмических.
Китайский и английский лежат на прямой, соответствующей Ципфу, большинство остальных языков имеют большую частоту чем нужно.
Возможно, отклонения получаются также от того, что частоты некоторых языков заданы с десятыми, другие без, и в результате получаются языки с одинаковой частотой.
Но, конечно, оценивать нужно не "на глазок", вычислять соответствующие статитические функции - дисперсию отклонения от Ципфа, отклонения от других возможных распределений и т.д.
Кстати, почему арабский разделён на варианты и почему их только два - египетский и алжирский?

Автор:  Солохин Максим [ Пн июн 15, 2009 3:07 am ]
Заголовок сообщения: 

Матюшов писал(а):
Кстати, почему арабский разделён на варианты и почему их только два - египетский и алжирский?
На знаю. Я просто тупо взял данные из работы Вяч. Иванова
http://www.philology.ru/linguistics1/ivanov-04a.htm
Работа сама по себе, кстати, тоже интересная, в тему...

Автор:  kapriculo [ Пн июн 15, 2009 7:39 am ]
Заголовок сообщения: 

Генератор случайных букв не может давать распределение Ципфа по словам.

Доказательство:
1. в распределении Ципфа все частоты разные. f=const/N
2. слова, созданные генератором, имеют одинаковую частотность, если у них общий состав и длина. То есть что abbab, что babba - всё едино. Очевидно, чем больше разнообразие букв, тем более крупные возможны пакеты общей частотности.

Автор:  Artem [ Пн июн 15, 2009 18:04 pm ]
Заголовок сообщения: 

Ну ёмаё, ну нельзя же Ципфа видеть везде. Если у нас есть три множества с разным количеством элементов, численность этих элементов совсем необязательно должна соотноситься как 1:2:3.

Автор:  palaman [ Сб авг 08, 2009 14:58 pm ]
Заголовок сообщения: 

Artem писал(а):
Ну ёмаё, ну нельзя же Ципфа видеть везде. Если у нас есть три множества с разным количеством элементов, численность этих элементов совсем необязательно должна соотноситься как 1:2:3.
Это точно!
Самое удивительное, что этот Ципф вообще имеет место быть. Странный закон, никак не выводимый из известных современной науке фундаментальных принципов.
Почему вообще что бы ни было должно ему соответствовать?
Да еще так часто, нет правда! на каждом шагу...

Автор:  palaman [ Сб авг 08, 2009 15:00 pm ]
Заголовок сообщения: 

kapriculo писал(а):
Генератор случайных букв не может давать распределение Ципфа по словам.
... слова, созданные генератором, имеют одинаковую частотность, если у них общий состав и длина.
Не обязательно, ведь символы могут иметь разную вероятность...

Страница 3 из 3 Часовой пояс: UTC + 3 часа
Powered by phpBB® Forum Software © phpBB Group
https://www.phpbb.com/