.
«КТУЛХУ РОДОМ ИЗ УЭЛЬСА: 𝑁-грамм анализ частот Р'льехианского языка» (2020).
«Cthulhu Hails from Wales: N-gram Frequency Analysis of R'lyehian».
.
Статья из издания «Материалы о последних достижениях в обработке Славянского естественного языка» (редактор А. Рамбоусек, Tribun EU, 2020), рассказывающая о работе XIV чешского семинара «RASLAN 2020», посвящённого обмену информацией между исследовательскими коллективами, работающими над проектами компьютерной обработки славянских языков и смежных областей, ориентированных на теоретические и технические аспекты исследований и новые идеи.
Авторы: Вит Новотны́ (Vít Novotný) и Мария Стара́ (Marie Stará).
Факультет Информатики, Университет Масарика (MU), г. Брно, Чешская Республика.
В качестве эпиграфа:
«В криптоанализе, частотный анализ (также известный как подсчёт буквенных символов) — это изучение частоты букв или групп букв в зашифрованном тексте. Этот метод используется в качестве вспомогательного средства для взлома классических шифров. Частотный анализ основан на том факте, что в любом фрагменте письменного языка определённые буквы и их сочетания встречаются с разной частотой. Более того, существует характерное распределение букв, которое примерно одинаково почти для всех образцов того или иного языка».
*
.
.
.
Аннотация:
«Р'льехианский» (R’lyehian) — уникальный вымышленный язык, созданный плодотворым автором фантастических ужасов XX века Г.Ф. Лавкрафтом, и в последствии расширенный другими писателями. В произведениях Лавкрафта и его учеников, известных под общим названием «Мифы Ктулху», содержатся фрагменты некоего инопланетного языка. Сам ГФЛ никогда не давал названия этому языку, но консенсус многочисленных фанатов остановился на «Р’льехианском». В предыдущих работах, посвящённых Лавкрафтовскому Мифосу, ещё не изучалось сходство между Р'льехианским и естественными языками, имеющими решающее значение для определения его истинного происхождения. Мы составили полный список слов Р'льехинского языка и использовали инструменты языковой идентификации на основе открытых статистических моделей 𝑁-грамм (N-gram) для поиска наиболее схожих с Р'льехианским естественных языков. На основе подробного списка слов мы также выстроили таблицу частот всех униграфов (письменных символов — графем, соответствующих звуковым фонемам языка) и диграфов (символов, используемых для написания знаков из двух букв, издающих один звук — фонему, либо последовательность фонем) в Р'льехианском языке. Наша работа показала, что Р'льехианский более всего похож на Кельтские языки, что даёт основание для гипотезы о том, что город Р'льех, где «мёртвый Ктулху спит и видит сны» , может быть местом на территории британского Уэльса — самобытной исторической области (в прошлом конгломерат древних кельтских княжеств), включающей полуостров Уэльс и более 50-ти близлежащих островов, расположенных на юго-западе Великобритании. Наши частотные таблицы также будут полезным источником для последующих исследований в области мифологии Лавкрафта.
* * *
Раздел-1: Введение.
Говард Филлипс Лавкрафт считается одним из самых влиятельных авторов жанра ужасов XX века. Р'льехианский язык — это вымышленный язык, на котором говорят древние космические божества (Великие Древние) в Лавкрафтовской истории «Зов Ктулху» (1926) и в его более поздних работах. Ниже приведён пример такого предложения на Р'льехианском:
Рh'nglui mglw'nafh Cthulhu R'lyeh wgah'nagl fhtagn.
В своём доме в Р'льехе мёртвый Ктулху спит и грезит.
В ранее выходивших работах, посвящённых Лавкрафтианским мифам, сходство Р'льехианского языка с естественными языками не учитывалось, и было сосредоточено главным образом на использовании Лавкрафтом английского языка. Поскольку Р'льехианский язык был латинизирован, он пригоден для 𝑁-грамм анализа частоты символов, и следовательно, поддаётся идентификации. В предыдущих исследованиях также не было определено точное местоположение затонувшего города Р'льех. По утверждению Говарда Лавкрафта, Р'льех расположен на координатах 47°9'ю.ш. и 126°43'з.д. в южной части Тихого океана, в то время как писатель Август Дерлет (см. «Чёрный Остров», Weird Tales, 1952), корреспондент Лавкрафта, помещает Р'льех на 49°51'ю.ш. и 128°34'з.д.. Оба этих места находятся недалеко от Тихоокеанского «полюса недоступности» или так называемой точки «Немо» (48°52,6'ю.ш. и 123°23,6'з.д.) — точки в океане, максимально удалённой от любой суши. Определив естественные языки, наиболее схожие с Р'льехианским, мы надеемся обнаружить истинное местонахождение пристанища Древнего Ктулху.
Наша работа структурирована следующим образом: В Разделе-2 мы кратко обсуждаем Р'льехианский язык и его фонологию. В Разделе-3 мы описываем перечень романизированных слов, генетически восходящих к Латыни, а так же инструменты идентификации языков на основе открытых моделей 𝑁-грамм, которые мы использовали для выявления естественных языков, наиболее похожих на письменный Р'льехианский. В Разделе-4 мы приводим результаты идентификации языка и обсуждаем их значение для определения местоположения затонувшего города Р'льех. В Разделе-5 мы делаем заключительный вывод и предлагаем направление для дальнейшей работы.
.
Раздел-2: Р'льехианский язык.
Р'льехианский (R’lyehian), также известный как Ктувианский (Cthuvian) — это язык, созданный Говардом Лавкрафтом для своего рассказа 1926-го года «Зов Ктулху». В отличии от некоторых других вымышленных языков, таких, например, как Эльфийский язык («Синдарин»), разработанный писателем Дж.Р. Толкиным (прим., — в легендариуме Толкина представляет собой один из эльфийских языков — «речь Синдар», частично основанную на Валлийском языке и обладающую особенностью — мутацией согласных, подобно Кельтским языкам. Толкин обсуждает этот искусственный язык в своём эссе 1931-го года «Тайный Порок»), или Клингонский язык, созданный американским лингвистом Марком Окрандом для вселенной научно-фантастического сериала «Звёздный Путь» (Star Trek), Р'льехианский Лавкрафта представлен лишь фрагментами и не имеет полного словаря или грамматики. (прим., — до своего ухода в кинематограф доктор лингвистики Марк Окранд углублённо занимался изучением языков индейцев Северной Америки в рамках известной филологической школы Мэри Хаас, включающей полный цикл исследований по каждому индейскому языку: «грамматика, текст и словарь». Среди поклонников Марк Окранд прославился как автор «Клингонского словаря» и «Вулканского языка», а так же «Атлантийского языка» для полнометражного научно-фантастического мультфильма 2001-го года «Атлантида: Затерянный мир»). Ниже мы перечислим несколько фактов, известных о Р'льехианском языке:
- Как предполагается, он непроизносим для людей.
- Поскольку в нём используется множество различных префиксов и суффиксов, его можно классифицировать как синтетический язык (прим., — синтети́ческие языки — это типологический класс языков, в которых преобладают синтетические формы выражения синтаксических отношений в предложении). К сожалению, данных недостаточно, чтобы более точно классифицировать Р'льехианский как агглютинативный или фузиональный (инфлективный) язык. (подробнее см. статью «Синтетический язык» в Википедии).
- В нём нет различий между прошлым и будущим, есть только настоящее (текущее) и ненастоящее (непередаваемое), поскольку Древние существуют во всех временах одновременно. (Есть отдельные слова для описания нижнего мира, мира снов и мира разума. Древние способны действовать в любом из этих миров по своему желанию).
- Он не различает частей речи и имеет свободный порядок слов.
- Он записан в иероглифике. Романизированное (латинизированное) написание показывает, как передают эту речь носители английского языка. « представляет собой неуклюжую попытку человека уловить фонетику абсолютно нечеловеческого слова...» (Г.Ф. Лавкрафт: Избранные письма 1934-1937, том 5, Arkham House, 1976).
Некоторые полезные сведения о Р'льехианском языке можно найти в работе Кристофера Л. Робинсона «Тератонимия: странные и чудовищные имена Г.Ф. Лавкрафта» (Журнал по Ономастике, Maney Publishing, 2010), в которой описываются имена-тератонимы («terato»/монстр + «nym»/имя), использованные писателем:
«Тератонимы Говарда Лавкрафта — чудовищные изобретения, искажающие звуковые формы английского языка и затемняющие те смысловые значения, которые традиционно ассоциируются с литературной ономастикой (прим., — ономастика — раздел языкознания, изучающий любые собственные имена, историю их возникновения и трансформации). Понятие Дж.Р. Толкина о лингвистическом стиле предоставляет полезную концепцию для изучения того, как эти имена играют на расстоянии и близости к английскому языку, вызывая определённые исторические и культурные коннотации. Некоторые имитируют звуки и формы иностранных терминологий, имеющих «странные» смысловые оттенки в следствии того, что в народном воображении они связаны с Каббализмом и декадентской античностью. Другие вводят звуковые шаблоны, лежащие за пределами фонетики английского языка или противоречащие его фонотактике, что приводит к появлению неудобных для произношения анти-эстетических словесных конструкций. Со смысловой точки зрения эти тератонимы напрашиваются на сравнение с «эзотерическими» словами, о чём рассуждает в своих исследованиях французский профессор английского языка Жан-Жак Лесеркль (Университет Париж X-Нантер), поскольку они приуменьшают или затушёвывают смысловое содержание, в тоже самое время усиливая эмоциональные значения и повышая осведомлённость читателя о физическом производстве речи».
Кристофер Л. Робинсон подробно рассматривает особенности, использованные Лавкрафтом для того, чтобы данный язык казался малоприятным, отталкивающим и грубым, а также рассказывает о влиянии других языков (Арабского, Иврита и фрагментов Африканских языков) на эти тератонимы. Некоторые из изложенных выводов могут быть в целом применены к Р'льехианскому языку. По мнению Робинсона, намеренная необычность Р'льехианского языка создавалась на трёх уровнях:
1. Отдельные звуки.
2. Звукосочетания.
3. Словоформы.
На первом уровне необычность создавалась путём группирования согласных звуков нетипичных для английского языка, таких как аспирированные (придыхательные) согласные или различные назальные (гнусаво-носовые) сочетания, например: «БН» (bn), «МН» (mn), «МТ» (mt), «МТХ» (mth), или «ПН» (pn).
На втором уровне непроизносимость создавалась так же, как и на первом, путём создания групп звукосочетаний, неестественных для английского языка, или путём использования связок, встречающихся в английском языке, но помещённых «в формы или позиции, противоречащие его фонотактике». (прим., — «фонотактика» определяет допустимую структуру слога, группы согласных и последовательности гласных с помощью фонотактических ограничений на допустимые сочетания фонем — звуков). К примеру: начало слога со связки, которая обычно появляется в конце английских слов, например: «ПТХ» (pth) в слове «Depth».
Что касается третьего уровня, словоформы, то, просто взглянув на слова Р'льехианского языка, уже можно сказать, что он выглядит и звучит неестественно и странно. Для достижения этой цели Лавкрафт использовал в словоформах низкие «А» (a) и заключительные «У, О» (u, o) гласные и согласные буквы, которые при произношении воспринимаются как резкие и диссонирующие.
Произношение.
Не существует чётких правил произношения Р'льехианского языка. Насколько нам известно, сам Лавкрафт описал только произношение имени «Ктулху»:
«Реальное звучание — насколько человеческие органы могут его имитировать или человеческие буквы могут его записать — можно воспринимать как нечто вроде «ХЛУЛ'ХЛУ» (Khlûl'hloo), причём первый слог произносится утробно и очень плотно. «У» (u) — звучит примерно также в полном объёме; а первый слог по звучанию мало чем отличается от «КЛУЛ» (Klul), поскольку «Х» (H) обозначает гортанную густоту. Второй слог передан не очень хорошо — звучание буквы «Л» (L) не представлено» (Г.Ф. Лавкрафт: Избранные письма 1934-1937, том 5, Arkham House, 1976).
Грамматика.
В отличии от земных языков, Р'льехианский язык не делает различий между существительными, глаголами, прилагательными и другими частями речи. Местоимения могут появляться, а могут и не появляться. Глаголы имеют только две формы времени: настоящее и ненастоящее, поскольку Древние воспринимают время нелинейно. Вырванный из контекста возможный перевод любого фрагмента, не более чем догадки.
Раздел-3: Методы.
Для выявления наиболее похожих естественных языков нам потребовался свод или список слов Р'льехианского языка, а также инструмент для языковой идентификации, созданный на основе статистической последовательности элементов 𝑁-грамм с предварительно обученными моделями для естественных языков. В этом разделе мы представляем полный перечень Р'льехианских слов и таблицу частот всех униграфов и диграфов в Р'льехианском языке, а также инструменты языковой идентификации, которые мы использовали в нашем эксперименте.
Р'льехианский перечень слов.
Из-за достаточно нечастого употребления Р'льехианского языка в произведениях Лавкрафта мы решили не создавать отдельный свод Р'льехианских слов. Вместо этого мы объединили информацию с двух известных онлайн-ресурсов (https://lovecraft.fandom.com/wiki/R%27lye... | https://naguide.com/call-of-cthulhu-rlyeh...) в подробный список слов, который приводим ниже в алфавитном порядке:
01. ah 25. grah’n 49. n’gha 73. tharanak
02. athg 26. h’ehye 50. n’ghft 74. thflthkh’ngha
03. bug 27. hafh’drn 51. naf’lthagn 75. throd
04. bugg-shoggog 28. hai 52. nglui 76. uaaah
05. cf’ayak 29. hastur 53. nilgh’ri 77. uh’e
06. cf’tagn 30. hlirgh 54. nog 78. uln
07. chtenff 31. hrii 55. nw 79. ulnagr
08. cthugha 32. hupadgh 56. ooboshu 80. vugtlag’n
09. cthulhu 33. iä 57. orr’e 81. vugtlagln
10. ebumna 34. ilyaa 58. ph’nglui 82. vulgtlagln
11. ee 35. k’yarnak 59. ph’nglui 83. vulgtm
12. ehye 36. kadishtu 60. phlegeth 84. vulgtmm
13. ep 37. kn’a 61. r’luh 85. wgah’n
14. farnomi 38. li’hee 62. r’lyeh 86. wgah’nagl
15. fhtagn 39. llll 63. ron 87. y’bthnk
16. fhthagn-ngah 40. lloig 64. s’uhn 88. y’hah
17. fm’latgh 41. lw’nafh 65. sgn’wahl 89. ya
18. fomalhaut 42. mg 66. shagg 90. ygnailh
19. ftaghu 43. mglw’nafh 67. shogg 91. yog-sothoth
20. geb 44. mnahn’ 68. shtunggli 92. yuggoth
21. gnaiih 45. n’gai 69. shugg 93. zhro
22. gof’nn 46. n’gha’ghaa 70. sll’ha
23. goka 47. n’gha-ghaa 71. stell’bsna
24. gotha 48. n’grkdl’lh 72. syha’h
.
Из списка Р'льехианских слов мы извлекли аффиксы (морфемы, присоединяющияся к корню и служащие для образования слов):
01. -agl 05. -og 09. c- 13. ng-
02. -agn 06. -or 10. h’- 14. nnn-
03. -agr 07. -oth 11. na- 15. ph’-
04. -nyth 08. -yar 12. nafl- 16. y-
.
Ниже, на основе выше-опубликованного «словаря» мы выстроили таблицу частот всех униграфов и диграфов в Р'льехианском языке (Таблица-1). Наша таблица показывает, что Р'льехианский язык состоит из 7-ми гласных и 28-ми согласных букв, включая 11 диграфов (звуковых фонем), в основном образованных согласной «+h», которая меняет произношение первой согласной буквы.
Идентификация языка.
Далее мы описываем инструменты с открытым исходным кодом, которые мы использовали для идентификации языка в нашем эксперименте. Наш отбор базируется на исследовательском обзоре «Автоматическая идентификация языка в текстах», опубликованном в американском международном научном «Журнале Исследований Искусственного Интеллекта» — JAIR №65 (авторы работы: Т.С. Яухиайнен, М. Луи, Т. Болдуин, М. Зампьери, К. Линден; Университеты Рочестера, Мельбурна и Хельсинки; изд-во «AAAI Press», 2019). Затем мы представим главную тройку языков, идентифицированных данными инструментами....