Lexical systems with systematic gaps: verbs of falling
Folia Linguistica. 2024. Vol. 58. No. 1. P. 191–226.
Folia Linguistica. 2024. Vol. 58. No. 1. P. 191–226.
В статье рассматриваются глаголы и глагольные конструкции с семантикой поиска в шугнанском языке на типологическом фоне. На материале словарных данных и результатов элицитационных сессий с носителями языка выявляются особенности лексикализации поля искать в современном шугнанском языке, а также делаются предположения относительно динамики развития этой системы с середины ХХ века до сегодняшнего дня.
Статья посвящена семантике и особенностям аргументной структуры глаголов pitti ‘упасть’ и χɔjti ‘задеть’ в казымском диалекте хантыйского языка, а также зоне их вариативности. В работе очерчивается круг контекстов, в которых эти глаголы конкурируют, и постулируется семантический континуум от семантики падения к семантике контакта с зоной «попадания» между ними.
Вопросы языкознания. 2022. № 4. С. 95–114.
The article compares the qualities ‘sharp’ and ‘blunt’ in 20 languages. We show that they tend to be unequal, with bluntness being negatively defined through sharpness. The two main oppositions in the domain are 1) the type of sharp object, and 2) the sense through which the quality is primarily experienced. The first opposition divides objects into bladed (knives etc) and pointed (needles etc), the second deals with touch vs. vision and translates to function (sharp/blunt instruments etc) vs. shape (pointed/rounded features etc).
The paper presents a methodology for automatic construction of lexical typological questionnaires for qualitative semantic domains (e.g. sharp, straight, thick, or smooth). Our algorithm is based on data from a monolingual corpus; it constructs a list of collocations for the corresponding lexemes, computes a vector representation for every collocation, clusters the vector space into semantically homogeneous groups and extracts the three central elements from every cluster. We compare the resulting questionnaires against test data from the semantic domains that are already well studied manually. The algorithm demonstrates high quality results and can be used in the practice of lexical typological research.
The paper outlines the basics of data collection, analysis and visualization under the frame-based approach to lexical typology and illustrates its methodology using the data of cross-linguistic research on verbs of falling. The framework reveals several challenges to semantic map modelling that usually escape researchers’ attention. These are: (1) principles of establishing lexical comparative concepts; (2) the effective ways of visualization for the opposition between direct and figurative meanings of lexical items; (3) the problem of the borderlines between semantic fields, which seem to be very subtle. These problems are discussed in detail in the paper, as well as possible theoretical decisions and semantic modelling techniques that could overcome these bottlenecks.
В статье обсуждаются метафорические употребления глаголов падения, выявленные на материале 20 языков. Для изучаемых лексем характерен широкий спектр переносных значений, причем модели сдвигов регулярно повторяются по крайней мере в нескольких языках выборки, ср. известную метафору LESS IS DOWN, а также, например, семантику наступления сезона или времени суток, превращения, капитуляции, отставания от группы и мн. др. Мы показываем, что источником переносных употреблений в каждом случае следует считать не идею падения в целом, а конкретный фрейм в структуре поля, т.е. определенный тип неконтролируемого перемещения вниз. В частности, наступление временного периода восходит к падению с более высокой поверхности, превращение — к потере вертикальной ориентации, капитуляция — к разрушению, отставание от группы — к откреплению. Связи такого рода хорошо прослеживаются при типологическом анализе механизмов семантического сдвига.
В статье представлены результаты типологического анализа глаголов падения, выполненного на материале 42 языков. Под падением здесь понимается неконтролируемое перемещение в воздушной среде вниз без контакта с поверхностью под действием силы тяжести. В этой зоне мы выделяем 4 основные ситуации (фрейма), которые регулярно служат основой для лексических противопоставлений: перемещение с более высокой поверхности на более низкую (‘ваза упала со стола’), потеря вертикальной ориентации (‘ваза упала, и вода вылилась на скатерть’), падение-разрушение (‘дом рухнул’) и открепление (‘платье упало с вешалки’). В зависимости от стратегии кодирования этих фреймов мы различаем для поля падения несколько типов лексических систем. Полярные точки в такой типологии образуют доминантная стратегия (все фреймы описываются одним глаголом) и дистрибутивная система (для каждого фрейма используется особый глагол). В статье обсуждаются также дополнительные параметры, влияющие на выбор лексических средств, — в частности, тип падающего субъекта, количество падающих предметов, специфика исходной позиции субъекта, особенности его положения в конечной точке, причина падения и др.
В этом выпуске журнала Acta Linguistica Petropolitana публикуются результаты проекта, посвященного лексической типологии глаголов падения. Ставится задача определить структуру семантического поля падения, выявить противопоставления, которые могут получать лексическое выражение в том или ином языке, и исчислить основные стратегии лексикализации поля в типологической перспективе.
В статье рассматриваются системы глаголов падения в адыгейском и кабардино-черкесском языках на типологическом фоне. Показано, что, несмотря на принадлежность к одной языковой группе, адыгейский и кабардино-черкесский лексикализуют зону падения по-разному: в адыгейском языке представлена дистрибутивная система с особыми лексическими средствами для каждого из основных типов падения, в то время как в кабардино-черкесском выделяется один доминантный глагол и ряд периферийных. При этом в обоих языках, в силу их морфосинтаксических особенностей, особую роль в лексикализации ситуаций падения играет параметр ориентации на начальную vs. конечную точку движения, что для других обследованных языков характерно в значительно меньшей степени. Анализ этого материала позволяет не только внести вклад в общую типологию глаголов падения, но и пролить дополнительный свет на известное в когнитивной лингвистике явление особой выделенности конечной точки перемещения объекта по сравнению с начальной (т.н. goal bias).
The paper examines the properties of heavy as a perceptual concept, based on evidence from 11 languages. We demonstrate that the semantics of this concept is heterogeneous; lexemes of this field can be used in situations of at least three types: Lifting, Shifting and Weighing. These situations are either lexicalised as separate words or they converge in a single lexeme in various combinations following certain strategies. We also argue that different metaphorical extensions correspond to different situation types; this allows us to use analysis of metaphoric shifts as an additional instrument to establish the semantic structure of direct meanings.
Questionnaires constitute a crucial tool in linguistic typology and language description. By nature, a Questionnaire is both an instrument and a result of typological work: its purpose is to help the study of a particular phenomenon cross-linguistically or in a particular language, but the creation of a Questionnaire is in turn based on the analysis of cross-linguistic data. We attempt to alleviate linguists’ work by constructing lexical Questionnaires automatically prior to any manual analysis. A convenient Questionnaire format for revealing fine-grained semantic distinctions includes pairings of words with diagnostic contexts that trigger different lexicalizations across languages. Our method to construct this type of a Questionnaire relies on distributional vector representations of words and phrases which serve as input to a clustering algorithm. As an output, our system produces a compact prototype Questionnaire for cross-linguistic exploration of contextual equivalents of lexical items, with groups of three homogeneous contexts illustrating each usage. We provide examples of automatically generated Questionnaires based on 100 frequent adjectives of Russian, including veselyj ‘funny’, ploxoj ‘bad’, dobryj ‘kind’, bystryj ‘quick’, ogromnyj ‘huge’, krasnyj ‘red’, byvšij ‘former’ etc. Quantitative and qualitative evaluation of the Questionnaires confirms the viability of our method.
Диссертация посвящена разработке методов автоматизации всех этапов исследования в рамках фреймового подхода к лексической типологии. Этот подход предполагает составление фреймовой анкеты для рассматриваемого семантического поля, заполнение ее материалами максимального количества языков и, наконец, конструирование семантической карты, отражающей наблюдаемые типологические закономерности. Мы начинаем с того, что, с помощью моделей дистрибутивной семантики, приводим независимые свидетельства в пользу лингвистической обоснованности понятия «фрейм». Затем мы предлагаем составлять анкету на основе материала одного языка с помощью моделей дистрибутивной семантики и кластерного анализа сформированного пространства векторов сочетаемости. Готовая анкета переводится на доступные языки с помощью машиночитаемых словарей, онлайн переводчиков и параллельных корпусов и заполняется по материалам одноязычных корпусов выбранных языков. Наконец, в качестве семантических карт нового образца могут быть использованы решетки формальных понятий, построенные на основе формального контекста, в котором в качестве объектов выступают слова включенных в исследование языков, а роль атрибутов играют минимальные лексические значения (фреймы).Все предлагаемые методы тестируются на материале нескольких семантических полей качественных признаков (‘острый’, ‘гладкий’, ‘толстый’ и др.), результаты экспериментов проходят качественную и количественную оценку, выделяются слабые места разработанных алгоритмов и формулируются направления их улучшения.Новые методики позволяют упростить и ускорить процесс лексико-типологического исследования и расширить его эмпирическую базу.
В статье сопоставляются лексические системы глаголов поиска и находки в русском и сербском языках.
В статье описывается ряд пилотных экспериментов по разработке алгоритма автоматического перевода и заполнения анкет для типологических исследований признаковой лексики. Перевод анкеты предлагается осуществлять с помощью машиночитаемых переводных словарей и затем заполнять переведенные анкеты материалами доступных одноязычных корпусов.
In this paper, we present an application for formal concept analysis (FCA) by showing how it can help construct a semantic map for a lexical typological study. We show that FCA captures typological regularities, so that concept lattices automatically built from linguistic data appear to be even more informative than traditional semantic maps. While sometimes this informativeness causes unreadability of a map, in other cases, it opens up new perspectives in the field, such as the opportunity to analyze the relationship between direct and figurative lexical meanings.
В статье анализируется взаимодействие глагольных локативных показателей с семантикой основы в кубанском диалекте кабардино-черкесского языка. На примере семантической зоны глаголов падения выявляются разные модели выражения пространственных отношений между траектором и ориентиром. Различия в морфологическом поведении объясняются особенностью лексической семантики основ, а также свидетельствуют о постепенной лексикализации локативных показателей.
В статье представлена лексическая система глаголов падения в кубанском диалекте кабардино-черкесского языка, а также проанализированы модели оформления пространственных отношений между падающим объектом и начальной и конечной точкой его движения в рассматриваемом идиоме.
In this paper we present a novel application of compositional distributional semantic models (CDSMs): prediction of lexical typology. The paper introduces the notion of typological closeness, which is a novel rigorous formalization of semantic similarity based on comparison of multilingual data. Starting from the Moscow Database of Qualitative Features for adjective typology, we create four datasets of typological closeness, on which we test a range of distributional semantic models. We show that, on the one hand, vector representations of phrases based on data from one language can be used to predict how words within the phrase translate into different languages, and, on the other hand, that typological data can serve as a semantic benchmark for distributional models. We find that compositional distributional models, especially parametric ones, perform way above non-compositional alternatives on the task.
Коллективная монография является результатом работы над проектом Научно-учебной группы НИУ ВШЭ «Лексико-типологические исследования». Главы книги представляют системы глагольной лексикализации звуков животных в 25 языках мира, а также содержат типологические обобщения, касающиеся принципов устройства и механизмов семантической деривации, характерных для данной лексической зоны.
В статье представлен метод автоматического построения лексико-типологической анкеты с помощью моделей дистрибутивной семантики.
В главе рассматривается, какие лексические средства в хинди обслуживают семантическую область звуков животных и какие переносные значения они развивают, а также проведены некоторые параллели между хинди и одним из его близких родственников – бенгали.
В настоящей главе рассматриваются глаголы звуков животных в одном из диалектов адыгейского языка. Показано, что в адыгейском языке эта зона покрывается небольшим количеством лексем, что позволяет проследить закономерности объединения разных видов животных и разных типов издаваемых ими звуков в рамках одного глагола.
В настоящей главе рассматриваются различные типы семантических переносов, характерные для глаголов звуков животных в языках мира.
Настоящее исследование посвящено особому типу пространственных конструкций: локативной предикации вида X V Y, где X — объект, местоположение которого описывается (фигура), V — стативный локативный предикат, Y — ориентир, относительно которого определяется положение объекта (фон), ср. предложение Чашка стоит на столе, где чашка — фигура, стол — фон, а стоит (на) — предикат. Во многих языках переменную предиката в таких конструкциях заполняют глаголы позиции человека (‘сидеть’, ‘стоять’ и ‘лежать’). Такие системы и находятся в фокусе нашего исследования.
Настоящее исследование посвящено глаголам позиции в бесленеевском диалекте кабардино-черкесского языка (абхазо-адыгская семья). Представленный в работе материал собран авторами в ходе летней лингвистической экспедиции в аул Уляп (республика Адыгея), состоявшейся в июле 2013 года.
Настоящая работа представляет новый инструмент для исследований по лексической типологии — Типологическую Базу данных адъективной лексики. База включает в себя информацию о лексикализации в различных языках ряда признаковых полей (‘острый’ — ‘тупой’, ‘пустой’ — ‘полный’, ‘твердый’ — ‘мягкий’, ‘ровный’, ‘гладкий’, ‘шершавый’ и др.). В статье обсуждаются вопросы, касающиеся структуры БД (в частности, выбор единицы информации, которая обеспечила бы сопоставимые описания лексем разных языков). Особое внимание уделяется представлению в БД переносных значений признаковых слов. Описываются основные прикладные и теоретические задачи, которые призвана решать БД. К первым относится возможность применения Базы в качестве мультиязычного словаря, ко вторым – разнообразные типологические исследования в области семантики признаковой лексики, в том числе изучение моделей полисемии.
В работе обсуждается фреймовая методика лексико-типологического исследования, разработанная Московской лексико-типологической группой MLexT. Рассматривается проблема, которая возникает в процессе анализа практически любой семантической зоны в любом языке: определение границ исследуемого поля. В качестве иллюстрации используются поля признаков ‘толстый’ и ‘тонкий’ в русском, английском, французском, китайском и хантыйском языках.
В статье обсуждается методология типологического анализа лексики и, в первую очередь, его начальный этап: определение выборки языков, которые послужат материалом для работы. Утверждается, что типологическое исследование лексики не только приемлемо, но иногда даже желательно начинать с анализа данных близкородственных языков. В качестве иллюстрации приводятся фрагменты сравнительного анализа русских и сербских качественных прилагательных со значениями ‘острый’ и ‘тяжёлый’.
Настоящий доклад посвящён русским прилагательным тяжёлый и лёгкий, рассмотренным на типологическом фоне в целях подготовки материала для типологической базы данных по многозначным качественным прилагательным и наречиям. Рассматриваемые лексемы устроены неожиданно симметрично, но имеется и ряд существенных отличий: прилагательное тяжёлый чаще используется в прямом значении, чем прилагательное лёгкий; у прилагательного лёгкий, напротив, лучше развита система переносных значений. Материал сербского, английского, французского и китайского языков дополняет русский и позволяет выделить в семантической структуре прилагательного ‘легкий’ два случая неполной энантиосемии: оно может приобретать такие компоненты значений как «быстрый» и «медленный», а также развивать как положительные, так и отрицательные коннотации. Прилагательное же ‘тяжелый’, в русском языке исходно антропоцентричное и склонное к обозначению только низкой скорости и только отрицательной оценки, может развивать в других языках положительные переносные значения, в случае если его исходным значением является ‘(объективно) имеющий большой вес’.
Статья посвящена русским прилагательным тяжёлый и лёгкий, рассмотренным на типологическом фоне в целях подготовки материала для типологической базы данных по многозначным качественным прилагательным и наречиям. Рассматриваемые лексемы устроены неожиданно симметрично, но имеется и ряд существенных отличий: прилагательное тяжёлый чаще используется в прямом значении, чем прилагательное лёгкий; у прилагательного лёгкий, напротив, лучше развита система переносных значений. Материал сербского, английского, французского и китайского языков дополняет русский и позволяет выделить в семантической структуре прилагательного ‘легкий’ два случая неполной энантиосемии: оно может приобретать такие компоненты значений как «быстрый» и «медленный», а также развивать как положительные, так и отрицательные коннотации. Прилагательное же ‘тяжелый’, в русском языке исходно антропоцентричное и склонное к обозначению только низкой скорости и только отрицательной оценки, может развивать в других языках положительные переносные значения, в случае если его исходным значением является ‘(объективно) имеющий большой вес’.
В статье отражены результаты исследования прилагательных с семантикой положительной и отрицательной оценки, оценочное значение которых образовано посредством семантического сдвига особого типа, называемого нами ребрендингом. Исследование выполнено на материале Базы данных семантических переходов в русских качественных прилагательных и наречиях. В работе обсуждаются различные аспекты функционирования оценочных значений: механизм их образования, лексическая сочетаемость, взаимодействие с другими значениями ребрендингового типа.