ЧАСТЕРЕЧНЫЕ РАЗМЕТКИ ДЛЯ НОВОГО КОРПУСА КЫРГЫЗСКОГО ЯЗЫКА (Инструментарий Turkic Lexicon Apertium)

Журнал «Вестник КРСУ», 2020 год, Том 20, № 6, Стр. 67-72. УДК 81-13:811.512.154

Сведения об авторах:

Касиева Аида Аскарбековна – канд. филол. наук, доцент отделения синхронного перевода гуманитарного факультета Кыргызско-Турецкого университета “Манас”, тел.: +996-552 004254, e-mail: aida.kasieva@manas.edu.kg
Сатыбекова Айжан Тургунбековна – магистрант отделения синхронного перевода гуманитарного факультета Кыргызско-Турецкого университета “Манас”, тел.: +996-551 676715, e-mail: 1950Y14001@manas.edu.kg

ЧАСТЕРЕЧНЫЕ РАЗМЕТКИ ДЛЯ НОВОГО КОРПУСА КЫРГЫЗСКОГО ЯЗЫКА (Инструментарий Turkic Lexicon Apertium)

Касиева А.А., Сатыбекова А.Т.

Аннотация на русском языке:

Корпусная лингвистика является новым направлением в кыргызской лингвистике и представляет собой малоизученную парадигму, а исследования в этой области на данный момент весьма скудны. Главной целью данной статьи является ознакомление с процессом тэггирования, другими словами, частеречной разметкой текстов новосозданного корпуса кыргызского языка. Хотя сам процесс является в достаточной степени трудоемким и времязатратным, требуется индивидуальный подход для решения каждого из ряда задач, существующих в лингвистике. Поскольку кыргызский язык относится к агглютинативным языкам, соответственно, данный процесс усложняется вдвойне. После многократных обсуждений для морфологической разметки словоформ корпуса было решено использовать инструментарий Turkic Lexicon Apertium – платформу машинного перевода. В практической части данной статьи представлен подробный анализ предложений на морфологическом и синтаксическом уровнях, которые были извлечены из новосозданного корпуса кыргызского языка. Результаты исследования будут использованы для дальнейшего развития корпуса кыргызского языка, вызовут интерес у студентов, магистрантов и лингвистов, а также послужат мотивацией для их вовлечения в этот увлекательный процесс построения корпусов разных типов.

Ключевые слова на русском языке:

корпус кыргызского языка; тэггирование; корпусная лингвистика; частеречная разметка; морфологический анализ; Turkic Lexicon Apertium

КЫРГЫЗ ТИЛИНИН ЖАҢЫ КОРПУСУНДАГЫ СӨЗ ТҮРКҮМДӨРДҮН ЭНТЕКТЕРИ (Turkic Lexicon Apertium аспаптарына ылайыкташтыруу)

Касиева А.А., Сатыбекова А.Т.

Аннотация на кыргызском языке:

Корпустук лингвистика кыргыз тил илиминде жаңы жана аз изилденген тил парадигмасы болуп саналат, ал эми бул тармакка байланыштуу илимий эмгектердин саны азыркы учурда жокко эсе. Бул макаланын негизги максаты – жаңы түзүлгөн кыргыз тилинин корпусунда жайгаштырылган тексттердеги сөз формаларды морфологиялык энтектер менен белгилөө, башкача айтканда, аларга тэг (англ. ‘tag’) ыйгаруу процесси менен тааныштыруу болуп саналат. Бул процесс көп убакыт жана аракетти талап кылгандыктан, ар кандай тилдик маселени чечүүдө ага жараша чечим кабыл алынат. Мындан улам корпустагы сөздөргө энтек ыйгаруу көбүнэсе кол менен иштелип чыгат. Ал эми кыргыз тили табияты боюнча агглютинативдик тил болгондугун эске ала турган болсок, бул жагдай мындан да татаал абалга туш болот. Бул макалада көтөрүлгөн маселени чечүүдө көптөгөн талкуулар орун алды жана алардын натыйжасында корпустун материалдарын морфологиялык жактан белгилөө үчүн Turkic Lexicon Apertium – машиналык котормо платформасынын стандарттык аспаптарын колдонуу чечими кабыл алынды. Макаланын практикалык тарабы жаңы кыргыз корпусунун сүйлөмдөрүнө морфологиялык жана синтаксистик деңгээлде жүргүзүлгөн деталдуу анализин камтыйт. Бул макаланын жыйынтыктары кыргыз корпусунун өнүгүшүнө салым кошуп, студенттердин, магистранттардын жана тилчилердин кызыгуусун арттырат деп ишенебиз.

Ключевые слова на кыргызском языке:

кыргыз тилинин корпусу; энтек-белгилөө; корпустук лингвистика; сөз түркүмдөрдүн белгилениши; морфологиялык талдоо; Turkic Lexicon Apertium

PARTS-OF-SPEECH ANNOTATION OF THE NEWLY CREATED KYRGYZ CORPUS (Turkic Lexicon Apertium Tools)

Kasieva A.A., Satybekova A.T.

Аннотация на английском языке:

Corpus linguistics is a new direction in Kyrgyz linguistics and is a little-studied paradigm, and research in this area is currently very scarce. The main goal of the paper is to get acquainted with the process of part-of-speech tagging of word-forms of the Kyrgyz corpus. This paper is focused on the process of labelling the tokens of the newly created Kyrgyz language corpus. Though the process itself is labour and time-consuming, it is usually performed manually. This procedure becomes even more complicated due to the agglutination of the Kyrgyz language. After long discussions it was decided to exploit standard toolkits of the Turkic Lexicon Apertium, an open-source machine translation platform. For annotating, each word is labelled and analyzed along with the process of tagging in closer observation. The section of discussion includes a detailed analysis of Kyrgyz sentences extracted from the Kyrgyz corpus. Morphological and syntactic analyses of the sentences are presented as samples. We believe that this work will give impetus for further development and enrichment of the Kyrgyz corpus and attract students and linguists to get involved in this interesting
process.

Ключевые слова на английском языке:

Kyrgyz corpus; POS-tagging; corpus linguistics; morphological analysis; Turkic Lexicon Apertium

Скопировать выходные данные по ГОСТУ

Скачать

Касиева А.А. ЧАСТЕРЕЧНЫЕ РАЗМЕТКИ ДЛЯ НОВОГО КОРПУСА КЫРГЫЗСКОГО ЯЗЫКА (Инструментарий Turkic Lexicon Apertium) / А.А. Касиева, А.Т. Сатыбекова // Вестник КРСУ. 2020. Т. 20. № 6. С. 67-72.