Касиева Аида Аскарбековна – канд. филол. наук, доцент отделения кыргызско-английского синхронного перевода гуманитарного факультета Кыргызско-Турецкого университета «Манас», г. Бишкек, тел.: +996-552 004254, е-mail: aida.kasieva@manas.edu.kg
Капарова Назика Ашырбековна – студент отделения кыргызско-английского синхронного перевода гуманитарного факультета Кыргызско-Турецкого университета «Манас», г. Бишкек, тел.: +996-555 159997, е-mail: 1901.0001@manas.edu.kg
КОРПУСНАЯ ЛИНГВИСТИКА: ТЕРМИНЫ, СВЯЗАННЫЕ С МОРФОТАКТИКОЙ НОВОСОЗДАННОГО КЫРГЫЗСКОГО КОРПУСА
Рассматриваются область корпусной лингвистики, которая сегодня делает свои первые шаги в кыргызском языкознании, а также терминология, связанная с этой областью. В работе представлен корпус кыргызского языка, который был создан в рамках совместного проекта КТУ «Манас» и Саарландского университета в Германии. На сегодняшний день он состоит из более чем двух миллионов слов. Один миллион из них составляют произведения известных авторов, занимающих важное место в кыргызской литературе, а второй миллион – тексты различных жанров, которые были опубликованы в газете «Эркин-Тоо» в 2021 году. В данном исследовании рассматриваются вопросы касательно того, чем лингвистический корпус отличается от текстов, размещённых в Интернете, и зачем создавать языковые корпуса при нынешних условиях современных высоких технологий. Основная часть статьи посвящается дискуссии о преобразовании морфологических признаков кыргызского корпуса в предлагаемые эквивалентные символы мировых лингвистических стандартов, предусмотренных для корпусов в специальных языковых порталах. В настоящее время процессу морфологического аннотирования (разметки, тегирования) подверглись более миллиона словоформ кыргызского корпуса. Поскольку процесс морфологической разметки (аннотации, тегирования) является одним из важных и первостепенных принципов языкового корпуса, его выполнение требует много труда и времени большой группы лингвистов. Также в работе подчёркиваются многие преимущества использования корпусной лингвистики в преподавании, изучении языков и её использовании для научных исследований.
Ключевые слова на русском языке:кыргызский корпус; корпусная лингвистика; морфотактика; Turkic Lexicon Apertium; CQP; веб-платформа; тегирование; морфологическая аннотация; свободные и связанные морфемы
КОРПУСТУК ЛИНГВИСТИКА: ЖАӉЫ ТҮЗҮЛГӨН КЫРГЫЗ КОРПУСУНУН МОРФОТАКТИКАСЫНА БАЙЛАНЫШТУУ ТЕРМИНДЕР
Макалада бүгүнкү күндө кыргыз тил илиминде алгачкы кадамдарды жасап жаткан корпустук лингвистика тармагы, ошондой эле бул тармакка байланыштуу терминология каралат. Бул эмгекте Кыргыз-Түрк «Манас» университети менен Германиянын Саарланд университетинин биргелешкен долбоорунун алкагында түзүлгөн кыргыз тилинин корпусу берилген. Бүгүнкү күндө ал эки миллиондон ашык сөздөн турат. Анын бир миллиону кыргыз адабиятында маанилүү орунду ээлеген белгилүү авторлордун чыгармаларын түзсө, экинчи миллионун 2021-жылы «Эркин-Тоо» гезитине жарыяланган ар түрдүү жанрдагы тексттер түзөт. Бул изилдөөдө лингвистикалык корпус Интернетте жайгаштырылган тексттерден эмнеси менен айырмаланат жана эмне үчүн заманбап жогорку технологиялардын азыркы шартында тил корпустарын түзүү керек деген маселелер каралат. Макаланын негизги бөлүгү кыргыз корпусунун морфологиялык өзгөчөлүктөрүн атайын тил порталдарында корпустар үчүн каралган дүйнөлүк лингвистикалык стандарттардын сунушталган эквиваленттүү символдоруна айландыруу жөнүндө талкууга арналган. Азыркы учурда кыргыз корпусунун миллиондон ашык сөз формалары морфологиялык аннотациялоо (белгилөө, тегдөө) процессинен өткөн. Морфологиялык белгилөө (аннотация, белгилөө) процесси тил корпусунун маанилүү жана эң башкы принциптеринин бири болгондуктан, аны ишке ашыруу тилчилердин чоң тобунан көп эмгекти жана убакытты талап кылат. Ошондой эле макалада корпустук лингвистиканы окутууда, тилдерди үйрөнүүдө жана аны илимий изилдөө үчүн колдонууда көптөгөн артыкчылыктар баса белгиленет.
Ключевые слова на кыргызском языке:кыргыз корпусу; корпустук лингвистика; морфотактика; Turkic Lexicon Apertium; CQP; веб-платформа; тегдөө; морфологиялык аннотациялоо; эркин жана көз каранды морфемалар
CORPUS LINGUISTICS: TERMS RELATED TO MORPHOTACTICS OF THE NEWLY CREATED KYRGYZ CORPUS
The purpose of this article is to introduce with corpus linguistics, which is now taking its first steps into the Kyrgyz linguistics and the terminology associated with it. Along with this, we present the Kyrgyz Corpus, which was created as a joint project between KTU «Manas» and Saarland University. Now it consists of more than two million words, which is made up of texts of various genres published in «Erkin-Too» newspaper in 2021. This study examines the difference between a linguistic corpus and texts posted on the Internet, why it is feasible to create corpora, and what the necessity is to do that in the current conditions of modern high technology. The main part of the article is devoted to the discussion of transferring the morphological features of the Kyrgyz corpus into the proposed equivalent symbols provided by special language portals for corpora according to world linguistic standards. Currently, the process of morphological annotation (mark up, tagging) has been subjected to more than one million word-forms of the Kyrgyz corpus. Since the process of morphological annotation is one of the most important principles of the linguistic corpus, its performance requires a lot of work and time of a large group of linguists. The paper also emphasizes the many benefits of using corpus linguistics in language teaching, language learning, and its use for scientific researches.
Ключевые слова на английском языке:Kyrgyz corpus; corpus linguistics; morphotactics; Turkic Lexicon Apertium; CQP; web platform; tagging; morphological annotation; free and bound morphemes