• Nenhum resultado encontrado

(2)От составителей Необходимость построения языковых машинных фондов – компьютерных хранилищ лингвистических данных – была осознана в конце 70 х – начале 80-х гг

N/A
N/A
Protected

Academic year: 2024

Share "(2)От составителей Необходимость построения языковых машинных фондов – компьютерных хранилищ лингвистических данных – была осознана в конце 70 х – начале 80-х гг"

Copied!
100
0
0

Texto

34;рабочее место лингвиста-компаративиста» (см. Старостин 1993), но оно имеет и множество функций, которые делают его полезным, например для корпусных исследований (Крылов 2008). Другим важным источником литературных мансийских текстов является газета Luima Seripos http:/ /www.khonty-yasang.ru/luima-seripos), выпускавшийся с 1989 г. по В этом репортаже мы хотим совершить экскурс в историю возникновения российского (советского) «корпусного строительства» в самом начале компьютерного кабинета. эпоха.

Это пока корпус устной речи, но уже началось формирование селькупского корпуса письменных текстов: http://siberian-lang.srcc.msu.ru (О.А. Казакевич). Эвенкийский и кетский корпуса письменных текстов находятся на стадии формирования: http://siberian-lang.srcc.msu.ru (О.А. Казакевич, Е.Л. Клячко, Ю.Е. Галямина). Корпус кетских и эвенкийских текстов // Студенческая сессия Международной конференции «Диалог» (2017) (http://www.dialog-21.ru/media/3990/kamaeva.pdf).

О словарях, работающих в данном программном комплексе, вы можете прочитать в статье: cfrl.ruslang.ru›dictionaries.shtm; в Википедии в Интернете в статье Фонд русской языковой машины; Статья Л. Обеспечивает доступ к ряду «оцифрованных» словарей русского языка (словарные статьи включают ссылки на традиционные типы словарей – преимущественно толковые, идеографические (включая синонимы и антонимы), неологизмов, языка художественной литературы, производные, комбинированные, словари фразеологические, ономастические, лингвострановедческие и энциклопедические словари), а также для ресурсов, доступных в сети Интернет: Викисловарь, порталы «Грамота.ру, Яндекс.словари» и др. Корпус «обязательного» чтения: (1) школьные учебники на все голоса; (2) классическая художественная литература, включенная в «школьную программу»; (3) учебники для университетов и колледжей по различным дисциплинам; (4) действующие законы государства (Конституция Российской Федерации 1993 г., Уголовный кодекс. УПК, комментарии к ним, нормы гражданского законодательства, правила дорожного движения).

Включает в себя как базы данных, отражающие библиографию трудов известных российских учёных, так и полнотекстовый электронный сборник публикаций в области русистики, оснащенный системой гипертекстового индекса (="Метасловарь русского языка").

МФРЯ: 35 лет спустя

Реляционные базы данных как инструмент русской лексикографии Удобным инструментом записи и переработки лексикографической

Типы метасловарей русского языка

Построение АТСТ РЯ

Особую оппозицию к брату невесты по принципу «свой/чужой» оказывают братья жениха, что отражается в реализации тезаурусной функции. Целое: семья против. незнакомцы; в постоянных оскорблениях: родственники против чужих, названных. Что касается приведенного выше списка, то только для существительного повет вместо вевет и для пары <пользада - пользала> (если второй термин не «ползала», а глагольная форма) синтаксический анализ теоретически может выявить в некоторых контекстах несоответствие. Запись МФНР в Интернете (www.irlras-cfrl.rema.ru, www.artint.ru/cfrl, www.tractor.de, cfrl.ru).

Среди корпусных проектов исследовательской группы Университета Тампере заслуживают внимания корпус художественных текстов ПарФин (словоупотребление) и ПарРус (словоупотребление) и корпус государственных контрактов PEST (552 190 словоупотреблений). В настоящее время создана виртуальная лаборатория «Лингводок» (lingvodoc.ispras.ru), ее лингвистическая составляющая разрабатывается под руководством Есть возможность анализировать данные, представленные спектрограммами Праата: создавать трехмерную систему гласных на основе расчета формант, анализировать данные по долготе, относительной и абсолютной интенсивности (это можно сделать, открыв нужный словарь и выбрав Инструменты > Опция). по фонологии).

Также есть опция Инструменты > Статистика, которая позволяет отслеживать активность каждого участника онлайн-работы с точностью до часа. Кроме того, в ЛингвоДоке есть возможность произвольной сложности поисковых запросов и их отражение на карте мира http://lingvodoc.ispras.ru/map_search. На данный момент в распоряжении команды был корпусный менеджер, разработанный в 2000-х годах для Восточноармянского национального корпуса: http://eanc.net/ На платформе этого менеджера, в рамках Программы Президиума РАН, корпус бурятского, калмыцкого, татарского, казахского, албанского, лувийского, монгольского, цыганского языков (все размещены на ресурсе http://web-corpora.net/).

В ходе образовательной и научной деятельности в рамках сотрудничества преподавателей и студентов на домене http:// были размещены корпуса удмуртских языков, новогреческого, тайского, амхарского, идиш языков, а также башкирский поэтический корпус. web-corpora.net / в течение 2012-2017 гг. [Архангельский 2014]. Архангельского, который как эксперт по работе с корпусным менеджером является также разработчиком платформы универсального языково-независимого морфологического анализатора UniParser [Архангельский 2014], используемого для разметки удмуртских, албанских, казахских и других текстовых коллекций. Унифицированный интерфейс корпусной платформы позволил создать универсальную веб-страницу для одновременного доступа ко всем корпусам, установленным на сервере http://web-corpora.net/.

В рамках проекта «Языки России» (http://web-corpora.net/minorlangs/) собраны коллекции текстов для будущих корпусов, которые будут иметь богатую социолингвистическую направленность. Разработаны современные средства визуализации (пока не реализованы по организационным причинам), составлены эскизы (http://linghub.ru/RNC_sketches/) и ведется работа над алгоритмами устранения морфологической неоднозначности в русском языке. Новые корпуса будут размещены на новом SHL-домене НИУ ВШЭ linghub.ru, который, как следует из названия, будет собирать различные ресурсы компьютерно-лингвистического характера, не ограничиваясь корпусами.

Интерактивный словарь будет создан на основе пяти изданий «Материалов к словарю метафор и сравнений русской литературы 19-20 веков». [Кожевникова, Петрова. Работа ведется в рамках более общего проекта «Динамика языковых контактов в циркумполярном регионе» (http://iling-ran.ru/main/departments/typol_compar/circumpolar).

Фрагмент расшифровки и разметки в программе ELAN

Метаразметка по рассказчикам

Метаразметка по текстам

В отчете будет представлен общий обзор этих корпусов; работа с некоторыми из них (корпус RLC языка XIX века) будет подробно рассмотрена на примерах. Среди наиболее известных корпусов русского языка — Национальный корпус русского языка (http://ruscorpora.ru/), Общий интернет-корпус русского языка (http://www.webcorpora.ru/), Интернет-корпус русского языка, созданный в Словацкой академии наук – Araneum Russicum (http://sketch.juls.savba.sk/aranea_about/_russicum.html), корпуса устной речи (http://spokencorpora.ru/) ). Прототипом РУСЛАН стал словарь системы FRAP (французско-русский автоматический перевод), разработанный под ее руководством в 1970-1980-х годах.

На сегодняшний день наши работы по молукканским языкам, содержащие словарные и текстовые данные, опубликованы в PDF-версии на сайте LALS http://lcl.srcc.msu.ru, что делает их доступными как лингвистам, так и представителям малых этнических сообществ. которые проявляют большой интерес к материалам по языкам, находящимся под угрозой исчезновения. В настоящее время одноименный интернет-проект, существующий с 2000 года по адресу http://poesis.ru, издал восемь книг. Имена поэтов взяты в хронологическом порядке с сайта (с http://www.poesis.ru/poeti-poezia/fr1970 hronolog.html.

Referências

Documentos relacionados

таким образом, полученные материалы позво­ ляют говорить не только о новом типе культовых скальных памятников, но и о том, что ритуальные действия на них начинаются уже в эпоху