В сети запустили сайт Национального корпуса Башкирского языка – это база текстов на башкирском, в которой есть как художественные книги, так и газеты, журналы, законы и даже статьи из Wikipedia.
Собственный национальный корпус есть у каждого крупного языка. Он пополняется лингвистами и языковыми активистами. Башкирский корпус, например, создан волонтерами сообщества «Башкирские проекты», которые использовали компьютерную программу уроженца Уфы Бориса Орехова, ныне – доцента Школы лингвистики НИУ «Высшая школа экономики». Программа делает морфологический анализ каждого слова, составляет словарь.
– Национальный корпус способствует сохранению родного языка, помогает в преподавании и научных исследованиях, а также может быть базой для разработки сложных систем искусственного интеллекта, понимающих башкирский язык, - пояснили активисты.
Сейчас в базе 20 миллионов словоупотреблений. Но это немного – примерно 180 томов бумажной литературы. Корпус планируют активно пополнять. Уже сейчас пользователи могут проверить, правильно ли они используют в речи слова, а также почитать газеты, журналы и книги.
У нас есть группа во «ВКонтакте»! Подписывайтесь, и узнавайте обо всем самом интересном, что происходит в Уфе и в мире!
Комментарии (0)