Источник: Китайская Народная Республика на русском языке –
Важный отказ от ответственности находится в нижней части этой статьи.
«Большие языковые модели в основном обучаются на китайском, английском и других языках, поэтому их понимание и генерация текста на тибетском языке оставляют желать лучшего, — говорит ЦайжанДунчжи, аспирант Сицзанского университета, занимающийся разработкой большой языковой модели на тибетском языке.—Ответам, которые дают обычные большие языковые модели, часто не хватает естественности, языкового чутья и аутентичного колорита тибетскогоязыка, в них слишком явно видны следыискусственного кодирования». Тибетская большая языковая модель, обучаемая на корпуса тибетского языка и мыслящая на тибетском, способна восполнить этот недостаток.
Дорджи Мэйцзю, продакт-менеджер большой языковой модели на тибетском языке DeepZang, рассказал, что для DeepZang собрано почти 70 миллионов единиц тибетско-китайского параллельного корпусаи более 30 500 часов записей устной речи на тибетском языке, которые охватывают три основные диалектные зоны: У-Цанг, Кам и Амдо.
По словам Дорджи Мэйцзю, в разных диалектных зонах используется единая письменность, но устная речь сильно различается. Благодаря обучению на корпусе тибетской речи из основных диалектных регионов ИИ способен поддерживать междиалектное общение на тибетском языке.Согласно информации о патенте компании JueluoDigitalIndustryCo., Ltd., разработчикаDeepZang,размещенном на сайтеГосударственное управление по правам интеллектуальной собственностиКНР, технология компании, сочетающая распознавание голосовых характеристик и классификацию диалектов, позволяет эффективно решить проблему коммуникации, вызванныеразличиями в диалектах.
Способностьраспознавать речь на разных диалектах позволяет эффективно снизить порог для использования большой языковой модели на тибетском языке. «Не нужно владеть письменным тибетским на высоком уровне, можно пользоваться ИИ с помощью голоса, и это поможет большему количеству людей», отмечает ЛосанДуньюйкоторый работает переводчиком с тибетского на китайский в городе ЛхокхаСицзанского автономного района.Его коллеги уже привыкли использовать большую языковую модели на тибетском языкев работе. «Раньше один текст переводили два-три человека и тратили около 40 минут. Теперь же, с помощью ИИ, один переводчик может справиться всего за 20 с лишним минут».
Согласно информации, предоставленной компанией JueluoDigital, сейчас у DeepZang более 300 000 пользователей, более 70% из которых — молодые люди в возрасте от 18 до 40 лет. «Наши пользователи в основном проживают в автономном районе Сицзан, провинциях Цинхай, Сычуань и Ганьсу, и очень многие из них — в довольно удаленных районах», — рассказалДорджи Мэйцзю.
В Сицзанеэлектросеть охватывает все уезды (районы, города), а 70% волостей и сел имеют доступ к сетям 5G. Благодаря развитию электро- и телекоммуникационной инфраструктуры ИИ на тибетском языке поможет еще большему числу носителей тибетского языка.
Примите к сведению; Эта информация является необработанным контентом, полученным непосредственно от источника информации. Она представляет собой точный отчет о том, что утверждает источник, и не обязательно отражает позицию MIL-OSI или ее клиентов.
