О Задорновщине, филологах и нейросетях
Михаил Николаевич Задорнов, известный сатирик, на склоне своих лет заинтересовался темой генезиса Русского языка и довольно успешно продвинул в массы идею о том, что мы можем рассматривать слова не только морфологически, но и через, так называемые «слогокорни». Например, мы можем прочитать слово «радуга», как «ра-дуга». М.Н. подметил, что слог «ра» используется во многих словах, прямо, или метафорически связанных со светом (рассвет, радость) и понимание таких нюансов обогащает наше чувство родной речи. Подобное вольное обращение с языком приводит в законное бешенство лингвистов, которые язык давно изучили вдоль и поперёк.
Эта статья написана в продолжение О различении естественных языков для обучения ИИ, поскольку вокруг её тезисов случился спор с профильными учёными.
Это же пренебрежение сегодня транслируется и на технологии работы с генеративными языковыми моделями, т.н. «трансформерами», которые тоже развиваются силами учёных-лингвистов, готовящих для них обучающие выборки и производящих всякие эксперименты на предмет сравнения качества и выработки оптимальных подходов к обучению текстовых нейросетей.
Однако, при более внимательном рассмотрении темы, в ней всплывает ряд пикантных подробностей, связанных с тем, что способности ИИ радикально меняют не только подход к автоматизации, но и к спектру маркеров, на которые теперь можно и нужно обращать внимание.
Речь вот о чём: модель языка, на которую опираются и филологи и лингвисты основана на трёх тезисах: последовательность, морфология, однозначность. И всем, кто занимается языком монопредметно, без связи с другими дисциплинами, в этой конструкции уютно.
Если же мы присмотримся ближе к трансформерам, то увидим в них ни что иное, как узаконенное мракобесие слогокорневой обработки, которое, чтобы было не так стыдно, маскируется красивой позицией «мы не знаем, какие признаки выбирает ИИ». Мы не учим ИИ морфологии, мы говорим «разберись сам». Одновременно, внимание (attention) преодолевает тезис последовательности, а сама нейронная конструкция не имеет ничего общего с однозначностью. Кто может сказать, с какой вероятностью он там «видит» не научно, а вульгарно? Я бы ожидал 50/50 одновременно. Формально же подходя к вопросу, статистическое разбиение на токены — это отказ от морфологической методической базы и сдача научных позиций. С фразами, в целом, та же история, что и со словами.
Поэтому, когда мы обсуждаем, принимать ли нам во внимание Задорновщину, нам необходимо объективно различать, когда мы исследуем ли сам язык, а когда — его модель.
Если мы исследуем язык, то нам необходимо поднять теоретический вопрос «а что же ИИ там увидит при своём вульгарном подходе?» и практический вопрос «а не можем ли мы ему чем-то помочь?».
А если мы исследуем научную модель языка, то должны явно обозначать, что мы обсуждаем не реальность, а содержимое головы лигнвистов. Это тоже важное дело, но вот только в прямом приложении к народному хозяйству результат такого подхода вылился в эпичный фейл рекурентных моделей. 15 лет откровенно слабых результатов на концепции последовательной обработки.
Теперь выйдем в метапредметную область. В ней мы обнаружим, что учёными в отношении Задорновщины некорректно ставится сам изначальный вопрос: лингвисты начинают с выяснения «может ли Задорновщина вообще существовать?» и, в рамках своей модели, не находят для её возникновения никаких условий. Но для метапредметного исследования нам глубоко вторично, лежат ли слогокорни в основе языка, или это просто глюк. В нашей предыдущей статье мы показываем, что это не «просто глюк», а вполне ожидаемый естественный этап эволюции языка, когда складывать слово из понятий уже было необходимо, а морфологизировать — ещё нет. Однако, для настоящего обсуждения это не важно, а важно то, что на сегодня данный феномен — устойчивый «глюк», который отлично считывается подсознанием, а значит он несёт управляющее воздействие. Нам в этот момент передают привет психология, НЛП и обычные тёмные граждане, не знающие, что их глючит.
Раз речь пошла о метапредметности, уместен будет смежный пример. Генетики сегодня уже знают, что геном, хотя и является строгой последовательностью, в своей физической форме он смят в комок. При этом пространственная близость последовательностно далёких участков цепочки влияет на частоту их распаковки. Получается что-то типа LoRa: вроде ручки знают откуда расти, но под действием внешних факторов могут сильно отличаться, а если шибко нагрузить систему, то, условно говоря, вместо ручек будут лапки.
Может ли с языком быть такая же история? Быть может, те последовательно закодированные слова, которые могут быть перекрёстно проинтерпретированы слогокорнями, получают в мозгу повышенную связность и улучшают свою живучесть в общем корпусе? Может быть, даже это влияет на приживаемость заимствований?
Метапредметный учёный не может игнорировать реальность других дисциплин? А что такое речевые ИИ, как не метапредметная область?
Но вопрос, который я хотел поднять, в другом: может ли монопредметный учёный в XXI веке себе позволить не понимать границ действия своей теории?