но есть вопрос касательно обработки естественных языков, а именно задачи машинного перевода: почему ещё нет идеального переводчика? Немного предыстории: Я пытаюсь изучить английский язык, чтобы читать SICP, Таненбаума и смотреть контент, выпускаемый на английском. Я столкнулся с тем, что я не осиляю английский. Так вышло, что вот ниггеры в Дейтроите осилили, а я в Томске не осилил. И задался вопросом: а что если и учить уже не надо, вроде бы технический прогресс впереди планеты всей, наверное и переводчики уже есть крутые, которые идеально справляются с контекстом и могут книги пачками переводить. Но чё-то нет. Пошёл гуглить. Попал сюда. Думаю... Нифига себе. Потом смотрю на дату и такой: Н@#*я себе. И вот если уже 11 лет назад люди понимали тему так, неужели ничего не сдвинулось с мёртвой точки и до сих пор нет идеального переводчика, в которого можно кинуть какую-нибудь пдфку оригинала компьютерных сетей Таненбаума и получить, пускай минут через пять, бог с ним, перевод на любой другой язык?
В последние лет 5 основной вид моделей для машинного перевода – это нейросети типа "трансформер". Они хорошо переводят тексты размером с предложение или небольшой абзац, но чисто вычислительно очень плохо масштабируются на длинные тексты. Поэтому примерно все автопереводчики учитывают контекст только локально. И для большинства задач этого примерно хватает, а случаи, когда необходим контекст далёкий, сложно находить, регистрировать, и измерять. Другая проблема с переводом в том, что все современные модели 100% data-driven (ибо машиннообученные), а значит, если какой-то домен был в обучающих данных плохо представлен, то и качество перевода на этом домене не обещает быть хорошим. Но если нейронка училась, скажем, на корпусе Европарламента, то и переводить тексты по международному праву она будет весьма качественно. Вывод: идеальные переводчики уже есть (или могут быть созданы), но – специализированные.
Обсуждают сегодня