интересно изучение языков и программирование? Насколько вообще ежедневные задачи близки к лингвистике? Чем обычно занимаются NLP-специалисты в России?
regex, tf idf, logreg
Я думаю что NLP очень забавная область сейчас и если есть интерес, то надо попробовать Есть узкие области, которые близки к лингвистике, их становится всё меньше, потому что generic-методы начинают работать лучше специфичных. Мне сложно сказать какие задачи самые частые в NLP. Я знаю много людей, которые пилят диалоговых ассистентов типа Алисы, много людей, которые автоматизируют куски техподдержки, народ который занимается машинным переводом итд. Но это моя выборка и задач на самом деле довольно много.
Благодарю за развёрнутый ответ
Нудны лингвисты это отличная опечатка
я вот делаю виртуального ассистента. Больно, минимум МЛ, страшно, но надо. :D
Стоит, и языки учить тоже надо. Потому что иногда возникают ежедневные задачи не для русского и не для английского. Нам щас модель для китайского трейнит девушка, которая по образованию переводчица. И она хотя бы может оценить, что модель выдает не чушь)
Интересно.
Вау, как круто! А как она в ds ушла? А вы какая компания? Я как-то у Хуавей спросил как они тренят модель для китайского, если китайский не знают . Ответ потряс "а мы с гугловской по метрикам сравниваем" 🤣
После курсов У нас медицинские тексты - только по метрикам сравнивать нехорошо
А знание китайского дало какое-то преимущество при найме, не подскажите?)
Стоит, но нужно будет поискать компании где делают много своих исследований NLP, а не внедряют готовые модели. Про знание языков все зависит от задач. В России понятное дело много связано с русскими моделями. Азиаты обычно фокусируются на английском+CJK. Но есть много компаний где нужно работать с многоязычным моделями. У нас например типичную модель нужно скейлить сначала на 16 языков, а потом на 30. Так что знание конкретного языка не очень важно, зато важно общее понимание как языки устроены и в чем различаются.
Спасибо за ответ
Вообще, с дивана кажется, что лингвистика в nlp всё-таки нужна. Дата саентисты без знания лингвистики, бегают со своими бертами, трансформерами и радуются каждому улучшению какой-то метрики. Но потом сам встречаешь голосового помощника или бота в проде и тут начинается ад из-за его тупости))
Вы уверены, что в лингвистике дело?)
конечно нет, ведь в текущем fit.predict ее толком нет )
Мне кажется там все циклами происходит: 1) Мы сейчас построим bag of words и начнем решать простые задачи 2) Ой, качества наших моделей не хватает, давайте понимать язык, строить леммы, разбираться в морфологии и строить фичи на основе все этого. 3) А смотрите у меня есть Берт и я получаю минимум такое же качество на практически голом исходном тексте без всякой лингвистики 4) Ой, качества опять не хватает, давайте опять вернёмся к лингвистике. Ещё отдельная засада что английский язык во многом очень простой и то что в нем тривиально делается, типа той же лемматизации и токенизация внезапно оказывается большой проблемой в других языках типа японского или не дай бог тайского.
По идее большая часть лингвистики должна случаться до fit.predict
Вот я — лингвист, который занимается NLP. Тут нужно сначала разделить лингвистов: теоретическая лингвистика — это не очень близко к лингвисту-переводчику по программе, и тем более к "люблю изучать иностранные языки в качестве хобби и смотреть сериалы на английском". В целом лингвистика полезна, конечно, Emely Bender про это много пишет, если нужны аргументы "за". Не каждый день, но иногда очень неожиданно пригождается и экономит много времени, как, наверное, любое понимание предметной области — знаешь, что посчитать / где поискать.
Обсуждают сегодня