Всем привет! Такой вопрос. Стоит ли идти в NLP, если

интересно изучение языков и программирование? Насколько вообще ежедневные задачи близки к лингвистике? Чем обычно занимаются NLP-специалисты в России?

18 ответов

43 просмотра

regex, tf idf, logreg

Я думаю что NLP очень забавная область сейчас и если есть интерес, то надо попробовать Есть узкие области, которые близки к лингвистике, их становится всё меньше, потому что generic-методы начинают работать лучше специфичных. Мне сложно сказать какие задачи самые частые в NLP. Я знаю много людей, которые пилят диалоговых ассистентов типа Алисы, много людей, которые автоматизируют куски техподдержки, народ который занимается машинным переводом итд. Но это моя выборка и задач на самом деле довольно много.

Vasiliy-Chernyakov Автор вопроса

Благодарю за развёрнутый ответ

Нудны лингвисты это отличная опечатка

я вот делаю виртуального ассистента. Больно, минимум МЛ, страшно, но надо. :D

Стоит, и языки учить тоже надо. Потому что иногда возникают ежедневные задачи не для русского и не для английского. Нам щас модель для китайского трейнит девушка, которая по образованию переводчица. И она хотя бы может оценить, что модель выдает не чушь)

Vasiliy-Chernyakov Автор вопроса

Интересно.

Вау, как круто! А как она в ds ушла? А вы какая компания? Я как-то у Хуавей спросил как они тренят модель для китайского, если китайский не знают . Ответ потряс "а мы с гугловской по метрикам сравниваем" 🤣

После курсов У нас медицинские тексты - только по метрикам сравнивать нехорошо

А знание китайского дало какое-то преимущество при найме, не подскажите?)

Стоит, но нужно будет поискать компании где делают много своих исследований NLP, а не внедряют готовые модели. Про знание языков все зависит от задач. В России понятное дело много связано с русскими моделями. Азиаты обычно фокусируются на английском+CJK. Но есть много компаний где нужно работать с многоязычным моделями. У нас например типичную модель нужно скейлить сначала на 16 языков, а потом на 30. Так что знание конкретного языка не очень важно, зато важно общее понимание как языки устроены и в чем различаются.

Vasiliy-Chernyakov Автор вопроса

Спасибо за ответ

Вообще, с дивана кажется, что лингвистика в nlp всё-таки нужна. Дата саентисты без знания лингвистики, бегают со своими бертами, трансформерами и радуются каждому улучшению какой-то метрики. Но потом сам встречаешь голосового помощника или бота в проде и тут начинается ад из-за его тупости))

Вы уверены, что в лингвистике дело?)

конечно нет, ведь в текущем fit.predict ее толком нет )

Мне кажется там все циклами происходит: 1) Мы сейчас построим bag of words и начнем решать простые задачи 2) Ой, качества наших моделей не хватает, давайте понимать язык, строить леммы, разбираться в морфологии и строить фичи на основе все этого. 3) А смотрите у меня есть Берт и я получаю минимум такое же качество на практически голом исходном тексте без всякой лингвистики 4) Ой, качества опять не хватает, давайте опять вернёмся к лингвистике. Ещё отдельная засада что английский язык во многом очень простой и то что в нем тривиально делается, типа той же лемматизации и токенизация внезапно оказывается большой проблемой в других языках типа японского или не дай бог тайского.

По идее большая часть лингвистики должна случаться до fit.predict

Вот я — лингвист, который занимается NLP. Тут нужно сначала разделить лингвистов: теоретическая лингвистика — это не очень близко к лингвисту-переводчику по программе, и тем более к "люблю изучать иностранные языки в качестве хобби и смотреть сериалы на английском". В целом лингвистика полезна, конечно, Emely Bender про это много пишет, если нужны аргументы "за". Не каждый день, но иногда очень неожиданно пригождается и экономит много времени, как, наверное, любое понимание предметной области — знаешь, что посчитать / где поискать.

Похожие вопросы

Обсуждают сегодня

Он в одиночку это дело запилил или была какая-то команда?
Aquinary
12
Вообще кстати бывают такие тулкиты чтобы вот разработал под ОС X, всё оттестировал работает А потом собрал под ОС Y - и там просто без вообще любых изменений заработало?
Serg Gini
14
всем привет, кто знает нормальный гайд как настроить отладчик в Intelij на Windows?
QUAD69
6
А, вообще, знает кто-нить альтернативы D в области безопасных, читабельных ОО-языков?
Nik Lan
14
Работа над эдишенами там какая-то ведется? Или пока что тишина?
Serg Gini
1
приветствую. хочу сделать себе D Playground вопрос: можете подсказать с чего мне следует начать и в какую сторону двигаться? P.S.: я не являюсь программистом... но в небольш...
dd
5
а как в dub выключить дебажный билд?
Maxim Filimonov
12
Что кто фри селф хостинг там практикует? Через tunnel?
Serg Gini
8
А что непонятного? В чем сложность взять слайс от вектора? И работать как обычно. Какие-то выдумки опять на ровной почве. Да и RAII в ди прекрасно работает с самого начала.
Aleksandr Druzhinin
14
а почему, кстати, геймдевы обращают такое внимание на "новые" языки типа того же D (а также Zig)?
Maxim Filimonov
9
Карта сайта