Всем привет! Такой вопрос. Стоит ли идти в NLP, если

интересно изучение языков и программирование? Насколько вообще ежедневные задачи близки к лингвистике? Чем обычно занимаются NLP-специалисты в России?

18 ответов

17 просмотров

regex, tf idf, logreg

Я думаю что NLP очень забавная область сейчас и если есть интерес, то надо попробовать Есть узкие области, которые близки к лингвистике, их становится всё меньше, потому что generic-методы начинают работать лучше специфичных. Мне сложно сказать какие задачи самые частые в NLP. Я знаю много людей, которые пилят диалоговых ассистентов типа Алисы, много людей, которые автоматизируют куски техподдержки, народ который занимается машинным переводом итд. Но это моя выборка и задач на самом деле довольно много.

Vasiliy-Chernyakov Автор вопроса

Благодарю за развёрнутый ответ

Нудны лингвисты это отличная опечатка

я вот делаю виртуального ассистента. Больно, минимум МЛ, страшно, но надо. :D

Стоит, и языки учить тоже надо. Потому что иногда возникают ежедневные задачи не для русского и не для английского. Нам щас модель для китайского трейнит девушка, которая по образованию переводчица. И она хотя бы может оценить, что модель выдает не чушь)

Vasiliy-Chernyakov Автор вопроса

Интересно.

Вау, как круто! А как она в ds ушла? А вы какая компания? Я как-то у Хуавей спросил как они тренят модель для китайского, если китайский не знают . Ответ потряс "а мы с гугловской по метрикам сравниваем" 🤣

После курсов У нас медицинские тексты - только по метрикам сравнивать нехорошо

А знание китайского дало какое-то преимущество при найме, не подскажите?)

Стоит, но нужно будет поискать компании где делают много своих исследований NLP, а не внедряют готовые модели. Про знание языков все зависит от задач. В России понятное дело много связано с русскими моделями. Азиаты обычно фокусируются на английском+CJK. Но есть много компаний где нужно работать с многоязычным моделями. У нас например типичную модель нужно скейлить сначала на 16 языков, а потом на 30. Так что знание конкретного языка не очень важно, зато важно общее понимание как языки устроены и в чем различаются.

Vasiliy-Chernyakov Автор вопроса

Спасибо за ответ

Вообще, с дивана кажется, что лингвистика в nlp всё-таки нужна. Дата саентисты без знания лингвистики, бегают со своими бертами, трансформерами и радуются каждому улучшению какой-то метрики. Но потом сам встречаешь голосового помощника или бота в проде и тут начинается ад из-за его тупости))

Вы уверены, что в лингвистике дело?)

конечно нет, ведь в текущем fit.predict ее толком нет )

Мне кажется там все циклами происходит: 1) Мы сейчас построим bag of words и начнем решать простые задачи 2) Ой, качества наших моделей не хватает, давайте понимать язык, строить леммы, разбираться в морфологии и строить фичи на основе все этого. 3) А смотрите у меня есть Берт и я получаю минимум такое же качество на практически голом исходном тексте без всякой лингвистики 4) Ой, качества опять не хватает, давайте опять вернёмся к лингвистике. Ещё отдельная засада что английский язык во многом очень простой и то что в нем тривиально делается, типа той же лемматизации и токенизация внезапно оказывается большой проблемой в других языках типа японского или не дай бог тайского.

По идее большая часть лингвистики должна случаться до fit.predict

Вот я — лингвист, который занимается NLP. Тут нужно сначала разделить лингвистов: теоретическая лингвистика — это не очень близко к лингвисту-переводчику по программе, и тем более к "люблю изучать иностранные языки в качестве хобби и смотреть сериалы на английском". В целом лингвистика полезна, конечно, Emely Bender про это много пишет, если нужны аргументы "за". Не каждый день, но иногда очень неожиданно пригождается и экономит много времени, как, наверное, любое понимание предметной области — знаешь, что посчитать / где поискать.

Похожие вопросы

Обсуждают сегодня

Эх кто-то пришел и весь праздник испортил :( You need complex FBX scene importing setup to change things on import? good luck with that. You need navigation and pathfinding? g...
Serg Gini
5
есть спецы по гитлабу? нужно решить проблему того, что гитлаб не показывает файлы с расширением txt в артефактах и предлагает их скачать и смотреть локально. а это неудобно. в...
Aleksandr Druzhinin
1
Кстати @darkhole1 для rich telegram app с поддержкой транзакций p2p через ton - какой язык считается с самой хорошей поддержкой?
Serg Gini
3
Доброго времени суток. Сейчас я работаю над своей архитектурой Component / Systems. Если просто, это то что использовали до дробления на ECS. Потому что ECS это все таки нишев...
Vi
26
День добрый. Стандартная библиотека phobos (std.array) ссылается на внешнюю фунцию _d_newarrayUTrace и при сборке с ключом profile-gc эта ссылка остаётся неопределённой. Никак...
slacker linuxoid
5
Для меня наследование это просто удобство ради удобства. Без множественного наследования, это бесполезная вещь, но удобная. С множественным наследованием, это опасная, но мощн...
Vi
1
string xczhojoxueaflfhhygcc ="xczhojoxueaflfhhygcc"; long xczhojoxueaflfhhygcc_2 =1368962155; import std.conv: text; writeln(text(xczhojoxueaflfhhygcc, " ", xczhojoxueaflfhhyg...
Constantin_FV
6
на D можно построить абсолютно разный архитект, как объектный, так и нет, оч широкий простор для принятия решений. Однако проблема в том, что большинство книг об айтишной архи...
Constantin_FV
1
Здравствуйте. Есть спецы на языке D ? Есть проект (торговый бот) нужна долгосрочная поддержка на материальной основе) (достойная оплата) Подробности в лс.
6h123 6h123
1
Мтак. Небольшое расследование. Мы можем иметь по крайней мере 4 способа построения гуев: 1. Классические мутабельные контролы с последовательной сборкой. 2. DSL в конструкторе...
Constantin_FV
6
Карта сайта