На самом деле со стороны очень захватывающая штука. Не знаю

Question

На самом деле со стороны очень захватывающая штука. Не знаю

как каждый день этим заниматься, но когда читаешь про все эти эмбеддинги, хвост встает.

Как, например, понять что значит произвольное слово, проанализировав кучу документов? Всё довольно просто - достаточно посмотреть, с кем оно тусуется. Например, "линукс", "ядро", "прыщи". Или "пхп", "анскилл", "неудачник". Туда-сюда, получается выделить синонимы, то слово, которое повторяется чаще всего ставишь главным синонимом, остальные "меряешь" им - например, "джун" почти всегда "нищеброд", у него допустим вес в 0.75 нищеброда, но не каждый нищеброд джун, поэтму сам нищеброд это только 0.1 джуна.

Но стоп, какие синонимы, если в тексте у нас есть склонения спряжения опечатки? Всё просто: надо привести слово к исходной форме. Что мы делаем? Да втупую отрезаем окончание. Яблоки, яблоко, яблоком - да поебать, "яблок" и всё. Короче, запускаешь спарк, работадель платит штуку баксов за пятнадцать минут серверов, необходимых для твоего оружия возмездия, хуяк - "видел" и "вижу" не шмогли объединиться, реколл и пресижен говно. Но ты все равно это заливаешь как есть, а сам читаешь про леммаизацию да качаешь pymorphy, пока никто не узнал что ты штуку баксов за просто так спалил.

А потом хуяк и короче феминитивы пошли. Не кодер, а кодерка. Чем они различаются? Кодерка короче всё то же самое, только по женским штукам угорает. Все весы одинаковые, только гендер в противоположную сторону ушел. И ты такой эврика! Надеваешь свои солнцезащитные очки, берешь снова этот датасет, выкидываешь гендер, еще больше синонимов! А потом просто играешься, переворачивая гендер у слов и прибавляя возможных опций регистрации у фейсбука.

#dot #programming #russian

0

20.02.2021

1 ответов

27 просмотров

エミリア・三木 · Answer 1

エミリア・三木

0

20.02.2021

169 похожих чатов

На самом деле со стороны очень захватывающая штука. Не знаю

1 ответов

Похожие вопросы