как каждый день этим заниматься, но когда читаешь про все эти эмбеддинги, хвост встает.
Как, например, понять что значит произвольное слово, проанализировав кучу документов? Всё довольно просто - достаточно посмотреть, с кем оно тусуется. Например, "линукс", "ядро", "прыщи". Или "пхп", "анскилл", "неудачник". Туда-сюда, получается выделить синонимы, то слово, которое повторяется чаще всего ставишь главным синонимом, остальные "меряешь" им - например, "джун" почти всегда "нищеброд", у него допустим вес в 0.75 нищеброда, но не каждый нищеброд джун, поэтму сам нищеброд это только 0.1 джуна.
Но стоп, какие синонимы, если в тексте у нас есть склонения спряжения опечатки? Всё просто: надо привести слово к исходной форме. Что мы делаем? Да втупую отрезаем окончание. Яблоки, яблоко, яблоком - да поебать, "яблок" и всё. Короче, запускаешь спарк, работадель платит штуку баксов за пятнадцать минут серверов, необходимых для твоего оружия возмездия, хуяк - "видел" и "вижу" не шмогли объединиться, реколл и пресижен говно. Но ты все равно это заливаешь как есть, а сам читаешь про леммаизацию да качаешь pymorphy, пока никто не узнал что ты штуку баксов за просто так спалил.
А потом хуяк и короче феминитивы пошли. Не кодер, а кодерка. Чем они различаются? Кодерка короче всё то же самое, только по женским штукам угорает. Все весы одинаковые, только гендер в противоположную сторону ушел. И ты такой эврика! Надеваешь свои солнцезащитные очки, берешь снова этот датасет, выкидываешь гендер, еще больше синонимов! А потом просто играешься, переворачивая гендер у слов и прибавляя возможных опций регистрации у фейсбука.
Обсуждают сегодня