имею в виду помимо частотного анализа , можно же сделать какой-то NLP и тп. Посоветуйте пожалуйста, не могу придумать.
Например делаю маркетинговый анализ для ниши тортов, нахожу тематические чаты, получаю 1м+ сообщений и что?
я бы начал всё таки с частотного и с формулировки задачи. А так вытащить можно много всего, например инты и всё что вокруг них с ограничениями в виде символов пунктуации, какие то определенные слова-маркеры интересующие вас и т.д.
Привет, спарсил чат ВМК, прошёлся регуляркой /w+ и получил корпус , дальше нормализовал его pymorphy2, потом долго векторизация, но не понял зачем она и просто сделал ordereddict Это подразумевалось по частотным анализом? Ниже небольшой отрывок после беглой чистки от междометий и тп. https 534 работа 493 gpt3 480 работать 462 запрос 435 результат 420 знать 379 человек 361 команда 356 группа 337 задача 319 мехмат 294 опыт 293
Обсуждают сегодня