Привет, нуб на связи. Я не очень в сайенс сторону

Question

Привет, нуб на связи. Я не очень в сайенс сторону

дата-сайенса. Я обычный разработчик.

Есть условная задача - имеет несколько десятков тысяч текстовых неструктурированных записей о людях, и их надо структурировать. определить из данных структуру, и разложить данные по ней.

Я уверен, что задача условно тривиальная, можете посоветовать с какой стороны к ней подходить и нужно ли подходить к задаче консервативно (условно пандас и пара либ по теме), или есть готовыемодели, которые помогут выполнить какую либо часть этих задач?

Буду благодарен за любые подсказки.

#nlp #programming #russian

0

27.07.2023

3 ответов

47 просмотров

WaveCut Автор вопроса

նիկիտա ki ta ~
привет! что собираешься делать с этими данными, ты...

было бы неплохо разложить их автоматически хотябы на кластеры одного уровня, чтобы создать табличку

0

27.07.2023

Vladimir P

WaveCut
было бы неплохо разложить их автоматически хотябы ...

Попробуй тематическое моделирование, в нем предполагается автоматически определить темы документов. BERTopic с дефолтными параметрами неплохо работает, хотя все равно лучше параметры подбирать, тут есть советы по настройке этого алгоритма https://maartengr.github.io/BERTopic/getting_started/tips_and_tricks/tips_and_tricks.html Ещё мог бы gpt-3.5 помочь, но там контекстное окно максимум 16к токенов, скорей всего все данные и не влезут

0

27.07.2023

նիկիտա ki ta ~ · Accepted Answer

նիկիտա ki ta ~

привет! что собираешься делать с этими данными, ты уже знаешь, какую структуру ищешь в них, или хочешь, чтобы модель сама сказала, какая в них структура и разложила?

0

27.07.2023

170 похожих чатов

Привет, нуб на связи. Я не очень в сайенс сторону

3 ответов

Похожие вопросы