дата-сайенса. Я обычный разработчик.
Есть условная задача - имеет несколько десятков тысяч текстовых неструктурированных записей о людях, и их надо структурировать. определить из данных структуру, и разложить данные по ней.
Я уверен, что задача условно тривиальная, можете посоветовать с какой стороны к ней подходить и нужно ли подходить к задаче консервативно (условно пандас и пара либ по теме), или есть готовыемодели, которые помогут выполнить какую либо часть этих задач?
Буду благодарен за любые подсказки.
привет! что собираешься делать с этими данными, ты уже знаешь, какую структуру ищешь в них, или хочешь, чтобы модель сама сказала, какая в них структура и разложила?
было бы неплохо разложить их автоматически хотябы на кластеры одного уровня, чтобы создать табличку
Попробуй тематическое моделирование, в нем предполагается автоматически определить темы документов. BERTopic с дефолтными параметрами неплохо работает, хотя все равно лучше параметры подбирать, тут есть советы по настройке этого алгоритма https://maartengr.github.io/BERTopic/getting_started/tips_and_tricks/tips_and_tricks.html Ещё мог бы gpt-3.5 помочь, но там контекстное окно максимум 16к токенов, скорей всего все данные и не влезут
Обсуждают сегодня