169 похожих чатов

Послушайте, любезные друзья! Мне пришла в голову отличная мысль для

стартапа, но я боюсь ее здесь расшарить, потому что она ОЧЕНЬ простая.
Ха-ха, обычная присказка, неудачника...
Но мой вопрос вот какой. Допустим есть 10.000 текстов в разных форматах (пдф, ппт, ворд), и я хочу классифицировать тексты на 5 категорий. Иногда классификация возможна просто по правилам (например, внутри есть определенный текст), а иногда надо какое-то понимание текста прикрутить (но классификатор для тренировки я готов вручную прикрутить).

Хочу сделать пилот.

Судя по всему, мне надо две (как минимум) библиотеки, одна для универсального чтения контента из разных файлов -> какую посоветуете?, и вторая для несложных нейросетей, какую попробовать?

14 ответов

39 просмотров

Все задачи связанные с обработкой текста, в т.ч. по классификации, потихоньку перекладывают на GPT, вроде как он сота решением считается Если стартап будет основан на либах с обработкой текста, ГПТ оч вероятно может ударить по Вашему стартапу

Идея выглядит интересно, только я, например, совершенно не понимаю, что это за пять категорий и для кого это вообще нужно. Если у вас есть ответы на эти вопросы и вы понимаете, что на это может быть спрос — флаг вам в руки и желаем удачи)) Что касается GPT, то ИМХО это не конкурент, если целиться на документы, которые не хочется пихать в openai api

Mikhail
Идея выглядит интересно, только я, например, совер...

Есть API от других провайдеров. Тот же MS недавно выкатил более corporate friendly SLA для GPT. OpenAI тоже по такому пути пошли. Ну и в крайнем случае, если речь идёт чисто о классификации документов, то это ведь можно и через open source LLM сделать. Единственное, у всех у них окно контекста не такое большое. Если документ можно классифицировать по первой N тысяче токенов, то тогда это вообще одноходовочка

Lexa- Автор вопроса
Mikhail
Идея выглядит интересно, только я, например, совер...

Если я вам всем скажу, что это за категории, вы тут же сами забабахаете этот стартап. Не страшно, если в РФ, меня больше тревожит Европа.

Lexa
Если я вам всем скажу, что это за категории, вы ту...

а точно никто такое не делал? https://t.me/startupoftheday/3297

Lexa- Автор вопроса
Philipp Upravitelev
а точно никто такое не делал? https://t.me/startup...

Может, кто и делал, но спрос на результат зародился где-то три месяца назад.

Lexa
Если я вам всем скажу, что это за категории, вы ту...

Я вас огорчу, любую отдельно взятую идею кто-то уже реализует в качестве мирового стартапа. Я не знаю, на каком bleeding edge и как долго нужно находиться, чтобы именно первому додуматься до какой-то хорошей идеи. Просто у большинства затей ключевым фактором успеха является исполнение. Сами-то идеи стоят дёшево.

Михаил Ad.fesha
Все задачи связанные с обработкой текста, в т.ч. п...

ну это крайне смелое заявление, куча задач остается, которая ГПТ не может, не хочет, да вообще не нужно

Давайте я вам накидаю, что можно посмотреть: - https://quanteda.io/index.html - это пакет, который к тексту относится как мешок со словами т.е. никаких модных фишек с трансформерами оно не умеет, но всякие базовые штуки Topic modeling(LDA) - оно умеет - https://sentometrics-research.com/sentometrics/articles/contributions/gopress.html - как понятно из названия - это про работу с эмоциональным окрасом текста - https://github.com/OscarKjell/text/ - это обертка для моделей на Hugging Face, обертка не позволит дообучать модели, но делать инференцы - это пожалуйста. Соответсвенно там будут все новомодные плюшки с BERT, Transformers, LLaMAA - https://github.com/chainsawriot/grafzahl/tree/v0.1 - еще одна обертка к моделям Hugging Face

Lexa
Если я вам всем скажу, что это за категории, вы ту...

Вы серьезно?))) думаете в Европе все тупые?) и никто не додумался до того, что вы придумали?)

Классификация «с учителем» или без?

Lexa- Автор вопроса
Alexey Ivanov
Классификация «с учителем» или без?

По началу с, но вообще надо потом как-то организовать ноледж трансфер, что ли.

Lexa- Автор вопроса
Ed P
Я вас огорчу, любую отдельно взятую идею кто-то уж...

Вы меня не огорчите, сам был и стартапером и ментором проектов. Но, подумав, решил рассказать, в чём идея.

Похожие вопросы

Обсуждают сегодня

30500 за редактор? )
Владимир
47
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Подскажите пожалуйста, как в CustomDrawCell(Sender: TcxCustomGridTableView; ACanvas: TcxCanvas; AViewInfo: TcxGridTableDataCellViewInfo; var ADone: Boolean); получить наз...
A Z
7
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
1
Он в одиночку это дело запилил или была какая-то команда?
Aquinary
12
~ 2m21s  nix shell github:nixos/nixpkgs#stack ~  stack ghc -- --version error: … while calling the 'derivationStrict' builtin at /builtin/derivation.nix:...
Rebuild your mind.
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Карта сайта