169 похожих чатов

Послушайте, любезные друзья! Мне пришла в голову отличная мысль для

стартапа, но я боюсь ее здесь расшарить, потому что она ОЧЕНЬ простая.
Ха-ха, обычная присказка, неудачника...
Но мой вопрос вот какой. Допустим есть 10.000 текстов в разных форматах (пдф, ппт, ворд), и я хочу классифицировать тексты на 5 категорий. Иногда классификация возможна просто по правилам (например, внутри есть определенный текст), а иногда надо какое-то понимание текста прикрутить (но классификатор для тренировки я готов вручную прикрутить).

Хочу сделать пилот.

Судя по всему, мне надо две (как минимум) библиотеки, одна для универсального чтения контента из разных файлов -> какую посоветуете?, и вторая для несложных нейросетей, какую попробовать?

14 ответов

10 просмотров

Все задачи связанные с обработкой текста, в т.ч. по классификации, потихоньку перекладывают на GPT, вроде как он сота решением считается Если стартап будет основан на либах с обработкой текста, ГПТ оч вероятно может ударить по Вашему стартапу

Идея выглядит интересно, только я, например, совершенно не понимаю, что это за пять категорий и для кого это вообще нужно. Если у вас есть ответы на эти вопросы и вы понимаете, что на это может быть спрос — флаг вам в руки и желаем удачи)) Что касается GPT, то ИМХО это не конкурент, если целиться на документы, которые не хочется пихать в openai api

Mikhail
Идея выглядит интересно, только я, например, совер...

Есть API от других провайдеров. Тот же MS недавно выкатил более corporate friendly SLA для GPT. OpenAI тоже по такому пути пошли. Ну и в крайнем случае, если речь идёт чисто о классификации документов, то это ведь можно и через open source LLM сделать. Единственное, у всех у них окно контекста не такое большое. Если документ можно классифицировать по первой N тысяче токенов, то тогда это вообще одноходовочка

Lexa- Автор вопроса
Mikhail
Идея выглядит интересно, только я, например, совер...

Если я вам всем скажу, что это за категории, вы тут же сами забабахаете этот стартап. Не страшно, если в РФ, меня больше тревожит Европа.

Lexa
Если я вам всем скажу, что это за категории, вы ту...

а точно никто такое не делал? https://t.me/startupoftheday/3297

Lexa- Автор вопроса
Philipp Upravitelev
а точно никто такое не делал? https://t.me/startup...

Может, кто и делал, но спрос на результат зародился где-то три месяца назад.

Lexa
Если я вам всем скажу, что это за категории, вы ту...

Я вас огорчу, любую отдельно взятую идею кто-то уже реализует в качестве мирового стартапа. Я не знаю, на каком bleeding edge и как долго нужно находиться, чтобы именно первому додуматься до какой-то хорошей идеи. Просто у большинства затей ключевым фактором успеха является исполнение. Сами-то идеи стоят дёшево.

Михаил Ad.fesha
Все задачи связанные с обработкой текста, в т.ч. п...

ну это крайне смелое заявление, куча задач остается, которая ГПТ не может, не хочет, да вообще не нужно

Давайте я вам накидаю, что можно посмотреть: - https://quanteda.io/index.html - это пакет, который к тексту относится как мешок со словами т.е. никаких модных фишек с трансформерами оно не умеет, но всякие базовые штуки Topic modeling(LDA) - оно умеет - https://sentometrics-research.com/sentometrics/articles/contributions/gopress.html - как понятно из названия - это про работу с эмоциональным окрасом текста - https://github.com/OscarKjell/text/ - это обертка для моделей на Hugging Face, обертка не позволит дообучать модели, но делать инференцы - это пожалуйста. Соответсвенно там будут все новомодные плюшки с BERT, Transformers, LLaMAA - https://github.com/chainsawriot/grafzahl/tree/v0.1 - еще одна обертка к моделям Hugging Face

Lexa
Если я вам всем скажу, что это за категории, вы ту...

Вы серьезно?))) думаете в Европе все тупые?) и никто не додумался до того, что вы придумали?)

Классификация «с учителем» или без?

Lexa- Автор вопроса
Alexey Ivanov
Классификация «с учителем» или без?

По началу с, но вообще надо потом как-то организовать ноледж трансфер, что ли.

Lexa- Автор вопроса
Ed P
Я вас огорчу, любую отдельно взятую идею кто-то уж...

Вы меня не огорчите, сам был и стартапером и ментором проектов. Но, подумав, решил рассказать, в чём идея.

Похожие вопросы

Обсуждают сегодня

а зачем этот вопрос для удаления из чата?
Mёdkinson Medvezhkin
63
Добрый день. Хочу сделать отрисовку по команде на панели. Почему-то рисуется только при втором вызове. С чем может быть связано, не подскажете? procedure TForm1.FormDblClick(...
Kirill Filippenok
20
Всем доброго дня! Подскажите может кто использовал связку Pagebuilder + Clientsetting. Сами параметры с типом pagebuilder в модуле Clientsetting работают нормально, можно такж...
Александр Добриков
12
А почему в си некоторые вещи работают с двойными кавычками некоторые с одинарными? Нельзя было все сделать с одними или чтоб работало с разными? например чтоб выводить строки ...
.
15
Всем привет! Нужен совет от опытных. Переношу свой проект с Делфи 10.2 Токио на Лазарус 3.2 установленный через инсталлятор fpcupdeluxe-x86_64-win64. При импортировании проект...
Дмитрий Завгородний
7
Эх кто-то пришел и весь праздник испортил :( You need complex FBX scene importing setup to change things on import? good luck with that. You need navigation and pathfinding? g...
Serg Gini
5
Всем привет! Подскажите. Я написал приложение на Delphi 10.2 Tokyo под Windows 10. И передо мной стал вопрос о том чтобы сделать это приложение кроссплатформенным (под Linux и...
Дмитрий Завгородний
24
Всем привет! procedure TForm1.FormCreate(Sender: TObject); type TStartEnd = record S: Byte; E: Byte; end; var a, b: TStartEnd; begin {1} a.S := 1; {2} a.E := 2; ...
Руслан Михайлович
10
Всем привет!) я тут новенький и пытаюсь освоить evolution методом тыка. У меня при переходе между папками файлов выскакивают вот такие уведомления Можете подсказать как их от...
Диман Samoed
10
Какого хера? /Sources/App/Modules/User/Models/UserLinkApple.swift:21:20: warning: stored property '_id' of 'Sendable'-conforming class 'UserLinkApple' is mutable @ID(...
Alexander Sherbakov
14
Карта сайта