Послушайте, любезные друзья! Мне пришла в голову отличная мысль для

Question

Послушайте, любезные друзья! Мне пришла в голову отличная мысль для

стартапа, но я боюсь ее здесь расшарить, потому что она ОЧЕНЬ простая.
Ха-ха, обычная присказка, неудачника...
Но мой вопрос вот какой. Допустим есть 10.000 текстов в разных форматах (пдф, ппт, ворд), и я хочу классифицировать тексты на 5 категорий. Иногда классификация возможна просто по правилам (например, внутри есть определенный текст), а иногда надо какое-то понимание текста прикрутить (но классификатор для тренировки я готов вручную прикрутить).

Хочу сделать пилот.

Судя по всему, мне надо две (как минимум) библиотеки, одна для универсального чтения контента из разных файлов -> какую посоветуете?, и вторая для несложных нейросетей, какую попробовать?

#programming #r #russian

0

22.09.2023

14 ответов

70 просмотров

Mikhail

Идея выглядит интересно, только я, например, совершенно не понимаю, что это за пять категорий и для кого это вообще нужно. Если у вас есть ответы на эти вопросы и вы понимаете, что на это может быть спрос — флаг вам в руки и желаем удачи)) Что касается GPT, то ИМХО это не конкурент, если целиться на документы, которые не хочется пихать в openai api

0

22.09.2023

Ed P

Mikhail
Идея выглядит интересно, только я, например, совер...

Есть API от других провайдеров. Тот же MS недавно выкатил более corporate friendly SLA для GPT. OpenAI тоже по такому пути пошли. Ну и в крайнем случае, если речь идёт чисто о классификации документов, то это ведь можно и через open source LLM сделать. Единственное, у всех у них окно контекста не такое большое. Если документ можно классифицировать по первой N тысяче токенов, то тогда это вообще одноходовочка

0

22.09.2023

Lexa Автор вопроса

Mikhail
Идея выглядит интересно, только я, например, совер...

Если я вам всем скажу, что это за категории, вы тут же сами забабахаете этот стартап. Не страшно, если в РФ, меня больше тревожит Европа.

0

22.09.2023

Philipp Upravitelev

Lexa
Если я вам всем скажу, что это за категории, вы ту...

а точно никто такое не делал? https://t.me/startupoftheday/3297

0

22.09.2023

Lexa Автор вопроса

Philipp Upravitelev
а точно никто такое не делал? https://t.me/startup...

Может, кто и делал, но спрос на результат зародился где-то три месяца назад.

0

22.09.2023

Ed P

Lexa
Если я вам всем скажу, что это за категории, вы ту...

Я вас огорчу, любую отдельно взятую идею кто-то уже реализует в качестве мирового стартапа. Я не знаю, на каком bleeding edge и как долго нужно находиться, чтобы именно первому додуматься до какой-то хорошей идеи. Просто у большинства затей ключевым фактором успеха является исполнение. Сами-то идеи стоят дёшево.

0

22.09.2023

Dm Kb

Михаил Ad.fesha
Все задачи связанные с обработкой текста, в т.ч. п...

ну это крайне смелое заявление, куча задач остается, которая ГПТ не может, не хочет, да вообще не нужно

0

22.09.2023

Dm Kb

Давайте я вам накидаю, что можно посмотреть: - https://quanteda.io/index.html - это пакет, который к тексту относится как мешок со словами т.е. никаких модных фишек с трансформерами оно не умеет, но всякие базовые штуки Topic modeling(LDA) - оно умеет - https://sentometrics-research.com/sentometrics/articles/contributions/gopress.html - как понятно из названия - это про работу с эмоциональным окрасом текста - https://github.com/OscarKjell/text/ - это обертка для моделей на Hugging Face, обертка не позволит дообучать модели, но делать инференцы - это пожалуйста. Соответсвенно там будут все новомодные плюшки с BERT, Transformers, LLaMAA - https://github.com/chainsawriot/grafzahl/tree/v0.1 - еще одна обертка к моделям Hugging Face

0

22.09.2023

@quadrivium

Lexa
Если я вам всем скажу, что это за категории, вы ту...

Вы серьезно?))) думаете в Европе все тупые?) и никто не додумался до того, что вы придумали?)

0

22.09.2023

Alexey Ivanov

Классификация «с учителем» или без?

0

22.09.2023

Lexa Автор вопроса

Dm Kb
Давайте я вам накидаю, что можно посмотреть: - htt...

Спасибо

0

22.09.2023

Lexa Автор вопроса

Alexey Ivanov
Классификация «с учителем» или без?

По началу с, но вообще надо потом как-то организовать ноледж трансфер, что ли.

0

22.09.2023

Lexa Автор вопроса

Ed P
Я вас огорчу, любую отдельно взятую идею кто-то уж...

Вы меня не огорчите, сам был и стартапером и ментором проектов. Но, подумав, решил рассказать, в чём идея.

0

22.09.2023

Михаил Ad.fesha · Accepted Answer

Все задачи связанные с обработкой текста, в т.ч. по классификации, потихоньку перекладывают на GPT, вроде как он сота решением считается Если стартап будет основан на либах с обработкой текста, ГПТ оч вероятно может ударить по Вашему стартапу

169 похожих чатов

Послушайте, любезные друзья! Мне пришла в голову отличная мысль для

14 ответов

Похожие вопросы