стартапа, но я боюсь ее здесь расшарить, потому что она ОЧЕНЬ простая.
Ха-ха, обычная присказка, неудачника...
Но мой вопрос вот какой. Допустим есть 10.000 текстов в разных форматах (пдф, ппт, ворд), и я хочу классифицировать тексты на 5 категорий. Иногда классификация возможна просто по правилам (например, внутри есть определенный текст), а иногда надо какое-то понимание текста прикрутить (но классификатор для тренировки я готов вручную прикрутить).
Хочу сделать пилот.
Судя по всему, мне надо две (как минимум) библиотеки, одна для универсального чтения контента из разных файлов -> какую посоветуете?, и вторая для несложных нейросетей, какую попробовать?
Все задачи связанные с обработкой текста, в т.ч. по классификации, потихоньку перекладывают на GPT, вроде как он сота решением считается Если стартап будет основан на либах с обработкой текста, ГПТ оч вероятно может ударить по Вашему стартапу
Идея выглядит интересно, только я, например, совершенно не понимаю, что это за пять категорий и для кого это вообще нужно. Если у вас есть ответы на эти вопросы и вы понимаете, что на это может быть спрос — флаг вам в руки и желаем удачи)) Что касается GPT, то ИМХО это не конкурент, если целиться на документы, которые не хочется пихать в openai api
Есть API от других провайдеров. Тот же MS недавно выкатил более corporate friendly SLA для GPT. OpenAI тоже по такому пути пошли. Ну и в крайнем случае, если речь идёт чисто о классификации документов, то это ведь можно и через open source LLM сделать. Единственное, у всех у них окно контекста не такое большое. Если документ можно классифицировать по первой N тысяче токенов, то тогда это вообще одноходовочка
Если я вам всем скажу, что это за категории, вы тут же сами забабахаете этот стартап. Не страшно, если в РФ, меня больше тревожит Европа.
а точно никто такое не делал? https://t.me/startupoftheday/3297
Может, кто и делал, но спрос на результат зародился где-то три месяца назад.
Я вас огорчу, любую отдельно взятую идею кто-то уже реализует в качестве мирового стартапа. Я не знаю, на каком bleeding edge и как долго нужно находиться, чтобы именно первому додуматься до какой-то хорошей идеи. Просто у большинства затей ключевым фактором успеха является исполнение. Сами-то идеи стоят дёшево.
ну это крайне смелое заявление, куча задач остается, которая ГПТ не может, не хочет, да вообще не нужно
Давайте я вам накидаю, что можно посмотреть: - https://quanteda.io/index.html - это пакет, который к тексту относится как мешок со словами т.е. никаких модных фишек с трансформерами оно не умеет, но всякие базовые штуки Topic modeling(LDA) - оно умеет - https://sentometrics-research.com/sentometrics/articles/contributions/gopress.html - как понятно из названия - это про работу с эмоциональным окрасом текста - https://github.com/OscarKjell/text/ - это обертка для моделей на Hugging Face, обертка не позволит дообучать модели, но делать инференцы - это пожалуйста. Соответсвенно там будут все новомодные плюшки с BERT, Transformers, LLaMAA - https://github.com/chainsawriot/grafzahl/tree/v0.1 - еще одна обертка к моделям Hugging Face
Вы серьезно?))) думаете в Европе все тупые?) и никто не додумался до того, что вы придумали?)
Классификация «с учителем» или без?
По началу с, но вообще надо потом как-то организовать ноледж трансфер, что ли.
Вы меня не огорчите, сам был и стартапером и ментором проектов. Но, подумав, решил рассказать, в чём идея.
Обсуждают сегодня