169 похожих чатов

Послушайте, любезные друзья! Мне пришла в голову отличная мысль для

стартапа, но я боюсь ее здесь расшарить, потому что она ОЧЕНЬ простая.
Ха-ха, обычная присказка, неудачника...
Но мой вопрос вот какой. Допустим есть 10.000 текстов в разных форматах (пдф, ппт, ворд), и я хочу классифицировать тексты на 5 категорий. Иногда классификация возможна просто по правилам (например, внутри есть определенный текст), а иногда надо какое-то понимание текста прикрутить (но классификатор для тренировки я готов вручную прикрутить).

Хочу сделать пилот.

Судя по всему, мне надо две (как минимум) библиотеки, одна для универсального чтения контента из разных файлов -> какую посоветуете?, и вторая для несложных нейросетей, какую попробовать?

14 ответов

42 просмотра

Все задачи связанные с обработкой текста, в т.ч. по классификации, потихоньку перекладывают на GPT, вроде как он сота решением считается Если стартап будет основан на либах с обработкой текста, ГПТ оч вероятно может ударить по Вашему стартапу

Идея выглядит интересно, только я, например, совершенно не понимаю, что это за пять категорий и для кого это вообще нужно. Если у вас есть ответы на эти вопросы и вы понимаете, что на это может быть спрос — флаг вам в руки и желаем удачи)) Что касается GPT, то ИМХО это не конкурент, если целиться на документы, которые не хочется пихать в openai api

Mikhail
Идея выглядит интересно, только я, например, совер...

Есть API от других провайдеров. Тот же MS недавно выкатил более corporate friendly SLA для GPT. OpenAI тоже по такому пути пошли. Ну и в крайнем случае, если речь идёт чисто о классификации документов, то это ведь можно и через open source LLM сделать. Единственное, у всех у них окно контекста не такое большое. Если документ можно классифицировать по первой N тысяче токенов, то тогда это вообще одноходовочка

Lexa- Автор вопроса
Mikhail
Идея выглядит интересно, только я, например, совер...

Если я вам всем скажу, что это за категории, вы тут же сами забабахаете этот стартап. Не страшно, если в РФ, меня больше тревожит Европа.

Lexa
Если я вам всем скажу, что это за категории, вы ту...

а точно никто такое не делал? https://t.me/startupoftheday/3297

Lexa- Автор вопроса
Philipp Upravitelev
а точно никто такое не делал? https://t.me/startup...

Может, кто и делал, но спрос на результат зародился где-то три месяца назад.

Lexa
Если я вам всем скажу, что это за категории, вы ту...

Я вас огорчу, любую отдельно взятую идею кто-то уже реализует в качестве мирового стартапа. Я не знаю, на каком bleeding edge и как долго нужно находиться, чтобы именно первому додуматься до какой-то хорошей идеи. Просто у большинства затей ключевым фактором успеха является исполнение. Сами-то идеи стоят дёшево.

Михаил Ad.fesha
Все задачи связанные с обработкой текста, в т.ч. п...

ну это крайне смелое заявление, куча задач остается, которая ГПТ не может, не хочет, да вообще не нужно

Давайте я вам накидаю, что можно посмотреть: - https://quanteda.io/index.html - это пакет, который к тексту относится как мешок со словами т.е. никаких модных фишек с трансформерами оно не умеет, но всякие базовые штуки Topic modeling(LDA) - оно умеет - https://sentometrics-research.com/sentometrics/articles/contributions/gopress.html - как понятно из названия - это про работу с эмоциональным окрасом текста - https://github.com/OscarKjell/text/ - это обертка для моделей на Hugging Face, обертка не позволит дообучать модели, но делать инференцы - это пожалуйста. Соответсвенно там будут все новомодные плюшки с BERT, Transformers, LLaMAA - https://github.com/chainsawriot/grafzahl/tree/v0.1 - еще одна обертка к моделям Hugging Face

Lexa
Если я вам всем скажу, что это за категории, вы ту...

Вы серьезно?))) думаете в Европе все тупые?) и никто не додумался до того, что вы придумали?)

Классификация «с учителем» или без?

Lexa- Автор вопроса
Alexey Ivanov
Классификация «с учителем» или без?

По началу с, но вообще надо потом как-то организовать ноледж трансфер, что ли.

Lexa- Автор вопроса
Ed P
Я вас огорчу, любую отдельно взятую идею кто-то уж...

Вы меня не огорчите, сам был и стартапером и ментором проектов. Но, подумав, решил рассказать, в чём идея.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта