170 похожих чатов

Коллеги,Добрый вечер. У меня текст был разбит на несколько токенов.

Все прекрасно, да вот беда: в нем очень часто идут повторения слов. Например первые три строки можно отнести к одному токену, удалив первые два. Как это можно сделать?

23 ответов

60 просмотров

str.split()

Можно префиксное дерево построить

Вы хотите, чтобы вторая строка была абажур + на и третья абажур + на + лампе?

Владимир-Кузовкин Автор вопроса
Milana
Вы хотите, чтобы вторая строка была абажур + на и ...

я хочу, чтобы он просто убрал первые две фразы. Третья фраза очевидна

Futorio Franklin
Можно префиксное дерево построить

я так понял вопрос не в оптимальном хранении, а в дедупликации

Alexey Korobeynikov
я так понял вопрос не в оптимальном хранении, а в ...

А я не знаю как оптимально в дедупликации сделать

Владимир Кузовкин
я хочу, чтобы он просто убрал первые две фразы. Тр...

Можно удалить предложения с количеством слов меньше 3. if len(str.split()) < 3: remove(str) Константу 3 можно сделать переменной и вычислять через функцию нахождения максимальной последовательности слов.

Erdeni
Можно удалить предложения с количеством слов меньш...

Это если Python установлен, в макросах там по другому

Владимир Кузовкин
Точно не подойдет

Я так понимаю, что вам нужны уникальные последовательности максимальной длины: Абажур (удалить) Абажур на (удалить) Абажур на лампе (оставить как 1 токен) Для того, чтобы вхождения «Абажур», «Абажур на» искались поиском и токенизировались как «Абажур на лампе» так?

Владимир Кузовкин
Да, верно

А вдруг абажур будет не на лампе, а на чем-то другом, тогда у вас все сломается(

Владимир Кузовкин
Увы, нет

Типичная задача с собеседования Яндекса на С++. Немного не DS, а бэкенд литкод. https://habr.com/ru/articles/142825/

Владимир-Кузовкин Автор вопроса
Erdeni
Типичная задача с собеседования Яндекса на С++. Не...

seq1 = "ABCDGH" seq2 = "AEDFHR" print("Максимальная общая подпоследовательность:", "".join(lcs(seq1, seq2))) Максимальная общая подпоследовательность: ADH. Я верно понял?

Владимир Кузовкин
я же верно понял?

Так, если в числах, то нам дают нод, а похоже надо нок.

Владимир Кузовкин
я же верно понял?

знаете вы могли бы вобще свою задачу в чатгпт записать и прямо код получить...

Владимир Кузовкин
Да, верно

def dedup(items: Sequence[str]): prev = '' for it in sorted(items): if not it.startswith(prev): yield prev prev = it yield prev Трудоёмкость O(n*log(N))

Alexandr Zamaraev
def dedup(items: Sequence[str]): prev = '' for...

Вы просто трудоёмкость сортировки вывели на аутсорс🤓

Erdeni
Вы просто трудоёмкость сортировки вывели на аутсор...

А там больше ничего и нет. После сортировки - проход с проверкой. :)

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта