170 похожих чатов

Коллеги,Добрый вечер. У меня текст был разбит на несколько токенов.

Все прекрасно, да вот беда: в нем очень часто идут повторения слов. Например первые три строки можно отнести к одному токену, удалив первые два. Как это можно сделать?

23 ответов

55 просмотров

str.split()

Можно префиксное дерево построить

Вы хотите, чтобы вторая строка была абажур + на и третья абажур + на + лампе?

Владимир-Кузовкин Автор вопроса
Milana
Вы хотите, чтобы вторая строка была абажур + на и ...

я хочу, чтобы он просто убрал первые две фразы. Третья фраза очевидна

Futorio Franklin
Можно префиксное дерево построить

я так понял вопрос не в оптимальном хранении, а в дедупликации

Alexey Korobeynikov
я так понял вопрос не в оптимальном хранении, а в ...

А я не знаю как оптимально в дедупликации сделать

Владимир Кузовкин
я хочу, чтобы он просто убрал первые две фразы. Тр...

Можно удалить предложения с количеством слов меньше 3. if len(str.split()) < 3: remove(str) Константу 3 можно сделать переменной и вычислять через функцию нахождения максимальной последовательности слов.

Erdeni
Можно удалить предложения с количеством слов меньш...

Это если Python установлен, в макросах там по другому

Владимир Кузовкин
Точно не подойдет

Я так понимаю, что вам нужны уникальные последовательности максимальной длины: Абажур (удалить) Абажур на (удалить) Абажур на лампе (оставить как 1 токен) Для того, чтобы вхождения «Абажур», «Абажур на» искались поиском и токенизировались как «Абажур на лампе» так?

Владимир Кузовкин
Да, верно

А вдруг абажур будет не на лампе, а на чем-то другом, тогда у вас все сломается(

Владимир Кузовкин
Увы, нет

Типичная задача с собеседования Яндекса на С++. Немного не DS, а бэкенд литкод. https://habr.com/ru/articles/142825/

Владимир-Кузовкин Автор вопроса
Erdeni
Типичная задача с собеседования Яндекса на С++. Не...

seq1 = "ABCDGH" seq2 = "AEDFHR" print("Максимальная общая подпоследовательность:", "".join(lcs(seq1, seq2))) Максимальная общая подпоследовательность: ADH. Я верно понял?

Владимир Кузовкин
я же верно понял?

Так, если в числах, то нам дают нод, а похоже надо нок.

Владимир Кузовкин
я же верно понял?

знаете вы могли бы вобще свою задачу в чатгпт записать и прямо код получить...

Владимир Кузовкин
Да, верно

def dedup(items: Sequence[str]): prev = '' for it in sorted(items): if not it.startswith(prev): yield prev prev = it yield prev Трудоёмкость O(n*log(N))

Alexandr Zamaraev
def dedup(items: Sequence[str]): prev = '' for...

Вы просто трудоёмкость сортировки вывели на аутсорс🤓

Erdeni
Вы просто трудоёмкость сортировки вывели на аутсор...

А там больше ничего и нет. После сортировки - проход с проверкой. :)

Похожие вопросы

Обсуждают сегодня

30500 за редактор? )
Владимир
47
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Подскажите пожалуйста, как в CustomDrawCell(Sender: TcxCustomGridTableView; ACanvas: TcxCanvas; AViewInfo: TcxGridTableDataCellViewInfo; var ADone: Boolean); получить наз...
A Z
7
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
1
Он в одиночку это дело запилил или была какая-то команда?
Aquinary
12
~ 2m21s  nix shell github:nixos/nixpkgs#stack ~  stack ghc -- --version error: … while calling the 'derivationStrict' builtin at /builtin/derivation.nix:...
Rebuild your mind.
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Карта сайта