170 похожих чатов

Коллеги,Добрый вечер. У меня текст был разбит на несколько токенов.

Все прекрасно, да вот беда: в нем очень часто идут повторения слов. Например первые три строки можно отнести к одному токену, удалив первые два. Как это можно сделать?

23 ответов

15 просмотров

str.split()

Можно префиксное дерево построить

Вы хотите, чтобы вторая строка была абажур + на и третья абажур + на + лампе?

Владимир-Кузовкин Автор вопроса
Milana
Вы хотите, чтобы вторая строка была абажур + на и ...

я хочу, чтобы он просто убрал первые две фразы. Третья фраза очевидна

Futorio Franklin
Можно префиксное дерево построить

я так понял вопрос не в оптимальном хранении, а в дедупликации

Alexey Korobeynikov
я так понял вопрос не в оптимальном хранении, а в ...

А я не знаю как оптимально в дедупликации сделать

Владимир Кузовкин
я хочу, чтобы он просто убрал первые две фразы. Тр...

Можно удалить предложения с количеством слов меньше 3. if len(str.split()) < 3: remove(str) Константу 3 можно сделать переменной и вычислять через функцию нахождения максимальной последовательности слов.

Erdeni
Можно удалить предложения с количеством слов меньш...

Это если Python установлен, в макросах там по другому

Владимир Кузовкин
Точно не подойдет

Я так понимаю, что вам нужны уникальные последовательности максимальной длины: Абажур (удалить) Абажур на (удалить) Абажур на лампе (оставить как 1 токен) Для того, чтобы вхождения «Абажур», «Абажур на» искались поиском и токенизировались как «Абажур на лампе» так?

Владимир Кузовкин
Да, верно

А вдруг абажур будет не на лампе, а на чем-то другом, тогда у вас все сломается(

Владимир Кузовкин
Увы, нет

Типичная задача с собеседования Яндекса на С++. Немного не DS, а бэкенд литкод. https://habr.com/ru/articles/142825/

Владимир-Кузовкин Автор вопроса
Erdeni
Типичная задача с собеседования Яндекса на С++. Не...

seq1 = "ABCDGH" seq2 = "AEDFHR" print("Максимальная общая подпоследовательность:", "".join(lcs(seq1, seq2))) Максимальная общая подпоследовательность: ADH. Я верно понял?

Владимир Кузовкин
я же верно понял?

Так, если в числах, то нам дают нод, а похоже надо нок.

Владимир Кузовкин
я же верно понял?

знаете вы могли бы вобще свою задачу в чатгпт записать и прямо код получить...

Владимир Кузовкин
Да, верно

def dedup(items: Sequence[str]): prev = '' for it in sorted(items): if not it.startswith(prev): yield prev prev = it yield prev Трудоёмкость O(n*log(N))

Alexandr Zamaraev
def dedup(items: Sequence[str]): prev = '' for...

Вы просто трудоёмкость сортировки вывели на аутсорс🤓

Erdeni
Вы просто трудоёмкость сортировки вывели на аутсор...

А там больше ничего и нет. После сортировки - проход с проверкой. :)

Похожие вопросы

Обсуждают сегодня

Подобного рода ;Следующие три строки это директивы ассемблера, ;которые можно не задавать, т.к.работаем в Visual Studio. ;Символ ";" - это начало однострочного комментария ...
Егор Анелькин
3
А еще в перле можно уже @arr1 + @arr2?
Sergei Zhmylove
53
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
Привет всем. появился вопрос. Разрабатываю сайт, в данный момент он запущен. Хостинг beget. Добавляю на сайт яндекс метрику с помощью полей client-settings (взято отсюда http...
Andrew
2
Подскажите, где смотреть результат выполнения программы? Код: ;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, станда...
Егор Анелькин
5
Где в Астане можно купить мясо для шашлыков?
Dancing Іңұқәһүғө
21
;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, стандартный ;вызов процедуры ;option casemap:no...
Егор Анелькин
1
Добрый день подскажите пожалуйста может кто то сталкивался с ошибками Sentry 22.10.0 развернутым из helm чарт в Kubernetes? Изначально 3 дня назад очень стало много событий ух...
Tire4 Finist Devops
1
всем привет почти закончил курс После него можно писать свою операционку? Какие библиотеки надо использовать и куда дальше копать для изучения
Linus
22
почому оно не работает?
Vi Chapmann ٩( 💢•̀ з•́)و Chapmann
19
Карта сайта