4 ответов

9 просмотров

200 000

yopp-💉💉 Автор вопроса
Morant
200 000

В теории, это достаточно небольшая энтропия: 200,000 × 100. Т.е в худшем случае вам нужно хранить ~200 млн подстрок. В реальности мы скорее говорим о медианном значении длинны слова умноженном на медианное значении числа слов. Так как поиск все еще по словам, то можно сделать двухуровневые индексы: первый уровень это уникальные слова и их подстроки, плюс подстроки словоформ. Второй уровень это ссылки на слова. В этом случае поиск будет состоять из двух шагов: * найти оригинальную подстроку среди всего множества уникальных строк. Тут есть простор для оптимизации, например еще один «уровень» который отрезает слова без нужных букв. * по идентификатору слов найти документы

yopp-💉💉 Автор вопроса
Morant
Ох, сложно, надо чуть-чуть осознать

Да, эта проблема сама по себе сложная и ресурсоёмкая. Для быстрого поиска нужны инструменты которые или более-менее дешево умеют строить индексы по всем символам в строке или которые умеют быстро искать по набору ключевых слов (по сути в «ширину», имея очень много сегментов строк и очень много железа, чтоб по сегменту строк можно было дешево делать параллельный поиск)

Похожие вопросы

Обсуждают сегодня

Сonst magicTgHTML = (text, entities) => { let processedText = text; let offsetShift = 0; entities.forEach(entity => { const { offset, length, type, url, ...
Андрей
1
В смысле более затратная? Общая стоимость владения лошадью меньше, чем автомобиля. В среднем.
Sergej R
10
Кстати, раз про скачивание файлов разговор зашел) Сделал бота для себя (транскрибирующего и суммаризирующего встречи) но не ожидал что за 2 месяца 10к пользователей набежит😅...
Andrey Obolenskiy
8
t.me/<username> и tg://user?id=<id> отваливаются по понятным причинам
Denis 🐍|👑 | darling! 🥰
7
Вы когда из вики.... копировали, не обратили внимание на года(ы)? 😉 ==== если до 1917 года в Москве было около 15 000 легковых извозчиков, то к 1920 году их осталось 5 000, а ...
Igor Mitin
4
коллеги привет. уже второй день бьемся об заклад с одной ошибкой, может вы сталкивались с таки странным поведением? есть тестовый сервер, на который паблишим релизную версию W...
Magzhan
11
На счёт замены разрабов нейронами: Вряд-ли заказчик сможет нормально пояснить нейросети, чё он хочет. Они то человеку нормально пояснить не могут, не то что нейросети. Так что...
Alex Kom
1
Что я могу сказать? Погуглите получше - чтобы узнать: 1. Что будет стоить содержание машины 2. Что будет стоить содержании лошади. P.S. Моя мысль о том, повторюсь еще раз,...
Igor Mitin
1
Слушайте, а при создании навигации на Tailor рили нельзя определять активный пункт навигации, как в Static Pages?
Pavel Lautsevich
11
Господа, а как такое в миграцию засунуть?
Денис Александрович
12
Карта сайта