счёт дерева ему относительно пофиг между мин и макс?
Бесплатен, конечно, в этой жизни только воздух (хотя это не точно), но скорее всего Вас раньше стоимость пространства начнёт волновать чем ресурсы процессора.
Он бьёт текст по токенам различной длины? При индексации. Мин=2, макс=4. Фразу "фраза" разобьёт на "фр", фра, аз, раза, ... ? И это будет индексами?
фр фра фраз ра раз раза аз аза за Если меня память не подводит.
Ну да. Я в том плане, что увеличивая диапазон gram на хард запишется больше различных частей фразы.
И кроме того повторяются списки вхождений postings. На диске много, короч.
Обсуждают сегодня