Есть два гигантских файла, то есть на терабайты. Как найти в

них общие строки за минимальное время?

5 ответов

7 просмотров

можно суффиксным массивом

Тут нужно понять, какой размер строки, и сколько уникальных строк ожидается? Если строки длинные и редко повторяются, то хэшами индексировать. Нужно понимать, что хэшей тоже могут быть терабайты, зависит от размера хэша и размера строки среднего. Если строки короткие, и вариантов мало, то просто построить хэшсет по одному файлу, потом пройти по второму и искать в хэшсете строки.

Я люблю котиков- Автор вопроса
George Polevoy
Тут нужно понять, какой размер строки, и сколько у...

А если и короткие, и при этом редко повторяются? Думал в такой ситуации сортировать один файл и искать в нём строки из другого бинарным поиском. Есть ли способы эффективнее?

Я люблю котиков
А если и короткие, и при этом редко повторяются? Д...

Думаю, что лучше sorted merge сделать, это эффективнее, если файлы на диске.

Я люблю котиков
А если и короткие, и при этом редко повторяются? Д...

Бинарный поиск может быть неэффективен для данных, которые лежат на диске. Обычно используют деревья с большим числом ключей на узле, чтобы меньше прыжков по диску делать. BTREE.

Похожие вопросы

Обсуждают сегодня

Всем привет Есть достаточно базовая задача: Дан неориентированный граф. Требуется определить, есть ли в нем цикл, и, если есть, вывести его. Входные данные подаются в виде ма...
Αλeksandr
10
Привет всем. Подскажите, как можно данную задачу более менее эффективно решить? В столовой одного известного Завода вот-вот начнётся обед. На обеде есть три гарнира — макарош...
Vitaliy
6
всем привет. У меня есть неупорядоченный массив точек(в моем случае в трёхмерном пространстве). Есть критерий связанности точек: если евклидово расстояние между ними меньше за...
Павлик Ливаткин
31
Всем привет Пытаюсь решить следующую задачу: https://informatics.msk.ru/mod/statements/view.php?id=6992&chapterid=101#1 Строка S была записана много раз подряд, после чего из ...
Αλeksandr
10
Доброе утро. Такой вопрос: есть ли какие-то практически полезные меры вычислительной мощности (в смысле computational complexity) для реальных машин, с ограниченными ресурсам...
Yaroslav Schekin
15
Здравствуйте. Есть задача нужно найти наименшое число P где фактриал P делиться на 10^N. Ограничения 10^9. Знаю что нужно найти такой P в конце как минимум N нулей. Решение с ...
. Azmiddin
20
Друзья, практический вопрос надо счиать скользящую медиану в последовательности по заданному окну (длины N) тупой вариант - взять значения в окне, отсортировать, взять элеме...
Стас Выщепан
17
#pragma once #include <iostream> #include <vector> template <typename T, typename Comp = std::less<T>> class Heap { public: Heap() = default; Heap(const std::vector<T>&...
Степан
1
Должна-ли работать такая стратегия: Мы каждую секунду бросаем монетку - орел или решка. Если орел - покупаем акцию на все деньги, если у нас есть деньги, или продаем все акци...
George Polevoy
13
Как можно сжимать временные ряды в памяти? У меня есть исторические стоимости ценных бумаг. Данные для каждой минуты в истории OHLC (Open, High, Low, Close). Соответственно, O...
George Polevoy
10
Карта сайта