Есть вопрос: Забираю данные из места А, и вставляю их в

Question

Есть вопрос: Забираю данные из места А, и вставляю их в

место Б — постгресс.

Из места А, всегда есть минимум 1 запись, которая есть в месте Б.

Я сделал скрипт который проверяет наличие записи, но чем больше записей, тем дольше работает скрипт.

Вопрос: можно ли как-то отсеивать их сразу в бд, тип, если по таким-то полям, уже есть запись, то мы её не вставляем :?

#backend #devops #pgsql #programming #russian

0

07.12.2021

20 ответов

46 просмотров

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ] Автор вопроса

Yaroslav Schekin
Показали бы Вы лучше код запросов и \d таблиц (или...

Конкретно к чему :?

0

07.12.2021

Ilya Anfimov

В принцыпе такая операцыя называется upsert. В postgres хорошая поддержка upsert на уровне синтаксиса insert ... on conflict, гуглите postgres upsert.

0

07.12.2021

Yaroslav Schekin

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ]
Конкретно к чему :?

Что за "места", "скрипт который проверяет наличие записи", ну и что имеется в виду под "можно ли как-то отсеивать их сразу в бд", хотя бы.

0

07.12.2021

Ilya Anfimov

И да, если встроенный синтаксис не подойдёт — всё равно гуглите upsert, там много вариантов решэния.

0

07.12.2021

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ] Автор вопроса

Yaroslav Schekin
Что за "места", "скрипт который проверяет наличие ...

Место А — graylog Место Б — postgresql Скрипт — на питоне Данные забирает он же. Забирает данные из грэйлога, и потом вставляет их в бд. При выдаче данных с грэйлога, первая запись, чаще всего дублируется с той, что уже есть в БД (инкрементальная загрузка). Я беру максимальное значение времени из БД (Место Б), делаю запрос к месту А (грэйлог), получаю данные, и вставляю их в постгрес. Скрипт, перед тем как залить данные, проверяет каждую запись на наличие в бд, если есть, то сообщает об этом, и не улетает в пачку, когда собирается определённое кол-во записей из грэйлога (пачка), она отправляется на запись с помощью executemany

0

07.12.2021

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ] Автор вопроса

Ilya Anfimov
В принцыпе такая операцыя называется upsert. В po...

Немножко другое, мне не нужно, чтобы данные перезаписывались. Мне наоборот надо, чтобы они не попадали в бд, если уже есть

0

07.12.2021

Ilya Anfimov

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ]
Немножко другое, мне не нужно, чтобы данные переза...

Я не хочу переписывать здесь документацыю, читайте, такой вариант там есть.

0

07.12.2021

Yaroslav Schekin

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ]
Место А — graylog Место Б — postgresql Скрипт — н...

> чаще всего дублируется с той, что уже есть в БД (инкрементальная загрузка). И этот дубликат определяется по какому-то ключу, так? > Я беру максимальное значение времени из БД (Место Б), делаю запрос к месту А (грэйлог), получаю данные, и вставляю их в постгрес. О, "прекрасный" способ обновления — сколько подобного видел, и почти везде терялись данные. ;) Впрочем, может, у вас сделано "практически" правильно, не буду наговаривать... > Мне наоборот надо, чтобы они не попадали в бд, если уже есть И если есть ключ, то это INSERT ... ON CONFLICT ... DO NOTHING;. Но "сообщает об этом" так не получится — тогда нужно явно проверять и т.п.

0

07.12.2021

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ] Автор вопроса

Yaroslav Schekin
> чаще всего дублируется с той, что уже есть в БД ...

Так, другой вопрос: БД же возвращает кол-во строк которое было задействовано :? Грубо говоря: INSERT вставил 2000 строчек :? Не знаете, он это отдаёт когда к нему обращаешься по курсору :? О, "прекрасный" способ обновления — сколько подобного видел, и почти везде терялись данные. ;) Впрочем, может, у вас сделано "практически" правильно, не буду наговаривать... Как показала практика, теряется 0, только 1 запись дублируется 🙃

0

07.12.2021

Yaroslav Schekin

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ]
Так, другой вопрос: БД же возвращает кол-во строк ...

> БД же возвращает кол-во строк которое было задействовано Да, возвращает (но не факт, что этот ответ все API доносят до клиента). > Как показала практика "Практика" в упоминаемых случаях тоже что-то там "показывала", но только пока либо не начинали сверять данные, либо пока не наступал "удачный" день. ;( > Мех, у меня там не уникальные ключи лежат А как Вы тогда дубликаты проверяете?

0

07.12.2021

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ] Автор вопроса

Yaroslav Schekin
> БД же возвращает кол-во строк которое было задей...

> А как Вы тогда дубликаты проверяете? Сразу по 3 полям: время, логин, и ещё одно поле. Если совпадает, то окей. Это служебные рассылки: uid, login, theme_message, time_message Где time_message — это время получение сообщения.

0

07.12.2021

Yaroslav Schekin

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ]
> А как Вы тогда дубликаты проверяете? Сразу по 3 ...

Ну и почему эти три поля — не ключ?

0

07.12.2021

Ilya Anfimov

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ]
Так, другой вопрос: БД же возвращает кол-во строк ...

Про курсор -- не знаем, от API зависит. Но в любом случае всегда можно это через CTE обернуть в классический SELECT, и из него хоть поштучно выбирать, хоть count(*) напускать.

0

07.12.2021

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ] Автор вопроса

Yaroslav Schekin
Ну и почему эти три поля — не ключ?

Разве там не указывается уникальность на таблицу :?

0

07.12.2021

Yaroslav Schekin

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ]
Разве там не указывается уникальность на таблицу :...

Где "там"? Ключ может состоять из любого количества полей, если что.

0

07.12.2021

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ] Автор вопроса

Yaroslav Schekin
Где "там"? Ключ может состоять из любого количеств...

Не не, я про то, что разве это не уникальное значение на таблицу ? У меня, с одним theme_message, может быть 20к записей

0

07.12.2021

Yaroslav Schekin

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ]
Не не, я про то, что разве это не уникальное значе...

Это одно уникальное сочетание значений полей на таблицу, да. Короче, почему там нет CREATE UNIQUE INDEX ON эта_таблица("время", "логин", "ещё одно поле");? ;)

0

07.12.2021

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ] Автор вопроса

Yaroslav Schekin
Это одно уникальное сочетание значений полей на та...

Можно сделать комбинированный :?)

0

07.12.2021

Yaroslav Schekin

Mʀ. Sʜɪsʜᴋɪɴᅠ [ᴇʟ]
Можно сделать комбинированный :?)

Да (я же его написал).

0

07.12.2021