Ребята, привет. Есть ли аналог awk в Python3 ? Задача

а что 🇷🇺
Да хоть как ксв

Можно даже пандасом прочитать

0

10.10.2021

Sapienti Sat Автор вопроса

Переформулирую вопрос: есть файл со стороками: 13:55:30 187.233.224.30 https://samplesite.com/cghcfgcecb.php 404 В строке 4 поля - time, IP, URL, status, разделенные табуляцией \t Нужно проверить 4 столбец на наличие значения "200" Как это красиво сделать? Если просто по строке искать, то в поле url тоже может быть значение 200, например https://samplesite.com/chafsidjhfosidf.php?param=200

0

10.10.2021

Sapienti Sat
Переформулирую вопрос: есть файл со стороками: 13:...

Распарсить файл в список dict/объектов, а затем сравнивать у каждого элемента поле с нужным тебе значением

0

10.10.2021

Sapienti Sat Автор вопроса

Максим Мартынов
Распарсить файл в список dict/объектов, а затем ср...

файл огромный и динамический, не вызовет ли это проблем? (поэтому работаю с конкретной строкой)

0

10.10.2021

Sapienti Sat
файл огромный и динамический, не вызовет ли это пр...

Что значит динамический

0

10.10.2021

Sapienti Sat Автор вопроса

Максим Мартынов
Что значит динамический

значит старые строки удаляются, но появляются новые (ротация лога)

0

10.10.2021

Eugnis

Sapienti Sat
Переформулирую вопрос: есть файл со стороками: 13:...

можно построчно через .split(' ') потом из полученного массива 4й элемент проверяй на 200

0

10.10.2021

Sapienti Sat Автор вопроса

Eugnis
можно построчно через .split(' ') потом из получен...

вот да. точно. спасибо

0

10.10.2021

Sapienti Sat
вот да. точно. спасибо

С постоянно обновляемым файлом все не так просто

0

10.10.2021

Sapienti Sat
Переформулирую вопрос: есть файл со стороками: 13:...

Можешь сплитать по табу

0

10.10.2021

Sapienti Sat Автор вопроса

Максим Мартынов
С постоянно обновляемым файлом все не так просто

Оно понятно, но под текущую задачу подходит вариант с работой с конкретной строкой на момент открытия файла. Тут другая проблема сейчас. Я парсю строку в список, и всё работает. То есть я могу вывести строку как список после сплита. Всё хорошо тут. ['14:18:29', '88.7.61.66', 'https://samplesite.com/ahdffgcffh.php', '200\n'] или выводить только 4 столбец - тоже всё ок. Но когда я пытаюсь сделать так: if log_line[3] == 200: то всегда возвращается false. пробовал еще так (на всякий случай) if str(log_line[3]) == "200":

0

10.10.2021

Sapienti Sat
Оно понятно, но под текущую задачу подходит вариан...

Ты перевод строки в видишь? И то, что сравниваешь строку с числом?

0

10.10.2021

Sapienti Sat Автор вопроса

Максим Мартынов
Ты перевод строки в видишь? И то, что сравниваешь ...

увидел. спасибо :) То есть, у меня сраванивалось 200\n с 200

0

10.10.2021

Sapienti Sat
Оно понятно, но под текущую задачу подходит вариан...

Ты хочешь сделать мониторинг на основе логов. Это дичь, так делать не нужно

0

10.10.2021

Sapienti Sat Автор вопроса

Максим Мартынов
Ты хочешь сделать мониторинг на основе логов. Это ...

это тестовое задание :) Так-то я под анализ логов использую логстеш эластик и кибану :) + задание я реализовал на баше в 2 строки c использованием awk sort uniq А вот на Python с ходу не получается уже

0

10.10.2021

Eldar

Sapienti Sat
это тестовое задание :) Так-то я под анализ логов ...

На какую позицию тестовое?

0

10.10.2021

Sapienti Sat Автор вопроса

Eldar
На какую позицию тестовое?

AppSec Engineer однострочник на баше выглядит так: awk '$4 == "200"' access.log | awk '{print $2}' | sort | uniq -c | sort -nr | head -n 10 Теперь надо это реализовать на Python :)

0

10.10.2021

Алексей

Sapienti Sat
AppSec Engineer однострочник на баше выглядит так...

os.system("awk '$4 == "200"' access.log | awk '{print $2}' | sort | uniq -c | sort -nr | head -n 10") не благодари

0

10.10.2021

Danya🔥

Sapienti Sat
AppSec Engineer однострочник на баше выглядит так...

Реализуй через subprocess)))

0

10.10.2021

Sapienti Sat Автор вопроса

Алексей
os.system("awk '$4 == "200"' access.log | awk '{pr...

да, это план Б :)))

0

10.10.2021

Sapienti Sat
да, это план Б :)))

Можно потом в любом случае сразу две версии отправить )))

0

10.10.2021

Алексей

Sapienti Sat
да, это план Б :)))

with Path("path_to_your_log_file").open("r") as f: lines = f.readlines() lines_with_200 = list(filter(lambda o: int(o.split(" ")[3]) == 200, lines)) можно вместо лямбды нормальную функцию с проверками что есть сплит, есть 4й элемент и есть конвертация в инт

0

10.10.2021

Sapienti Sat Автор вопроса

Алексей
with Path("path_to_your_log_file").open("r") as f:...

Ну основная часть есть(всё проверяется), сейчас осталось подсчитать IP адреса, с которых были 200, отсортировать IP по количеству запросов с 200 ответом и вывести топ10 :)

0

10.10.2021

Sapienti Sat
Ну основная часть есть(всё проверяется), сейчас ос...

set([1, 2, 1]) >>> {1, 2} sorted([5, 1, 4]) >>> [1, 4, 5] Если надо отсортировать + уникальные list(sorted(set([1, 5, 5, 4])))

0

10.10.2021

Sapienti Sat Автор вопроса

на примере выглядит очень просто. :)

0

10.10.2021

ShiroNoHaga
set([1, 2, 1]) >>> {1, 2} sorted([5, 1, 4]) >>> [...

sorted возвращает список, второй раз не нада в него загонять

0

10.10.2021

EXTRANESUS

ShiroNoHaga
set([1, 2, 1]) >>> {1, 2} sorted([5, 1, 4]) >>> [...

sorted() и так возвращает список, list() уже не нужно добавлять

0

10.10.2021

а что 🇷🇺
sorted возвращает список, второй раз не нада в нег...

Рил, ошибся, спасибо

0

10.10.2021

Алексей

Sapienti Sat
Ну основная часть есть(всё проверяется), сейчас ос...

from collections import Counter with Path("ttt.txt").open("r") as f: lines = f.readlines() lines_with_200 = Counter(list(filter(lambda o: int(o.split(" ")[3]) == 200, lines))).most_common() print("\n".join([f"Count: {v}, URL: {k.strip()}" for k, v in lines_with_200][:10]))

0

10.10.2021

Алексей
from collections import Counter with Path("ttt.txt...

Может хотя бы моноширинным?

0

10.10.2021