170 похожих чатов

Нужно проанализировать текст и посчитать, сколько в нём пронумерованных абзацев. Проблема

в том, что нумерация проставлена как попало:
1.
1.1
1 1
1)

И всё в таком духе. Местами дублируется, местами и вовсе отсутствует.

Есть какие-то готовые решения, способные с этим справиться, или это всё безнадёжно?

12 ответов

6 просмотров

Регулярки могут помочь

ԤИОНЕР- Автор вопроса
Mukhammadsaid
Регулярки могут помочь

Там на самом деле столько мусора, что я шибко сомневаюсь, что эти Авгиевы конюшни можно разгрести вручную, поэтому и решил спросить здесь) Ну, т.е. самый очевидный совет "да просто посчитай абзацы, начинающиеся с цифр!", конечно, не канает.

если нумерация отсутствует, это все равно считается пронумерованным абзацем по условиям задачи?

ԤИОНЕР- Автор вопроса
Vladimir Grigoryev
если нумерация отсутствует, это все равно считаетс...

Да. Но я понимаю, что это скорее исключение, которым можно пренебречь, поэтому мне хотя бы просто посчитать пронумерованные.

ԤИОНЕР
Там на самом деле столько мусора, что я шибко сомн...

Можно один контрпример, чтобы представить с чем мы имеем дело. Ибо пронумерованный абзац без нумера — звучит странно

Если срочно нужно, то я бы сделал Регексы + потом эвристически вычислил бы абзацы посередине без нумерации, если соседи с нумерациями, то значит берём.

ԤИОНЕР- Автор вопроса
Mukhammadsaid
Если срочно нужно, то я бы сделал Регексы + потом ...

Я понял, спасибо. Но регулярки я берегу на десерт, когда на столе уже совсем ничего не останется))) Сейчас же я пока пытаюсь выяснить, что вообще в меню есть)

А какой здесь "правильный" ответ?)

ԤИОНЕР- Автор вопроса
Ali
А какой здесь "правильный" ответ?)

Заголовки к заголовкам, текст к тексту.

ԤИОНЕР
Я понял, спасибо. Но регулярки я берегу на десерт,...

В Pullenti есть анализатор InstrumentAnalyzer, который как раз решает эту задачу - восстанавливает структуру документа по его тексту. В частности, определяются структурные элементы с нумерацией и наименованиями - разделы, главы, параграфы. Для НПА ещё и пункты, подпункты и т.п. Есть решение, которое проверяет корректность нумерации, но оно коммерческое.

Похожие вопросы

Обсуждают сегодня

читать файл максимально быстро? странный вопрос))
zamtmn
53
тоесть, указав return eax, сгенерируется никому ненужная инструкция mov eax,eax ?
Aiwan \ (•◡•) / _bot
24
Приветствуем всех! Устали без проектов? Если вы программист и хотите получать стабильные заказы, компания Elif предлагает вам недельный курс по поиску проектов и их ведению. ...
Elif
1
А чего сейчас в моде вместо Error для эксепшенов? А то я тут внезапно узрел что он не рекомендуется :) У Try::Tiny какой-то совершенно ужасный синтаксис если надо конкретные э...
Denis F
19
а зачем этот вопрос для удаления из чата?
Mёdkinson Medvezhkin
63
Привет. Сразу скажу, что на C/C++/Rust я не пишу, но тем не менее возникла потребность дебага C/C++/Rust кода. Суть: есть серверное приложение, которое периодически ведёт себ...
ninekeem 🐳
4
всем привет! углубившись в плюсы и начав изучать реверсинг понял, что без асм'а никуда со своими высокоабстрактными представлениями начал изучать механизмы асма, и не совсем п...
9
Всем привет, после Си стоит учить плюсы или лучше на раст перейти?
Linus
8
или вы считаете муит дает знание?
супер_лох_3000 альфа версия
12
значить например он учился в СДУ то получается он особенный?)
Asets Serikov
11
Карта сайта