170 похожих чатов

Надо красиво разбить текст на предложения (в идеальном случае, чтобы какбы

вложенные предложения не разделялись от обемлющего)

пока так:
def to_sentences(text: str) -> list[str]:
sentences = re.findall(r"\s*([^.?!]*[!.?]*)", text)
return sentences
но проблема, что последним предложение в списке всегда идет пустая строка...
Как изменить регулярное выражение чтобы в конец списка не падала пустая строка?

15 ответов

7 просмотров
аndrei- Автор вопроса

лучше мне помогите

Примеры можно?

аndrei- Автор вопроса
Tishka17
Примеры можно?

"Привет! Меня зовут Алиса. Хочешь задать вопрос?" в это: ["Привет!", "Меня зовут Алиса.", "Хочешь задать вопрос?"] }

аndrei
"Привет! Меня зовут Алиса. Хочешь задать вопрос?" ...

>>> a='Beautiful, is; better*than\nugly' >>> import re >>> re.split('; |, |\*|\n',a) ['Beautiful', 'is', 'better', 'than', 'ugly']

А почему не re.split?

аndrei- Автор вопроса
Владимир
А почему не re.split?

наверное себе задачу не так поставил..., да и так контроль больший (но не в моем случае), прост в планах сдлеать чтобы не срабатывало на цитаты внутри определеных предложение, что-то типо такого чтобы вложиенность учитывало... если я правильно выразился

аndrei
наверное себе задачу не так поставил..., да и так ...

И цитаты... Гмм ну тут конечно регуляркой не отстреляешься)

аndrei- Автор вопроса
Tishka17
Тяжко будет

вложенность и не так важно, но в идеально случае, да, можно было бы кафануть от решения

sentences.pop(-1)

аndrei- Автор вопроса
addlyy
sentences.pop(-1)

я не хочу идти по этому пути...

аndrei
наверное себе задачу не так поставил..., да и так ...

сделай парсер простенький идёшь по символам, если цитата началась, ждёшь конца, если закончилось предложение, закидываешь в список

аndrei- Автор вопроса
аndrei
вложенность и не так важно, но в идеально случае, ...

Ну тогда ... Ухх... тебе надо начинать с поиска вложенных чтобы об них не споткнуться. И только потом дробить на предложения

аndrei- Автор вопроса
Владимир
Ну тогда ... Ухх... тебе надо начинать с поиска вл...

вложенность подождет) как сделать это \s*([^.?!]*[!.?]*) чтобы оно не генерило в конце пустую строку

Похожие вопросы

Обсуждают сегодня

Сообщение* в закодированном виде. То есть, просто сделать sendMessage?text=Привет бла-бла! не получится, надо в HEX переводить, и добавлять процент, типа такого: sendMessage?t...
КТ315
21
Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
58
А случайно нет ли в паскале штатной возможности передать указатель и количество туда где array of в качестве аргумента?
zamtmn
25
приветы , подскажите что я не так сделал , почему у меня скрипт не работает в программе Revit ? ;Autohotkey_RU IfWinActive ("ahk_exe Revit.exe") ; только в открытом Revit Gu...
Anton Terentev
2
> комьюнити я бы не судил по этому чату. Как мы видели по статам просмотров нескольких телеговских постов, то в чате их набивается 30-40 или даже выше, когда как общаются акти...
Constantin F.
4
void bytes2hex(uint8_t* to, uint8_t* from, uint16_t l) { // len(from) == l; len(to) == l * 2 for (uint16_t i = 0; i < l; ++i) { *(to++) = hex[(from[i] >> 4) & ...
#
3
Погодь, а как ты переопределяешь функцию в хедере? Эрланг это же не С, тут явный вызов макросов
Maksim Lapshin
6
Ну раз я пока тут, задам пару глупых вопросов. Зачем писать на ассемблере если компилятор довольно умный, а ассемблер много времени занимает? В каких прикладных задачах сейчас...
Максим Рябцев
20
Как сделать чтобы short точно был 2 байта, int точно 4 байта ?(без стандартных библиотек, ну типа без int16_t, int32_t)
#
8
Всем привет. Испытываю проблемы в работе БД, а именно огромного роста логов, такого характера: 024-05-16 18:39:07 +05 sentry sentry [unknown] 1050169 7-1 app-sentry01.corp.ru>...
Alexey
2
Карта сайта