Привет! С утра занимаюсь крайне странным занятием. Есть 13к строк,

Question

Привет! С утра занимаюсь крайне странным занятием. Есть 13к строк,

которые имеют описание ОКВЭДа вида 71.12.7 Кадастровая деятельность. Пытаюсь с помощью stringr отделить все цифры от слов. Причем у меня может быть как ##.##.#, так и ##.# или ##.##. Как правильно тогда паттерн стоит написать?

Исходный пример кода: D <- str_split_fixed(Source_2$OKVED, "[:digit:].[:digit:].[:digit:] ", 2)

#programming #r #russian

0

14.02.2021

18 ответов

40 просмотров

Stan Автор вопроса

Ivan Pozdniakov
readr::parse_number() не подойдет?

Сейчас попробую...

0

14.02.2021

aGricolaMZ

Я бы разбил по точке при помощи separate

0

14.02.2021

Dm Kb

Вы бы скинули пример строки, где слова и цифры вместе

0

14.02.2021

Stan Автор вопроса

Dm Kb
Вы бы скинули пример строки, где слова и цифры вм...

71.12.7 Кадастровая деятельность.

0

14.02.2021

.sha

Я бы регулярной сделал. В pcre синтаксисе это выглядит так \d{1,2}\.\d{1,2}(\.\d)? [а-яА-Я ]+\.

0

14.02.2021

Dm Kb

Stan
71.12.7 Кадастровая деятельность.

Попробуйте что-то вроде этого: tibble(str = c("71.12.7 Кадастровая деятельность.", "71.12 Кадастровая деятельность.", "71 Кадастровая деятельность.")) %>% mutate(okved = str_extract(str, "^\\d{1,2}\\.\\d{1,2}\\.\\d{1,2}|^\\d{1,2}\\.\\d{1,2}|^\\d{1,2}"), name = str_extract(str, "(?<=\\d)\\s.+") %>% str_trim())

0

14.02.2021

Ivan Pozdniakov

Dm Kb
Попробуйте что-то вроде этого: tibble(str = c("71....

мне кажется самым удобным вытащить все до пробела регуляркой, потом сделать tidyr::separate() по точке

0

14.02.2021

Dm Kb

Ivan Pozdniakov
мне кажется самым удобным вытащить все до пробела ...

Так мой вариант и вытащил все что до пробела и все что после... далее разбить оквэд на уровни, если нужно с помощью separate()

0

14.02.2021

Ivan Pozdniakov

Dm Kb
Так мой вариант и вытащил все что до пробела и все...

просто меня пугает вот эта регулярка: "^\\d{1,2}\\.\\d{1,2}\\.\\d{1,2}|^\\d{1,2}\\.\\d{1,2}|^\\d{1,2}», мне кажется можно просто что-то в духе «(?.*)\\s»

0

14.02.2021

Dm Kb

Ivan Pozdniakov
просто меня пугает вот эта регулярка: "^\\d{1,2}\\...

я просто показал два подхода, можно заменить это выражение на ".+(?=\\s)"

0

14.02.2021

Dm Kb

Dm Kb
я просто показал два подхода, можно заменить это в...

нет такое не работает, заменил на ".{1,8}(?=\\s)" - и норм

0

14.02.2021