Похожие чаты

У меня 50000 позиций номенклатуры Мне нужно добиться такого поведения? Какие

токенизаторы и анализаторы могут подойти?


"Труба 32412 d50 L 3 1,5" разбиралась на следующие токены:

Буду писать по словам

Труба: "Тр", "Тру", "Труб", "Труба", "ру", "руб", "руба", "уб", "уба", "ба"

32412: "32","324","3241","32412","24","241","2412","41","412","12"

d50: "d","50"

L: "L"

3: "3"

1,5 : "1,5"



По шагам:

1. Фраза делится на части по пробелам и разделительным знакам препинания.
2. Все эти части сохраняются как отдельные токены.
3. Дальше эти части ещё делятся на токены в зависимости от того из каких символов они состоят:


3.1 Если токен состоит только из букв и его длина > 1, то к нему применяется ngram от 2 до 6.

3.2 Если токен состоит только из цифр и его длина > 1, то к нему применяется ngram от 2 до 6.

3.3 Если токен вещественное число, то сохраняем целиком.

3.4 Если токен состоит из Букв и цифр, то разделяем его например DN500 -> "DN" и "500" и применяем к каждому из получившихся токенов последовательно правила 2., 3.1, 3.2, 3.3, 3.4

1 ответов

8 просмотров

https://cgit.freedesktop.org/libreoffice/dictionaries/tree/

Похожие вопросы

Обсуждают сегодня

А кто-то пробовал, уезжая из Эстонии получить э-рез и продолжить вести предпринимательскую деятельность внутри Эстонии, используя свой OÜ?
Lalalashechki Lalala
62
@MrMiscipitlick А можешь макрос написать, который будет вычислять смещение относительно переданных меток? Просто .label1-.label2, и вернуть значение.
КТ315
35
Чем оно проблема?
Nikita Uzumaki
17
@samkazemian - couple questions: Update on frxBTC? - This would do well with the current influx of institutional investment entering the space Update on future veFXS streams...
Costi
16
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
А еще в перле можно уже @arr1 + @arr2?
Sergei Zhmylove
53
Подобного рода ;Следующие три строки это директивы ассемблера, ;которые можно не задавать, т.к.работаем в Visual Studio. ;Символ ";" - это начало однострочного комментария ...
Егор Анелькин
3
Does anyone here have a connection Mullvad? it would be nice to know what it would take to have them accept BCH 0-conf.
tl121x
16
Can an XMR transaction be tracked from its sender to its receiver by performing blockchain analysis, no matter how many addresses are used?
Trkz342
16
I arrived here after a Chico Crypto show highlighted the project & the Team - the fact that the Team had a long history of successfully working with household names gave me e...
Banter is Bullish
5
Карта сайта