чтобы при извлечении биграмм он не считал сочетание слов, разделенных в предложении определенным символом, например "|"?
Т.е. на вход будет подаваться корпус сл. структуры:
'нельзя ставить знаю я | нельзя ставить знаю сделаны они | нельзя ставить провода такие'
ожидаемые биграммы:
[нельзя ставить, ставить знаю, знаю я, знаю сделаны, сделаны они, ставить провода,провода такие ]
проигнорированные сочетания:
[я нельзя, они нельзя]
Это возможно?
сплитнуть по этому знаку, посчитать биграммы от получившихся строк? 🙂
Обсуждают сегодня