А что если в варианте 2 посчитать эмбеддинги для 100-200 рандомных вопросов и вручную найти лимит схожести, где всё что ниже - не подходит ни к одной теме?
Кстати, может кто поделится англоязычными каналами-сообществами по NLP?