wiki, habr, cyberleninka, (?) Что ещё?
Можно ссылку?
https://github.com/mannefedov/ru_kw_eval_datasets
Давид, Илья, у вас ничего тоже на примете нет?
https://github.com/natasha/corus
Посмотрел ru_kw_eval, вижу, что там дамп Хабра совсем маленький. Я четыре года назад тоже Хабр парсил, собрал полтора гигабайта текста. Вот файлик. Если сейчас его парсить, то данных раза в три будет больше, потому что Хабр с Гиктайм соединился, плюс новых статей за это время написали)
Обсуждают сегодня