его нет, почему-то а многие статьи на него ссылаются
https://webascorpus.sourceforge.net/PHITE.php?sitesig=FILES&page=FILES_20_Data_Sets
https://sigwac.org.uk/cleaneval/devset.html
тут тоже не качает))
ссылки со второго сайта вроде ищутся через wayback machine, к примеру https://web.archive.org/web/20071001000000*/http://corpus1.leeds.ac.uk/cleaneval/devel/en-cleaned.tgz
Обсуждают сегодня