например, что на датасете Стэнфорда топовые архитектуры превзошли человека, но как-то не особо впечатляюще + в jeopardy комп обыграл двуногих (это уже посерьёзнее)
Squad фактически в вопросе содержал ответ, поэтому уже достаточно давно не считается крутым датасетом. Есть natural questions, поксчественнее собран и посложнее, но самый челлендж наверное BoolQA - ответить да/нет на вопрос исходя именно из некого обученного знания
Обсуждают сегодня