Проблема в том, что для использования метрик типа BLEU and ROUGE нужен groundtruth, так что человек все равно нужен
Ну ты назвал метрики. Скинь хоть ссылочку на них
ROUGE-L metrics is used the most. It’s the longest sequence of words, not necessarily consecutive, but still in order, that is shared between ground truth and model output. A longer shared sequence indicates more similarity between the two sequences.
А вообще я понял вопрос.. главное не метрики, а удобный UI для визуального анализа мозгом
Обсуждают сегодня