кажется христоматийный сюжет для их применения, но я не уверен (потому что не применял их ни разу в жизни):
1. Есть 20 экспертов, каждый разметил по 20 исследований, у каждого какие-то случайные 10 исследований с постобработкой
2. Всего 200 исследований, так что каждое было размечено 1 раз с постобработкой и 1 раз без
Хочется понять величину эффекта (наличия) постобработки на время разметки. При этом эксперты отличаются по своей скорости, условно один свою пачку исследований размечал 1 час, а другой свою пачку - 2 часа. Исследования тоже могут отличаться по сложности.
числа не бьются, 20х20=400, а дальше про всего 200 исследований
Это задачка или реальное исследование?
200 уникальных исследований, каждое размечено 2 раза, 1 раз с постобработкой, 1 раз без, всего 400
Можно посмотреть в сторону согласование оценок аннотаторов/моделирования их надёжности, например начав с 24 страницы лекции Воронцова http://www.machinelearning.ru/wiki/images/6/6b/Voron-ML-AL-slides.pdf Т.е. можно оценить сначала каждого эксперта, а потом насколько это отличие больше отличия процессинга. Как самый простой вариант, наверное, можно простой тест статистический сделать, вроде wilcoxon задав сначала в виде групп экспертов, а потом эксперт на процессинге-эксперт без процессинга и процессинг против не процессинга. И сделать это в формате k-fold
по условию нету повторных измерений
Мы как раз и исходим из того что сами эксперты и записи условно-равны, а основная разница в разметке, и есть несколько типов разметки: по экспертам и по процессингу
Да, к сожалению в силу специфики повторные измерения не имеют смысла, по крайней мере на доступном временном горизонте. Мы тестировали 1 месяц и получалось что эксперты довольно неплохо помнят. Будем повторять еще через 1 месяц, но пока так.
не, эксперты точно разные, и записи точно разные, скорости экспертов могут отличаться в 2-4 раза, по отдельным записям дисперсия тоже приличная
Это можно вносить в нормировку, оценив "сложность" работы и "качество" эксперта . Мы же можем предположить что как минимум в среднем тот пул работ что был выдан каждому эксперту содержал работы и сложные и простые, взятые из одного распределения?
да, в некотором приближении оценить можно, пакеты данных у каждого эксперта рандомизировались, но стратифицировались по сложности (по-крайней мере по эвристике оценивающей сложность), + можно посчитать точность разметки каждого эксперта
oftop: если речь про медицинские снимки и их описание, что-то рядом с Морозовым, то лучше не надо сами, у вас там очередь из желающих помочь :) Те эффекты что вы описываете это самая вершина. Там всё нужно учитывать, от того что именно описывается, до времени и дня недели описания
я не очень понял про "очередь из желающих помочь" и почему "лучше не надо самим"
Это оффтоп был, сорри, если речь именно про конкретную работу и конкретный датасет имени конкретного человека :) У вас много данных, очень хороших данных с которыми можно делать много классных вещей. В любом вузе у вас его с руками оторвут и студентов дадут, и экспертизой поделятся, только приходите!
"Я и есть клоун Пальяччи"
Обсуждают сегодня