понимаю фундаментальные основы про разметку изображений — вот есть 100 000 изображений одного объекта, вот я беру первое изображение и прямоугольником выделяю в нём искомый объект... так вот, что является результатом того, что я прямоугольничком на изображении выделил объект? во что, в какой формат это моё выделение трансформируется? куда и во что складывается?
Четыре циферки? Координаты прямоугольника?
да, bounds, я о них говорю, а точнее, об изображении между ними
ну, что, для нейронной сети нужны только координаты прямоугольничка, да?
Как минимум еще исходная фотка до кучи. А дальше зависит от того, что вы делаете и планируете делать, и какой инструмент используете. Если у вас самописный разметчик, то, понятно дело вы вольны в выборе форматов и прочего - это второстепенно. Для задачи, если вы планируете рисовать рамку поверх того, что детектируете, то вам может хватить просто координат, но есть нюансы, которые, например, можно по статьям посмотреть, как выше сказали
у меня есть 100 000 фотографий, где есть кружки; нужно научить нейронку распознавать кружки на фотках; я отдаю 100К фотографий, где есть кружки, на разметку; так вот что является результатом этой разметки?
из ваших утверждений ничего не ясно, кроме, что есть много кружек так-то
такое ощущение, что я зашёл в чат дата-сайнетистов, но вопросы задаю на туркменском языке и здесь вообще не врубаются, о чём я спрашиваю :)
Речь о том, что "распознавать кружки" может означать: 1. Есть на фотке кружка или нет. Это одна задача 2. Нужно ли точно знать ее положение. Это другая задача. 3. Нужно ли ее маскировать/выделять. Это другая задача 4. есть еще разные варианты С учетом того, что вы стали спрашивать о том, как хранятся данные, и далее в дискуссии последовал ответ о том, что можно решать задачку с координатами - явно очевидно, что задача стоит не четкая, откуда и возникают проблемы, вероятно
нужно определить, где кружка на фото и кружка ли это
Обычно, когда вы размечаете картинки для детекции, то на выходе возможны 2 варианта: 1. Множество xml файлов по именам самого имиджа 2. Текстовый файл формата примерно: имя, имя класса, координаты прямоунольника. Иногда координаты считаются, как свиги относительно центра прямоугольника ( yolo формат), иногда непосредственно. Что нужно нейросети - это, в общем, как вы сами напишете ее кормление данными. Например, tf detection api в в туториале описывает, что просит xml. Но мне это было неудобно, я переписала так, чтоб она csv с координатами брала
Обсуждают сегодня