215 похожих чатов

Добрый день, мне не понятен такой момент в алгоритм knn.

Если разделить данные на train и test. То knn просто запомнит train данные, и на их основе будет вычислять test. Только почему в данных train, который knn запомнил, допускает ошибки. Почему общая сумма ошибок не равно 0?

15 ответов

33 просмотра

А почему она должна быть 0? Суть тестовых данных в том, что у модели нет запомненных правильных ответов и поэтому приходится усреднять ответы по учебной выборке. Из-за этого для объектов из тестовой выборки ответ может отличаться от правильного

В любом методе машина не должна запоминать правильные ответы, она должна их обобщать, находить закономерности и с их помощью предсказывать правильные ответы. На train выборке модель учится и сравнивает те ответы, которые она предсказывает с правильными ответами. Если модель выдаёт только запомненные ответы, значит, что модель переобучилась, а не подобрала хороший алгоритм анализа. И тогда предсказательная способность такой модели на тестовых и реальных данных будет крайне низкой.

Rahim- Автор вопроса
Frau Mann
В любом методе машина не должна запоминать правиль...

Ну если взять модель knn и тестовый набор данных, на чём она там обучается? Находит некие закономерности. Вроде говорилось в некотором источникн и чатgpt, что она когда вычисляет тестовые данные опирается на тренировочные. Тоесть нового объекта из тестовых, находит ближайщих соседей из тренировочной и ввчислчет таргет

Rahim
Ну если взять модель knn и тестовый набор данных, ...

Давайте подумаем, на каких данных обучается вообще любая модель машинного обучения? Очевидно, все тоже самое можно применить к knn. И каким образом она прогноз на тесте делает?

Rahim- Автор вопроса
Frau Mann
Давайте подумаем, на каких данных обучается вообще...

Ну я говорю в чём заключается процесс обучения knn на тренировочных данных? Она ведь просто запоминает тестовые данные.

Rahim- Автор вопроса
Ivan
А почему она должна быть 0? Суть тестовых данных в...

Я об тренировочных данных. Как knn допускает на них ошибки, если она их запоминает

Rahim
Я об тренировочных данных. Как knn допускает на ни...

Что за источник? А вообще, нужно смотреть на конкретную реализацию, я могу предложить два варианта. В первом случае мы проверяем каждый объект, знаки ли мы его или нет, и если да, то просто отдаем сохраненное значение. Во втором случае мы такой проверки не делаем и сразу ищем соседей и по ним усредняем, тогда даже для известных объектов будут другие ответы, чем те что были в выборке.

Rahim
Я об тренировочных данных. Как knn допускает на ни...

А вы у себя в голове имеете представление, как этот метод вообще работает? Или, мб, вы делали визуализацию своих данных и их разделения?

Rahim- Автор вопроса
Frau Mann
А вы у себя в голове имеете представление, как это...

Ну я только о нём прочитал. Тогда как он работает. Как происходит процесс обучения на тренировочных данных. Поиск неких закономерностей или...?

Rahim
Ну я только о нём прочитал. Тогда как он работает....

Если не ошибаюсь с источниками, то в этом блокноте максимально простым языком объяснены основы работы knn: https://www.kaggle.com/code/kashnitsky/topic-3-decision-trees-and-knn/notebook

Rahim- Автор вопроса
Frau Mann
Если не ошибаюсь с источниками, то в этом блокноте...

Ну получается когда появляется новый объект, модель на основе ближайщих соседей из тренировочной выборки, вычисляет таргет

Rahim
Ну получается когда появляется новый объект, модел...

Именно. Метод же называется методом ближайших соседей

Rahim- Автор вопроса
Ivan
Именно. Метод же называется методом ближайших сосе...

Так это было понятно, я про другое спрашивал. Хотя я уже более менее разобрал свой вопрос

Rahim
Ну получается когда появляется новый объект, модел...

А на какую статью вы изначально ссылаетесь? В которой ошибка

Похожие вопросы

Обсуждают сегодня

я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
49
читать файл максимально быстро? странный вопрос))
zamtmn
53
Всем доброго вечера! Хочу поделиться своим злоключением с человеком, который, как оказалось сюда тоже скидывал свое резюме. Жаль, что я вашу группу не нашел раньше… человек ки...
Роман Ахмедзянов
4
How to create an OS in C? what to study?
Linus
18
Компания Elif ищет менеджера проектов, который будет заниматься поиском и ведением новых проектов. Прежде чем приступить к работе, вам нужно пройти наш недельный курс, где вы ...
Elif
5
тоесть, указав return eax, сгенерируется никому ненужная инструкция mov eax,eax ?
Aiwan \ (•◡•) / _bot
24
Привет, кто может сделать юзербота с апи? Задачи: - создавать группы - создавать каналы - задавать для созданных каналов аватарку или эмоджи, имя группы - добавлять в группы...
Lencore
11
@HemulGM Параметры у AddStream поменялись? Несостыковка какая-то
Катерина Свиридова
12
а зачем этот вопрос для удаления из чата?
Mёdkinson Medvezhkin
63
Народ, с прошедшими и наступающими. Ща полную ересь прогоню, но фишка в том, что это не обычная алкогольная ересь Либера, а я реально хз что делать. Сайт с 2012-го года Косяк...
Alexey Liber
1
Карта сайта