изобретен способ расчета explained_variance для TSNE по аналогии с PCA? И как правильно подобрать число измерений в урезанном пространстве для TSNE, чтобы сокращенное число предикторов в достаточной степени описывало изначальные данные?)
Буду благодарен!
https://stats.stackexchange.com/questions/340175/why-is-t-sne-not-used-as-a-dimensionality-reduction-technique-for-clustering-or
Нет, мне для кластеризации... Просто я не уверен, что tsne сохраняет исходные закономерности в данных. Спасибо, буду читать. 👍
Есть truncated svd, можешь его попробовать
Я понимаю под закономерностями информацию, содержащуюся в предикторах, и которая может быть полезна при выделении кластеров. В случае PCA я мирюсь, с тем что использую только (к примеру) 90% explained variance и строю дальше кластеры на основе этой информации. В случае tSNE я был немного удивлен тем, какое радикальное сокращение параметров может быть произведено и поэтому задал этот вопрос. Кстати, @ianpile тут: https://stats.stackexchange.com/questions/340175/why-is-t-sne-not-used-as-a-dimensionality-reduction-technique-for-clustering-or я так и не нашел ответа на свой вопрос. Зато я понял, что tSNE нельзя применить к новым данным и поэтому он не используется для обучения с учителем. Хотя, на мой взгляд, можно попробовать натренировать сетку на получающееся отображение, чтобы потом применять tSNE к новым данным тоже. Спасибо Andrey, теперь я понял что проблема в том, что снижение размерности нелинейное и каждый раз (при новом запуске, на новых данных) нелинейное по-разному. Нет готовой методики расчета дисперсии. Хотя, быть может, можно было бы изобрести какую-нибудь вероятностную методику. umap посмотрю.
чет мне кажется, стоит начать с математики за SVD, PCA и прочими линейными отображениями.
Буду благодарен за конкретику, и можно в лс) Пока не понял, почему вы так считаете.
Обсуждают сегодня