групп, если схожесть будет большая, то вероятно группы похожи, и наоборот, так ведь?
Вовсе нет. Они могут быть близки, только если совпадут, например 300 из 500 тэгов. Тогда да
Вероятно очень много степеней свободы у этой конструкции, поэтому нужно много факторов, а раз много факторов (тем более в шуме) то нужно много данных.
Обсуждают сегодня