так вроде во втором классе даже рассказывают про это
1. логарифм произведения равен сумме логарифмов 2. натуральный логарифм e^t равен t
 Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                      
                      
                        
                          Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                    
                    
                  М-да, не помешало бы мне подтянуть логарифмы... Спасибо!
 Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                      
                      
                        
                          Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                    
                    
                  Только мне всё ещё не ясно, почему у нас тут гаусовское распределение. Можете сказать, почему нам для выведения MSE нужно максимизировать вероятности именно при нормальном распределении?
ММП основан на том, что мы какое-то распределение предполагаем. и максимизируем вероятность того, что выборка, выблеванна этим заданным распределением (в данном случае - нормальным), подбирая параметры
 Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                      
                      
                        
                          Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                    
                    
                  А, то есть используя иные функции распределения мы будем получать какие-то иные лосс-функции? Если так, то лосы от каждого из популярных распределений полезны? Или нет?
верно, лосс будет разный. если предполагаем другое распределение с 10 параметрами - будем его максимизировать на выборке, подбирая 10 параметров
> лоссы от каждого из популярных полезны зависит от задачи
 Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                      
                      
                        
                          Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                    
                    
                  Кстати, а почему здесь именно функция Гаусса? У нас же вроде нейронОчка, многомерный случай. Или я что-то не так понимаю?
Это cv от самсунга?
 Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                      
                      
                        
                          Xxx
                          
                        
                      
                    
                    
                    
                    
                      Автор вопроса
                    
                    
                  Оно, да
Обсуждают сегодня