Это общий вопрос?
грубо говоря, получают запрос от руководства в форме "что надо сделать чтобы мы тратили меньше/зарабатывали больше/увеличили долю рынка/ушли из непотенциальных регионов/пришли в те что скоро выстрелят...?", скачивают и разными способами получают данные, долго и муторно чистят их и приводят к удобоваримому виду, потом кормят xgboost и другие модели чем попало и перебирают параметры моделей пока не получат нужную. Когда модель даёт плюс-минус ожидаемый результат, думают, какие выводы можно из этого в слайд выписать и как наиболее просто и наглядно продемонстрировать и объяснить руководству xD
Процесс такой. 1. Реальная действительность в которой есть почти всё 2. Прикладная математика, или аксиомы логики + аксиомы предметной области. На входе реальный мир, на выходе формальные описания и данные - матрицы, тензоры, векторы, функции, поля, метрики, пространства и т.д. 3. Когда есть информация в формальном виде в компьютере, то можно провести поиск приемлемого метода поиска минимума или максимума в полученной на этапе 2 каше. Главное - перемножая тензоры не особо думать о свойствах пространства, построенного на 2 стадии и какой там смысл имеет это умножение. После этого полученные формулы, тензоры, векторы, минимумы, максимумы и пр. шаманские вещи прикладная математика пытается перевести обратно и что то сказать про реальный мир. Вот дата саентисты сейчас на 3 стадии создают программы, библиотеки и прочие инструменты. Выбор раздела математики может быть произвольным, но в основном статистика - "когда авария станет статистически значимой, то будем её учитывать". Это исторически, т.к. большинство дата саентистов физики, так они и перенесли все знакомые методы исследований в data science.
Обсуждают сегодня