вообще есть ощущение, что сейчас все эти autoML штуки доведут до ума и такое количество fit-predict дата саентистов будет не нужно. Условный аналитик сможет не убиваться как х...
Нужен совет чатика по слегка оффтопному вопросу. Использовал ли кто-то в работе sequential pattern mining? Есть возможность взять курс по этому методу, но не очень понимаю нас...
Коллеги, вопрос по tidymodels и тюнингу моделей. Обучаю random forest (engine - ranger), n = 2000, p = 5000 (почти все дамми-переменные). Тюню модель через grid, вот код: rf_...
И насколько это вообще перспективно на горизонте 5-10 лет? Есть ли смысл убиваться и пытаться залететь в ML не технарю?
Друзья, такой вопрос. Хочу смэтчить две базы по ФИО и как часто это бывает какие-то ФИО могут быть записаны криво. Не "Иванов Петр Иванович", а "Иванов п.и." или "Петр Иванов ...
Привет! Пытаюсь выделить наблюдения, у которых в текстовой колонке встречается "с. ". Использую вот такой код: survey8_9 %>% filter(is.na(Code)) %>% distinct(city_from_school...
Всем привет! Вопрос по визуализации в ggplot2. Есть данные в лонг формате: замеряли зрачок испытуемых на эксперименте. Каждый испытуемый проходил эксперимент в разные дни и в...
Друзья, а что делать, если пакет is not available for this version of R? Откатываться назад? Есть ли какие-то более элегантные и простые решения? Конкретно, хочу установить...
Подскажите, пожалуйста, какие есть пакеты в Python для подсчета дескриптивных текстовых фич (кол-во слов, символов, средняя длина слова, % уникальных слов в тексте и тп)? Мигр...
а какой процент работы product аналитика это вот типа сделать выгрузку по этой категории клиентов, за этот период, с такими-то фильтрами? и в какую сторону смотреть, чтобы ещ...
Коллеги, а у кого-нибудь есть опыт участия в соревнованиях на Kaggle на R? Как это работает? Обучаешь модели на трейне, потом на тесте делаешь предсказания и заливаешь их на ...
Всем привет! Нужен совет. Хочу собрать данные по нескольким тысячам групп/пабликов в ВК (группы естественно не мои): кол-во подписчиков, их половозрастной состав, последние N ...
Вопрос по статистике: Что лучше использовать или на что лучше ориентироваться в качестве overall significance test в случае логистической регрессии: Wald test, Chi-square или ...
Друзья, а есть какие-то толковые бесплатные онлайн-курсы/туториалы по R с фокусом на dplyr/tidyverse для начинающих? Хочу, чтобы стажеры относительно быстро научились вертеть...
Всем привет! Подскажите, пожалуйста, есть колонка с временем в не человекочитаемом формате, как её привести в понятный формат типа y-m-d h-m-s?
Есть идеи как это можно побороть?
А вообще какое у кого впечатление от tidymodels?
Друзья, такой вопрос, а кто-нибудь знает какие-нибудь словари сокращения российских имен? Типа "Мария - Маша; Павел - Паша" и тд? Мэтчу людей по ФИО, но кто-то писал полное и...
https://twitter.com/icymi_r/status/1393573959640231938?s=09
Друзья, подскажите, пожалуйста, какие-нибудь толковые курсы по машинному обучению и/или нейронкам и/или natural language processing/Text Mining на R на Coursera? Лучше, если ...