Добрый день, подскажите, какие подходы могут быть для колонок, которые преимущественно не имеют значений в задаче классификации? Под преимущественно не имеют значений имею вви...
Всем привет, вопрос по pandas и сохранению нескольких DataFrame’ов в csv. Я хочу сохранять датафреймы по одному в один csv файл, однако проблема to_csv с mode=“a” в том, что н...
Всем привет. Что делать если данных сильно много (приходится читать батчами), а посчитать коэффициент корреляции между столбцами хочется? Посчитать по батчам и усреднить?
Всем привет. Столкнулся со странным поведением пандаса при работе со Series строк: из значения каждой строки нужно извлечь одно целое число. Делаю это таким образом: test_res...
Всем привет, подскажите пожалуйста, как проверяются гипотезы (Стюдента, Манна-Уитни) для больших выборок (десятки или сотни тысяч экземпляров в каждой группе)? Можно ли примен...
Всем привет, возник такой вопрос: есть некоторое кол-во численных признаков и целевая численная переменная, которую надо ими объяснить. Загвоздка в том, что есть только одно н...
Всем привет, задам, наверное, немного нубский вопрос. Допустим, языковая модель генерирует какой-то текст пользователю и пользователь оценивает качество сгенерированного текст...
Всем добрый день, делаю задачу по анализу двух наборов данных между собой. Сами данные являются показателями от 0 до 1, их гистограммы во вложении. Сами гистограммы очень напо...
Здравствуйте, вот такая задача попалась. Произошел раскол с другом, считаем по-разному ответ. На мой взгляд 2/99 это правильное решение. Может, я в чем-то не прав?
А как в таком случае оценить p-value? У нас их получится 1000 разных значений
Всем привет. Хотел спросить: а какие дев скиллы нужны дата саентисту? Т.е. нужно ли хорошо шарить в ООП, уметь REST API писать или что-то еще?
Всем привет. Есть задача на NLP: есть два имени (в английской транскрипции) и необходимо решить задачу классификации: одно и то же это имя или разные. Как называется эта задач...
Всем привет, есть задача на поиск текста (определенного слова, и после него нужно провести поиск таблицы) в документах Word, PDF либо сканах документов. Как к этой задаче подо...
Здравствуйте, хотел бы вкратце узнать, для чего используется фреймворк Flask и насколько он востребован и актуален сейчас?
Здравствуйте, пытаюсь создать список с временными моментами симулирующими поступление заявок. time_second =[i for i in range (np.random.randint(19-7, 19+7), 4800, np.random.r...
а как со сканами быть?
Здравствуйте, вопрос насчет обработки изображений. Предположим, у нас есть набор картинок и для каждой картинки есть набор некоторых численных признаков (численных, категориал...
Здравствуйте, возник вопрос по сбору данных с веб-сайтов. Необходимо с сайта получить некоторые картинки и данные. Насколько я понял, это задача парсинга, но как это реализова...
Здравствуйте, вопрос насчет SQL запросов на Join. У нас есть таблица с ID и ее нужно заджойнить с тремя другими таблицами по этому самому ID. Один и тот же ID может встречатьс...
Всем доброго времени суток. Где-то слышал, что корреляция между столбцами и строками в датасете ухудшает качество работы линейной модели. Сейчас уже не могу вспомнить обоснова...