169 похожих чатов

In the new Release it says that Text Features

are now supported in the R Version. But the load_pool function has no mention of Text Features. How can Text Features be used then ? Are there any Plans to include embeddings Features in the R Version too ?

2 ответов

67 просмотров

Hello! Currently, one can use text features only when providing dataset in data.frame. All columns that contain character values (not factors!) are considered as text columns. Simple example of such usage: dfTrain <- data.frame(height=c(150,120, 30),weight=c(200, 220, 150), phrase=c('hello good I am good I hello good', 'good I hello I am good hello','bad bad bad bad'), eye=c(2,1,15), y_train=c(0, 0, 1)) dfTrainx<- dfTrain[,!(names(dfTrain) %in% c('y_train'))] labels<-dfTrain[,c('y_train')] pool <- catboost.load_pool(data=dfTrainx, label=labels) params <- list( loss_function= 'Logloss', iterations = 100 ) model <- catboost.train(pool, params=params) One more thing to mention: If texts in your dataset are too small, you can face the following error: catboost/private/libs/feature_estimator/text_feature_estimators.cpp:89: Dictionary size is 0, check out data or try to decrease occurrence_lower_bound parameter This means that too few word combinations(n-grams) have been found. By default, occurence_lower_bound is 3, so you should have at least 3 repetitions for some 2-word ngram. Unfortunately, changing this parameter is not yet supported

Thomas-Wolf Автор вопроса

Thanks for the Info. That's actually quite user friendly, especially easy to use with R ML packages i.e mlr3

Похожие вопросы

Обсуждают сегодня

@MrMiscipitlick А можешь макрос написать, который будет вычислять смещение относительно переданных меток? Просто .label1-.label2, и вернуть значение.
КТ315
35
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
А еще в перле можно уже @arr1 + @arr2?
Sergei Zhmylove
53
Подобного рода ;Следующие три строки это директивы ассемблера, ;которые можно не задавать, т.к.работаем в Visual Studio. ;Символ ";" - это начало однострочного комментария ...
Егор Анелькин
3
Привет всем. появился вопрос. Разрабатываю сайт, в данный момент он запущен. Хостинг beget. Добавляю на сайт яндекс метрику с помощью полей client-settings (взято отсюда http...
Andrew
2
еще вопрос, допустим мы создадим char массив из 10 элементов и присвоим ему через сканф 10 символов. и выведем все символы. Хотел спросить последний элемент /0 будет включать...
Anthem
10
Подскажите, где смотреть результат выполнения программы? Код: ;.686 ;Система команд процессора 686 ;.MODEL FLAT,stdcall ;Модель памяти плоская, станда...
Егор Анелькин
5
открыть папку в проводнике: 1 - ShellExecute 2 - ExecuteProcess 3 - OpenDocument что лучше выбрать?
Alexey Kulakov
12
Изменение типа с SomeException на String и правда удобней @cheese_hs . А вот такой вариант насколько некрасив еще? loadConfigDB :: IO (Either String ConfigDataBase) loadConfi...
Camara
7
Где в Астане можно купить мясо для шашлыков?
Dancing Іңұқәһүғө
21
Карта сайта