215 похожих чатов

Гаес, у меня проблемес. У меня есть датасет с твитами: | userid

| messages |
| ------------------------------------ |
| 1 | 'one two three|||four five' |
| ------------------------------------ |
| 2 | 'six foo|||bar' |
------------------------------------
А еще есть датасет General Inquirer, в котором около 12к слов размечены по категориям:
entry | pos | neg | weak | strong
---------------------------------
foo | 0 | 1 | 1 | 0 |
---------------------------------
bar | 1 | 0 | 1 | 0 |
---------------------------------
И мне нужно для каждого юзера разметить все твиты согласно второму датасету. Я себе это так представляю: токенизирую строку с твитами, а потом ищу вхождение каждого токена во второй датасет, потом усредняю. Но та реализация, которая у меня есть сейчас, крайне медленная из-за того, что я криворукий мудак:
def inq_params(statuses):
count = len(statuses.split('|||'))
statuses = statuses.replace('|||', ' ')
tokens = tokenizer.tokenize(statuses)
print(len(tokens))

dfs = [inq[inq['Entry'] == token] for token in tokens]
return reduce(lambda x, y: x.add(y), dfs)
inq - второй датасет, собственно
А вызов идет так:
data['messages'].apply(inq_params)
Может кто-то предложит адекватное решение?

1 ответов

5 просмотров

1) Делаешь explode по токенам первого датасета, у тебя пары ключ твита - токен. 2) Джойнишь датасеты по токену 3) профит

Похожие вопросы

Обсуждают сегодня

Всем привет, написал код ниже, но он выдает сегфолт, в чем причина? #include <stdio.h> #include <stdlib.h> #include <string.h> struct product { char *name; float price; };...
buzz базз
75
База данных не поможет. Шифрование не поможет. Какие там ещё варианты? Накидывайте.
КТ315
20
А табстоп это сообщение от окна или от элемента управления?
The Bird of Hermes
18
А как лучше конвертировать физический адрес в виртуальный при маппинге? В случае ядра у меня, например, direct mapping, первые 768МБ я как есть мапплю в higher half, а остальн...
Evg Resh
26
Открыл свой двухкилобайтный экзешник в x32dbg, а тут какая-то хрень. Смущает кнопка "выполнить до пользовательского кода", а что ещё может быть в файле помимо него ?
НѣкъиⰘижєжєиꙁъвьсєсвѣтьноѣсѣтиѥсть•
11
Мне были интересны дишные хаки и я нашёл любопытный способ на форуме через __traits, что-то вроде int delegate(int) fac = (int n) => n == 0 ? 1 : n * __traits(parent, {})(n - ...
Constantin F.
1
Вопрос тем кто смотрит видео и слушает подкасты - как вы потом ищете нужную вам информацию? Вот статью я прочитал, потом могу искать нужную мне часть банальным поиском. Пропус...
Aleksandr Druzhinin
4
Всем привет, подскажите/посоветуйте пожалуйста. Фаердак компоненты, имею одно место где бизнес хочет видеть при открытии формы список всех клиентов, это порядка 30к. Мои дово...
Sasha Sch
14
Ребят, если кто в курсе - скажите, а в загранке такое же засилье маркетплейсов? или там простые сермяжные интернет-магазины живут попроще?
Андрей [aharito] Харитонов
14
Всем привет. Нужна платная консультация от тех, кто сталкивался с октябрём в кластере или шарит оч хорошо в цмс. Проблема следующая: после переноса в кластер октябрь начал ...
wl
8
Карта сайта