170 похожих чатов

React — русскоговорящее с...

Android Developers

Python

Vue.js — русскоговорящее ...

Node.js — русскоговорящее...

DevOps — русскоговорящее ...

JavaScript Noobs — сообще...

Django [ru]

Go-go!

Angular - русскоговорящее...

ntwrk

Верстка сайтов HTML/CSS/J...

phpGeeks

Kubernetes — русскоговоря...

Битрикс для разработчиков

MODX. Русскоязычное сообщ...

pgsql – PostgreSQL

Laravel Pro

iOS Developers — русского...

ClickHouse не тормозит

Rust — русскоговорящее со...

JavaScript — русскоговоря...

С#

pro.cxx

pro.jvm

React Native — русскогово...

Devs Chat

Docker — русскоговорящее ...

HTML/CSS — русскоговоряще...

Python beginners

🐧 RU.UBUNTU — Официальное...

Kotlin Community

Embedded Group

Чат экстремального погром...

Клуб Vue.js-разработчиков

Xamarin Developers (MAUI,...

F# Chat

Svelte [svelt] - All abou...

Системное администрирован...

Nuxt.js | Vue SSR

var chat = new Chat();

Data Science Chat

Ассемблер

Android Architecture

Laravel для начинающих

Церковь метрик

Dart & Flutter

QA — русскоговорящее сооб...

R (язык программирования)

learn.java

DevsHelper

Big Data Science :: AI / ...

Delphi & Lazarus

SwiftBook

Solidity Development

Evolution CMS официальное...

pro.net (former COM+)

OpenStreetMap RU

Visual Studio Code — русс...

ru_mysql

pro.lua

Dart / Flutter

GraphQL — русскоговорящее...

pro.Asm

IDE и редакторы — русског...

OpenCartForum - 🇺🇦🇪🇺Чат O...

Angular.js (1.x) — русско...

Frontend_ru

Lame C

Flutter Developers — русс...

AutoIT RU

AI / Искусственный Интелл...

dlang.ru

Laravel Framework Russian...

WebPwnChat

Чат — Верстка Сайтов и Фр...

pro.python

Java Underground

Natural Language Processi...

javascript_ru

SqlCom.ru - сообщество MS...

Cinema 4D

Delphi Community

pro.vim

Server Side Swift Develop...

Autohotkey_RU ( v1 & v2 )

PHP DevConf KZ🇰🇿

Modern::Perl

pro.rb (Ruby/Rails / RU)

Software Design/Architect...

sql_ninja

AndroidDev Pro:: Професси...

WordPress for developers

PowerShellRus - о Powersh...

Haskell Start

Эльбрусы и с чем их едят

Python для анализа данных

Скрипты Гугл, Таблицы, Go...

WebGL ru

Compiler Development

firebase_ru — русскоговор...

Electron.js

phpclub.ru

RU.CRYPTOGRAPHY — Криптог...

pro.osdev - os developmen...

RU.Docker — Официальное Р...

Emacs — русскоговорящее с...

FreePascal & Lazarus

Язык программирования Jul...

WordPress – русскоговорящ...

Django

sentry_ru

ReasonML и OCaml

WebAssembly — русскоговор...

ansible — русскоговорящее...

Сrystal Lang — русскогово...

aiohttp

Clojure — русскоговорящее...

heroku_ru

PowerShell Pro

macOS Developers — русско...

DL in NLP discussion grou...

systemd

use Perl or die;

FORTH и родственные ЯП

Natural Language Processi...

ru_jenkins

CatBoost

CyberBiology

Sequelize - community (en...

sonarqube_ru

Elm Lang сообщество разра...

SublimeText_RU

NativeScript

WordPress CodeRun

ReactiveX - русскоговорящ...

PureScript — русскоговоря...

#Вайти

Эликсир и Вунш

Cassandra

Natural Language Processing

Владимир Кузовкин

Коллеги,Добрый вечер. У меня текст был разбит на несколько токенов.

Все прекрасно, да вот беда: в нем очень часто идут повторения слов. Например первые три строки можно отнести к одному токену, удалив первые два. Как это можно сделать?

#nlp #programming #russian

28.09.2023

23 ответов

101 просмотр

Erdeni

str.split()

28.09.2023

Futorio Franklin

Можно префиксное дерево построить

28.09.2023

Milana

Вы хотите, чтобы вторая строка была абажур + на и третья абажур + на + лампе?

28.09.2023

Владимир Кузовкин Автор вопроса

Milana
Вы хотите, чтобы вторая строка была абажур + на и ...

я хочу, чтобы он просто убрал первые две фразы. Третья фраза очевидна

28.09.2023

Alexandr Zamaraev

Владимир Кузовкин
я хочу, чтобы он просто убрал первые две фразы. Тр...

str.startswith - слишком просто? :)

28.09.2023

Alexey Korobeynikov

Futorio Franklin
Можно префиксное дерево построить

я так понял вопрос не в оптимальном хранении, а в дедупликации

28.09.2023

Futorio Franklin

Alexey Korobeynikov
я так понял вопрос не в оптимальном хранении, а в ...

А я не знаю как оптимально в дедупликации сделать

28.09.2023

Erdeni

Владимир Кузовкин
я хочу, чтобы он просто убрал первые две фразы. Тр...

Можно удалить предложения с количеством слов меньше 3. if len(str.split()) < 3: remove(str) Константу 3 можно сделать переменной и вычислять через функцию нахождения максимальной последовательности слов.

28.09.2023

Stas Ilyushin

Erdeni
Можно удалить предложения с количеством слов меньш...

Это если Python установлен, в макросах там по другому

28.09.2023

Владимир Кузовкин Автор вопроса

Erdeni
Можно удалить предложения с количеством слов меньш...

Точно не подойдет

28.09.2023

Erdeni

Владимир Кузовкин
Точно не подойдет

Я так понимаю, что вам нужны уникальные последовательности максимальной длины: Абажур (удалить) Абажур на (удалить) Абажур на лампе (оставить как 1 токен) Для того, чтобы вхождения «Абажур», «Абажур на» искались поиском и токенизировались как «Абажур на лампе» так?

28.09.2023

Владимир Кузовкин Автор вопроса

Erdeni
Я так понимаю, что вам нужны уникальные последоват...

Да, верно

28.09.2023

Erdeni

Владимир Кузовкин
Да, верно

А вдруг абажур будет не на лампе, а на чем-то другом, тогда у вас все сломается(

28.09.2023

Владимир Кузовкин Автор вопроса

Erdeni
А вдруг абажур будет не на лампе, а на чем-то друг...

Увы, нет

28.09.2023

Erdeni

Владимир Кузовкин
Увы, нет

Типичная задача с собеседования Яндекса на С++. Немного не DS, а бэкенд литкод. https://habr.com/ru/articles/142825/

28.09.2023

Владимир Кузовкин Автор вопроса

Erdeni
Типичная задача с собеседования Яндекса на С++. Не...

seq1 = "ABCDGH" seq2 = "AEDFHR" print("Максимальная общая подпоследовательность:", "".join(lcs(seq1, seq2))) Максимальная общая подпоследовательность: ADH. Я верно понял?

28.09.2023

Владимир Кузовкин Автор вопроса

Erdeni
Типичная задача с собеседования Яндекса на С++. Не...

я же верно понял?

28.09.2023

Erdeni

Владимир Кузовкин
я же верно понял?

Так, если в числах, то нам дают нод, а похоже надо нок.

28.09.2023

Sergey Bratchikov

Владимир Кузовкин
я же верно понял?

знаете вы могли бы вобще свою задачу в чатгпт записать и прямо код получить...

28.09.2023

Владимир Кузовкин Автор вопроса

Sergey Bratchikov
знаете вы могли бы вобще свою задачу в чатгпт запи...

Вы не поверите, уже...

28.09.2023

Alexandr Zamaraev

Владимир Кузовкин
Да, верно

def dedup(items: Sequence[str]): prev = '' for it in sorted(items): if not it.startswith(prev): yield prev prev = it yield prev Трудоёмкость O(n*log(N))

29.09.2023

Erdeni

Alexandr Zamaraev
def dedup(items: Sequence[str]): prev = '' for...

Вы просто трудоёмкость сортировки вывели на аутсорс🤓

29.09.2023

Alexandr Zamaraev

Erdeni
Вы просто трудоёмкость сортировки вывели на аутсор...

А там больше ничего и нет. После сортировки - проход с проверкой. :)

29.09.2023

Похожие вопросы

Natural Language Processing / Dmitriy

всем привет! 📗Есть задача генерации вопросов к тексту Посоветуйте что почитать ? Что использовать? дообучить, формат датасета

#nlp #programming #russian

06.09.2023

57 ответов

Natural Language Processing / Igor Chesnokov

Всем привет: после курса Andrew Ng Machine Learning Specialization играю с llama-2-7b-chat.ggmlv3.q8_0 и датасетом в форме текстов Сенеки. Ответы начинаются нормально, но под ...

#nlp #programming #russian

27.09.2023

10 ответов

Natural Language Processing / miteigi nemoto

Помогите интерпретировать результаты тестов. Почему большинство моделей имеют плохую релевантность? Даже те, что якобы на русский язык ориентированы. Сравнение разных моделей...

#nlp #programming #russian

06.08.2023

2 ответов

Natural Language Processing / datascience xc

Я пригласил девушку на свидание, мы договорились встретиться в 9. Я купил цветы и стал ждать ее, сидя на скамейке. Была прекрасная погода и у меня было хорошее настроение. В 1...

#nlp #programming #russian

15.09.2023

19 ответов

Natural Language Processing / vvv

Кейс с ChatGPT про 10.000 € в месяц 🤑 Интересно? Рассказываю. Есть компания, которая уже пару декад делает аналитику для торговых сетей. Они хороши в своем деле, что клиент...

#nlp #programming #russian

14.09.2023

5 ответов

Natural Language Processing / Serg Sk

Добрый день. Хочу взять RTX 4090. Или есть смысл заморачиваться и искать с жидкостным охлождением, когда модуль охлаждения отдельно. Может у кого есть какой-то полезный опыт в...

#nlp #programming #russian

16.11.2023

22 ответов

Natural Language Processing / Ростислав Корст

Всем привет! Подскажите, пожалуйста, для поиска использую e5 с векторами 1024 float32 Качество поиска фича similarity между запросом и документом супер растит, но соответстве...

#nlp #programming #russian

05.10.2023

21 ответов

Natural Language Processing / Oleg

Господа и дамы, ИИ эксперты, подскажите не знающему (кто чем сможет в любом виде: подходы, названия, ссылки, метрики) как получить ранжирующую модель, если есть пара тысяч отд...

#nlp #programming #russian

23.10.2023

2 ответов

Natural Language Processing / Nick

Привет! Кто знает, существует ли подобный этому leaderboard для русскоязычных embeddings?

#nlp #programming #russian

11.08.2023

27 ответов

Natural Language Processing / Eduard Lanchev

Ребята, всем привет! ❓Есть вопрос. Тема трансформеров очень интересна, еще сильнее подогрело появление ChatGPT и аналогов. Но многие здесь, и я в том числе, смотрим на локал...

#nlp #programming #russian

02.09.2023

20 ответов

Смотреть еще

Natural Language Processing