Суть задания : Нужно распределить список ключевых фраз по группам атрибутов.
Какие данные я предоставляю:
Список ключевые фраз (3 - 5 тысяч фраз, уже сделана предварительная чистка и убраны явные и неявные дубли). Языки - английский, испанский, немецкий, французский, итальянский и могут быть другие, знание языка приветствуется но не обязательно (достаточно использования гугл переводчика).
Пример части списка http://joxi.ru/KAxxe5bt4gRKyA
Базовый список групп атрибутов, по которым будем делать распределение. Пример: цвета, бренды, типы товаров, другие особенности или характеристики. Пример списка атрибутов http://joxi.ru/vAWbDYLUke6Bv2
Даю доступ к специальной программе, которая делает разбор фраз согласно с пересечением с группами атрибутов и показывает какая часть из каждой фразы не совпала ни с одним из атрибутов. Пример обработанного программой списка http://joxi.ru/BA0jd41TBQ4qnm
Как вы можете увидеть, программа нашла в каких ключевых фразах есть какие атрибуты, в графу “залишок” вписала остаток фразы, которые не совпал ни с одним из атрибутов, именно с этим остатком и нужно будет работать.
Нужно будет разобраться почему и какие слова попали в остаток и можно ли их добавить в какую то из групп атрибутов (если это логично) или добавить новую группу (тоже если это логично)
Это кратко, отдельно все покажу и расскажу и помогу максимально быстро разобрать весь список.