review-lab · оценка 19 моделей × 30 отзывов × 6 осей

Единый боевой промпт, единый набор отзывов. Оценка по шести осям качества. Шкала 1–10.

19 моделей
30 отзывов
6 осей
~3 400 экспертных оценок

Слепая оценка ответов по единому боевому промпту. Это один из наших регулярных прогонов: мы тестируем модели на свежих отзывах постоянно — отбираем новые паттерны удачных ответов и переносим лучшее в свой промпт и конвейер. Бенчмарк не разовый, а часть рабочего цикла улучшения качества.

Проверить на своём отзыве →

1 🟩 GPT-5.5

0 провалов CJK: нет
Креативность8.0
Логика9.1
Эмпатия8.5
Тон бренда8.5
Надёжность8.7
Стратегия возвратов9.0
Чистый русский и сильная логика, ровные ответы без провалов. Дороговата на потоке.

2 🟣 Claude Opus 4.8

1 пустой ответ CJK: нет
Креативность9.3
Логика8.4
Эмпатия8.9
Тон бренда9.0
Надёжность7.4
Стратегия возвратов8.4
Премиум-письмо: метафоры точные, тепло живое. Но 1 пустой ответ — на спорные/дорогие отзывы, не на поток.

3 🧠 GLM 5.1

1 пустой ответ CJK: нет
Креативность9.3
Логика8.4
Эмпатия8.9
Тон бренда8.9
Надёжность7.4
Стратегия возвратов8.4
Самый живой и остроумный язык. Но «думает» много и 1 пустой ответ.

4 🟣 Claude Opus 4.7

0 провалов CJK: нет
Креативность8.9
Логика8.2
Эмпатия8.7
Тон бренда8.7
Надёжность7.8
Стратегия возвратов8.2
Прошлая Opus: качество близко к 4.8, чуть суше. Цена высокая.

5 🟪 Claude Sonnet 4.6

0 провалов CJK: нет
Креативность8.6
Логика8.0
Эмпатия8.6
Тон бренда8.6
Надёжность8.0
Стратегия возвратов8.0
Почти уровень Opus, но дешевле и быстрее. Тёплый живой тон.

6 💡 GLM 4.9

0 провалов CJK: нет
Креативность8.8
Логика8.0
Эмпатия8.0
Тон бренда8.5
Надёжность7.6
Стратегия возвратов8.0
Близко к 5.1 по живости, чуть слабее в сложных возвратах.

7 🔶 DeepSeek V4

«думает» долго CJK: риск
Креативность7.6
Логика9.0
Эмпатия7.9
Тон бренда7.7
Надёжность7.3
Стратегия возвратов8.6
Глубокая логика на возвратах, но дорого из-за «думанья» и редкий CJK.

8 🔷 DeepSeek V4 Pro

редкие кит. символы CJK: риск
Креативность8.0
Логика8.6
Эмпатия7.8
Тон бренда7.8
Надёжность7.5
Стратегия возвратов8.0
Сильная за свою цену, но иногда проскакивают иероглифы — нужен фильтр.

9 🐫 Qwen 3.6 Flash

0 провалов CJK: риск
Креативность7.8
Логика7.6
Эмпатия7.8
Тон бренда7.3
Надёжность7.5
Стратегия возвратов7.8
Крепкий середняк: читаемо, многословен. Нужен фильтр символов.

10 🌙 Kimi K2

0 провалов CJK: риск
Креативность7.4
Логика7.4
Эмпатия7.7
Тон бренда7.5
Надёжность7.0
Стратегия возвратов7.4
Хорошо держит контекст, читаемо; редкий риск кит. символов.

11 🔵 Gemini 3.1 Pro

2 шаблонных ответа CJK: нет
Креативность6.9
Логика7.5
Эмпатия7.5
Тон бренда7.5
Надёжность7.5
Стратегия возвратов7.5
Корректно, но местами шаблонно и суховато, без огонька. Крепкий середняк, не более.

12 ✖️ Grok 4.3

0 провалов CJK: нет
Креативность6.2
Логика7.8
Эмпатия7.0
Тон бренда7.0
Надёжность8.0
Стратегия возвратов7.4
Надёжный рабочий: без провалов и CJK, возвраты осторожные. Суховат.

13 🔺 MiniMax M2

0 провалов CJK: риск
Креативность7.0
Логика7.0
Эмпатия7.0
Тон бренда6.5
Надёжность6.3
Стратегия возвратов6.8
Средний уровень, иногда многословна; нужен фильтр символов.

14 ✴️ Grok 4.1

0 провалов CJK: нет
Креативность5.6
Логика7.0
Эмпатия6.5
Тон бренда6.5
Надёжность7.5
Стратегия возвратов7.0
Прошлый Grok: надёжно, но суше и короче 4.3.

15 🟢 Gemini 3.1 Flash-Lite

шаблонный язык CJK: нет
Креативность6.2
Логика6.7
Эмпатия6.7
Тон бренда6.1
Надёжность7.1
Стратегия возвратов6.7
Стабильно и дёшево, но язык простоват и штампованный, без огонька. Рабочий базовый уровень.

16 🦙 Llama 4 Maverick

1 обрыв CJK: нет
Креативность6.6
Логика7.0
Эмпатия6.6
Тон бренда6.0
Надёжность6.1
Стратегия возвратов7.0
Ровная и быстрая, но русский местами канцелярский; 1 обрыв.

17 🐫 Qwen 3.7 Max

6/30 — мусор (JSON) CJK: риск
Креативность7.3
Логика6.9
Эмпатия6.5
Тон бренда6.6
Надёжность4.5
Стратегия возвратов6.7
Когда отвечает — по делу, но в каждом пятом ответе мусор. Риск высокий.

18 🐪 Qwen 3.6 Max

2 мусорных ответа CJK: риск
Креативность6.6
Логика6.6
Эмпатия6.2
Тон бренда6.2
Надёжность4.3
Стратегия возвратов6.3
Бюджетная, но нестабильная: пара мусорных ответов и риск иероглифов.

19 🐫 Qwen 3.7 Plus

нечитаемый стиль CJK: риск
Креативность6.8
Логика6.6
Эмпатия6.2
Тон бренда4.3
Надёжность4.7
Стратегия возвратов6.2
Пишет простынёй без пунктуации, однажды вывалила внутренний монолог.
Единой «лучшей» модели нет: одна сильна в креативности, другая в логике, третья в надёжности. Поэтому MPMind не полагается на одну модель, а комбинирует их под тип отзыва и проверяет результат — это и есть наш конвейер.