AI-Driven Development. Родион Мостовой

1.6K views14:58

ChatGPT 4.1

Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.

tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.

А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.

Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).

У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.

Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.

Давайте про плюсы

● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров

● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)

● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini

Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.

Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.

Релевантные бенчмарки
● Aider Polyglot, 13 место - близкие к реальным задачи разработки;
● Fiction.LiveBench - удержание длинного контекста;
● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.

Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.

Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (~~а потом выбрасывать и снова писать~~);
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.

Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.

А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?

—

Почитать про текущую SOTA по версии меня:
● Gemini 2.5 Pro Experimental, общая инфа
● Gemini 2.5 Pro Experimental, личные впечатления
● Gemini 2.5 Pro Exp + Cursor

#news #ai #model

531 views05:39

Forwarded from ИИволюция 👾 (Сергей Пахандрин)

Не без ложки дёгтя для OpenAI в свежем тесте Aider polyglot coding benchmark:

– o3 дал 79,6% правильных ответов — выше, чем Gemini 2.5 Pro (72,9%), но стоит в 17 раз дороже — $111 против $6.32.

– o4-mini набрал 72%, то есть чуть хуже Gemini 2.5 Pro, и при этом оказался в 3 раза дороже — $19.64 против $6.32.

Выводы: по балансу цена/качество Gemini 2.5 Pro по-прежнему выглядит сильнее и интереснее для разработчиков, несмотря на крутость новых моделей OpenAI.

При этом Google вроде как готовит новую модель заточенную на разработку - Night Whisper и думаю, вполне могут прыгнуть выше по качеству сохранив при этом доступные цены.

ИИволюция

585 views06:13

AI-Driven Development. Родион Мостовой

А у вас какие результаты показали новые модели? Чувствуется прирост в качестве?

606 views06:13

AI-Driven Development. Родион Мостовой

Ещё, OpenAI выпустили свой аналог aider'a под названием Codex - это автономный агент для программирования, работающий из командой строки, фишка которого в мультимодальности (он умеет принимать изображения на вход), ну и оптимизированного под новые модельки OpenAI GPT-4.1, o3, o4-mini. Если они научат этого агента автономно запускать и проверять результат своей работы в браузере, то получится конкурент Devin'у.

Как известно, антропик накануне тоже выпустили похожий инструмент (мастерски сжигающий токены) Claude Code. Но у Codex, в отличие от Claude Code, исходники открыты: https://github.com/openai/codex

Демка от OpenAI: https://youtu.be/FUq9qRwrDrI?si=0wjY42NT_zwp1pBx

Ждём результатов сравнения с другими агентами в LiveSWEBench.

GitHub

GitHub - openai/codex: Lightweight coding agent that runs in your terminal

Lightweight coding agent that runs in your terminal - openai/codex

580 viewsedited 07:21

AI-Driven Development. Родион Мостовой

Суть вайб-кодинга в одном меме)) Не удержался :)

438 viewsedited 17:40

AI-Driven Development. Родион Мостовой

Forwarded from Откровения от Олега

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

414 views17:40

AI-Driven Development. Родион Мостовой

Forwarded from Этихлид

ChatGPT o3 и немного o4-mini (1/2)

Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini.
Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI.
Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google.
Попробуем разобраться, насколько они оправдались.

Кратко по выбору модели для разработки
Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу.

Повседневные задачи
🥇 Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом
🥈 Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь

Архитектура и планирование
🥇 Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего
🥈 o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг

Сложные задачи, чистый ризонинг
🥇 o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами
🥈 Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода

Длинный контекст (>200k)
🥇 Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте

А где же o4-mini?
Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах.

OpenAI o3
Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами.

Плюсы
🟢 Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений".
Что приводит нас ко второму плюсу:

🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать.
Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте.
Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска.

+/-
🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.

#ai #model #review

290 views08:55

AI-Driven Development. Родион Мостовой

Forwarded from Этихлид

ChatGPT o3 (2/2)

Минусы
🔴 Малая длина фактического вывода
● модель обрезает код, выдает 200 строк вместо ожидаемых 800, пытается его ужать там, где это лишено смысла;
● использует плейсхолдеры вместо реальных имплементаций;
● игнорирует просьбы выдать полный ответ;
● не дает пояснений к тому, что делает и комментариев к нетривиальному коду;

И для многих задач разработки одно это делает её неприменимой.
Такое ощущение, что ее тренировали на то, чтобы она как можно меньше тратила токенов на ответ.

🔴 Ленивое использование инструментов по API - тут, конечно, плюс в том, что о-модель в принципе использует инструменты, но минус в том, что недостаточно активно там, где это нужно, и ей часто приходится указывать на то, какой инструмент использовать на следующем шаге.
Напомню, что на сайте ChatGPT свои инструменты она использует куда активнее.

🔴 Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI.

🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой.

Мне она как-то выдала, что одно из возможных решений задачи снизит количество ошибок с 15 до 1%, хотя я видел, как она сама его недавно проверяла, и у неё по факту не получилось такого результата.
Целевые 1% я ей сам озвучивал как достижимые (это в самом деле так), и тут она явно пыталась подогнать свой ответ под мои ожидания.

🔴 Высокая стоимость API - несмотря на более низкие, чем у o1, цены, реальная стоимость решения сложных задач с активным ризонингом и тулами может быть очень высокой. К примеру, на бенчмарке Aider Polyglot o3 оказалась в 17.5 раз дороже Gemini 2.5 Pro. Это ставит под вопрос экономическую
целесообразность использования её через API.

(Личное) Меня напрягает её манера иногда начинать фразы в ризонинге с прямого обращения ко мне по имени или упоминая его где-то в тексте - выглядит криповато-НЛПшно :)

Вердикт для разработчиков
● Модель отличная для решения узких сложных задач, но нет смысла ее использовать где-то ещё из-за вышеперечисленных минусов.

● В силу её особенностей передача всего нужного ей контекста заранее является особенно важным - описывайте задачу сразу подробно и со всеми ограничениями, накладываемыми на потенциальное решение.

● Эффективнее будет использовать o3 на сайте ChatGPT в рамках подписки, чтобы не тратить деньги на API и чтобы добиться от нее внятного использования инструментов.
В том же Cursor тоже можно (30 центов за запрос), но не стоит рассчитывать, что она сама соберет весь нужный контекст, и лучше озаботиться этим заранее, подготовив её к ваншоту, нежели к долгой переписке :)

● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме.

Несмотря на все её проблемы я сам точно буду её использовать там, где нужен чистый мощный ризонер.

Что ждём дальше по моделям?
● DeepSeek R2 / V4
● Таинственные dayhush и claybrook, которые вчера появились на WebDev Arena и показывают очень хорошие результаты в веб-кодинге (и пока что больше ничего про них неизвестно) - это могут быть специализированные модели от Google для разработки

P.S.
В этот раз не стал расписывать бенчмарки, т.к. рассказывал кратко про них в постах про другие модели ранее.
Думаю как-нибудь отдельно написать, какие и почему важны для программирования, куда смотреть, кому верить, потому что там уже какой заяц, какой орёл, какая блоха.
✍️ - посмотрим, сколько наберётся интересующихся :)

#ai #model #review

Please open Telegram to view this post

VIEW IN TELEGRAM

275 views08:55

AI-Driven Development. Родион Мостовой

ChatGPT o3 и немного o4-mini (1/2) Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini. Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI. Да, ожидания были высокими, особенно…

375 views09:14

AI-Driven Development. Родион Мостовой

А теперь, для любителей локальных моделей: Gemma 3 QAT

Что-то мы все про протоетарщину да и протоетарщину. А что насчет локальных моделей?
Надо сказать, что на этом поприще у маленькмх опенсорных моделей тоже наблюдается какой-то фантастический буст. Например, Gemma 3 27B в кодинге показывает результаты, сопоставимые с GPT-4o-mini.
А из ризонинг моделей, как упоминал ранее, QwQ 32B на уровне Claude 3.7 Sonnet Thinking, а DeepCoder 14B (это новая спец. моделька от создателей DeepSeek) на уровне o3-mini (low).
Ну, и опять эксклюзив - на агентских задачах по кодингу, неожиданно вырвалась вперед моделька OpenHands LM 32B от ребят из OpenHands, которые дотренировали ее из Qwen Coder 2.5 Instruct 32B на своем "тренажере для агентов" SWE-Gym, опередив в итоге в SWE-bench даже огромную Deepseek V3 0324. В общем, OpenHands молодцы! Кстати, недавно их Code-агент взял новую соту (SoTA - State of The Art) в SWE-bench Verified. Так что, могу всем смело рекомендовать их блог.

Ух, ну и перенасытил я вас всего лишь одним абзацем!

В общем, что сказать-то хотел - ребята из Google посмотрели, значит, на свою Gemma 3 и увидели, что, при всей своей красоте, она довольно тяжелая все равно оказалась для консьюмерских ПК/GPU, ну и разразились они какой-то крутой квантизацией, которая называется QAT (Quantization-Aware Training). Что это за QAT такой мы тут разбираться не будем - просто для нас важно знать, что эта хитрая техника квантизации уменьшает требования моделей к железу до 4-х раз, при этом почти не влияя на уровень "интеллекта" модели.
Действительно ли это так? Давайте проверим на примере Gemma 12B IT QAT (4bit). Кстати, специальные MLX-квант-веса, оптимизированные для маководов (я) доступны по ссылке.
Так вот, моделька эта запускается через LMStudio в две кнопки.
В итоге, ответы действительно у нее неплохие, какую-то несложную кодогенерацию она явно вытянет. На, и русский язык ее оказался безупречным (см. скрины). Более того, после моего замечания она, как будто, даже вывезла задачу с параллельной генерацией эмбеддингов (сама решила взять для этого SemaphoreSlim). С использованием Parallel уже не справилась, т. к. начала await юзать внутри Parallel.For (сорри за жаргон, если вы не дотнетчик). Но в целом, у меня впечатления отличные!

А как у вас себя ведут локальные модельки? С какими задачами справляются, а с какими нет? И какие модели вы используете локально? (если вообще используете)

350 views16:01

About

Blog

Apps

Platform