Маленькая модель бросает вызов гигантам ИИ: прорыв Sina Weibo пересматривает масштабирование
В воскресенье команда из девяти исследователей Sina Weibo — китайского гиганта социальных сетей, известного скорее своей микро-блоговой платформой, чем передовым искусственным интеллектом — опубликовала 14-страничный технический отчет на arXiv, который вызвал шок в исследовательском сообществе ИИ. Их заявление: языковая модель всего с 3 миллиардами параметров может сравниться или даже превзойти по производительности рассуждений флагманские системы Google DeepMind, OpenAI, Anthropic и DeepSeek, которые в сотни раз крупнее.
Содержание
- 1 VibeThinker-3B: неожиданные результаты в бенчмарках
- 2 Результаты, бросающие вызов законам масштабирования ИИ
- 3 Четырехэтапный конвейер обучения, питающий крошечный движок рассуждений
- 4 Реальные тесты выявляют разрыв между бенчмарками и практической производительностью ИИ
- 5 Почему компания из сферы социальных медиа могла найти трещину в гипотезе масштабирования
- 6 Маленькие модели, большие последствия и вопрос, который индустрия ИИ больше не может игнорировать
VibeThinker-3B: неожиданные результаты в бенчмарках
Модель под названием VibeThinker-3B набрала 94,3 балла на AIME 2026 (Американском пригласительном математическом экзамене) — одном из самых требовательных стандартизированных математических соревнований в мире. Этот показатель ставит ее в один ряд с DeepSeek V3.2, моделью с 671 миллиардом параметров, и опережает Gemini 3 Pro, высокопроизводительную флагманскую систему Google, набравшую 91,7 балла. С помощью разработанной командой техники масштабирования во время тестирования под названием Claim-Level Reliability Assessment (оценка надежности на уровне утверждений), показатель увеличивается до 97,1 балла, что превосходит практически все известные системы.
В течение нескольких часов после публикации статья получила 62 голоса одобрения в ленте ежедневных статей Hugging Face, репозиторий модели набрал 130 лайков, а репозиторий на GitHub достиг 685 звезд. Однако реакция в социальных сетях не была однозначно восторженной, во многих случаях она выражала глубокий скептицизм.
«ЧТО, ЧЕРТ ВОЗЬМИ, ПРОИСХОДИТ В ИИ?» — написал пользователь @orcus108 в X (бывший Twitter), чей пост набрал более 161 000 просмотров. «Модель с 3 миллиардами параметров показала результаты в кодировании, сопоставимые с Claude Opus 4.5… Я искренне не знаю, прорыв ли это или бенчмарки сломаны».
Это напряжение — между подлинным научным прогрессом и растущим подозрением, что бенчмарки ИИ стали «игровыми» до такой степени, что потеряли смысл — лежит в основе истории VibeThinker-3B. И ответ на этот вопрос чрезвычайно важен не только для академического престижа, но и для многомиллиардного вопроса о том, является ли неуклонное стремление ИИ-индустрии к постоянно увеличивающимся моделям единственным путем к развитию интеллекта.
Результаты, бросающие вызов законам масштабирования ИИ
Результаты, представленные в техническом отчете, по любым обычным стандартам, являются экстраординарными.
В области математики VibeThinker-3B достигла 91,4 балла на AIME 2025, 94,3 балла на AIME 2026, 89,3 балла на HMMT 2025 (Математический турнир Гарварда-Массачусетского технологического института), 93,8 балла на BruMO 2025 (Математическая олимпиада Брауновского университета) и 76,4 балла на IMO-AnswerBench — бенчмарке, включающем 400 задач уровня Международной математической олимпиады. В кодировании она показала 80,2 Pass@1 на LiveCodeBench v6, бенчмарке, разработанном для тестирования генерации исполняемого кода, и достигла 96,1% принятых решений на еженедельных и двухнедельных конкурсах LeetCode с конца апреля по конец мая 2026 года. В задачах на следование инструкциям модель набрала 93,4 балла на IFEval.
Чтобы понять масштаб различий в параметрах: DeepSeek V3.2 имеет 671 миллиард параметров — примерно в 224 раза больше VibeThinker-3B. GLM-5 от Zhipu AI — 744 миллиарда параметров. Kimi K2.5 от Moonshot AI превышает 1 триллион. Модель VibeThinker-3B с 3 миллиардами параметров могла бы работать на обычном потребительском ноутбуке.
Исследователи рассматривают этот результат не как аномалию, а как доказательство более широкого теоретического утверждения. Они представляют так называемую «гипотезу параметрической компрессии-охвата» (Parametric Compression-Coverage Hypothesis), которая утверждает, что различные типы ИИ-возможностей имеют принципиально разные отношения к размеру модели. Проверяемые рассуждения — те, что тестируются на математических соревнованиях и в задачах по кодированию, где ответы могут быть однозначно проверены — называются в статье «параметро-плотной» способностью: ее можно сжать в компактное ядро. Открытые знания, напротив, являются «параметро-экспансивными», требуя широкого охвата фактов, концепций и частных случаев, что по своей природе требует большего количества параметров.
В статье прямо признается это различие. На GPQA-Diamond, бенчмарке научных знаний на уровне выпускника вуза, VibeThinker-3B набрала всего 70,2 балла — значительно уступая 91,9 баллам Gemini 3 Pro и 87,0 баллам Claude Opus 4.5. Авторы пишут, что этот разрыв «согласуется с нашим утверждением, а не противоречит ему: основной вывод заключается не в том, что модель с 3 миллиардами параметров полностью заменила ведущие универсальные модели, а в том, что небольшая модель может достичь первоклассной производительности во многих задачах, требующих проверяемых рассуждений».
Четырехэтапный конвейер обучения, питающий крошечный движок рассуждений
VibeThinker-3B не создавалась с нуля. Она была дообучена на основе Qwen2.5-Coder-3B, компактной базовой модели от команды Qwen компании Alibaba, с помощью того, что исследователи Weibo AI называют «Принципом спектра к сигналу» (Spectrum-to-Signal Principle) — многоступенчатого конвейера, впервые представленного в работе команды VibeThinker-1.5B в ноябре 2025 года.
Обучение проходит в четыре основные фазы. Первая — это двухэтапный процесс контролируемой тонкой настройки (supervised fine-tuning) с использованием куррикулярного обучения: модель сначала обучается на широкой смеси данных по математике, коду, научно-техническому рассуждению (STEM), общему диалогу и следованию инструкциям, затем переходит к тщательно отобранному подмножеству более сложных, долгосрочных задач на рассуждение. На втором этапе отбрасываются образцы с траекториями рассуждений короче 5000 токенов, а также задачи, которые VibeThinker-1.5B может решить более чем в 75 процентах случаев, что заставляет модель сосредоточиться на действительно сложных вызовах.
Вторая фаза применяет обучение с подкреплением (reinforcement learning, RL) в нескольких областях — математике, коде и STEM — используя алгоритм MaxEnt-Guided Policy Optimization (MGPO), который приоритезирует обучение на задачах, находящихся на текущей границе возможностей модели, а не на тех, которые она уже легко решает или считает невыполнимыми. Примечательно, что команда обнаружила, что стратегия, хорошо работавшая в масштабе 1,5 миллиарда параметров — прогрессивное расширение окна контекста во время RL-обучения — фактически ухудшила производительность при 3 миллиардах параметров. Они предполагают, что более сильная начальная контрольная точка означала, что усечение траекторий рассуждений во время разминки больше не удаляло шум, а нарушало корректные паттерны рассуждений. Решением стало обучение с единым окном контекста в 64 000 токенов на протяжении всего процесса.
В рамках фазы математического обучения с подкреплением команда также вводит так называемое «Long2Short Math RL» (Математическое RL от длинного к короткому) — вторичную стадию оптимизации, которая перераспределяет вознаграждения в пользу более коротких правильных решений по сравнению с более длинными, уменьшая многословие без ущерба для точности. Эта техника использует перераспределение вознаграждений с нулевой суммой, что позволяет избежать смещения общего сигнала вознаграждения, одновременно подталкивая модель к более эффективным рассуждениям.
Третья фаза извлекает высококачественные траектории рассуждений из обученных с помощью RL контрольных точек и перегоняет их обратно в унифицированную модель посредством контролируемой тонкой настройки. Команда использует «оценку потенциала обучения» — по сути, перплексию модели-ученика на каждой траектории учителя — для приоритизации траекторий, которые являются правильными, но которые ученик еще не усвоил. Финальная фаза, называемая Instruct RL, применяет обучение с подкреплением к задачам следования инструкциям, используя комбинацию валидаторов на основе правил для ограничений формата и моделей вознаграждения на основе рубрик для оценки открытого качества.
Франческо Бертолотти, исследователь ИИ, который одним из первых обратил внимание на публикацию в X, кратко описал подход: «Эти результаты были достигнуты в основном за счет доработок после обучения на основе Qwen2.5-Coder. В статье не так много деталей, но, похоже, они дистиллируют данные из контрольных точек обучения с подкреплением (RL ckpts), а затем проводят финальное обучение с подкреплением (RL-based instruct RL)». Его пост набрал более 161 000 просмотров.
Реальные тесты выявляют разрыв между бенчмарками и практической производительностью ИИ
На каждую восторженную реакцию на статью последовало столь же сильное возражение. Сообщество исследователей ИИ к середине 2026 года стало глубоко настороженно относиться к заявлениям, основанным на бенчмарках, и VibeThinker-3B появилась в среде, предрасположенной к скептицизму.
«Бенчмарки — это буквальное сопоставление шаблонов в одном файле кода, — написал @BigMoonKR в X. — Это не имеет никакого отношения к реальной работе по кодированию. Я не знаю, почему люди до сих пор этого не понимают».
«Бенчмаркинг», — заявил @oflu_bedirhan, используя термин, который стал сокращением в ИИ-сообществе для моделей, которые, как кажется, оптимизированы специально для производительности в бенчмарках за счет реальной полезности.
Наиболее острая критика исходила от пользователей, которые фактически скачали и протестировали модель. Пользователь @politilols, протестировавший модель, отметил: «Я попробовал полную точность. Она даже не знает, что такое UV-скрипт (один из самых популярных инструментов разработчика Python). Я не видел такого ни в одной LLM уже как минимум год. Модель явно заточена под бенчмарки». Когда Бертолотти ответил, что модель, похоже, больше сосредоточена на математическом рассуждении, чем на практическом кодировании, пользователь возразил: «Они включают оценку livecodebench. Нет никаких шансов, что это отражает возможности модели».
@Itsdotdev высказал структурную критику: «Посмотрите на сами бенчмарки, и это, вероятно, не будет таким шокирующим. Почему нет DeepSWE? Почему нет ни одного из стандартных бенчмарков, которые используют ведущие поставщики?» Пользователь @AvenirReym задал более диагностический вопрос: «Если модель хорошо себя покажет на бенчмарке, созданном после даты окончания обучения модели, это реальность. Если она выигрывает только на наборах типа AIME, которые циркулировали годами, это утечка данных».
Авторы статьи, похоже, предвидели эти возражения. В техническом отчете говорится, что обучающие наборы «прошли строгую деконтаминацию бенчмарков», включая фильтрацию на основе N-грамм для удаления «перекрытий N-грамм с оценочными наборами».
Оценка конкурсов LeetCode — охватывающая конкурсы с 25 апреля по 31 мая 2026 года, даты, которые наступают после любой возможной даты окончания обучающих данных — представляет собой наиболее надежную защиту от опасений по поводу утечки данных. В этих конкурсах VibeThinker-3B прошла 123 из 128 первых попыток, что составляет 96,1% принятых решений, превзойдя GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 и Claude Opus 4.6 при идентичных условиях оценки.
Тем не менее, отчеты реальных пользователей указывают на значительный разрыв между производительностью в бенчмарках и практической полезностью — явление, которое стало привычным для всей отрасли. Пользователь @luismolinaab сообщил, что «в LM Studio модель хорошо отвечает только на первый вопрос, а последующие вопросы воспринимает как продолжение первого».
Почему компания из сферы социальных медиа могла найти трещину в гипотезе масштабирования
Даже самые резкие критики признали, что достижение этих бенчмарковых показателей при 3 миллиардах параметров — независимо от того, насколько они применимы к реальным производственным сценариям — является значительным инженерным достижением. «Даже если это «бенчмаркинг», сделать это с 3 миллиардами параметров увлекательно, это показывает, как быстро развивается эта область», — написал @rohityin.
Это наблюдение затрагивает вопрос, который мучает индустрию ИИ с момента появления гипотезы масштабирования: всегда ли больше значит лучше? Общепринятая мудрость, наиболее известная в законах масштабирования Chinchilla и подкрепленная коммерческим доминированием постоянно увеличивающихся базовых моделей, утверждает, что больше параметров и больше обучающих данных надежно приводят к лучшей производительности. Экономическое следствие очевидно: обучение и развертывание передовых моделей стоит десятки или сотни миллионов долларов США, создавая огромные барьеры для входа.
VibeThinker-3B бросает вызов этому консенсусу — но лишь частично. В статье тщательно очерчиваются границы ее утверждений, различая задачи с «четкими сигналами проверки» и те, которые требуют обширных фактических знаний. Гипотеза параметрической компрессии-охвата прямо утверждает, что маленькие модели не могут полностью заменить большие.
«Истинное значение VibeThinker-3B заключается не в доказательстве того, что модель с 3 миллиардами параметров может заменить крупномасштабные универсальные модели, — говорится в статье, — а скорее в предоставлении конкретного эмпирического сигнала: разработка компактных моделей больше не является просто пассивным компромиссом для эффективности развертывания или контроля затрат; она становится перспективным исследовательским направлением, которое принципиально дополняет традиционную парадигму масштабирования параметров».
Возможно, самым удивительным элементом работы является ее происхождение. Sina Weibo — публично торгующаяся на Nasdaq и Гонконгской фондовой бирже с рыночной капитализацией, колеблющейся в пределах нескольких миллиардов долларов США — не является компанией, обычно ассоциирующейся с передовыми исследованиями в области ИИ. Тем не менее, серия VibeThinker является вторым крупным вкладом Weibo в открытый исходный код ИИ за семь месяцев.
VibeThinker-1.5B, выпущенная в ноябре 2025 года, продемонстрировала, что модель всего с 1,5 миллиардами параметров может превзойти оригинальную DeepSeek R1 по нескольким математическим бенчмаркам — результат, который команда достигла при заявленной стоимости дообучения всего 7 800 долларов США, по сравнению с 294 000 долларов США, оцененными для DeepSeek R1.
Исследовательская группа компактна — девять авторов, все указаны как сотрудники Sina Weibo Inc. Модель выпущена под лицензией MIT, одной из самых разрешительных доступных лицензий с открытым исходным кодом, и веса свободно загружаются как с Hugging Face, так и с ModelScope. В течение первого дня после выпуска члены сообщества уже создали GGUF-квантизации и производные модели.
Маленькие модели, большие последствия и вопрос, который индустрия ИИ больше не может игнорировать
Самая честная оценка VibeThinker-3B, возможно, заключается в том, что она одновременно и меньше, и больше, чем предполагают бенчмарки. Меньше, потому что модель, которая испытывает трудности с базовыми знаниями популярных инструментов разработчика, вряд ли в ближайшее время заменит какую-либо производственную систему помощи в кодировании. Больше, потому что лежащая в ее основе идея — что способность к рассуждению и фактические знания частично разделены, и что первое может быть сжато гораздо более агрессивно, чем предполагалось ранее — имеет глубокие последствия для того, как индустрия мыслит о дизайне моделей, экономике развертывания и доступности передовых возможностей ИИ.
Если гипотеза параметрической компрессии-охвата подтвердится, это предполагает будущее, в котором небольшие, специализированные движки рассуждений будут работать наряду с крупными моделями, богатыми знаниями, в гибридных архитектурах — видение, где модель с 3 миллиардами параметров выполняет логическую «тяжелую работу», в то время как более крупная система обеспечивает фактическую основу. Такая архитектура могла бы значительно снизить стоимость развертывания возможностей ИИ-рассуждений, потенциально принося математическую производительность и производительность в кодировании на уровне соревнований на устройства со скромным оборудованием.
«Интересная часть заключается в том, что мы начинаем разделять знания и рассуждения, — написал @RealLambdaFlux в X. — Маленькая модель с сильным дообучением может превосходить свой размер в задачах с четкой обратной связью».
Пользователь @cmitsakis предложил практический исход: «Я думаю, что маленькие модели — это будущее для агентов, потому что они могут использовать инструменты для получения знаний и работать быстро и дешево».
Независимо от того, будет ли это будущее реализовано конкретно через VibeThinker-3B или через десятки команд, которые сейчас стремятся воспроизвести и расширить эти результаты, статья уже достигла того, чего не может полностью передать ни один бенчмарк.
Она заставила ИИ-сообщество столкнуться с некомфортной возможностью: возможно, в течение многих лет индустрия тратила миллиарды долларов на масштабирование параметров для улучшения того вида интеллекта, который всегда мог поместиться на ноутбуке. Веса общедоступны. Код открыт. И самый важный тест не на какой-либо таблице лидеров — а в том, сможет ли кто-нибудь сделать модель такого размера действительно полезной в реальном мире.

