Календарь релизов нейросетей 2025–2026: open-source, GPT, Claude, Gemini

Ежедневно обновляемый календарь выхода новых нейросетей: open-source LLM с Hugging Face и GitHub, релизы OpenAI, Anthropic, Google, Mistral. Фильтры по типу модели (текст, изображение, видео, аудио, мультимодальная) и лицензии. Графики, поиск, ссылки на модели. На странице доступно 700 моделей за период с 2025-12-05 по 2026-06-25. Свежие релизы: Ornith-1.0, Gemini 3.5 Flash (Computer Use), ViQ, Qwen-Image-Agent, lift, OpenThoughts-Agent, Mistral OCR 4, Doubao 2.1 Pro, Sakana Fugu, Sakana Fugu Ultra, gemma-4-12B-it-abliterix, Sumi.

Часто задаваемые вопросы

Как часто обновляется календарь релизов ИИ-моделей?

Ежедневно. Каждое утро автоматический агент проходит по 26 площадкам (Hugging Face, GitHub Trending, arXiv, блоги OpenAI/Anthropic/Google/Mistral и др.) и добавляет новые модели за прошедший день.

Какие типы моделей попадают в календарь?

Все: open-source с возможностью локального запуска (Apache 2.0, MIT, Llama), бесплатные облачные (free-cloud), платные с локальной установкой (enterprise on-prem) и закрытые облачные (GPT-5, Claude, Gemini, Grok).

Можно ли отфильтровать только видео или аудио модели?

Да, фильтр «Тип модели» поддерживает значения: текст, изображения, видео, аудио, мультимодальные и документы. Фильтры комбинируются с типом лицензии и поиском по названию.

Откуда берутся данные о релизах?

Из 26 публичных источников: Hugging Face Models/Papers/Blog, arXiv cs.CL, GitHub Trending, Papers with Code, новостные ресурсы (The Decoder, VentureBeat, TechCrunch, MarkTechPost), сообщества (r/LocalLLaMA, r/MachineLearning, Hacker News) и блоги вендоров (OpenAI, Anthropic, Google, Meta, Mistral, Stability, Together, Databricks, xAI, Cohere). Полный список доступен по кнопке «Источники» на странице.

🚀 Open-Source и платные ИИ-модели

Календарь релизов 2025–2026

Отслеживайте последние релизы ИИ-моделей: от бесплатных open-source до платных облачных решений.

204

Дней отслеживается

120

Дней релизов

700

Моделей

Тип модели:

Тип лицензии:

Период:

–

Поиск и отображение:

🔍

Июнь

2026

📅 25.06

4 модели

Ornith-1.0

семейство открытых моделей для кодинга от DeepReinforce в четырёх размерах (9B и 31B dense, а также 35B и 397B на MoE-архитектуре (Mixture of Experts), ~3B активных у 35B); построено поверх Gemma 4 и Qwen 3.5, выдаёт reasoning в <think>-бло…

ТекстOpen-Source (локально)

Gemini 3.5 Flash (Computer Use)

Google встроила управление компьютером напрямую в Gemini 3.5 Flash: модель видит экран и сама работает с браузером, ПК и мобильными устройствами для автотестов и офисной автоматизации…

МультимодальныеПлатные (облако)

ViQ

визуальный токенизатор от Tencent HY Vision Team (с Tsinghua, NTU, CAS) на 1.3B параметров на базе SigLIP2-g, преобразующий изображения любого разрешения в дискретные коды с сохранением семантики и качества реконструкции…

МультимодальныеOpen-Source (локально)

Qwen-Image-Agent

агентский фреймворк для генерации изображений от Alibaba Qwen: training-free, совместим с существующими генераторами, добавляет планирование, reasoning, веб/картиночный поиск и память для multi-image и multi-turn сценариев…

ИзображенияOpen-Source (локально)

📅 23.06

4 модели

lift

открытая vision-модель на 9B параметров от Datalab для извлечения структурированного JSON из PDF и изображений по заданной JSON-схеме; использует schema-constrained decoding (декодирование с ограничением по грамматике), гарантирующее валидн…

МультимодальныеOpen-Source (локально)

OpenThoughts-Agent

открытые агентные модели на 8B и 32B параметров, дообученные от Qwen3 командой OpenThoughts (коллаборация институтов); натренированы по data-рецептам для агентных задач (исправление кода/SWE, работа с инструментами, терминал)…

ТекстOpen-Source (локально)

Mistral OCR 4

закрытая модель document intelligence от Mistral AI; распознаёт документы (PDF, DOC, PPT, OpenDocument) на 170 языках, выдаёт структурированный JSON с bounding-box, классификацией блоков и оценками уверенности для RAG и enterprise-поиска…

DocumentПлатные (локально)

Doubao 2.1 Pro

закрытая флагманская LLM от ByteDance, представленная на конференции Volcano Engine FORCE; крупное обновление с упором на кодинг, агентные сценарии и vision-language-понимание…

МультимодальныеПлатные (облако)

📅 22.06

3 модели

Sakana Fugu

оркестрационная модель от японской Sakana AI: 7B-«дирижёр», который сам маршрутизирует подзадачи по пулу фронтир-LLM через OpenAI-совместимый API; основана на работах TRINITY и Conductor (ICLR 2026)…

ТекстПлатные (облако)

Sakana Fugu Ultra

усиленный вариант того же оркестратора, настроенный на максимальную точность в сложных многошаговых задачах (кодинг, рассуждения, наука); по заявлению Sakana, сравнивается с Claude Fable 5 и Mythos, не обучая ни одной собственной фронтир-мо…

ТекстПлатные (облако)

gemma-4-12B-it-abliterix

abliterated (расцензуренная) дообученная версия Google Gemma 4 12B от автора wangzhang; dense-трансформер на 12B параметров в формате BF16 safetensors со снятым «выравниванием-отказом» для локального запуска…

ТекстOpen-Source (локально)

📅 18.06

5 моделей

Sumi

открытая диффузионная языковая модель (Diffusion LM, uniform diffusion) на 7B параметров от Tohoku University; bidirectional Transformer на 36 слоёв, обучена на 1.5T токенов по фреймворку GIDD, полностью открыты веса, чекпойнты и рецепт обу…

ИзображенияOpen-Source (локально)

PerceptionDLM

мультимодальная диффузионная языковая модель (Diffusion LM) на 9B от MSALab/PKU для одновременного описания нескольких областей изображения (image-text-to-text); генерирует подписи ко всем регионам за один проход денойзинга с ускорением до…

МультимодальныеOpen-Source (локально)

Moebius

сверхлёгкая диффузионная модель инпейнтинга изображений на 0.22B от Huazhong University of Science and Technology и VIVO AI Lab; латентный U-Net с блоками LλMI, латентность 26 мс/шаг и качество на уровне 10B-моделей (FLUX.1-Fill) при менее…

ИзображенияOpen-Source (локально)

FreeStyle

диффузионный фреймворк генерации text-to-image с раздельными референсами стиля и контента от Fudan University, построен на майнинге community LoRA; сохраняет структуру и семантику контента, перенося стиль другого изображения; открыты веса…

ИзображенияOpen-Source (локально)

S-Agent-8B

vision-language агент для пространственного рассуждения (spatial reasoning) от NTU, THU и ByteDance; VLM на 8B, дообученный из Qwen3-VL-8B на датасете S-300K, координирует иерархические 2D- и 3D-инструменты для подсчёта объектов, измерения…

ВидеоOpen-Source (локально)

📅 17.06

2 модели

MolmoMotion

открытая модель Ai2 (Allen Institute for AI) для language-guided 3D motion forecasting (предсказание 3D-траекторий точек по видеокадру и текстовой инструкции); использует Molmo 2 в качестве VLM-бэкбона, выложены веса, датасет MolmoMotion-1M…

ВидеоOpen-Source (локально)

MiniMax-M3 (технический отчёт MSA)

MiniMax опубликовал технический отчёт и inference-кёрнел архитектуры MSA (MiniMax Sparse Attention) под MIT-лицензией; натиивно мультимодальная MoE-модель на ~428B параметров (~23B активных) с 1M-контекстом, двухветвевая блочно-разреженная…

МультимодальныеOpen-Source (локально)

📅 16.06

4 модели

GLM-5.2

флагманская MoE-модель (Mixture of Experts) от Zhipu AI на 744B параметров (40B активных) с контекстом 1M токенов, ориентирована на длинные траектории кодинг-агентов; открытые веса под лицензией MIT, доступна через API ZAI/Novita/FriendliAI…

ТекстOpen-Source (локально)

Qwen-RobotManip

VLA-модель (vision-language-action) от Alibaba Qwen на бэкбоне Qwen3.5-4B для манипуляции объектами роботизированными руками; обучена на 38 100+ часах данных манипуляции, код опубликован на GitHub в составе сюиты Qwen-RobotSuite (https://qw…

МультимодальныеOpen-Source (локально)

Qwen-RobotNav

навигационная VLA-модель от Alibaba Qwen на основе Qwen3-VL (варианты 2B/4B/8B), объединяющая следование инструкциям, point/target navigation и трекинг объектов; обучена на 15.6M примеров, latency 196 мс на Unitree Go2 с Jetson Thor (https:…

МультимодальныеOpen-Source (локально)

Qwen-RobotWorld

видео-«мировая модель» от Alibaba Qwen для предсказания будущих кадров сцены до действия робота; 60-слойная двухпоточная MMDiT-архитектура с замороженным энкодером Qwen2.5-VL на 20B параметров, опубликована в составе Qwen-RobotSuite (https:…

ВидеоOpen-Source (локально)

📅 13.06

2 модели

GLM-5.2

флагманская MoE-модель (Mixture of Experts) от Zhipu AI / Z.ai на 744B параметров (40B активных) с контекстом 1M токенов; 13 июня запущена на всех платных тарифах GLM Coding Plan (Lite / Pro / Max / Team), заточена под агентское программиро…

ТекстПлатные (облако)

Count Anything

vision-модель подсчёта объектов по текстовому запросу от исследователей Tsinghua University (Mengqi Lei и соавторы); построена поверх Meta SAM3 с двумя счётчиками (Region-level Sparse Counter для крупных объектов, Pixel-level Dense Counter…

МультимодальныеOpen-Source (локально)

📅 12.06

3 модели

Kimi K2.7 Code

открытая coding-модель от Moonshot AI с MoE-архитектурой (Mixture of Experts): 1 триллион параметров всего, 32B активных, 384 эксперта, контекст 256K; заточена на длинные agentic-задачи в инженерии ПО, лицензия Modified MIT, веса на Hugging…

ТекстOpen-Source (локально)

Zamba2-VL

семейство открытых vision-language моделей от Zyphra на 1.2B / 2.7B / 7B параметров с гибридной архитектурой Mamba2 (state-space) + Transformer; снижает time-to-first-token примерно на порядок против обычных VLM, лицензия Apache 2.0 (https:…

МультимодальныеOpen-Source (локально)

Gemini-SQL2

закрытая text-to-SQL модель Google Research поверх Gemini 3.1 Pro, переводит естественный язык в исполняемые SQL-запросы; первая система, преодолевшая 80% на бенчмарке BIRD (80.04%), без fine-tuning, рассчитана на интеграцию в BigQuery (htt…

ТекстПлатные (облако)

📅 10.06

5 моделей

DiffusionGemma 26B-A4B

открытая MoE-модель (Mixture of Experts) от Google DeepMind на базе Gemma 4: 26B параметров (3.8B активных), диффузионная генерация текста параллельно вместо токен-за-токеном, контекст 256K, 140+ языков, Apache 2.0, ~1100 ток/с на H100 (htt…

ИзображенияOpen-Source (локально)

Gemini 3.5 Live Translate

закрытая мультимодальная аудио-модель Google для синхронного голосового перевода с автоопределением языка на 70+ языков, доступ через Gemini API и приложение Gemini (https://blog.google/innovation-and-ai/models-and-research/gemini-models/ge…

АудиоПлатные (облако)

text-to-image (T2I) диффузионная модель на 3B параметров от Принстона, полностью открытый рецепт (веса, код и данные публичны), обучена на 300+ контролируемых экспериментах и конкурирует с проприетарными системами при тренировке только на п…

ИзображенияOpen-Source (локально)

InternVideo3

мультимодальная видео-foundation модель от Shanghai AI Lab с архитектурой Multimodal Multi-head Latent Attention (M²LA) для длинного видео-контекста; вводит парадигму Multimodal Contextual Reasoning (MCR) и показывает SOTA на Video-MME, MLV…

ВидеоOpen-Source (локально)

DeNovoSWE-Agent

code-агент для генерации целых репозиториев из документации, fine-tuned на Qwen3-30B-A3B и Qwen3.5-35B-A3B; поднимает результат на BeyondSWE-Doc2Repo с 5.8% до 47.2%, датасет на 4818 инстансов и код открыты (https://huggingface.co/collectio…

ТекстOpen-Source (локально)

📅 09.06

5 моделей

Claude Fable 5

закрытая флагманская модель Mythos-класса от Anthropic для самых сложных задач кодинга, vision и научных исследований; доступна через Claude API и Enterprise-планы по цене $10/$50 за 1M входных/выходных токенов (https://www.anthropic.com/ne…

МультимодальныеПлатные (облако)

Claude Mythos 5

та же базовая модель, что и Fable 5, но со снятыми защитными ограничениями; доступна узкой группе кибердефендеров и инфраструктурных провайдеров через Project Glasswing, цена та же ($10/$50 за 1M токенов) (https://www.anthropic.com/news/cla…

ТекстПлатные (облако)

North Mini Code

открытая агентная coding-модель от Cohere на MoE-архитектуре (Mixture of Experts), 30B параметров (3B активных), контекст 256K и выход 64K; лицензия Apache 2.0, веса на HuggingFace, на Coding Index обгоняет Devstral Small 2 в 2.8× по throug…

ТекстOpen-Source (локально)

Gemini 3.5 Live Translate

закрытая стриминговая speech-to-speech audio-модель от Google DeepMind для синхронного перевода между 70+ языками с сохранением тона и темпа; доступна в public preview через Gemini Live API и Google AI Studio, частный preview в Google Meet…

АудиоПлатные (облако)

ABot-Earth 0.5

генеративная 3D-модель Земли от Alibaba AMap CV Lab, по одному спутниковому снимку или текстовому промту строит километровую городскую сцену в формате 3D Gaussian Splatting за ~10 минут на потребительском GPU; код открыт на GitHub, paper оп…

ТекстOpen-Source (локально)

📅 08.06

4 модели

Xiaomi MiMo-V2.5-Pro-UltraSpeed

релиз Xiaomi совместно с TileRT: триллион-параметрическая MoE-модель (Mixture of Experts) с FP4-квантизацией и DFlash speculative decoding, преодолевшая отметку 1000+ токенов/с на стандартной 8-GPU-ноде; чекпойнт FP4-DFlash открыт на Huggin…

ТекстOpen-Source (локально)

Nex-N2-Pro

агентная MoE-модель от Nex AGI на 397B параметров (17B активных) на базе Qwen3.5, мультимодальная (image-text-to-text), контекст 262K, лицензия Apache 2.0; 75.3 на Terminal-Bench 2.1 и 1585 на GDPval, конкурирует с GPT-5.5 и Claude Opus 4.7…

МультимодальныеOpen-Source (локально)

Nex-N2-Pro (free)

бесплатный облачный доступ к Nex-N2-Pro через OpenRouter с поддержкой reasoning, function calling и structured outputs, оптимизирован для кодинга, deep research и долгогоризонтных агентных задач (https://openrouter.ai/nex-agi/nex-n2-pro:fre…

ТекстБесплатные (облако)

Apple Siri (Gemini-powered)

обновлённый Siri от Apple, представленный на WWDC 2026: работает на кастомной 1.2T-параметрической модели Google Gemini в Private Cloud Compute, поддерживает on-screen awareness, persona context и Extensions (выбор ChatGPT/Gemini/Claude) (h…

ТекстПлатные (облако)

📅 05.06

5 моделей

Gemma 4 E2B QAT

открытая мультимодальная (текст/изображение/аудио) модель от Google DeepMind, 2.3B эффективных параметров, 128K контекст; квантизация Q4_0 ужимает её до 3.2 ГБ, а новый мобильный формат — до ~1 ГБ для запуска на смартфонах, лицензия Gemma (…

АудиоOpen-Source (локально)

Gemma 4 E4B QAT mobile

edge-вариант Gemma 4 на 4B параметров с мобильно-оптимизированным форматом (статические активации, channel-wise квантизация, 2-bit таргетное сжатие), занимает 5 ГБ в Q4_0 против 15 ГБ в BF16; готов к запуску через LiteRT-LM и MLX (https://h…

ТекстOpen-Source (локально)

Gemma 4 12B QAT

instruction-tuned dense-модель Google на 12B параметров с QAT-квантизацией w4a16, рассчитана на потребительские GPU; поддерживает llama.cpp, Ollama, LM Studio, vLLM, лицензия Gemma (https://huggingface.co/google/gemma-4-12B-it-qat-w4a16-ct)

ТекстOpen-Source (локально)

Gemma 4 26B-A4B QAT

MoE-архитектура (Mixture of Experts) Google DeepMind с 26B всего и 4B активных параметров на токен, QAT Q4_0 чекпойнт для эффективного локального инференса с компенсацией потерь точности на этапе обучения (https://huggingface.co/google/gemm…

ТекстOpen-Source (локально)

Gemini Enterprise Agentic RAG

закрытая enterprise-система Google Research на базе Gemini для надёжного retrieval-augmented generation в корпоративных агентах; доступ только через Gemini Enterprise Agent Platform, без открытых весов (https://research.google/blog/unlockin…

ТекстПлатные (облако)

📅 04.06

3 модели

Nemotron 3 Ultra

флагманская открытая модель NVIDIA на 550B параметров (55B активных) с гибридной MoE-архитектурой (Mixture of Experts) Mamba-Transformer, 108 слоёв и 512 экспертов; контекст 1M токенов, лицензия NVIDIA Open Model License, заточена под долго…

ТекстOpen-Source (локально)

Nemotron 3.5 Content Safety

мультимодальный классификатор безопасности от NVIDIA на 4B параметров поверх Gemma 3 4B IT с LoRA-адаптерами и контекстом 128K; оценивает текст, изображения и ответы ассистента, поддерживает 12 языков нативно и ~140 в zero-shot, лицензия NV…

МультимодальныеOpen-Source (локально)

Grok Imagine Video 1.5

закрытая image-to-video модель xAI: анимирует статичные изображения в короткие ролики до 720p с сохранением освещения и деталей; управляется текстовыми промтами для камеры и темпа, доступна только в preview через xAI API (https://x.ai/news/…

ВидеоПлатные (облако)

📅 03.06

4 модели

Gemma 4 12B

открытая мультимодальная модель Google DeepMind на 12B параметров без визуального энкодера, нативно обрабатывает текст, изображения и аудио…

АудиоOpen-Source (локально)

Cosmos 3

семейство foundation-моделей мира от NVIDIA в двух вариантах: Nano 16B (бэкбон Qwen3-VL 8B) и Super 64B (бэкбон Qwen3-VL 32B), архитектура two-tower MoT (Mixture of Transformers)…

АудиоOpen-Source (локально)

Ideogram 4.0

открытая (open-weight) text-to-image (T2I) модель от Ideogram с нативным 2K-разрешением, bounding-box контролем размещения объектов и заметно улучшенным рендерингом текста…

ИзображенияOpen-Source (локально)

Cosmos 3 paper

статья NVIDIA «Cosmos 3: Omnimodal World Models for Physical AI» на HuggingFace Papers, описывающая two-tower MoT-архитектуру и протоколы обучения для омнимодальных моделей мира; набрала ~8.7K апвоутов за день (https://huggingface.co/papers…

МультимодальныеOpen-Source (локально)

📅 02.06

6 моделей

MAI-Thinking-1

первая собственная reasoning-модель Microsoft: разреженная MoE-архитектура (Mixture of Experts) на ~1T параметров (35B активных) с контекстом 256K, обучена без дистилляции чужих моделей; сильна в математике (AIME 2026 — 94.5%) и кодинге, до…

ТекстПлатные (облако)

MAI-Code-1-Flash

компактная кодинг-модель Microsoft на 5B параметров с адаптивным «мышлением» (экономит до 60% токенов на сложных задачах); закрытые веса, доступна в GitHub Copilot включая бесплатный тариф, по цене/качеству обходит Claude Haiku 4.5 (https:/…

ТекстБесплатные (облако)

MAI-Image-2.5

обновлённая модель Microsoft для генерации и редактирования изображений (text-to-image + image-to-image) с функциями «контроль с сохранением» деталей; дебютировала на 3-м месте Arena.ai среди image-моделей, доступ только через API в Microso…

АудиоПлатные (облако)

MAI-Voice-2

многоязычная TTS-модель Microsoft (text-to-speech) с клонированием голоса и voice-prompting для более чем 15 языков, единый голос сохраняет идентичность между языками; закрытая, поставляется через Foundry и продукты Copilot/Bing (https://te…

АудиоПлатные (облако)

MAI-Transcribe-1.5

модель распознавания речи (speech-to-text) от Microsoft на MoE-архитектуре, поддержка 43 языков и контекстного смещения терминологии; примерно в 5× быстрее конкурентов при цене $0.36/час, доступна только в облаке через Foundry (https://tech…

АудиоПлатные (облако)

Holo3.1

семейство быстрых computer-use агентов (управление GUI на вебе, десктопе и мобильных) от H company в размерах 0.8B/4B/9B и 35B-A3B (MoE); открытые веса на HuggingFace с квантизациями FP8/NVFP4/Q4 GGUF для локального запуска, 79.3% на Androi…

ТекстOpen-Source (локально)

📅 01.06

4 модели

MiniMax M3

открытая мультимодальная LLM от китайской MiniMax на разреженном внимании MSA (MiniMax Sparse Attention) с контекстом 1M токенов; нативно понимает изображения и видео, управляет компьютером и силён в агентном кодинге (59% SWE-Bench Pro, 70%…

ВидеоOpen-Source (локально)

Mellum2

компактная MoE-модель (Mixture of Experts) на 12B параметров (2.5B активных) от JetBrains для текста и кода; более чем в 2 раза быстрее моделей своего класса, заточена под маршрутизацию, RAG и саб-агентов, лицензия Apache 2.0 (https://huggi…

ТекстOpen-Source (локально)

NVIDIA Cosmos 3

открытая omni-модель для физического ИИ от NVIDIA на архитектуре Mixture-of-Transformers; в едином трансформере объединяет генерацию мира, физический reasoning и генерацию действий (текст/изображение/видео/аудио/действия), версии Nano 16B и…

ВидеоOpen-Source (локально)

Nemotron 3 Ultra

открытая (open-weight) MoE-модель от NVIDIA на ~550B параметров (~55B активных), анонсирована 1 июня (выкладка весов 4 июня); сильнейшая открытая модель из США по Artificial Analysis (48 баллов) и >300 токенов/с на DeepInfra (https://the-de…

ТекстOpen-Source (локально)

Май

2026

📅 29.05

5 моделей

Step 3.7 Flash

открытая vision-language MoE-модель (MoE — Mixture of Experts, разреженная архитектура экспертов) на 198B параметров (~11B активных) с контекстом 256k от StepFun; ориентирована на агентов для кодинга и веб-поиска (56,26% на SWE-Bench Pro)…

МультимодальныеOpen-Source (локально)

Qwen-VLA

vision-language-action модель (зрение-язык-действие) от Alibaba Qwen для управления роботами разных конфигураций; использует DiT-декодер действий (Diffusion Transformer) и единый фреймворк для манипуляций и навигации, 97,9% на бенчмарке LIB…

МультимодальныеOpen-Source (локально)

minWM

открытый full-stack фреймворк от ShengShu и университетов Tsinghua/RUC для real-time интерактивных видео-world-моделей; дистиллирует диффузионные бэкбоны Wan2.1-1.3B и HY1.5-8B в few-step (малошаговые) авторегрессионные генераторы, ускоряя…

ВидеоOpen-Source (локально)

NAVA

модель на 6.3B параметров от ERNIE Team (Baidu) для совместной генерации аудио и видео; архитектура Align-then-Fuse MMDiT обеспечивает точную аудио-видео синхронизацию и управляемый тембр речи, веса и код открыты на HuggingFace (https://hug…

ВидеоOpen-Source (локально)

GPT-Rosalind

закрытая облачная модель OpenAI для наук о жизни (рассуждения о молекулах, белках, генах, биологии болезней); 29 мая OpenAI расширила бесплатный доступ через программу Rosalind Biodefense для проверенных команд и госпартнёров (вакцины, скри…

ТекстБесплатные (облако)

📅 28.05

10 моделей

RightNow-Arabic-0.5B-Turbo

арабоязычная LLM на 518M параметров на базе Qwen2.5-0.5B, полные веса (bf16/int8/GGUF), код и бенчмарки выложены на Hugging Face (arXiv cs.CL)

ТекстOpen-Source (локально)

Liquid AI LFM2.5-8B-A1B

MoE-модель с 8.3B общих и 1.5B активных параметров, оптимизирована для on-device-инференса

ТекстOpen-Source (локально)

Perplexity Unigram Tokenizer

переписанный с нуля open-source токенизатор, снижает латентность реранкеров и CPU-нагрузку в 5–6×

ТекстOpen-Source (локально)

minWM

полностековый open-source фреймворк для интерактивных видео-«world models» в реальном времени

ВидеоOpen-Source (локально)

Qwen-VLA

унифицированная vision-language-action модель от команды Qwen для роботов и разных окружений

МультимодальныеOpen-Source (локально)

MOSS-TTS

открытое семейство моделей для генерации речи и звуков, включая диалоги и звуковые эффекты

АудиоOpen-Source (локально)

Parallax

параметризованное локальное линейное внимание для языкового моделирования от Northwestern University

ТекстOpen-Source (локально)

GenClaw

code-driven агентная генерация изображений от Tencent Hunyuan

ИзображенияOpen-Source (локально)

LiteCoder-Terminal

масштабирование long-horizon terminal-окружений для обучения языковых агентов

ТекстOpen-Source (локально)

PhoneWorld

масштабируемая среда для агентов, использующих смартфон

ТекстOpen-Source (локально)

📅 27.05

15 моделей

DiffusionBlocks

фреймворк блочного обучения от Sakana AI, превращает остаточные сети в независимо обучаемые денойзинг-модули

ИзображенияOpen-Source (локально)

Polar

NVIDIA выпустила token-faithful rollout-фреймворк для GRPO-тренировки поверх Codex, Claude Code и Qwen Code

ТекстOpen-Source (локально)

EAGLE 3.1

алгоритм спекулятивного декодинга, борющийся с attention drift; совместный релиз EAGLE team, vLLM и TorchSpec

ТекстOpen-Source (локально)

Gamma-World

генеративная модель мульти-агентного мира от NVIDIA, выходящая за рамки игр на двух игроков

ТекстOpen-Source (локально)

From Pixels to Words

натив-визуальная модель на масштабе с архитектурой one-vision

МультимодальныеOpen-Source (локально)

Agent Explorative Policy Optimization

NVIDIA, оптимизация политики для мультимодального агентного рассуждения

МультимодальныеOpen-Source (локально)

OSP-Next

эффективная высококачественная модель генерации видео от Peking University

ВидеоOpen-Source (локально)

HRBench

Tencent, бенчмарк стратегий переключения режимов мышления в гибридно-рассуждающих LLM

ТекстOpen-Source (локально)

OmniVerifier-M1

мультимодальный мета-верификатор со структурированной рекалибровкой

МультимодальныеOpen-Source (локально)

ResearchMath-14K

Seoul National University, агентное масштабирование математики исследовательского уровня

ТекстOpen-Source (локально)

Self-Improving LM with Bidirectional Evolutionary Search

Harvard, самоулучшающиеся языковые модели через двунаправленный эволюционный поиск

ТекстOpen-Source (локально)

AutoScientists

Harvard, самоорганизующиеся команды агентов для научных экспериментов

ТекстOpen-Source (локально)

ITBench-AA

IBM × Artificial Analysis, первый бенчмарк для агентных задач корпоративного IT (фронтир-модели набирают <50%)

ТекстOpen-Source (локально)

Reachy Mini goes fully local

open-source стек локального голосового робота от Pollen Robotics / Hugging Face

ТекстOpen-Source (локально)

FLUID

фреймворк адаптации AR-бэкбонов к диффузионным моделям для параллельной генерации текста (arXiv cs.CL)

ТекстOpen-Source (локально)

📅 26.05

10 моделей

OmniVoice Studio

локальная open-source альтернатива ElevenLabs: клонирование голоса, дубляж видео, диктовка и диаризация спикеров, поддержка 646 языков и встроенный MCP-сервер

ВидеоOpen-Source (локально)

Stable Audio 3

семейство быстрых latent-diffusion моделей для генерации и редактирования аудио (Small SFX 459M, Small 459M, Medium 1.4B с открытыми весами); генерация композиций до 6 мин 20 сек

АудиоOpen-Source (локально)

LocateAnything

модель NVIDIA для vision-language grounding с параллельным декодированием bounding-боксов

МультимодальныеOpen-Source (локально)

MobileMoE

оптимизированная on-device Mixture-of-Experts модель от Meta AI для запуска на мобильных устройствах

ТекстOpen-Source (локально)

MUSE-Autoskill

фреймворк самоэволюционирующих агентов ByteDance с автономным созданием навыков, памятью и оценкой

ТекстOpen-Source (локально)

RT-Lynx

диффузионная модель от RTP-LLM с правильной GEMM-разрежённостью для ускорения инференса

ТекстOpen-Source (локально)

MRT (Masked Region Transformer)

трансформер для послойной генерации и редактирования изображений в большом масштабе

ИзображенияOpen-Source (локально)

Soap2Soap

мультиагентная система Show Lab для пересборки длинных кинематографических видео

ВидеоOpen-Source (локально)

Geometry-Aware Representation Denoising

модель KAIST AI для устойчивой multi-view 3D-реконструкции через денойзинг геометрических представлений

ТекстOpen-Source (локально)

Squeezing Capacity from MLLMs

методы Adobe для эффективной subject-driven генерации на базе мультимодальных LLM

МультимодальныеOpen-Source (локально)

📅 25.05

6 моделей

Raon-Speech

9B-параметровая речевая языковая модель для английского и корейского с публичными чекпоинтами и обучающим пайплайном (arxiv cs.CL)

АудиоOpen-Source (локально)

QUEST

семейство открытых моделей 2B–35B в роли универсальных агентов для глубоких исследований; выложены веса, данные и скрипты обучения (arxiv cs.CL)

ТекстOpen-Source (локально)

EchoDistill

open-source фреймворк выравнивания для аудио-LLM, повышающий устойчивость к шуму; код в анонимном репозитории (arxiv cs.CL)

АудиоOpen-Source (локально)

ContextEcho

открытый бенчмарк и харнесс для измерения дрейфа персоны в длинных агентских сессиях кодинга (arxiv cs.CL)

ТекстOpen-Source (локально)

CP-Agent

агент с калиброванным контролем риска для соревновательного программирования; код на GitHub (arxiv cs.CL)

ТекстOpen-Source (локально)

OSCAR

attention-aware система 2-битной квантизации KV-кэша для long-context инференса LLM от Together AI (together.ai)

ТекстOpen-Source (локально)

📅 24.05

2 модели

Gated DeltaNet-2

новый слой линейного внимания от NVIDIA AI, разделяющий «стирание» и «запись» в Delta Rule через отдельные канальные гейты; на 1.3B параметрах и 100B токенах обгоняет конкурентов в…

ТекстOpen-Source (локально)

Webwright

терминальный browser-agent фреймворк от Microsoft Research, заменяющий click-trace веб-автоматизацию переиспользуемыми Playwright-скриптами; 60.1% на Odysseys и 86.7% на Online-Min…

ТекстOpen-Source (локально)

📅 23.05

4 модели

Nemotron-Labs Diffusion

диффузионные языковые модели NVIDIA с генерацией текста «на скорости света»

ИзображенияOpen-Source (локально)

TencentDB Agent Memory

четырёхуровневая локальная система памяти для AI-агентов от Tencent

ТекстOpen-Source (локально)

Contrastive Neuron Attribution (CNA)

метод от Nous Research для управления MLP-цепями без SAE-обучения и модификации весов

ТекстOpen-Source (локально)

Bumblebee

read-only сканер цепочки поставок для разработчиков от Perplexity

ТекстOpen-Source (локально)

📅 22.05

3 модели

Microsoft Fara1.5

семейство open-weight браузерных computer-use агентов (4B/9B/27B на базе дообученной Qwen 3.5); 27B-версия даёт 72% на Online-Mind2Web, опережая OpenAI Operator и Gemini 2.5 Comput…

МультимодальныеOpen-Source (локально)

OpenMythos

открытый фреймворк для построения recurrent-depth трансформеров с поддержкой MLA, GQA, Sparse MoE и loop-scaled reasoning

ТекстOpen-Source (локально)

Models.dev

открытая база спецификаций, цен и возможностей AI-моделей (Hacker News / YC)

ТекстOpen-Source (локально)

📅 17.05

7 моделей

X-OmniClaw (Oppo Multi-X)

открытый Android AI-агент, работающий прямо на устройстве: использует камеру, экран и голос для выполнения задач в реальных приложениях без облачного клона телефона; запоминает цеп…

МультимодальныеOpen-Source (локально)

Solvita

агентный фреймворк непрерывного обучения для соревновательного программирования; 4 специализированных агента (Planner, Solver, Oracle, Hacker) накапливают опыт без изменения весов…

ТекстOpen-Source (локально)

ICRL

фреймворк RL для интернализации самокритики языковой моделью; построен на Qwen3-4B/8B, код открыт (arXiv cs.AI)

ТекстOpen-Source (локально)

SMCEvolve

метод поиска программ на основе Sequential Monte Carlo: задача переформулируется как сэмплирование из reward-tilted распределений; ориентирован на научные открытия, код открыт (arX…

ТекстOpen-Source (локально)

SkillSmith

компилятор и рантайм для упаковки навыков агентов в минимальные исполняемые интерфейсы; исходный код и данные опубликованы на GitHub (arXiv cs.AI)

ТекстOpen-Source (локально)

OP-Mix

алгоритм смешивания данных для тренировки LLM на всём жизненном цикле через low-rank адаптеры, обученные на текущей модели; устраняет необходимость в прокси-моделях (arXiv cs.CL)

ТекстOpen-Source (локально)

Parallel Speculative Decoding (PSD)

фреймворк без дообучения для ускорения инференса диффузионных LLM через адаптивные политики размаскирования (arXiv cs.CL)

ТекстOpen-Source (локально)

📅 15.05

3 модели

Supertonic v3

лёгкая on-device TTS-модель (~99M параметров, ONNX) с поддержкой 31 языка, тегами эмоций (<laugh>, <breath>, <sigh>) и сниженным числом ошибок чтения

АудиоOpen-Source (локально)

ZAYA1-8B-Diffusion-Preview

первая MoE diffusion-модель от Zyphra, сконвертированная из авторегрессионного LLM, с ускорением до 7.7× при генерации

ИзображенияOpen-Source (локально)

VectraYX-Nano

41.95M decoder-only LLM для испаноязычной кибербезопасности с нативной интеграцией MCP; опубликованы корпус, скрипты обучения и GGUF-веса (arXiv cs.CL, 2605.13989)

ТекстOpen-Source (локально)

📅 13.05

7 моделей

GLiGuard

энкодерная safety/guardrail-модель на 300M параметров от Fastino Labs (детекция джейлбрейков, классификация вреда и отказы за один проход), лицензия Apache 2.0, опубликована на Hug…

ТекстOpen-Source (локально)

Voxtral TTS

мультиязычная TTS-модель на 4B параметров от Mistral, архитектура Autoregressive + Flow-Matching, синтез 24 kHz (WAV/MP3/FLAC), лицензия CC BY-NC 4.0

АудиоOpen-Source (локально)

Qwen-Image-VAE-2.0

технический отчёт от команды Qwen (Alibaba) о новой архитектуре image VAE, сопровождается публикацией модели

ИзображенияOpen-Source (локально)

AnyFlow

any-step видео-диффузионная модель от NVIDIA с on-policy flow map distillation

ВидеоOpen-Source (локально)

PresentAgent-2

мультимодальный агент общего назначения для генерации презентаций от Peking University

МультимодальныеOpen-Source (локально)

DavidAU/Marco-Nano-Thinking-8B-A0.6B

компактная reasoning-модель на 8B параметров

ТекстOpen-Source (локально)

OpenHuman

Rust-проект персонального приватного AI-суперинтеллекта, +1696 звёзд за день

ТекстOpen-Source (локально)

📅 09.05

2 модели

NVIDIA Star Elastic

единый чекпойнт, содержащий вложенные ризонинг-модели на 30B/23B/12B с zero-shot «нарезкой» размера без дообучения; вариант 23B→30B даёт до +16% точности и 1.9× меньшую задержку

ТекстOpen-Source (локально)

OncoAgent

open-source двухуровневый мульти-агентный фреймворк для приватного клинического принятия решений в онкологии

ТекстOpen-Source (локально)

📅 08.05

2 модели

EMO (Allen AI)

MoE-модель с эмерджентной модульностью, 1B активных / 14B общих параметров, 128 экспертов, обучена на 1T токенов; веса, код и статья открыты

ТекстOpen-Source (локально)

CyberSecQwen-4B

специализированная 4B-модель на базе Qwen3-4B-Instruct для оборонительной кибербезопасности (CWE/CVE-классификация, threat intel), Apache 2.0, запускается на 12 ГБ GPU

ТекстOpen-Source (локально)

📅 07.05

6 моделей

TokenSpeed

открытый инференс-движок для LLM от LightSeek Foundation, нацелен на агентские нагрузки и сопоставимую с TensorRT-LLM производительность

ТекстOpen-Source (локально)

NeuralBench / NeuralBench-EEG v1.0

открытый бенчмарк-фреймворк Meta AI для NeuroAI: 36 задач, 94 датасета, 14 архитектур, крупнейший открытый EEG-бенчмарк

ТекстOpen-Source (локально)

Hunyuan3D-2.1

открытая модель Image-to-3D (Tencent), новая публикация на Hugging Face

ИзображенияOpen-Source (локально)

gemma-4-E4B-it

instruct-вариант Gemma 4 E4B (~8B, Any-to-Any), опубликован на Hugging Face

ТекстOpen-Source (локально)

Negentropy-claude-opus-4.7-9B (8bit / bf16)

открытые 9B-веса для генерации текста, выложены на Hugging Face

ТекстПлатные (облако)

modern_DNABERT

обновлённая открытая BERT-модель для геномных последовательностей

ТекстOpen-Source (локально)

📅 06.05

6 моделей

Voxtral TTS

TTS-модель Mistral (4B параметров) с авторегрессивно-flow-matching архитектурой и выходом 24 кГц

АудиоOpen-Source (локально)

Gemma 4 MTP Drafters

вспомогательные модели Google для спекулятивного декодинга Gemma 4, ускорение до 3× без потери качества, Apache 2.0 на HF и Kaggle

ТекстOpen-Source (локально)

HunyuanOCR Q8_0 GGUF

квантизованная (Q8_0) сборка HunyuanOCR (0.5B) для image-text-to-text задач, формат GGUF

ИзображенияOpen-Source (локально)

TabPFN

обновление foundation-модели для табличных данных, в топе GitHub Trending за день

ТекстOpen-Source (локально)

Kronos

open-source foundation-модель для анализа финансовых рынков и языка торговли

ТекстOpen-Source (локально)

vLLM V0→V1

апдейт open-source инференс-движка с фокусом на корректность RL-режимов

ТекстOpen-Source (локально)

📅 05.05

7 моделей

Voxtral TTS

TTS-модель Mistral, 4B параметров, гибрид авторегрессии и flow-matching, 24 кГц, многоязычное клонирование голоса, лицензия CC BY-NC 4.0 (marktechpost.com)

АудиоOpen-Source (локально)

Kimi K2.6

открытая модель Moonshot, конкурирует с GPT-5.4 и Claude Opus 4.6 за счёт агентных «роёв» (the-decoder.com)

ТекстOpen-Source (локально)

GLM-5V-Turbo

нативная мультимодальная foundation-модель для агентов от Zhipu, статья и веса на arXiv (news.ycombinator.com)

МультимодальныеOpen-Source (локально)

isetnefret/gemma-4-E2B-it-mlx-fp16

порт Gemma 4 E2B-it под Apple MLX в fp16, ~5B параметров, any-to-any (huggingface.co)

ТекстOpen-Source (локально)

ThakiCloud/SkillRet-Embedding-8B

модель эмбеддингов на 8B для поиска по навыкам/sentence-similarity (huggingface.co)

ТекстOpen-Source (локально)

core12345/codev-r1-9b-atgrpo

9B reasoning-модель для кода, дообученная методом AT-GRPO (huggingface.co)

ТекстOpen-Source (локально)

NLP-Final-Project/mistral-7b-base-dpo

DPO-файнтюн Mistral-7B-base, открытые веса (huggingface.co)

ТекстOpen-Source (локально)

📅 01.05

7 моделей

Nemotron 3 Nano Omni

открытая мультимодальная модель от NVIDIA, ориентированная на эффективность и агентные сценарии

МультимодальныеOpen-Source (локально)

MiniCPM-o 4.5

омни-модальная модель на 9B параметров с full-duplex real-time обработкой зрения, аудио и речи для edge-устройств (arxiv cs.CL)

АудиоOpen-Source (локально)

Qwen-Scope

открытая SAE-сьюита от Qwen AI, превращающая внутренние признаки LLM в практические инструменты разработки

ТекстOpen-Source (локально)

JaiTTS-v1.0

открытая TTS-модель клонирования голоса для тайского языка с SOTA-показателем CER (arxiv cs.CL)

АудиоOpen-Source (локально)

Length Value Model (LenVM)

открытый token-level фреймворк для предсказания оставшейся длины генерации в LLM и VLM (arxiv cs.CL)

МультимодальныеOpen-Source (локально)

NeuralSet

open-source Python-пакет от Meta FAIR для нейро-AI задач: fMRI, M/EEG, спайк-записи и эмбеддинги Hugging Face

ТекстOpen-Source (локально)

Meta Autodata

открытый агентный фреймворк, превращающий AI-модели в автономных «дата-сайентистов» для генерации качественных обучающих данных

ТекстOpen-Source (локально)

Апрель

2026

📅 30.04

14 моделей

GLM-5V-Turbo

нативная мультимодальная foundation-модель для построения агентных систем

МультимодальныеOpen-Source (локально)

MiniCPM-o 4.5

9B омни-модальная модель с полнодуплексным real-time взаимодействием, требует <12 ГБ ОЗУ (arXiv cs.CL)

ТекстOpen-Source (локально)

Tencent Hy-MT1.5-1.8B-1.25bit

440 МБ офлайн-модель перевода на 33 языка прямо на смартфоне (The Decoder)

ТекстOpen-Source (локально)

Granite Speech 4.1 2B (IBM)

пара компактных речевых моделей: авторегрессионный ASR с переводом + неавторегрессионное редактирование

АудиоOpen-Source (локально)

FlashKDA (Moonshot AI)

open-source CUTLASS-ядра для Kimi Delta Attention с поддержкой переменной длины батча на H20

ТекстOpen-Source (локально)

Turning the TIDE (Пекинский ун-т)

кросс-архитектурная дистилляция для диффузионных LLM с открытым кодом

ТекстOpen-Source (локально)

Diffusion Templates

единый plugin-фреймворк для управляемой генерации в диффузионных моделях

ИзображенияOpen-Source (локально)

Praxy Voice (Praxel)

TTS commercial-класса для индийских языков с восстановлением голос-промптом

АудиоOpen-Source (локально)

VachaSpeech-0.6B-GGUF

компактная 0.6B речевая модель в формате GGUF

АудиоOpen-Source (локально)

Geodesic-Phantom-12B-GGUF

12B языковая модель в формате GGUF для локального запуска

ТекстOpen-Source (локально)

Qwen2.5-VL-7B-Instruct-OmniQuant-w8a8

W8A8 OmniQuant-квантизация vision-language модели Qwen2.5-VL-7B

МультимодальныеOpen-Source (локально)

Whisper Ghanaian ASR

модель распознавания речи, дообученная на ганских языках

АудиоOpen-Source (локально)

ClawGym

масштабируемый open-source фреймворк для обучения агентов-манипуляторов

ТекстOpen-Source (локально)

Large Language Models Explore by Latent Distilling (ShanghaiTech)

метод исследования LLM через дистилляцию в латентном пространстве с открытым релизом

ТекстOpen-Source (локально)

📅 29.04

7 моделей

Granite 4.1 (IBM)

семейство dense decoder-only LLM (3B / 8B / 30B), Apache 2.0, обучены на ~15T токенов, контекст до 512K

ТекстOpen-Source (локально)

Nemotron 3 Nano Omni (NVIDIA)

открытая мультимодальная модель, рассуждает по тексту, изображениям, видео и аудио, под агентные нагрузки

ВидеоOpen-Source (локально)

Step-Audio-R1.5 (StepFun)

технический отчёт о новой версии аудио-модели с reasoning, топ дня по апвоутам на HF Papers

АудиоOpen-Source (локально)

VibeVoice (Microsoft)

open-source frontier voice AI, в трендах GitHub за день

АудиоOpen-Source (локально)

FlashQLA

высокопроизводительная библиотека ядер линейного внимания, ускорение до 3× на NVIDIA Hopper

ТекстOpen-Source (локально)

smol-audio

набор Colab-ноутбуков для дообучения речевых и аудио-моделей

АудиоOpen-Source (локально)

NeuralSet

Python-пакет для neuro-AI с поддержкой fMRI, M/EEG, спайков и эмбеддингов HuggingFace

ТекстOpen-Source (локально)

📅 28.04

9 моделей

LittleLamb 0.3B

ультракомпактная модель общего назначения от Multiverse Computing, 50%-сжатая версия Qwen3-0.6B с двуязычным рассуждением

ТекстOpen-Source (локально)

LittleLamb 0.3B Tool-Calling

вариант LittleLamb, оптимизированный под вызов инструментов и агентные сценарии

ТекстOpen-Source (локально)

LittleLamb 0.3B Mobile

деплой-ориентированный вариант LittleLamb для on-device и мобильных применений

ТекстOpen-Source (локально)

NVIDIA Nemotron 3 Nano Omni

мультимодальная модель с длинным контекстом для документов, аудио и видео-агентов

ВидеоOpen-Source (локально)

Marco-MoE

открытое семейство многоязычных Mixture-of-Experts моделей (~5% активных параметров) с полностью открытыми весами, датасетами и рецептом обучения (arXiv 2604.25578)

ТекстOpen-Source (локально)

VibeVoice

open-source фронтирная голосовая AI-модель от Microsoft

АудиоOpen-Source (локально)

OpenAI Privacy Filter

открытая модель на 1.5B параметров (50M активных) для редактирования PII и приватности данных

ТекстOpen-Source (локально)

MING-MOE-14B

открытая Mixture-of-Experts модель на 14B параметров, опубликованная на Hugging Face

ТекстOpen-Source (локально)

Fiber-Qwen2.5-7B

открытая модель генерации текста на базе Qwen2.5-7B от LayerEight

ТекстOpen-Source (локально)

📅 27.04

2 модели

Talkie-1930

открытая 13B LLM, обученная исключительно на англоязычных текстах до 1931 года; для исследований исторического рассуждения и обобщения

ТекстOpen-Source (локально)

MOSS-Audio

открытая мультимодальная аудио-foundation-модель: речь, окружающие звуки, музыка и темпоральное рассуждение в единой архитектуре, обходит более крупные проприетарные альтернативы н…

АудиоOpen-Source (локально)

📅 26.04

10 моделей

Qwen3.6-27B

плотная 27B модель Alibaba, обходит более крупного MoE-предшественника на бенчмарках кодинга, проще в развёртывании (the-decoder.com)

ТекстOpen-Source (локально)

Ghost-V6-Deep-Thinker

вариант Ghost-V6 с акцентом на цепочки рассуждений

ТекстOpen-Source (локально)

Ghost-V6-Ultra-Reasoning

8B модель генерации текста с расширенными возможностями reasoning

ТекстOpen-Source (локально)

helenk/gemma-4-finetune

мультимодальный image-text-to-text файнтюн на базе Gemma 4

МультимодальныеOpen-Source (локально)

BAR-7B-GGUF

7B модель в формате GGUF для локального инференса

ТекстOpen-Source (локально)

Eve-4b-FP16-i1-GGUF

4B модель Eve в FP16 с GGUF-квантизацией

ТекстOpen-Source (локально)

bluey-8B_GGUF

8B модель в GGUF

ТекстOpen-Source (локально)

symfony_ai_maker-V0.5-Qwen3-0.6B

лёгкий ассистент для Symfony на основе Qwen3-0.6B, версии 16bit и LoRA

ТекстOpen-Source (локально)

pcd-llama31-8b-singlelayer-72m-norm

экспериментальный вариант Llama 3.1 8B с однослойной архитектурой

ТекстOpen-Source (локально)

HOIGen1M_hands_mask

модель генерации масок рук для задач Human-Object Interaction

ТекстOpen-Source (локально)

📅 24.04

10 моделей

DeepSeek-V4-Pro

флагманская MoE-модель на 1.6T параметров с контекстом 1M токенов и архитектурой Hybrid Attention; топ среди open-моделей по коду и математике

ТекстOpen-Source (локально)

DeepSeek-V4-Flash

облегчённая версия V4 на 284B параметров с тем же 1M-контекстом, рассчитанная на дешёвый инференс

ТекстOpen-Source (локально)

AgenticQwen

серия малых агентных LLM, обученных через RL; чекпоинты и часть синтетических данных открыты

ТекстOpen-Source (локально)

AFRILANGTUTOR

дообученные Llama-3-8B-IT и Gemma-3-12B-IT под 10 африканских языков, прирост 1.8–15.5% через SFT+DPO

ТекстOpen-Source (локально)

VLAA-GUI

модульный open-source фреймворк GUI-автоматизации, 77.5% на OSWorld (arXiv 2604.21375 / UCSC-VLAA)

ТекстOpen-Source (локально)

Decoupled DiLoCo

открытый метод устойчивого распределённого предобучения больших моделей (arXiv 2604.21428)

ТекстOpen-Source (локально)

Huihui4-8B-A4B-GGUF

8B-модель в формате GGUF для локального инференса

ТекстOpen-Source (локально)

Llama-3.2-3B_mathv1_grpo

версия Llama 3.2 3B, дообученная GRPO под математические задачи

ТекстOpen-Source (локально)

ReasonAssessor

модель оценки качества рассуждений LLM

ТекстOpen-Source (локально)

isabert-v2-stage2

ALBERT-вариант второй стадии обучения

ТекстOpen-Source (локально)

📅 23.04

2 модели

DeepSeek-V4 (Pro и Flash)

открытые веса, гибридное внимание (CSA+HCA), контекст до 1 млн токенов, доступны на Hugging Face

ТекстOpen-Source (локально)

OpenMythos

открытая PyTorch-реализация, достигающая глубокого рассуждения через итеративные вычисления вместо роста числа параметров

ТекстOpen-Source (локально)

📅 21.04

3 модели

Kimi K2.6

open-weight модель от Moonshot AI, конкурирует с GPT-5.4 и Claude Opus 4.6 на задачах кодинга, поддерживает «рои» до 300 параллельных агентов; модифицированная MIT-лицензия (artifi…

ТекстOpen-Source (локально)

ml-intern

open-source автономный ML-инженер от Hugging Face, читает статьи, обучает модели и автоматизирует post-training-пайплайн LLM (github.com/huggingface, marktechpost.com)

ТекстOpen-Source (локально)

QIMMA قِمّة

open-source Arabic LLM Leaderboard от TIIUAE с 52 000+ примеров по 7 доменам и качественной валидацией бенчмарков (huggingface.co/blog)

ТекстOpen-Source (локально)

📅 20.04

1 модель

Kimi K2.6 (Moonshot AI)

open-source модель для «long-horizon coding» с агентной архитектурой до 300 под-агентов и 4 000 скоординированных шагов

ТекстOpen-Source (локально)

📅 18.04

4 модели

SAGE Celer 2.6 (5B / 10B / 27B)

многоязычная мультимодальная модель общего назначения с нативной поддержкой южноазиатских языков (деванагари, хинди, непали); три размера весов (arXiv cs.CL, новинки 18 апр.)

МультимодальныеOpen-Source (локально)

RAD-2

масштабируемая система обучения с подкреплением в схеме «генератор–дискриминатор»; авторы утверждают улучшение на задачах рассуждения по сравнению с GRPO

ТекстOpen-Source (локально)

HY-World 2.0

мультимодальная world-модель для реконструкции, генерации и симуляции 3D-миров; поддерживает видео и изображения

ВидеоOpen-Source (локально)

Gemini Robotics-ER 1.6

модель Google DeepMind для воплощённого рассуждения в робототехнике; статья о релизе опубликована 18 апр. на The Decoder (статус открытых весов не подтверждён)

ТекстПлатные (облако)

📅 17.04

9 моделей

NVIDIA Nemotron OCR v2

быстрая мультиязычная OCR-модель с гибридной архитектурой (детектор + распознаватель + реляционная модель); 6 языков, 34 страницы/сек на A100; лицензия NVIDIA Open Model License (h…

DocumentOpen-Source (локально)

HY-World 2.0

мультимодальная world model для реконструкции, генерации и симуляции 3D-миров; 45 авторов

МультимодальныеOpen-Source (локально)

RAD-2

модель масштабирования RL в фреймворке генератор-дискриминатор; Huazhong University of Science and Technology

ТекстOpen-Source (локально)

HiVLA

иерархическая воплощённая манипуляционная система с визуальной привязкой; 11 авторов

ТекстOpen-Source (локально)

GlobalSplat

эффективный feed-forward 3D Gaussian Splatting через глобальные токены сцены; Hebrew University of Jerusalem

ТекстOpen-Source (локально)

MM-WebAgent

иерархический мультимодальный веб-агент для генерации веб-страниц; Microsoft Research

МультимодальныеOpen-Source (локально)

SAGE Celer 2.6

модель общего назначения 5B–27B параметров с мультимодальными возможностями и оптимизацией для южноазиатских языков (arXiv cs.CL, 17.04.2026)

МультимодальныеOpen-Source (локально)

APEX-MEM

разговорная система памяти на основе граф свойств с темпоральным рассуждением для долгосрочных взаимодействий (arXiv cs.CL, 17.04.2026)

ТекстOpen-Source (локально)

HUOZIIME

on-device LLM-расширенный метод ввода для мобильных устройств с иерархическим механизмом памяти (arXiv cs.CL, 17.04.2026)

ТекстOpen-Source (локально)

📅 16.04

8 моделей

Qwen3.6-35B-A3B (Alibaba)

открытая MoE-модель на 35B параметров (3B активных), можно запустить локально на ноутбуке; по неформальным тестам обходит Claude Opus 4.7 в ряде задач

ТекстOpen-Source (локально)

Gemma 4 (Google DeepMind)

открытая мультимодальная модель для агентного AI с локальным запуском на мобильных устройствах, данные не покидают устройство

МультимодальныеOpen-Source (локально)

Parcae (UCSD + Together AI Research)

новая архитектура «зацикленных» языковых моделей, которая достигает качества трансформера вдвое большего размера при меньшем числе параметров

ТекстOpen-Source (локально)

SAGE Celer 2.6 (SAGEA Research Team)

семейство открытых моделей 5B/10B/27B с нативной мультимодальностью и усиленной поддержкой южноазиатских языков (хинди, непали, деванагари)

МультимодальныеOpen-Source (локально)

HY-World 2.0 (Tencent)

мультимодальная мировая модель для реконструкции, генерации и симуляции 3D-миров

МультимодальныеOpen-Source (локально)

RAD-2

масштабируемая система обучения с подкреплением в рамках генератор-дискриминатор; улучшает качество рассуждений LLM

ТекстOpen-Source (локально)

LeapAlign (ByteDance Seed)

метод пост-тренинга flow matching моделей на любом шаге генерации, значительно ускоряет обучение

ТекстOpen-Source (локально)

Cross-Tokenizer LLM Distillation

открытый метод дистилляции LLM через байтовый интерфейс, не зависящий от токенизатора модели-учителя

ТекстOpen-Source (локально)

📅 15.04

15 моделей

NVIDIA Ising

первые в мире открытые AI-модели для ускорения пути к полезным квантовым вычислениям: 2.5× прирост производительности и 3× рост точности по сравнению с существующими open-source ст…

ТекстOpen-Source (локально)

VAKRA (IBM Research)

агентная система с анализом рассуждений, использования инструментов и режимов отказа у AI-агентов

ТекстOpen-Source (локально)

Seedance 2.0 (ByteDance Seed)

продвинутая модель видеогенерации для моделирования сложного мира

ВидеоOpen-Source (локально)

EVE 24B

первая специализированная LLM-система для наук о Земле и спутникового наблюдения, 24B параметров

ТекстOpen-Source (локально)

PersonaVLM

мультимодальная LLM с долгосрочной персонализацией: запоминание, рассуждение и адаптация к предпочтениям пользователя (arXiv)

МультимодальныеOpen-Source (локально)

MM-Doc-R1

агентная vision-система для сложных запросов по длинным документам с итеративным поиском информации (arXiv)

МультимодальныеOpen-Source (локально)

TREX

автоматизация fine-tuning LLM через исследование дерева решений агентами

ТекстOpen-Source (локально)

UI-Copilot

система автоматизации GUI на длинных горизонтах с tool-integrated оптимизацией

ТекстOpen-Source (локально)

GameWorld

стандартизированный фреймворк оценки мультимодальных игровых агентов (NUS)

МультимодальныеOpen-Source (локально)

SpatialEvo

саморазвивающийся пространственный интеллект через детерминированные геометрические среды

ТекстOpen-Source (локально)

RationalRewards

масштабирование визуальной генерации через рассуждения о наградах

ТекстOpen-Source (локально)

MERRIN

бенчмарк для мультимодального поиска и рассуждений в зашумлённой веб-среде

МультимодальныеOpen-Source (локально)

UI-Zoomer

адаптивное масштабирование с учётом неопределённости для точной привязки элементов GUI

ТекстOpen-Source (локально)

TIP

метод дистилляции on-policy с учётом важности токенов (Princeton University)

ТекстOpen-Source (локально)

ROSE

улучшение сегментации изображений, ориентированное на задачи поиска

ИзображенияOpen-Source (локально)

📅 14.04

6 моделей

GLM-5.1

открытая модель от Z.ai под лицензией MIT, превосходит GPT-5.4 и Opus 4.6 на задачах кодирования (SWE-Bench), поддерживает локальный запуск и файнтюнинг (scitech.whatfinger.com)

ТекстOpen-Source (локально)

Nemotron 3 Super

открытая гибридная MoE-модель NVIDIA на архитектуре Mamba-Transformer для агентных рассуждений

ТекстOpen-Source (локально)

Audio Flamingo Next (AF-Next)

открытая аудио-языковая модель нового поколения от NVIDIA и Университета Мэриленда для речи, звука и музыки (marktechpost.com + Hugging Face Papers)

АудиоOpen-Source (локально)

ClawGUI

открытый фреймворк Чжэцзянского университета для обучения, оценки и развёртывания GUI-агентов; самая популярная статья дня (307 голосов)

ТекстOpen-Source (локально)

Bielik v3 7B / 11B

открытые польскоязычные языковые модели от SpeakLeash с оптимизированной токенизацией

ТекстOpen-Source (локально)

TorchUMM

открытая унифицированная мультимодальная кодовая база от Университета Карнеги–Меллон для оценки, анализа и пост-тренировки мультимодальных моделей

МультимодальныеOpen-Source (локально)

📅 13.04

12 моделей

HY-Embodied-0.5 (Tencent Hunyuan)

фундаментальные модели для воплощённых агентов на архитектуре Mixture-of-Transformers с улучшенным визуальным восприятием и рассуждением в реальном мире

ТекстOpen-Source (локально)

Audio Flamingo Next (NVIDIA)

следующее поколение открытых аудио-языковых моделей для речи, звука и музыки

АудиоOpen-Source (локально)

WildDet3D (AI2 / Allen Institute)

унифицированный фреймворк 3D-обнаружения объектов в открытом мире с поддержкой множества типов подсказок

ТекстOpen-Source (локально)

VOID (Netflix)

модель удаления объектов из видео с использованием VLM и диффузионных моделей для генерации физически правдоподобных сцен

ВидеоOpen-Source (локально)

LPM 1.0

мультимодальная модель большого масштаба для генерации персонажей в реальном времени с бесконечной длиной видео

ВидеоOpen-Source (локально)

RefineAnything (Zhejiang University)

диффузионная мультимодальная модель для регионально-специфичного уточнения изображений с сохранением фона

МультимодальныеOpen-Source (локально)

MegaTrain

метод полноточного обучения моделей 100B+ параметров на одном GPU через хранение в памяти хоста

ТекстOpen-Source (локально)

Kronos (shiyu-coder)

фундаментальная модель для языка финансовых рынков

ТекстOpen-Source (локально)

NousResearch/hermes-agent

агентный ИИ-фреймворк нового поколения на базе открытых весов

ТекстOpen-Source (локально)

ClawGUI

унифицированный фреймворк для обучения, оценки и развёртывания GUI-агентов

ТекстOpen-Source (локально)

CodeTracer

система трассировки состояний агентов при написании кода

ТекстOpen-Source (локально)

OmniShow (ByteDance)

модель генерации видео взаимодействий человека и объектов с мультимодальными условиями

ВидеоOpen-Source (локально)

📅 12.04

6 моделей

MiniMax M2.7

языковая модель от MiniMax с контекстным окном 205K токенов, стала доступна через API Fireworks и Together AI одновременно (pricepertoken.com)

ТекстOpen-Source (локально)

llama.cpp b8766

плановый релиз инференс-движка llama.cpp: бинарные сборки для Windows (CUDA 12.4 / 13.1), macOS (arm64/x64) и openEuler (aarch64/x86); исходный код выпущен в 12:15 UTC

ТекстOpen-Source (локально)

Arcee AI Trinity-Large-Thinking

открытая модель рассуждений на 400 миллиардов параметров от стартапа Arcee AI, позиционируется как конкурент Claude Opus в агентских задачах; компания вложила около половины всех в…

ТекстOpen-Source (локально)

NousResearch/hermes-agent

открытый агентский фреймворк «агент, который растёт вместе с тобой»; вышел в топ GitHub Trending с 7 400+ звёздами за сутки

ТекстOpen-Source (локально)

shiyu-coder/Kronos

фундаментальная модель для языка финансовых рынков, 1 985 новых звёзд за день на GitHub

ТекстOpen-Source (локально)

OpenBMB/VoxCPM

многоязычная TTS-система с клонированием голоса от OpenBMB, появилась в GitHub Trending

АудиоOpen-Source (локально)

📅 11.04

9 моделей

LFM2.5-VL-450M (Liquid AI)

компактная 450M-параметровая vision-language модель для edge-устройств: предсказание ограничивающих рамок (RefCOCO-M: 81.28), многоязычность, вызов функций, инференс < 250 мс на Sn…

МультимодальныеOpen-Source (локально)

Waypoint-1.5 (Overworld)

обновлённая модель генерации интерактивных 3D-миров в реальном времени; обучена на объёме данных в ~100× больше предыдущей версии; поддерживает Mac и Windows, 60 fps при 720p на мо…

ТекстOpen-Source (локально)

HY-Embodied-0.5 (Tencent Hunyuan)

фундаментальная модель для воплощённых агентов реального мира, выложена на HuggingFace; вошла в топ по просмотрам Daily Papers (427 просмотров)

ТекстOpen-Source (локально)

OpenVLThinkerV2 (UCLA NLP)

мультимодальная reasoning-модель общего назначения для задач из нескольких визуальных доменов, open weights

МультимодальныеOpen-Source (локально)

MolmoWeb

открытый визуальный веб-агент с открытыми данными для работы в браузере; построен на базе Molmo

ТекстOpen-Source (локально)

SkillClaw

open-source агентная система коллективной эволюции навыков; агенты обмениваются и улучшают умения автономно

ТекстOpen-Source (локально)

NousResearch/hermes-agent

MIT-лицензированный самообучающийся AI-агент с персистентной памятью; в день 11.04 набрал +7 450 GitHub-звёзд (66k итого); поддержка Telegram, Discord, Slack, WhatsApp, CLI

ТекстOpen-Source (локально)

OpenBMB/VoxCPM

TTS-модель без токенизатора для многоязычного синтеза речи, open source

АудиоOpen-Source (локально)

shiyu-coder/Kronos

фундаментальная модель «языка финансовых рынков», open source, +1 998 звёзд за день

ТекстOpen-Source (локально)

📅 10.04

10 моделей

HY-Embodied-0.5

воплощённые фундаментальные модели Tencent Hunyuan для управления реальными роботизированными агентами

ТекстOpen-Source (локально)

MemReader-0.6B / MemReader-4B

компактные модели для извлечения долгосрочной памяти LLM-агентов из неструктурированного текста (arXiv cs.CL 2604.07877)

ТекстOpen-Source (локально)

Kathleen

сверхлёгкая архитектура классификации текста (733K параметров) на байтовых входах без токенизатора (arXiv cs.CL 2604.07969)

ТекстOpen-Source (локально)

VoxCPM2 (OpenBMB/VoxCPM)

многоязычная TTS-модель без токенизатора, поддерживает генерацию речи в реальном времени

АудиоOpen-Source (локально)

Kronos (shiyu-coder/Kronos)

фундаментальная модель для моделирования языка финансовых рынков

ТекстOpen-Source (локально)

NousResearch/hermes-agent

открытый агентский фреймворк «агент, который растёт вместе с вами»

ТекстOpen-Source (локально)

SkillClaw

система коллективной эволюции навыков для многопользовательских LLM-агентов

ТекстOpen-Source (локально)

MegaStyle

Tencent: масштабируемая генерация стилистических датасетов через согласованное text-to-image отображение

ИзображенияOpen-Source (локально)

Wan 2.7

набор из четырёх open-source моделей генерации видео: создание, продолжение, редактирование, reference-driven workflows

ВидеоOpen-Source (локально)

RhymeTagger

языконезависимый инструмент-модель для распознавания рифм на 7 языках (arXiv cs.CL 2604.08156)

ТекстOpen-Source (локально)

📅 09.04

10 моделей

Waypoint-1.5

real-time видеомодель для генерации интерактивных виртуальных миров от Overworld; работает на потребительском железе (RTX 3090–5090), 720p при 60 FPS; доступна как Waypoint-1.5-1B…

ВидеоOpen-Source (локально)

Sentence Transformers v5.4

обновление open-source библиотеки с поддержкой мультимодальных embedding- и reranker-моделей (текст, изображения, аудио, видео); поддерживает Qwen3-VL-Embedding, NVIDIA Llama Nemot…

ВидеоOpen-Source (локально)

RAGEN-2 (2604.06268)

фреймворк/исследование MLL Lab о коллапсе рассуждений в агентном обучении с подкреплением; 2.6k лайков на HF Papers

ТекстOpen-Source (локально)

INSPATIO-WORLD (2604.07209)

real-time 4D симулятор мира на основе пространственно-временного авторегрессионного моделирования, 23 автора; 785 лайков

ТекстOpen-Source (локально)

MARS (2604.07023)

метод для многотокенной генерации в авторегрессионных моделях от Nanyang Technological University

ТекстOpen-Source (локально)

Think in Strokes, Not Pixels (2604.04746)

генерация изображений через пошаговое рассуждение (process-driven), AI at Meta

ИзображенияOpen-Source (локально)

SkillClaw

система коллективной эволюции навыков с помощью агентного эволюционера, NAIL-Group

ТекстOpen-Source (локально)

ClawBench

бенчмарк для оценки способности AI-агентов выполнять повседневные онлайн-задачи, NAIL-Group

ТекстOpen-Source (локально)

SEVerA (2603.25111)

верифицированный синтез самоэволюционирующих агентов

ТекстOpen-Source (локально)

Combee (2604.04247)

масштабирование обучения промптам для самосовершенствующихся LLM-агентов, UC Berkeley

ТекстOpen-Source (локально)

📅 08.04

4 модели

GLM-5.1

открытая модель от Z.AI (Zhipu AI), 754B параметров (архитектура MoE), лицензия MIT; способна автономно работать до 8 часов, превосходит Claude Opus 4.6 на SWE-Bench Pro; веса дост…

ТекстOpen-Source (локально)

MedGemma 1.5

медицинская мультимодальная модель Google на базе Gemma, технический отчёт опубликован на Hugging Face Daily Papers 8 апреля; ориентирована на клинические и биомедицинские задачи

МультимодальныеOpen-Source (локально)

Paper Circle

open-source мульти-агентный фреймворк для поиска и анализа научных публикаций, от Mohamed Bin Zayed University of AI; опубликован на Hugging Face Papers 8 апреля

ТекстOpen-Source (локально)

📅 07.04

6 моделей

GLM-5.1

флагманская модель Z.ai (бывш. Zhipu AI), 744B параметров (MoE, 40B активных), лицензия MIT, контекст 200K токенов; заняла #1 на SWE-Bench Pro (58.4 балла), обогнав GPT-5.4 и Claud…

ТекстOpen-Source (локально)

MinerU2.5-Pro

модель для масштабного парсинга документов от OpenDataLab, ориентированная на высококачественное извлечение структурированных данных; бумага опубликована на HuggingFace Daily Paper…

ТекстOpen-Source (локально)

TriAttention

метод/модуль от NVIDIA для эффективного длинного рассуждения с тригонометрическим сжатием KV-кэша; снижает вычислительную нагрузку при длинных контекстах; бумага опубликована на Hu…

ТекстOpen-Source (локально)

BidirLM

архитектура преобразования каузальных LLM в двунаправленные энкодеры («Decoder To Encoder»); позволяет создавать мощные эмбеддинг-модели из decoder-only основ; бумага опубликована…

ТекстOpen-Source (локально)

Vero

открытый RL-рецепт для общего визуального рассуждения (General Visual Reasoning); бумага опубликована на HuggingFace Daily Papers 07.04 (huggingface.co/papers)

ТекстOpen-Source (локально)

OpenWorldLib

единая кодовая база и формализация продвинутых World Models от Пекинского университета; опубликована на HuggingFace Daily Papers 07.04 (huggingface.co/papers)

ТекстOpen-Source (локально)

📅 06.04

8 моделей

InCoder-32B-Thinking

Промышленная кодовая «world model» с возможностями рассуждения (thinking), 32B параметров, 25+ авторов; 226 голосов на HuggingFace (huggingface.co/papers)

ТекстOpen-Source (локально)

GrandCode

Агентная система на основе RL, достигающая уровня гроссмейстера в соревновательном программировании; 349 голосов на HuggingFace (huggingface.co/papers, DeepReinforce)

ТекстOpen-Source (локально)

Self-Distilled RLVR

Метод обучения с подкреплением через самодистилляцию для языковых моделей; 155 голосов на HuggingFace (huggingface.co/papers)

ТекстOpen-Source (локально)

VoxCPM2 (OpenBMB)

TTS-модель без токенизатора для многоязычной генерации речи, клонирования голоса и творческого синтеза; +1 276 звёзд за день (github.com/trending)

АудиоOpen-Source (локально)

Kronos (shiyu-coder)

Фундаментальная модель для языка финансовых рынков; +1 998 звёзд за день (github.com/trending)

ТекстOpen-Source (локально)

hermes-agent (NousResearch)

Открытая агентная AI-система «растущая вместе с пользователем»; +7 450 звёзд за день (github.com/trending)

ТекстOpen-Source (локально)

A Simple Baseline for Streaming Video Understanding (LMMs-Lab)

Базовый подход для понимания потокового видео в реальном времени; 72 голоса на HuggingFace (huggingface.co/papers)

ВидеоOpen-Source (локально)

Agentic-MME

Бенчмарк для оценки вклада агентных возможностей в мультимодальный интеллект; 36 голосов на HuggingFace (huggingface.co/papers)

МультимодальныеOpen-Source (локально)

📅 05.04

8 моделей

Generative World Renderer

генеративная модель рендеринга мира (Shanda AI Research Tokyo), 554 лайка (huggingface.co/papers)

ТекстOpen-Source (локально)

VOID: Video Object and Interaction Deletion

модель удаления объектов и взаимодействий из видео (Netflix Research), 1490 лайков (huggingface.co/papers)

ВидеоOpen-Source (локально)

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

фреймворк автономной эволюции мультиагентных систем (MIT), 440 лайков (huggingface.co/papers)

ТекстOpen-Source (локально)

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

метод обучения с подкреплением для интернализации навыков агентов, 184 лайка (huggingface.co/papers)

ТекстOpen-Source (локально)

DataFlex: A Unified Framework for Data-Centric Dynamic Training of LLMs

унифицированный фреймворк динамического обучения LLM (Peking University), 198 лайков (huggingface.co/papers)

ТекстOpen-Source (локально)

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

масштабный обзорный труд о пространстве скрытых представлений в нейросетях, 680 лайков (huggingface.co/papers)

ТекстOpen-Source (локально)

Steerable Visual Representations

управляемые визуальные представления (UTN / Fundamental AI Lab), 65 лайков (huggingface.co/papers)

ТекстOpen-Source (локально)

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

симулятор эгоцентрического мира для воплощённых агентов, 34 лайка (huggingface.co/papers)

ТекстOpen-Source (локально)

📅 04.04

15 моделей

Wan 2.7

набор из четырёх видеомоделей (генерация, продолжение, reference-driven и редактирование), стал доступен на Together AI

ВидеоOpen-Source (локально)

Deepgram STT & TTS

производственные модели распознавания и синтеза речи от Deepgram, добавлены в Together AI Dedicated Model Inference

АудиоOpen-Source (локально)

T5Gemma-TTS

TTS-модель на основе архитектур T5 и Gemma, технический отчёт опубликован на HuggingFace (huggingface.co/papers)

АудиоOpen-Source (локально)

DataFlex

единый фреймворк для динамического обучения LLM с данно-центричным подходом, Пекинский университет (huggingface.co/papers)

ТекстOpen-Source (локально)

Generative World Renderer

генеративная модель рендеринга трёхмерных миров, Shanda AI Research Tokyo (huggingface.co/papers)

ТекстOpen-Source (локально)

SKILL0

фреймворк интернализации навыков через агентное обучение с подкреплением в контексте (huggingface.co/papers)

ТекстOpen-Source (локально)

CORAL

система автономной мультиагентной эволюции для открытых научных открытий, MIT (huggingface.co/papers)

ТекстOpen-Source (локально)

Nemotron-Cascade-2-30B-A3B

NVIDIA, каскадная MoE-архитектура для эффективного инференса агентных систем (huggingface.co/models, trending 2026-04-04)

ТекстOpen-Source (локально)

LFM2.5-350M

ультра-компактная 350M-параметровая liquid foundation model для edge-устройств, LiquidAI (huggingface.co/models, trending 2026-04-04)

ТекстOpen-Source (локально)

context-1

первая генеративная модель ChromaDB, оптимизированная для retrieval-augmented задач (huggingface.co/models, trending 2026-04-04)

ИзображенияOpen-Source (локально)

harrier-oss-v1-0.6b

600M embedding-модель Microsoft на базе Qwen3, протестирована на MTEB (huggingface.co/models, trending 2026-04-04)

ТекстOpen-Source (локально)

NousResearch/hermes-agent

открытый агентный фреймворк «растущий вместе с пользователем», 7 450 звёзд за день (github.com/trending)

ТекстOpen-Source (локально)

Kronos

foundation model для языка финансовых рынков, shiyu-coder (github.com/trending)

ТекстOpen-Source (локально)

VoxCPM

многоязычная TTS-модель без токенизатора, OpenBMB (github.com/trending)

АудиоOpen-Source (локально)

sam3.1

Meta Segment Anything 3.1 с нативной сегментацией видео (huggingface.co/models, trending 2026-04-04)

ВидеоOpen-Source (локально)

📅 03.04

11 моделей

Woosh

фундаментальная модель для генерации звуковых эффектов от Sony; опубликована на HuggingFace Papers (huggingface.co/papers/date/2026-04-03)

АудиоOpen-Source (локально)

Apriel-Reasoner

модель ServiceNow с RL-постобучением для универсального и эффективного рассуждения (huggingface.co/papers/date/2026-04-03)

ТекстOpen-Source (локально)

T5Gemma-TTS

технический отчёт и модель синтеза речи от Google на базе архитектур T5 и Gemma (huggingface.co/papers/date/2026-04-03)

АудиоOpen-Source (локально)

Generative World Renderer

генеративная модель рендеринга виртуальных миров от Shanda AI Research Tokyo (huggingface.co/papers/date/2026-04-03)

ТекстOpen-Source (локально)

UniDriveVLA

vision-language-action модель для автономного вождения от Huazhong University of Science and Technology (huggingface.co/papers/date/2026-04-03)

МультимодальныеOpen-Source (локально)

Kronos

фундаментальная модель для языка финансовых рынков

ТекстOpen-Source (локально)

VoxCPM2 (OpenBMB)

TTS-модель без токенизатора для многоязычной генерации речи, клонирования голоса и творческого дизайна звука

АудиоOpen-Source (локально)

NousResearch/hermes-agent

открытый агентный фреймворк «модель, которая растёт вместе с тобой»

ТекстOpen-Source (локально)

CORAL (MIT)

фреймворк для эволюции мультиагентных систем в целях открытых научных открытий (huggingface.co/papers/date/2026-04-03)

ТекстOpen-Source (локально)

EgoSim

эгоцентрический симулятор мира для генерации воплощённых взаимодействий (huggingface.co/papers/date/2026-04-03)

ТекстOpen-Source (локально)

ASI-Evolve (SII-GAIR)

фреймворк «ИИ ускоряет ИИ» для самоулучшения систем (huggingface.co/papers/date/2026-04-03)

ТекстOpen-Source (локально)

📅 02.04

10 моделей

Gemma 4 E2B

Эффективная модель Google на ~2B параметров, мультимодальная (текст, изображения, аудио), оптимизирована для работы прямо на устройстве, лицензия Apache 2.0

АудиоOpen-Source (локально)

Gemma 4 E4B

Эффективная модель Google на ~4B параметров, мультимодальная, edge-ориентированная, контекст до 256K токенов, 140+ языков, лицензия Apache 2.0

МультимодальныеOpen-Source (локально)

Gemma 4 26B MoE

Модель Google на 26B параметров, архитектура Mixture-of-Experts, занимает #6 в открытом рейтинге Arena AI, лицензия Apache 2.0

ТекстOpen-Source (локально)

Gemma 4 31B Dense

Флагманская плотная модель Google на 31B параметров, #3 в открытом рейтинге Arena AI среди открытых моделей, лицензия Apache 2.0

ТекстOpen-Source (локально)

Wan 2.7

Набор из четырёх открытых моделей для генерации видео: text-to-video, продолжение видео, reference-driven генерация и редактирование, доступен через Together AI

ВидеоOpen-Source (локально)

ClawKeeper

Фреймворк комплексной защиты безопасности для агентов OpenClaw через навыки, плагины и наблюдателей, код открыт

ТекстOpen-Source (локально)

Terminal Agents Suffice for Enterprise Automation

Модель/фреймворк от ServiceNow AI для автоматизации корпоративных задач через терминальных агентов

ТекстOpen-Source (локально)

MiroEval

Открытый бенчмарк от MiroMind AI для оценки мультимодальных агентов глубокого исследования, включает эталонные модели

МультимодальныеOpen-Source (локально)

ViGoR-Bench

Открытый бенчмарк от Meituan для оценки визуальных генеративных моделей как zero-shot визуальных рассуждателей

ТекстOpen-Source (локально)

Vision2Web

Открытый иерархический бенчмарк от Z.ai для разработки веб-сайтов с помощью визуальных агентов

ТекстOpen-Source (локально)

📅 01.04

3 модели

Holo3-35B-A3B

агентная модель для управления компьютером от H Company (35B параметров, 10B активных), лицензия Apache 2.0; достигла 78.85% на бенчмарке OSWorld-Verified — новый SOTA для desktop…

ТекстOpen-Source (локально)

Falcon Perception

открытая vision-модель от Technology Innovation Institute (TII, ОАЭ), 0.6B параметров; early-fusion трансформер для open-vocabulary grounding и сегментации по текстовым промптам; т…

МультимодальныеOpen-Source (локально)

TRL v1.0

Hugging Face выпустил стабильную версию библиотеки пост-обучения: унифицированный стек для SFT, Reward Modeling, DPO и GRPO с единым CLI и API; ориентирован на продакшн-использован…

ТекстOpen-Source (локально)

Март

2026

📅 31.03

4 модели

Granite 4.0 3B Vision

компактная мультимодальная модель IBM Granite для обработки корпоративных документов; поддерживает текст и изображения в едином небольшом пакете

МультимодальныеOpen-Source (локально)

TRL v1.0

крупный релиз библиотеки пост-обучения языковых моделей от Hugging Face; версия 1.0 знаменует стабилизацию API и полную поддержку современных методов RLHF/DPO/PPO

ТекстOpen-Source (локально)

mRNA Language Models (OpenMed)

мультивидовые языковые модели для мРНК, обученные на 25 биологических видах за $165; исследовательский релиз с открытыми весами

ТекстOpen-Source (локально)

Mamba-3

open-source SSM-архитектура от Together AI; быстрее трансформеров при декодировании, превосходит Mamba-2 по качеству, открытая с первого дня релиза

ТекстOpen-Source (локально)

📅 30.03

12 моделей

Mr. Chatterbox

языковая модель, обученная на 28 000+ текстах викторианской эпохи из British Library; предназначена для локального запуска на обычных ПК, доступна на Hugging Face (simonwillison.ne…

ТекстOpen-Source (локально)

ShotStream

модель потоковой мультикадровой генерации видео для интерактивного сторителлинга; 116 голосов сообщества

ВидеоOpen-Source (локально)

PackForcing (Shanda AI Research Tokyo)

показывает, что короткое видеообучение достаточно для долгосрочного семплирования и длинного контекстного инференса; 233 голоса

ВидеоOpen-Source (локально)

Out of Sight but Not Out of Mind (H-EmbodVis)

гибридная память для динамических видео-world-моделей; 221 голос

ВидеоOpen-Source (локально)

Know3D (Peking University)

3D-генерация с использованием знаний из vision-language моделей; 89 голосов

МультимодальныеOpen-Source (локально)

Sommelier (KAIST AI)

масштабируемая аудиопредобработка для full-duplex речевых языковых моделей; 40 голосов

АудиоOpen-Source (локально)

RealChart2Code (Qwen)

улучшенная генерация кода из диаграмм на реальных данных с многозадачной оценкой; 47 голосов

ТекстOpen-Source (локально)

Trace2Skill

метод дистилляции навыков агентов из локальных траекторий для повторного использования в новых задачах

ТекстOpen-Source (локально)

Diffutron (Diffutron org)

маскированная диффузионная языковая модель, специализированная для турецкого языка

ТекстOpen-Source (локально)

Composer 2

технический отчёт новой версии крупной языковой модели, 55 авторов; вероятно Databricks/MosaicML

ТекстOpen-Source (локально)

GenMask

адаптация Diffusion Transformer (DiT) для задач сегментации через прямые маски

ИзображенияOpen-Source (локально)

MedOpenClaw (TU Munich)

аудируемая агентная система рассуждений для медицинского анализа изображений на неструктурированных данных

ИзображенияOpen-Source (локально)

📅 27.03

5 моделей

Intern-S1-Pro

первая мультимодальная научная фундаментальная модель с 1 триллионом параметров от InternLM; охватывает химию, материаловедение, науки о жизни и Earth Sciences; открытые веса на Hu…

МультимодальныеOpen-Source (локально)

Voxtral TTS

выразительная многоязычная TTS-модель от Mistral AI; клонирует голос всего из 3 секунд референсного аудио; win rate 68.4% против ElevenLabs Flash v2.5; веса опубликованы под лиценз…

АудиоOpen-Source (локально)

PixelSmile

модель для тонкого редактирования мимики лица от Fudan University; позволяет управлять выражениями лица с высокой точностью

ТекстOpen-Source (локально)

Calibri

метод parameter-efficient калибровки диффузионных трансформеров от группы Visual Generative AI; повышает качество генерации без полного дообучения

ТекстOpen-Source (локально)

RealRestorer

обобщённая модель восстановления реальных изображений от SUSTech; использует крупномасштабные модели редактирования изображений

ИзображенияOpen-Source (локально)

📅 26.03

1 модель

Voxtral-4B-TTS-2603

открытая TTS-модель от Mistral AI на 4B параметров для синтеза речи: поддерживает 9 языков (английский, французский, немецкий, испанский, нидерландский, португальский, итальянский…

АудиоOpen-Source (локально)

← Назад к нейронкам