🚀 Open-Source и платные ИИ-модели
Календарь релизов 2025–2026
Отслеживайте последние релизы ИИ-моделей: от бесплатных open-source до платных облачных решений.
204
Дней отслеживается
120
Дней релизов
700
Моделей
–
Июнь
2026
📅 25.06
4 модели
Ornith-1.0
семейство открытых моделей для кодинга от DeepReinforce в четырёх размерах (9B и 31B dense, а также 35B и 397B на MoE-архитектуре (Mixture of Experts), ~3B активных у 35B); построено поверх Gemma 4 и Qwen 3.5, выдаёт reasoning в <think>-бло…
Gemini 3.5 Flash (Computer Use)
Google встроила управление компьютером напрямую в Gemini 3.5 Flash: модель видит экран и сама работает с браузером, ПК и мобильными устройствами для автотестов и офисной автоматизации…
ViQ
визуальный токенизатор от Tencent HY Vision Team (с Tsinghua, NTU, CAS) на 1.3B параметров на базе SigLIP2-g, преобразующий изображения любого разрешения в дискретные коды с сохранением семантики и качества реконструкции…
Qwen-Image-Agent
агентский фреймворк для генерации изображений от Alibaba Qwen: training-free, совместим с существующими генераторами, добавляет планирование, reasoning, веб/картиночный поиск и память для multi-image и multi-turn сценариев…
📅 23.06
4 модели
lift
открытая vision-модель на 9B параметров от Datalab для извлечения структурированного JSON из PDF и изображений по заданной JSON-схеме; использует schema-constrained decoding (декодирование с ограничением по грамматике), гарантирующее валидн…
OpenThoughts-Agent
открытые агентные модели на 8B и 32B параметров, дообученные от Qwen3 командой OpenThoughts (коллаборация институтов); натренированы по data-рецептам для агентных задач (исправление кода/SWE, работа с инструментами, терминал)…
Mistral OCR 4
закрытая модель document intelligence от Mistral AI; распознаёт документы (PDF, DOC, PPT, OpenDocument) на 170 языках, выдаёт структурированный JSON с bounding-box, классификацией блоков и оценками уверенности для RAG и enterprise-поиска…
Doubao 2.1 Pro
закрытая флагманская LLM от ByteDance, представленная на конференции Volcano Engine FORCE; крупное обновление с упором на кодинг, агентные сценарии и vision-language-понимание…
📅 22.06
3 модели
Sakana Fugu
оркестрационная модель от японской Sakana AI: 7B-«дирижёр», который сам маршрутизирует подзадачи по пулу фронтир-LLM через OpenAI-совместимый API; основана на работах TRINITY и Conductor (ICLR 2026)…
Sakana Fugu Ultra
усиленный вариант того же оркестратора, настроенный на максимальную точность в сложных многошаговых задачах (кодинг, рассуждения, наука); по заявлению Sakana, сравнивается с Claude Fable 5 и Mythos, не обучая ни одной собственной фронтир-мо…
gemma-4-12B-it-abliterix
abliterated (расцензуренная) дообученная версия Google Gemma 4 12B от автора wangzhang; dense-трансформер на 12B параметров в формате BF16 safetensors со снятым «выравниванием-отказом» для локального запуска…
📅 18.06
5 моделей
Sumi
открытая диффузионная языковая модель (Diffusion LM, uniform diffusion) на 7B параметров от Tohoku University; bidirectional Transformer на 36 слоёв, обучена на 1.5T токенов по фреймворку GIDD, полностью открыты веса, чекпойнты и рецепт обу…
PerceptionDLM
мультимодальная диффузионная языковая модель (Diffusion LM) на 9B от MSALab/PKU для одновременного описания нескольких областей изображения (image-text-to-text); генерирует подписи ко всем регионам за один проход денойзинга с ускорением до…
Moebius
сверхлёгкая диффузионная модель инпейнтинга изображений на 0.22B от Huazhong University of Science and Technology и VIVO AI Lab; латентный U-Net с блоками LλMI, латентность 26 мс/шаг и качество на уровне 10B-моделей (FLUX.1-Fill) при менее…
FreeStyle
диффузионный фреймворк генерации text-to-image с раздельными референсами стиля и контента от Fudan University, построен на майнинге community LoRA; сохраняет структуру и семантику контента, перенося стиль другого изображения; открыты веса…
S-Agent-8B
vision-language агент для пространственного рассуждения (spatial reasoning) от NTU, THU и ByteDance; VLM на 8B, дообученный из Qwen3-VL-8B на датасете S-300K, координирует иерархические 2D- и 3D-инструменты для подсчёта объектов, измерения…
📅 17.06
2 модели
MolmoMotion
открытая модель Ai2 (Allen Institute for AI) для language-guided 3D motion forecasting (предсказание 3D-траекторий точек по видеокадру и текстовой инструкции); использует Molmo 2 в качестве VLM-бэкбона, выложены веса, датасет MolmoMotion-1M…
MiniMax-M3 (технический отчёт MSA)
MiniMax опубликовал технический отчёт и inference-кёрнел архитектуры MSA (MiniMax Sparse Attention) под MIT-лицензией; натиивно мультимодальная MoE-модель на ~428B параметров (~23B активных) с 1M-контекстом, двухветвевая блочно-разреженная…
📅 16.06
4 модели
GLM-5.2
флагманская MoE-модель (Mixture of Experts) от Zhipu AI на 744B параметров (40B активных) с контекстом 1M токенов, ориентирована на длинные траектории кодинг-агентов; открытые веса под лицензией MIT, доступна через API ZAI/Novita/FriendliAI…
Qwen-RobotManip
VLA-модель (vision-language-action) от Alibaba Qwen на бэкбоне Qwen3.5-4B для манипуляции объектами роботизированными руками; обучена на 38 100+ часах данных манипуляции, код опубликован на GitHub в составе сюиты Qwen-RobotSuite (https://qw…
Qwen-RobotNav
навигационная VLA-модель от Alibaba Qwen на основе Qwen3-VL (варианты 2B/4B/8B), объединяющая следование инструкциям, point/target navigation и трекинг объектов; обучена на 15.6M примеров, latency 196 мс на Unitree Go2 с Jetson Thor (https:…
Qwen-RobotWorld
видео-«мировая модель» от Alibaba Qwen для предсказания будущих кадров сцены до действия робота; 60-слойная двухпоточная MMDiT-архитектура с замороженным энкодером Qwen2.5-VL на 20B параметров, опубликована в составе Qwen-RobotSuite (https:…
📅 13.06
2 модели
GLM-5.2
флагманская MoE-модель (Mixture of Experts) от Zhipu AI / Z.ai на 744B параметров (40B активных) с контекстом 1M токенов; 13 июня запущена на всех платных тарифах GLM Coding Plan (Lite / Pro / Max / Team), заточена под агентское программиро…
Count Anything
vision-модель подсчёта объектов по текстовому запросу от исследователей Tsinghua University (Mengqi Lei и соавторы); построена поверх Meta SAM3 с двумя счётчиками (Region-level Sparse Counter для крупных объектов, Pixel-level Dense Counter…
📅 12.06
3 модели
Kimi K2.7 Code
открытая coding-модель от Moonshot AI с MoE-архитектурой (Mixture of Experts): 1 триллион параметров всего, 32B активных, 384 эксперта, контекст 256K; заточена на длинные agentic-задачи в инженерии ПО, лицензия Modified MIT, веса на Hugging…
Zamba2-VL
семейство открытых vision-language моделей от Zyphra на 1.2B / 2.7B / 7B параметров с гибридной архитектурой Mamba2 (state-space) + Transformer; снижает time-to-first-token примерно на порядок против обычных VLM, лицензия Apache 2.0 (https:…
Gemini-SQL2
закрытая text-to-SQL модель Google Research поверх Gemini 3.1 Pro, переводит естественный язык в исполняемые SQL-запросы; первая система, преодолевшая 80% на бенчмарке BIRD (80.04%), без fine-tuning, рассчитана на интеграцию в BigQuery (htt…
📅 10.06
5 моделей
DiffusionGemma 26B-A4B
открытая MoE-модель (Mixture of Experts) от Google DeepMind на базе Gemma 4: 26B параметров (3.8B активных), диффузионная генерация текста параллельно вместо токен-за-токеном, контекст 256K, 140+ языков, Apache 2.0, ~1100 ток/с на H100 (htt…
Gemini 3.5 Live Translate
закрытая мультимодальная аудио-модель Google для синхронного голосового перевода с автоопределением языка на 70+ языков, доступ через Gemini API и приложение Gemini (https://blog.google/innovation-and-ai/models-and-research/gemini-models/ge…
i1
text-to-image (T2I) диффузионная модель на 3B параметров от Принстона, полностью открытый рецепт (веса, код и данные публичны), обучена на 300+ контролируемых экспериментах и конкурирует с проприетарными системами при тренировке только на п…
InternVideo3
мультимодальная видео-foundation модель от Shanghai AI Lab с архитектурой Multimodal Multi-head Latent Attention (M²LA) для длинного видео-контекста; вводит парадигму Multimodal Contextual Reasoning (MCR) и показывает SOTA на Video-MME, MLV…
DeNovoSWE-Agent
code-агент для генерации целых репозиториев из документации, fine-tuned на Qwen3-30B-A3B и Qwen3.5-35B-A3B; поднимает результат на BeyondSWE-Doc2Repo с 5.8% до 47.2%, датасет на 4818 инстансов и код открыты (https://huggingface.co/collectio…
📅 09.06
5 моделей
Claude Fable 5
закрытая флагманская модель Mythos-класса от Anthropic для самых сложных задач кодинга, vision и научных исследований; доступна через Claude API и Enterprise-планы по цене $10/$50 за 1M входных/выходных токенов (https://www.anthropic.com/ne…
Claude Mythos 5
та же базовая модель, что и Fable 5, но со снятыми защитными ограничениями; доступна узкой группе кибердефендеров и инфраструктурных провайдеров через Project Glasswing, цена та же ($10/$50 за 1M токенов) (https://www.anthropic.com/news/cla…
North Mini Code
открытая агентная coding-модель от Cohere на MoE-архитектуре (Mixture of Experts), 30B параметров (3B активных), контекст 256K и выход 64K; лицензия Apache 2.0, веса на HuggingFace, на Coding Index обгоняет Devstral Small 2 в 2.8× по throug…
Gemini 3.5 Live Translate
закрытая стриминговая speech-to-speech audio-модель от Google DeepMind для синхронного перевода между 70+ языками с сохранением тона и темпа; доступна в public preview через Gemini Live API и Google AI Studio, частный preview в Google Meet…
ABot-Earth 0.5
генеративная 3D-модель Земли от Alibaba AMap CV Lab, по одному спутниковому снимку или текстовому промту строит километровую городскую сцену в формате 3D Gaussian Splatting за ~10 минут на потребительском GPU; код открыт на GitHub, paper оп…
📅 08.06
4 модели
Xiaomi MiMo-V2.5-Pro-UltraSpeed
релиз Xiaomi совместно с TileRT: триллион-параметрическая MoE-модель (Mixture of Experts) с FP4-квантизацией и DFlash speculative decoding, преодолевшая отметку 1000+ токенов/с на стандартной 8-GPU-ноде; чекпойнт FP4-DFlash открыт на Huggin…
Nex-N2-Pro
агентная MoE-модель от Nex AGI на 397B параметров (17B активных) на базе Qwen3.5, мультимодальная (image-text-to-text), контекст 262K, лицензия Apache 2.0; 75.3 на Terminal-Bench 2.1 и 1585 на GDPval, конкурирует с GPT-5.5 и Claude Opus 4.7…
Nex-N2-Pro (free)
бесплатный облачный доступ к Nex-N2-Pro через OpenRouter с поддержкой reasoning, function calling и structured outputs, оптимизирован для кодинга, deep research и долгогоризонтных агентных задач (https://openrouter.ai/nex-agi/nex-n2-pro:fre…
Apple Siri (Gemini-powered)
обновлённый Siri от Apple, представленный на WWDC 2026: работает на кастомной 1.2T-параметрической модели Google Gemini в Private Cloud Compute, поддерживает on-screen awareness, persona context и Extensions (выбор ChatGPT/Gemini/Claude) (h…
📅 05.06
5 моделей
Gemma 4 E2B QAT
открытая мультимодальная (текст/изображение/аудио) модель от Google DeepMind, 2.3B эффективных параметров, 128K контекст; квантизация Q4_0 ужимает её до 3.2 ГБ, а новый мобильный формат — до ~1 ГБ для запуска на смартфонах, лицензия Gemma (…
Gemma 4 E4B QAT mobile
edge-вариант Gemma 4 на 4B параметров с мобильно-оптимизированным форматом (статические активации, channel-wise квантизация, 2-bit таргетное сжатие), занимает 5 ГБ в Q4_0 против 15 ГБ в BF16; готов к запуску через LiteRT-LM и MLX (https://h…
Gemma 4 12B QAT
instruction-tuned dense-модель Google на 12B параметров с QAT-квантизацией w4a16, рассчитана на потребительские GPU; поддерживает llama.cpp, Ollama, LM Studio, vLLM, лицензия Gemma (https://huggingface.co/google/gemma-4-12B-it-qat-w4a16-ct)
Gemma 4 26B-A4B QAT
MoE-архитектура (Mixture of Experts) Google DeepMind с 26B всего и 4B активных параметров на токен, QAT Q4_0 чекпойнт для эффективного локального инференса с компенсацией потерь точности на этапе обучения (https://huggingface.co/google/gemm…
Gemini Enterprise Agentic RAG
закрытая enterprise-система Google Research на базе Gemini для надёжного retrieval-augmented generation в корпоративных агентах; доступ только через Gemini Enterprise Agent Platform, без открытых весов (https://research.google/blog/unlockin…
📅 04.06
3 модели
Nemotron 3 Ultra
флагманская открытая модель NVIDIA на 550B параметров (55B активных) с гибридной MoE-архитектурой (Mixture of Experts) Mamba-Transformer, 108 слоёв и 512 экспертов; контекст 1M токенов, лицензия NVIDIA Open Model License, заточена под долго…
Nemotron 3.5 Content Safety
мультимодальный классификатор безопасности от NVIDIA на 4B параметров поверх Gemma 3 4B IT с LoRA-адаптерами и контекстом 128K; оценивает текст, изображения и ответы ассистента, поддерживает 12 языков нативно и ~140 в zero-shot, лицензия NV…
Grok Imagine Video 1.5
закрытая image-to-video модель xAI: анимирует статичные изображения в короткие ролики до 720p с сохранением освещения и деталей; управляется текстовыми промтами для камеры и темпа, доступна только в preview через xAI API (https://x.ai/news/…
📅 03.06
4 модели
Gemma 4 12B
открытая мультимодальная модель Google DeepMind на 12B параметров без визуального энкодера, нативно обрабатывает текст, изображения и аудио…
Cosmos 3
семейство foundation-моделей мира от NVIDIA в двух вариантах: Nano 16B (бэкбон Qwen3-VL 8B) и Super 64B (бэкбон Qwen3-VL 32B), архитектура two-tower MoT (Mixture of Transformers)…
Ideogram 4.0
открытая (open-weight) text-to-image (T2I) модель от Ideogram с нативным 2K-разрешением, bounding-box контролем размещения объектов и заметно улучшенным рендерингом текста…
Cosmos 3 paper
статья NVIDIA «Cosmos 3: Omnimodal World Models for Physical AI» на HuggingFace Papers, описывающая two-tower MoT-архитектуру и протоколы обучения для омнимодальных моделей мира; набрала ~8.7K апвоутов за день (https://huggingface.co/papers…
📅 02.06
6 моделей
MAI-Thinking-1
первая собственная reasoning-модель Microsoft: разреженная MoE-архитектура (Mixture of Experts) на ~1T параметров (35B активных) с контекстом 256K, обучена без дистилляции чужих моделей; сильна в математике (AIME 2026 — 94.5%) и кодинге, до…
MAI-Code-1-Flash
компактная кодинг-модель Microsoft на 5B параметров с адаптивным «мышлением» (экономит до 60% токенов на сложных задачах); закрытые веса, доступна в GitHub Copilot включая бесплатный тариф, по цене/качеству обходит Claude Haiku 4.5 (https:/…
MAI-Image-2.5
обновлённая модель Microsoft для генерации и редактирования изображений (text-to-image + image-to-image) с функциями «контроль с сохранением» деталей; дебютировала на 3-м месте Arena.ai среди image-моделей, доступ только через API в Microso…
MAI-Voice-2
многоязычная TTS-модель Microsoft (text-to-speech) с клонированием голоса и voice-prompting для более чем 15 языков, единый голос сохраняет идентичность между языками; закрытая, поставляется через Foundry и продукты Copilot/Bing (https://te…
MAI-Transcribe-1.5
модель распознавания речи (speech-to-text) от Microsoft на MoE-архитектуре, поддержка 43 языков и контекстного смещения терминологии; примерно в 5× быстрее конкурентов при цене $0.36/час, доступна только в облаке через Foundry (https://tech…
Holo3.1
семейство быстрых computer-use агентов (управление GUI на вебе, десктопе и мобильных) от H company в размерах 0.8B/4B/9B и 35B-A3B (MoE); открытые веса на HuggingFace с квантизациями FP8/NVFP4/Q4 GGUF для локального запуска, 79.3% на Androi…
📅 01.06
4 модели
MiniMax M3
открытая мультимодальная LLM от китайской MiniMax на разреженном внимании MSA (MiniMax Sparse Attention) с контекстом 1M токенов; нативно понимает изображения и видео, управляет компьютером и силён в агентном кодинге (59% SWE-Bench Pro, 70%…
Mellum2
компактная MoE-модель (Mixture of Experts) на 12B параметров (2.5B активных) от JetBrains для текста и кода; более чем в 2 раза быстрее моделей своего класса, заточена под маршрутизацию, RAG и саб-агентов, лицензия Apache 2.0 (https://huggi…
NVIDIA Cosmos 3
открытая omni-модель для физического ИИ от NVIDIA на архитектуре Mixture-of-Transformers; в едином трансформере объединяет генерацию мира, физический reasoning и генерацию действий (текст/изображение/видео/аудио/действия), версии Nano 16B и…
Nemotron 3 Ultra
открытая (open-weight) MoE-модель от NVIDIA на ~550B параметров (~55B активных), анонсирована 1 июня (выкладка весов 4 июня); сильнейшая открытая модель из США по Artificial Analysis (48 баллов) и >300 токенов/с на DeepInfra (https://the-de…
Май
2026
📅 29.05
5 моделей
Step 3.7 Flash
открытая vision-language MoE-модель (MoE — Mixture of Experts, разреженная архитектура экспертов) на 198B параметров (~11B активных) с контекстом 256k от StepFun; ориентирована на агентов для кодинга и веб-поиска (56,26% на SWE-Bench Pro)…
Qwen-VLA
vision-language-action модель (зрение-язык-действие) от Alibaba Qwen для управления роботами разных конфигураций; использует DiT-декодер действий (Diffusion Transformer) и единый фреймворк для манипуляций и навигации, 97,9% на бенчмарке LIB…
minWM
открытый full-stack фреймворк от ShengShu и университетов Tsinghua/RUC для real-time интерактивных видео-world-моделей; дистиллирует диффузионные бэкбоны Wan2.1-1.3B и HY1.5-8B в few-step (малошаговые) авторегрессионные генераторы, ускоряя…
NAVA
модель на 6.3B параметров от ERNIE Team (Baidu) для совместной генерации аудио и видео; архитектура Align-then-Fuse MMDiT обеспечивает точную аудио-видео синхронизацию и управляемый тембр речи, веса и код открыты на HuggingFace (https://hug…
GPT-Rosalind
закрытая облачная модель OpenAI для наук о жизни (рассуждения о молекулах, белках, генах, биологии болезней); 29 мая OpenAI расширила бесплатный доступ через программу Rosalind Biodefense для проверенных команд и госпартнёров (вакцины, скри…
📅 28.05
10 моделей
RightNow-Arabic-0.5B-Turbo
арабоязычная LLM на 518M параметров на базе Qwen2.5-0.5B, полные веса (bf16/int8/GGUF), код и бенчмарки выложены на Hugging Face (arXiv cs.CL)
Liquid AI LFM2.5-8B-A1B
MoE-модель с 8.3B общих и 1.5B активных параметров, оптимизирована для on-device-инференса
Perplexity Unigram Tokenizer
переписанный с нуля open-source токенизатор, снижает латентность реранкеров и CPU-нагрузку в 5–6×
minWM
полностековый open-source фреймворк для интерактивных видео-«world models» в реальном времени
Qwen-VLA
унифицированная vision-language-action модель от команды Qwen для роботов и разных окружений
MOSS-TTS
открытое семейство моделей для генерации речи и звуков, включая диалоги и звуковые эффекты
Parallax
параметризованное локальное линейное внимание для языкового моделирования от Northwestern University
GenClaw
code-driven агентная генерация изображений от Tencent Hunyuan
LiteCoder-Terminal
масштабирование long-horizon terminal-окружений для обучения языковых агентов
PhoneWorld
масштабируемая среда для агентов, использующих смартфон
📅 27.05
15 моделей
DiffusionBlocks
фреймворк блочного обучения от Sakana AI, превращает остаточные сети в независимо обучаемые денойзинг-модули
Polar
NVIDIA выпустила token-faithful rollout-фреймворк для GRPO-тренировки поверх Codex, Claude Code и Qwen Code
EAGLE 3.1
алгоритм спекулятивного декодинга, борющийся с attention drift; совместный релиз EAGLE team, vLLM и TorchSpec
Gamma-World
генеративная модель мульти-агентного мира от NVIDIA, выходящая за рамки игр на двух игроков
From Pixels to Words
натив-визуальная модель на масштабе с архитектурой one-vision
Agent Explorative Policy Optimization
NVIDIA, оптимизация политики для мультимодального агентного рассуждения
OSP-Next
эффективная высококачественная модель генерации видео от Peking University
HRBench
Tencent, бенчмарк стратегий переключения режимов мышления в гибридно-рассуждающих LLM
OmniVerifier-M1
мультимодальный мета-верификатор со структурированной рекалибровкой
ResearchMath-14K
Seoul National University, агентное масштабирование математики исследовательского уровня
Self-Improving LM with Bidirectional Evolutionary Search
Harvard, самоулучшающиеся языковые модели через двунаправленный эволюционный поиск
AutoScientists
Harvard, самоорганизующиеся команды агентов для научных экспериментов
ITBench-AA
IBM × Artificial Analysis, первый бенчмарк для агентных задач корпоративного IT (фронтир-модели набирают <50%)
Reachy Mini goes fully local
open-source стек локального голосового робота от Pollen Robotics / Hugging Face
FLUID
фреймворк адаптации AR-бэкбонов к диффузионным моделям для параллельной генерации текста (arXiv cs.CL)
📅 26.05
10 моделей
OmniVoice Studio
локальная open-source альтернатива ElevenLabs: клонирование голоса, дубляж видео, диктовка и диаризация спикеров, поддержка 646 языков и встроенный MCP-сервер
Stable Audio 3
семейство быстрых latent-diffusion моделей для генерации и редактирования аудио (Small SFX 459M, Small 459M, Medium 1.4B с открытыми весами); генерация композиций до 6 мин 20 сек
LocateAnything
модель NVIDIA для vision-language grounding с параллельным декодированием bounding-боксов
MobileMoE
оптимизированная on-device Mixture-of-Experts модель от Meta AI для запуска на мобильных устройствах
MUSE-Autoskill
фреймворк самоэволюционирующих агентов ByteDance с автономным созданием навыков, памятью и оценкой
RT-Lynx
диффузионная модель от RTP-LLM с правильной GEMM-разрежённостью для ускорения инференса
MRT (Masked Region Transformer)
трансформер для послойной генерации и редактирования изображений в большом масштабе
Soap2Soap
мультиагентная система Show Lab для пересборки длинных кинематографических видео
Geometry-Aware Representation Denoising
модель KAIST AI для устойчивой multi-view 3D-реконструкции через денойзинг геометрических представлений
Squeezing Capacity from MLLMs
методы Adobe для эффективной subject-driven генерации на базе мультимодальных LLM
📅 25.05
6 моделей
Raon-Speech
9B-параметровая речевая языковая модель для английского и корейского с публичными чекпоинтами и обучающим пайплайном (arxiv cs.CL)
QUEST
семейство открытых моделей 2B–35B в роли универсальных агентов для глубоких исследований; выложены веса, данные и скрипты обучения (arxiv cs.CL)
EchoDistill
open-source фреймворк выравнивания для аудио-LLM, повышающий устойчивость к шуму; код в анонимном репозитории (arxiv cs.CL)
ContextEcho
открытый бенчмарк и харнесс для измерения дрейфа персоны в длинных агентских сессиях кодинга (arxiv cs.CL)
CP-Agent
агент с калиброванным контролем риска для соревновательного программирования; код на GitHub (arxiv cs.CL)
OSCAR
attention-aware система 2-битной квантизации KV-кэша для long-context инференса LLM от Together AI (together.ai)
📅 24.05
2 модели
Gated DeltaNet-2
новый слой линейного внимания от NVIDIA AI, разделяющий «стирание» и «запись» в Delta Rule через отдельные канальные гейты; на 1.3B параметрах и 100B токенах обгоняет конкурентов в…
Webwright
терминальный browser-agent фреймворк от Microsoft Research, заменяющий click-trace веб-автоматизацию переиспользуемыми Playwright-скриптами; 60.1% на Odysseys и 86.7% на Online-Min…
📅 23.05
4 модели
Nemotron-Labs Diffusion
диффузионные языковые модели NVIDIA с генерацией текста «на скорости света»
TencentDB Agent Memory
четырёхуровневая локальная система памяти для AI-агентов от Tencent
Contrastive Neuron Attribution (CNA)
метод от Nous Research для управления MLP-цепями без SAE-обучения и модификации весов
Bumblebee
read-only сканер цепочки поставок для разработчиков от Perplexity
📅 22.05
3 модели
Microsoft Fara1.5
семейство open-weight браузерных computer-use агентов (4B/9B/27B на базе дообученной Qwen 3.5); 27B-версия даёт 72% на Online-Mind2Web, опережая OpenAI Operator и Gemini 2.5 Comput…
OpenMythos
открытый фреймворк для построения recurrent-depth трансформеров с поддержкой MLA, GQA, Sparse MoE и loop-scaled reasoning
Models.dev
открытая база спецификаций, цен и возможностей AI-моделей (Hacker News / YC)
📅 17.05
7 моделей
X-OmniClaw (Oppo Multi-X)
открытый Android AI-агент, работающий прямо на устройстве: использует камеру, экран и голос для выполнения задач в реальных приложениях без облачного клона телефона; запоминает цеп…
Solvita
агентный фреймворк непрерывного обучения для соревновательного программирования; 4 специализированных агента (Planner, Solver, Oracle, Hacker) накапливают опыт без изменения весов…
ICRL
фреймворк RL для интернализации самокритики языковой моделью; построен на Qwen3-4B/8B, код открыт (arXiv cs.AI)
SMCEvolve
метод поиска программ на основе Sequential Monte Carlo: задача переформулируется как сэмплирование из reward-tilted распределений; ориентирован на научные открытия, код открыт (arX…
SkillSmith
компилятор и рантайм для упаковки навыков агентов в минимальные исполняемые интерфейсы; исходный код и данные опубликованы на GitHub (arXiv cs.AI)
OP-Mix
алгоритм смешивания данных для тренировки LLM на всём жизненном цикле через low-rank адаптеры, обученные на текущей модели; устраняет необходимость в прокси-моделях (arXiv cs.CL)
Parallel Speculative Decoding (PSD)
фреймворк без дообучения для ускорения инференса диффузионных LLM через адаптивные политики размаскирования (arXiv cs.CL)
📅 15.05
3 модели
Supertonic v3
лёгкая on-device TTS-модель (~99M параметров, ONNX) с поддержкой 31 языка, тегами эмоций (<laugh>, <breath>, <sigh>) и сниженным числом ошибок чтения
ZAYA1-8B-Diffusion-Preview
первая MoE diffusion-модель от Zyphra, сконвертированная из авторегрессионного LLM, с ускорением до 7.7× при генерации
VectraYX-Nano
41.95M decoder-only LLM для испаноязычной кибербезопасности с нативной интеграцией MCP; опубликованы корпус, скрипты обучения и GGUF-веса (arXiv cs.CL, 2605.13989)
📅 13.05
7 моделей
GLiGuard
энкодерная safety/guardrail-модель на 300M параметров от Fastino Labs (детекция джейлбрейков, классификация вреда и отказы за один проход), лицензия Apache 2.0, опубликована на Hug…
Voxtral TTS
мультиязычная TTS-модель на 4B параметров от Mistral, архитектура Autoregressive + Flow-Matching, синтез 24 kHz (WAV/MP3/FLAC), лицензия CC BY-NC 4.0
Qwen-Image-VAE-2.0
технический отчёт от команды Qwen (Alibaba) о новой архитектуре image VAE, сопровождается публикацией модели
AnyFlow
any-step видео-диффузионная модель от NVIDIA с on-policy flow map distillation
PresentAgent-2
мультимодальный агент общего назначения для генерации презентаций от Peking University
DavidAU/Marco-Nano-Thinking-8B-A0.6B
компактная reasoning-модель на 8B параметров
OpenHuman
Rust-проект персонального приватного AI-суперинтеллекта, +1696 звёзд за день
📅 09.05
2 модели
NVIDIA Star Elastic
единый чекпойнт, содержащий вложенные ризонинг-модели на 30B/23B/12B с zero-shot «нарезкой» размера без дообучения; вариант 23B→30B даёт до +16% точности и 1.9× меньшую задержку
OncoAgent
open-source двухуровневый мульти-агентный фреймворк для приватного клинического принятия решений в онкологии
📅 08.05
2 модели
EMO (Allen AI)
MoE-модель с эмерджентной модульностью, 1B активных / 14B общих параметров, 128 экспертов, обучена на 1T токенов; веса, код и статья открыты
CyberSecQwen-4B
специализированная 4B-модель на базе Qwen3-4B-Instruct для оборонительной кибербезопасности (CWE/CVE-классификация, threat intel), Apache 2.0, запускается на 12 ГБ GPU
📅 07.05
6 моделей
TokenSpeed
открытый инференс-движок для LLM от LightSeek Foundation, нацелен на агентские нагрузки и сопоставимую с TensorRT-LLM производительность
NeuralBench / NeuralBench-EEG v1.0
открытый бенчмарк-фреймворк Meta AI для NeuroAI: 36 задач, 94 датасета, 14 архитектур, крупнейший открытый EEG-бенчмарк
Hunyuan3D-2.1
открытая модель Image-to-3D (Tencent), новая публикация на Hugging Face
gemma-4-E4B-it
instruct-вариант Gemma 4 E4B (~8B, Any-to-Any), опубликован на Hugging Face
Negentropy-claude-opus-4.7-9B (8bit / bf16)
открытые 9B-веса для генерации текста, выложены на Hugging Face
modern_DNABERT
обновлённая открытая BERT-модель для геномных последовательностей
📅 06.05
6 моделей
Voxtral TTS
TTS-модель Mistral (4B параметров) с авторегрессивно-flow-matching архитектурой и выходом 24 кГц
Gemma 4 MTP Drafters
вспомогательные модели Google для спекулятивного декодинга Gemma 4, ускорение до 3× без потери качества, Apache 2.0 на HF и Kaggle
HunyuanOCR Q8_0 GGUF
квантизованная (Q8_0) сборка HunyuanOCR (0.5B) для image-text-to-text задач, формат GGUF
TabPFN
обновление foundation-модели для табличных данных, в топе GitHub Trending за день
Kronos
open-source foundation-модель для анализа финансовых рынков и языка торговли
vLLM V0→V1
апдейт open-source инференс-движка с фокусом на корректность RL-режимов
📅 05.05
7 моделей
Voxtral TTS
TTS-модель Mistral, 4B параметров, гибрид авторегрессии и flow-matching, 24 кГц, многоязычное клонирование голоса, лицензия CC BY-NC 4.0 (marktechpost.com)
Kimi K2.6
открытая модель Moonshot, конкурирует с GPT-5.4 и Claude Opus 4.6 за счёт агентных «роёв» (the-decoder.com)
GLM-5V-Turbo
нативная мультимодальная foundation-модель для агентов от Zhipu, статья и веса на arXiv (news.ycombinator.com)
isetnefret/gemma-4-E2B-it-mlx-fp16
порт Gemma 4 E2B-it под Apple MLX в fp16, ~5B параметров, any-to-any (huggingface.co)
ThakiCloud/SkillRet-Embedding-8B
модель эмбеддингов на 8B для поиска по навыкам/sentence-similarity (huggingface.co)
core12345/codev-r1-9b-atgrpo
9B reasoning-модель для кода, дообученная методом AT-GRPO (huggingface.co)
NLP-Final-Project/mistral-7b-base-dpo
DPO-файнтюн Mistral-7B-base, открытые веса (huggingface.co)
📅 01.05
7 моделей
Nemotron 3 Nano Omni
открытая мультимодальная модель от NVIDIA, ориентированная на эффективность и агентные сценарии
MiniCPM-o 4.5
омни-модальная модель на 9B параметров с full-duplex real-time обработкой зрения, аудио и речи для edge-устройств (arxiv cs.CL)
Qwen-Scope
открытая SAE-сьюита от Qwen AI, превращающая внутренние признаки LLM в практические инструменты разработки
JaiTTS-v1.0
открытая TTS-модель клонирования голоса для тайского языка с SOTA-показателем CER (arxiv cs.CL)
Length Value Model (LenVM)
открытый token-level фреймворк для предсказания оставшейся длины генерации в LLM и VLM (arxiv cs.CL)
NeuralSet
open-source Python-пакет от Meta FAIR для нейро-AI задач: fMRI, M/EEG, спайк-записи и эмбеддинги Hugging Face
Meta Autodata
открытый агентный фреймворк, превращающий AI-модели в автономных «дата-сайентистов» для генерации качественных обучающих данных
Апрель
2026
📅 30.04
14 моделей
GLM-5V-Turbo
нативная мультимодальная foundation-модель для построения агентных систем
MiniCPM-o 4.5
9B омни-модальная модель с полнодуплексным real-time взаимодействием, требует <12 ГБ ОЗУ (arXiv cs.CL)
Tencent Hy-MT1.5-1.8B-1.25bit
440 МБ офлайн-модель перевода на 33 языка прямо на смартфоне (The Decoder)
Granite Speech 4.1 2B (IBM)
пара компактных речевых моделей: авторегрессионный ASR с переводом + неавторегрессионное редактирование
FlashKDA (Moonshot AI)
open-source CUTLASS-ядра для Kimi Delta Attention с поддержкой переменной длины батча на H20
Turning the TIDE (Пекинский ун-т)
кросс-архитектурная дистилляция для диффузионных LLM с открытым кодом
Diffusion Templates
единый plugin-фреймворк для управляемой генерации в диффузионных моделях
Praxy Voice (Praxel)
TTS commercial-класса для индийских языков с восстановлением голос-промптом
VachaSpeech-0.6B-GGUF
компактная 0.6B речевая модель в формате GGUF
Geodesic-Phantom-12B-GGUF
12B языковая модель в формате GGUF для локального запуска
Qwen2.5-VL-7B-Instruct-OmniQuant-w8a8
W8A8 OmniQuant-квантизация vision-language модели Qwen2.5-VL-7B
Whisper Ghanaian ASR
модель распознавания речи, дообученная на ганских языках
ClawGym
масштабируемый open-source фреймворк для обучения агентов-манипуляторов
Large Language Models Explore by Latent Distilling (ShanghaiTech)
метод исследования LLM через дистилляцию в латентном пространстве с открытым релизом
📅 29.04
7 моделей
Granite 4.1 (IBM)
семейство dense decoder-only LLM (3B / 8B / 30B), Apache 2.0, обучены на ~15T токенов, контекст до 512K
Nemotron 3 Nano Omni (NVIDIA)
открытая мультимодальная модель, рассуждает по тексту, изображениям, видео и аудио, под агентные нагрузки
Step-Audio-R1.5 (StepFun)
технический отчёт о новой версии аудио-модели с reasoning, топ дня по апвоутам на HF Papers
VibeVoice (Microsoft)
open-source frontier voice AI, в трендах GitHub за день
FlashQLA
высокопроизводительная библиотека ядер линейного внимания, ускорение до 3× на NVIDIA Hopper
smol-audio
набор Colab-ноутбуков для дообучения речевых и аудио-моделей
NeuralSet
Python-пакет для neuro-AI с поддержкой fMRI, M/EEG, спайков и эмбеддингов HuggingFace
📅 28.04
9 моделей
LittleLamb 0.3B
ультракомпактная модель общего назначения от Multiverse Computing, 50%-сжатая версия Qwen3-0.6B с двуязычным рассуждением
LittleLamb 0.3B Tool-Calling
вариант LittleLamb, оптимизированный под вызов инструментов и агентные сценарии
LittleLamb 0.3B Mobile
деплой-ориентированный вариант LittleLamb для on-device и мобильных применений
NVIDIA Nemotron 3 Nano Omni
мультимодальная модель с длинным контекстом для документов, аудио и видео-агентов
Marco-MoE
открытое семейство многоязычных Mixture-of-Experts моделей (~5% активных параметров) с полностью открытыми весами, датасетами и рецептом обучения (arXiv 2604.25578)
VibeVoice
open-source фронтирная голосовая AI-модель от Microsoft
OpenAI Privacy Filter
открытая модель на 1.5B параметров (50M активных) для редактирования PII и приватности данных
MING-MOE-14B
открытая Mixture-of-Experts модель на 14B параметров, опубликованная на Hugging Face
Fiber-Qwen2.5-7B
открытая модель генерации текста на базе Qwen2.5-7B от LayerEight
📅 27.04
2 модели
Talkie-1930
открытая 13B LLM, обученная исключительно на англоязычных текстах до 1931 года; для исследований исторического рассуждения и обобщения
MOSS-Audio
открытая мультимодальная аудио-foundation-модель: речь, окружающие звуки, музыка и темпоральное рассуждение в единой архитектуре, обходит более крупные проприетарные альтернативы н…
📅 26.04
10 моделей
Qwen3.6-27B
плотная 27B модель Alibaba, обходит более крупного MoE-предшественника на бенчмарках кодинга, проще в развёртывании (the-decoder.com)
Ghost-V6-Deep-Thinker
вариант Ghost-V6 с акцентом на цепочки рассуждений
Ghost-V6-Ultra-Reasoning
8B модель генерации текста с расширенными возможностями reasoning
helenk/gemma-4-finetune
мультимодальный image-text-to-text файнтюн на базе Gemma 4
BAR-7B-GGUF
7B модель в формате GGUF для локального инференса
Eve-4b-FP16-i1-GGUF
4B модель Eve в FP16 с GGUF-квантизацией
bluey-8B_GGUF
8B модель в GGUF
symfony_ai_maker-V0.5-Qwen3-0.6B
лёгкий ассистент для Symfony на основе Qwen3-0.6B, версии 16bit и LoRA
pcd-llama31-8b-singlelayer-72m-norm
экспериментальный вариант Llama 3.1 8B с однослойной архитектурой
HOIGen1M_hands_mask
модель генерации масок рук для задач Human-Object Interaction
📅 24.04
10 моделей
DeepSeek-V4-Pro
флагманская MoE-модель на 1.6T параметров с контекстом 1M токенов и архитектурой Hybrid Attention; топ среди open-моделей по коду и математике
DeepSeek-V4-Flash
облегчённая версия V4 на 284B параметров с тем же 1M-контекстом, рассчитанная на дешёвый инференс
AgenticQwen
серия малых агентных LLM, обученных через RL; чекпоинты и часть синтетических данных открыты
AFRILANGTUTOR
дообученные Llama-3-8B-IT и Gemma-3-12B-IT под 10 африканских языков, прирост 1.8–15.5% через SFT+DPO
VLAA-GUI
модульный open-source фреймворк GUI-автоматизации, 77.5% на OSWorld (arXiv 2604.21375 / UCSC-VLAA)
Decoupled DiLoCo
открытый метод устойчивого распределённого предобучения больших моделей (arXiv 2604.21428)
Huihui4-8B-A4B-GGUF
8B-модель в формате GGUF для локального инференса
Llama-3.2-3B_mathv1_grpo
версия Llama 3.2 3B, дообученная GRPO под математические задачи
ReasonAssessor
модель оценки качества рассуждений LLM
isabert-v2-stage2
ALBERT-вариант второй стадии обучения
📅 23.04
2 модели
DeepSeek-V4 (Pro и Flash)
открытые веса, гибридное внимание (CSA+HCA), контекст до 1 млн токенов, доступны на Hugging Face
OpenMythos
открытая PyTorch-реализация, достигающая глубокого рассуждения через итеративные вычисления вместо роста числа параметров
📅 21.04
3 модели
Kimi K2.6
open-weight модель от Moonshot AI, конкурирует с GPT-5.4 и Claude Opus 4.6 на задачах кодинга, поддерживает «рои» до 300 параллельных агентов; модифицированная MIT-лицензия (artifi…
ml-intern
open-source автономный ML-инженер от Hugging Face, читает статьи, обучает модели и автоматизирует post-training-пайплайн LLM (github.com/huggingface, marktechpost.com)
QIMMA قِمّة
open-source Arabic LLM Leaderboard от TIIUAE с 52 000+ примеров по 7 доменам и качественной валидацией бенчмарков (huggingface.co/blog)
📅 20.04
1 модель
Kimi K2.6 (Moonshot AI)
open-source модель для «long-horizon coding» с агентной архитектурой до 300 под-агентов и 4 000 скоординированных шагов
📅 18.04
4 модели
SAGE Celer 2.6 (5B / 10B / 27B)
многоязычная мультимодальная модель общего назначения с нативной поддержкой южноазиатских языков (деванагари, хинди, непали); три размера весов (arXiv cs.CL, новинки 18 апр.)
RAD-2
масштабируемая система обучения с подкреплением в схеме «генератор–дискриминатор»; авторы утверждают улучшение на задачах рассуждения по сравнению с GRPO
HY-World 2.0
мультимодальная world-модель для реконструкции, генерации и симуляции 3D-миров; поддерживает видео и изображения
Gemini Robotics-ER 1.6
модель Google DeepMind для воплощённого рассуждения в робототехнике; статья о релизе опубликована 18 апр. на The Decoder (статус открытых весов не подтверждён)
📅 17.04
9 моделей
NVIDIA Nemotron OCR v2
быстрая мультиязычная OCR-модель с гибридной архитектурой (детектор + распознаватель + реляционная модель); 6 языков, 34 страницы/сек на A100; лицензия NVIDIA Open Model License (h…
HY-World 2.0
мультимодальная world model для реконструкции, генерации и симуляции 3D-миров; 45 авторов
RAD-2
модель масштабирования RL в фреймворке генератор-дискриминатор; Huazhong University of Science and Technology
HiVLA
иерархическая воплощённая манипуляционная система с визуальной привязкой; 11 авторов
GlobalSplat
эффективный feed-forward 3D Gaussian Splatting через глобальные токены сцены; Hebrew University of Jerusalem
MM-WebAgent
иерархический мультимодальный веб-агент для генерации веб-страниц; Microsoft Research
SAGE Celer 2.6
модель общего назначения 5B–27B параметров с мультимодальными возможностями и оптимизацией для южноазиатских языков (arXiv cs.CL, 17.04.2026)
APEX-MEM
разговорная система памяти на основе граф свойств с темпоральным рассуждением для долгосрочных взаимодействий (arXiv cs.CL, 17.04.2026)
HUOZIIME
on-device LLM-расширенный метод ввода для мобильных устройств с иерархическим механизмом памяти (arXiv cs.CL, 17.04.2026)
📅 16.04
8 моделей
Qwen3.6-35B-A3B (Alibaba)
открытая MoE-модель на 35B параметров (3B активных), можно запустить локально на ноутбуке; по неформальным тестам обходит Claude Opus 4.7 в ряде задач
Gemma 4 (Google DeepMind)
открытая мультимодальная модель для агентного AI с локальным запуском на мобильных устройствах, данные не покидают устройство
Parcae (UCSD + Together AI Research)
новая архитектура «зацикленных» языковых моделей, которая достигает качества трансформера вдвое большего размера при меньшем числе параметров
SAGE Celer 2.6 (SAGEA Research Team)
семейство открытых моделей 5B/10B/27B с нативной мультимодальностью и усиленной поддержкой южноазиатских языков (хинди, непали, деванагари)
HY-World 2.0 (Tencent)
мультимодальная мировая модель для реконструкции, генерации и симуляции 3D-миров
RAD-2
масштабируемая система обучения с подкреплением в рамках генератор-дискриминатор; улучшает качество рассуждений LLM
LeapAlign (ByteDance Seed)
метод пост-тренинга flow matching моделей на любом шаге генерации, значительно ускоряет обучение
Cross-Tokenizer LLM Distillation
открытый метод дистилляции LLM через байтовый интерфейс, не зависящий от токенизатора модели-учителя
📅 15.04
15 моделей
NVIDIA Ising
первые в мире открытые AI-модели для ускорения пути к полезным квантовым вычислениям: 2.5× прирост производительности и 3× рост точности по сравнению с существующими open-source ст…
VAKRA (IBM Research)
агентная система с анализом рассуждений, использования инструментов и режимов отказа у AI-агентов
Seedance 2.0 (ByteDance Seed)
продвинутая модель видеогенерации для моделирования сложного мира
EVE 24B
первая специализированная LLM-система для наук о Земле и спутникового наблюдения, 24B параметров
PersonaVLM
мультимодальная LLM с долгосрочной персонализацией: запоминание, рассуждение и адаптация к предпочтениям пользователя (arXiv)
MM-Doc-R1
агентная vision-система для сложных запросов по длинным документам с итеративным поиском информации (arXiv)
TREX
автоматизация fine-tuning LLM через исследование дерева решений агентами
UI-Copilot
система автоматизации GUI на длинных горизонтах с tool-integrated оптимизацией
GameWorld
стандартизированный фреймворк оценки мультимодальных игровых агентов (NUS)
SpatialEvo
саморазвивающийся пространственный интеллект через детерминированные геометрические среды
RationalRewards
масштабирование визуальной генерации через рассуждения о наградах
MERRIN
бенчмарк для мультимодального поиска и рассуждений в зашумлённой веб-среде
UI-Zoomer
адаптивное масштабирование с учётом неопределённости для точной привязки элементов GUI
TIP
метод дистилляции on-policy с учётом важности токенов (Princeton University)
ROSE
улучшение сегментации изображений, ориентированное на задачи поиска
📅 14.04
6 моделей
GLM-5.1
открытая модель от Z.ai под лицензией MIT, превосходит GPT-5.4 и Opus 4.6 на задачах кодирования (SWE-Bench), поддерживает локальный запуск и файнтюнинг (scitech.whatfinger.com)
Nemotron 3 Super
открытая гибридная MoE-модель NVIDIA на архитектуре Mamba-Transformer для агентных рассуждений
Audio Flamingo Next (AF-Next)
открытая аудио-языковая модель нового поколения от NVIDIA и Университета Мэриленда для речи, звука и музыки (marktechpost.com + Hugging Face Papers)
ClawGUI
открытый фреймворк Чжэцзянского университета для обучения, оценки и развёртывания GUI-агентов; самая популярная статья дня (307 голосов)
Bielik v3 7B / 11B
открытые польскоязычные языковые модели от SpeakLeash с оптимизированной токенизацией
TorchUMM
открытая унифицированная мультимодальная кодовая база от Университета Карнеги–Меллон для оценки, анализа и пост-тренировки мультимодальных моделей
📅 13.04
12 моделей
HY-Embodied-0.5 (Tencent Hunyuan)
фундаментальные модели для воплощённых агентов на архитектуре Mixture-of-Transformers с улучшенным визуальным восприятием и рассуждением в реальном мире
Audio Flamingo Next (NVIDIA)
следующее поколение открытых аудио-языковых моделей для речи, звука и музыки
WildDet3D (AI2 / Allen Institute)
унифицированный фреймворк 3D-обнаружения объектов в открытом мире с поддержкой множества типов подсказок
VOID (Netflix)
модель удаления объектов из видео с использованием VLM и диффузионных моделей для генерации физически правдоподобных сцен
LPM 1.0
мультимодальная модель большого масштаба для генерации персонажей в реальном времени с бесконечной длиной видео
RefineAnything (Zhejiang University)
диффузионная мультимодальная модель для регионально-специфичного уточнения изображений с сохранением фона
MegaTrain
метод полноточного обучения моделей 100B+ параметров на одном GPU через хранение в памяти хоста
Kronos (shiyu-coder)
фундаментальная модель для языка финансовых рынков
NousResearch/hermes-agent
агентный ИИ-фреймворк нового поколения на базе открытых весов
ClawGUI
унифицированный фреймворк для обучения, оценки и развёртывания GUI-агентов
CodeTracer
система трассировки состояний агентов при написании кода
OmniShow (ByteDance)
модель генерации видео взаимодействий человека и объектов с мультимодальными условиями
📅 12.04
6 моделей
MiniMax M2.7
языковая модель от MiniMax с контекстным окном 205K токенов, стала доступна через API Fireworks и Together AI одновременно (pricepertoken.com)
llama.cpp b8766
плановый релиз инференс-движка llama.cpp: бинарные сборки для Windows (CUDA 12.4 / 13.1), macOS (arm64/x64) и openEuler (aarch64/x86); исходный код выпущен в 12:15 UTC
Arcee AI Trinity-Large-Thinking
открытая модель рассуждений на 400 миллиардов параметров от стартапа Arcee AI, позиционируется как конкурент Claude Opus в агентских задачах; компания вложила около половины всех в…
NousResearch/hermes-agent
открытый агентский фреймворк «агент, который растёт вместе с тобой»; вышел в топ GitHub Trending с 7 400+ звёздами за сутки
shiyu-coder/Kronos
фундаментальная модель для языка финансовых рынков, 1 985 новых звёзд за день на GitHub
OpenBMB/VoxCPM
многоязычная TTS-система с клонированием голоса от OpenBMB, появилась в GitHub Trending
📅 11.04
9 моделей
LFM2.5-VL-450M (Liquid AI)
компактная 450M-параметровая vision-language модель для edge-устройств: предсказание ограничивающих рамок (RefCOCO-M: 81.28), многоязычность, вызов функций, инференс < 250 мс на Sn…
Waypoint-1.5 (Overworld)
обновлённая модель генерации интерактивных 3D-миров в реальном времени; обучена на объёме данных в ~100× больше предыдущей версии; поддерживает Mac и Windows, 60 fps при 720p на мо…
HY-Embodied-0.5 (Tencent Hunyuan)
фундаментальная модель для воплощённых агентов реального мира, выложена на HuggingFace; вошла в топ по просмотрам Daily Papers (427 просмотров)
OpenVLThinkerV2 (UCLA NLP)
мультимодальная reasoning-модель общего назначения для задач из нескольких визуальных доменов, open weights
MolmoWeb
открытый визуальный веб-агент с открытыми данными для работы в браузере; построен на базе Molmo
SkillClaw
open-source агентная система коллективной эволюции навыков; агенты обмениваются и улучшают умения автономно
NousResearch/hermes-agent
MIT-лицензированный самообучающийся AI-агент с персистентной памятью; в день 11.04 набрал +7 450 GitHub-звёзд (66k итого); поддержка Telegram, Discord, Slack, WhatsApp, CLI
OpenBMB/VoxCPM
TTS-модель без токенизатора для многоязычного синтеза речи, open source
shiyu-coder/Kronos
фундаментальная модель «языка финансовых рынков», open source, +1 998 звёзд за день
📅 10.04
10 моделей
HY-Embodied-0.5
воплощённые фундаментальные модели Tencent Hunyuan для управления реальными роботизированными агентами
MemReader-0.6B / MemReader-4B
компактные модели для извлечения долгосрочной памяти LLM-агентов из неструктурированного текста (arXiv cs.CL 2604.07877)
Kathleen
сверхлёгкая архитектура классификации текста (733K параметров) на байтовых входах без токенизатора (arXiv cs.CL 2604.07969)
VoxCPM2 (OpenBMB/VoxCPM)
многоязычная TTS-модель без токенизатора, поддерживает генерацию речи в реальном времени
Kronos (shiyu-coder/Kronos)
фундаментальная модель для моделирования языка финансовых рынков
NousResearch/hermes-agent
открытый агентский фреймворк «агент, который растёт вместе с вами»
SkillClaw
система коллективной эволюции навыков для многопользовательских LLM-агентов
MegaStyle
Tencent: масштабируемая генерация стилистических датасетов через согласованное text-to-image отображение
Wan 2.7
набор из четырёх open-source моделей генерации видео: создание, продолжение, редактирование, reference-driven workflows
RhymeTagger
языконезависимый инструмент-модель для распознавания рифм на 7 языках (arXiv cs.CL 2604.08156)
📅 09.04
10 моделей
Waypoint-1.5
real-time видеомодель для генерации интерактивных виртуальных миров от Overworld; работает на потребительском железе (RTX 3090–5090), 720p при 60 FPS; доступна как Waypoint-1.5-1B…
Sentence Transformers v5.4
обновление open-source библиотеки с поддержкой мультимодальных embedding- и reranker-моделей (текст, изображения, аудио, видео); поддерживает Qwen3-VL-Embedding, NVIDIA Llama Nemot…
RAGEN-2 (2604.06268)
фреймворк/исследование MLL Lab о коллапсе рассуждений в агентном обучении с подкреплением; 2.6k лайков на HF Papers
INSPATIO-WORLD (2604.07209)
real-time 4D симулятор мира на основе пространственно-временного авторегрессионного моделирования, 23 автора; 785 лайков
MARS (2604.07023)
метод для многотокенной генерации в авторегрессионных моделях от Nanyang Technological University
Think in Strokes, Not Pixels (2604.04746)
генерация изображений через пошаговое рассуждение (process-driven), AI at Meta
SkillClaw
система коллективной эволюции навыков с помощью агентного эволюционера, NAIL-Group
ClawBench
бенчмарк для оценки способности AI-агентов выполнять повседневные онлайн-задачи, NAIL-Group
SEVerA (2603.25111)
верифицированный синтез самоэволюционирующих агентов
Combee (2604.04247)
масштабирование обучения промптам для самосовершенствующихся LLM-агентов, UC Berkeley
📅 08.04
4 модели
GLM-5.1
открытая модель от Z.AI (Zhipu AI), 754B параметров (архитектура MoE), лицензия MIT; способна автономно работать до 8 часов, превосходит Claude Opus 4.6 на SWE-Bench Pro; веса дост…
MedGemma 1.5
медицинская мультимодальная модель Google на базе Gemma, технический отчёт опубликован на Hugging Face Daily Papers 8 апреля; ориентирована на клинические и биомедицинские задачи
Paper Circle
open-source мульти-агентный фреймворк для поиска и анализа научных публикаций, от Mohamed Bin Zayed University of AI; опубликован на Hugging Face Papers 8 апреля
--
--
📅 07.04
6 моделей
GLM-5.1
флагманская модель Z.ai (бывш. Zhipu AI), 744B параметров (MoE, 40B активных), лицензия MIT, контекст 200K токенов; заняла #1 на SWE-Bench Pro (58.4 балла), обогнав GPT-5.4 и Claud…
MinerU2.5-Pro
модель для масштабного парсинга документов от OpenDataLab, ориентированная на высококачественное извлечение структурированных данных; бумага опубликована на HuggingFace Daily Paper…
TriAttention
метод/модуль от NVIDIA для эффективного длинного рассуждения с тригонометрическим сжатием KV-кэша; снижает вычислительную нагрузку при длинных контекстах; бумага опубликована на Hu…
BidirLM
архитектура преобразования каузальных LLM в двунаправленные энкодеры («Decoder To Encoder»); позволяет создавать мощные эмбеддинг-модели из decoder-only основ; бумага опубликована…
Vero
открытый RL-рецепт для общего визуального рассуждения (General Visual Reasoning); бумага опубликована на HuggingFace Daily Papers 07.04 (huggingface.co/papers)
OpenWorldLib
единая кодовая база и формализация продвинутых World Models от Пекинского университета; опубликована на HuggingFace Daily Papers 07.04 (huggingface.co/papers)
📅 06.04
8 моделей
InCoder-32B-Thinking
Промышленная кодовая «world model» с возможностями рассуждения (thinking), 32B параметров, 25+ авторов; 226 голосов на HuggingFace (huggingface.co/papers)
GrandCode
Агентная система на основе RL, достигающая уровня гроссмейстера в соревновательном программировании; 349 голосов на HuggingFace (huggingface.co/papers, DeepReinforce)
Self-Distilled RLVR
Метод обучения с подкреплением через самодистилляцию для языковых моделей; 155 голосов на HuggingFace (huggingface.co/papers)
VoxCPM2 (OpenBMB)
TTS-модель без токенизатора для многоязычной генерации речи, клонирования голоса и творческого синтеза; +1 276 звёзд за день (github.com/trending)
Kronos (shiyu-coder)
Фундаментальная модель для языка финансовых рынков; +1 998 звёзд за день (github.com/trending)
hermes-agent (NousResearch)
Открытая агентная AI-система «растущая вместе с пользователем»; +7 450 звёзд за день (github.com/trending)
A Simple Baseline for Streaming Video Understanding (LMMs-Lab)
Базовый подход для понимания потокового видео в реальном времени; 72 голоса на HuggingFace (huggingface.co/papers)
Agentic-MME
Бенчмарк для оценки вклада агентных возможностей в мультимодальный интеллект; 36 голосов на HuggingFace (huggingface.co/papers)
📅 05.04
8 моделей
Generative World Renderer
генеративная модель рендеринга мира (Shanda AI Research Tokyo), 554 лайка (huggingface.co/papers)
VOID: Video Object and Interaction Deletion
модель удаления объектов и взаимодействий из видео (Netflix Research), 1490 лайков (huggingface.co/papers)
CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery
фреймворк автономной эволюции мультиагентных систем (MIT), 440 лайков (huggingface.co/papers)
SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
метод обучения с подкреплением для интернализации навыков агентов, 184 лайка (huggingface.co/papers)
DataFlex: A Unified Framework for Data-Centric Dynamic Training of LLMs
унифицированный фреймворк динамического обучения LLM (Peking University), 198 лайков (huggingface.co/papers)
The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
масштабный обзорный труд о пространстве скрытых представлений в нейросетях, 680 лайков (huggingface.co/papers)
Steerable Visual Representations
управляемые визуальные представления (UTN / Fundamental AI Lab), 65 лайков (huggingface.co/papers)
EgoSim: Egocentric World Simulator for Embodied Interaction Generation
симулятор эгоцентрического мира для воплощённых агентов, 34 лайка (huggingface.co/papers)
📅 04.04
15 моделей
Wan 2.7
набор из четырёх видеомоделей (генерация, продолжение, reference-driven и редактирование), стал доступен на Together AI
Deepgram STT & TTS
производственные модели распознавания и синтеза речи от Deepgram, добавлены в Together AI Dedicated Model Inference
T5Gemma-TTS
TTS-модель на основе архитектур T5 и Gemma, технический отчёт опубликован на HuggingFace (huggingface.co/papers)
DataFlex
единый фреймворк для динамического обучения LLM с данно-центричным подходом, Пекинский университет (huggingface.co/papers)
Generative World Renderer
генеративная модель рендеринга трёхмерных миров, Shanda AI Research Tokyo (huggingface.co/papers)
SKILL0
фреймворк интернализации навыков через агентное обучение с подкреплением в контексте (huggingface.co/papers)
CORAL
система автономной мультиагентной эволюции для открытых научных открытий, MIT (huggingface.co/papers)
Nemotron-Cascade-2-30B-A3B
NVIDIA, каскадная MoE-архитектура для эффективного инференса агентных систем (huggingface.co/models, trending 2026-04-04)
LFM2.5-350M
ультра-компактная 350M-параметровая liquid foundation model для edge-устройств, LiquidAI (huggingface.co/models, trending 2026-04-04)
context-1
первая генеративная модель ChromaDB, оптимизированная для retrieval-augmented задач (huggingface.co/models, trending 2026-04-04)
harrier-oss-v1-0.6b
600M embedding-модель Microsoft на базе Qwen3, протестирована на MTEB (huggingface.co/models, trending 2026-04-04)
NousResearch/hermes-agent
открытый агентный фреймворк «растущий вместе с пользователем», 7 450 звёзд за день (github.com/trending)
Kronos
foundation model для языка финансовых рынков, shiyu-coder (github.com/trending)
VoxCPM
многоязычная TTS-модель без токенизатора, OpenBMB (github.com/trending)
sam3.1
Meta Segment Anything 3.1 с нативной сегментацией видео (huggingface.co/models, trending 2026-04-04)
📅 03.04
11 моделей
Woosh
фундаментальная модель для генерации звуковых эффектов от Sony; опубликована на HuggingFace Papers (huggingface.co/papers/date/2026-04-03)
Apriel-Reasoner
модель ServiceNow с RL-постобучением для универсального и эффективного рассуждения (huggingface.co/papers/date/2026-04-03)
T5Gemma-TTS
технический отчёт и модель синтеза речи от Google на базе архитектур T5 и Gemma (huggingface.co/papers/date/2026-04-03)
Generative World Renderer
генеративная модель рендеринга виртуальных миров от Shanda AI Research Tokyo (huggingface.co/papers/date/2026-04-03)
UniDriveVLA
vision-language-action модель для автономного вождения от Huazhong University of Science and Technology (huggingface.co/papers/date/2026-04-03)
Kronos
фундаментальная модель для языка финансовых рынков
VoxCPM2 (OpenBMB)
TTS-модель без токенизатора для многоязычной генерации речи, клонирования голоса и творческого дизайна звука
NousResearch/hermes-agent
открытый агентный фреймворк «модель, которая растёт вместе с тобой»
CORAL (MIT)
фреймворк для эволюции мультиагентных систем в целях открытых научных открытий (huggingface.co/papers/date/2026-04-03)
EgoSim
эгоцентрический симулятор мира для генерации воплощённых взаимодействий (huggingface.co/papers/date/2026-04-03)
ASI-Evolve (SII-GAIR)
фреймворк «ИИ ускоряет ИИ» для самоулучшения систем (huggingface.co/papers/date/2026-04-03)
📅 02.04
10 моделей
Gemma 4 E2B
Эффективная модель Google на ~2B параметров, мультимодальная (текст, изображения, аудио), оптимизирована для работы прямо на устройстве, лицензия Apache 2.0
Gemma 4 E4B
Эффективная модель Google на ~4B параметров, мультимодальная, edge-ориентированная, контекст до 256K токенов, 140+ языков, лицензия Apache 2.0
Gemma 4 26B MoE
Модель Google на 26B параметров, архитектура Mixture-of-Experts, занимает #6 в открытом рейтинге Arena AI, лицензия Apache 2.0
Gemma 4 31B Dense
Флагманская плотная модель Google на 31B параметров, #3 в открытом рейтинге Arena AI среди открытых моделей, лицензия Apache 2.0
Wan 2.7
Набор из четырёх открытых моделей для генерации видео: text-to-video, продолжение видео, reference-driven генерация и редактирование, доступен через Together AI
ClawKeeper
Фреймворк комплексной защиты безопасности для агентов OpenClaw через навыки, плагины и наблюдателей, код открыт
Terminal Agents Suffice for Enterprise Automation
Модель/фреймворк от ServiceNow AI для автоматизации корпоративных задач через терминальных агентов
MiroEval
Открытый бенчмарк от MiroMind AI для оценки мультимодальных агентов глубокого исследования, включает эталонные модели
ViGoR-Bench
Открытый бенчмарк от Meituan для оценки визуальных генеративных моделей как zero-shot визуальных рассуждателей
Vision2Web
Открытый иерархический бенчмарк от Z.ai для разработки веб-сайтов с помощью визуальных агентов
📅 01.04
3 модели
Holo3-35B-A3B
агентная модель для управления компьютером от H Company (35B параметров, 10B активных), лицензия Apache 2.0; достигла 78.85% на бенчмарке OSWorld-Verified — новый SOTA для desktop…
Falcon Perception
открытая vision-модель от Technology Innovation Institute (TII, ОАЭ), 0.6B параметров; early-fusion трансформер для open-vocabulary grounding и сегментации по текстовым промптам; т…
TRL v1.0
Hugging Face выпустил стабильную версию библиотеки пост-обучения: унифицированный стек для SFT, Reward Modeling, DPO и GRPO с единым CLI и API; ориентирован на продакшн-использован…
Март
2026
📅 31.03
4 модели
Granite 4.0 3B Vision
компактная мультимодальная модель IBM Granite для обработки корпоративных документов; поддерживает текст и изображения в едином небольшом пакете
TRL v1.0
крупный релиз библиотеки пост-обучения языковых моделей от Hugging Face; версия 1.0 знаменует стабилизацию API и полную поддержку современных методов RLHF/DPO/PPO
mRNA Language Models (OpenMed)
мультивидовые языковые модели для мРНК, обученные на 25 биологических видах за $165; исследовательский релиз с открытыми весами
Mamba-3
open-source SSM-архитектура от Together AI; быстрее трансформеров при декодировании, превосходит Mamba-2 по качеству, открытая с первого дня релиза
📅 30.03
12 моделей
Mr. Chatterbox
языковая модель, обученная на 28 000+ текстах викторианской эпохи из British Library; предназначена для локального запуска на обычных ПК, доступна на Hugging Face (simonwillison.ne…
ShotStream
модель потоковой мультикадровой генерации видео для интерактивного сторителлинга; 116 голосов сообщества
PackForcing (Shanda AI Research Tokyo)
показывает, что короткое видеообучение достаточно для долгосрочного семплирования и длинного контекстного инференса; 233 голоса
Out of Sight but Not Out of Mind (H-EmbodVis)
гибридная память для динамических видео-world-моделей; 221 голос
Know3D (Peking University)
3D-генерация с использованием знаний из vision-language моделей; 89 голосов
Sommelier (KAIST AI)
масштабируемая аудиопредобработка для full-duplex речевых языковых моделей; 40 голосов
RealChart2Code (Qwen)
улучшенная генерация кода из диаграмм на реальных данных с многозадачной оценкой; 47 голосов
Trace2Skill
метод дистилляции навыков агентов из локальных траекторий для повторного использования в новых задачах
Diffutron (Diffutron org)
маскированная диффузионная языковая модель, специализированная для турецкого языка
Composer 2
технический отчёт новой версии крупной языковой модели, 55 авторов; вероятно Databricks/MosaicML
GenMask
адаптация Diffusion Transformer (DiT) для задач сегментации через прямые маски
MedOpenClaw (TU Munich)
аудируемая агентная система рассуждений для медицинского анализа изображений на неструктурированных данных
📅 27.03
5 моделей
Intern-S1-Pro
первая мультимодальная научная фундаментальная модель с 1 триллионом параметров от InternLM; охватывает химию, материаловедение, науки о жизни и Earth Sciences; открытые веса на Hu…
Voxtral TTS
выразительная многоязычная TTS-модель от Mistral AI; клонирует голос всего из 3 секунд референсного аудио; win rate 68.4% против ElevenLabs Flash v2.5; веса опубликованы под лиценз…
PixelSmile
модель для тонкого редактирования мимики лица от Fudan University; позволяет управлять выражениями лица с высокой точностью
Calibri
метод parameter-efficient калибровки диффузионных трансформеров от группы Visual Generative AI; повышает качество генерации без полного дообучения
RealRestorer
обобщённая модель восстановления реальных изображений от SUSTech; использует крупномасштабные модели редактирования изображений
📅 26.03
1 модель
Voxtral-4B-TTS-2603
открытая TTS-модель от Mistral AI на 4B параметров для синтеза речи: поддерживает 9 языков (английский, французский, немецкий, испанский, нидерландский, португальский, итальянский…