Пользователь Reddit под ником CreativelyBankrupt создал автономного робота-компаньона Sparky на базе Jetson Orin NX Super 16GB — без подключения к интернету
Sparky использует мультимодальную нейросеть Gemma 4 E4B (4,5B параметров, 128K контекста) с 12 тыс. токенов контекстной памяти для естественного общения
Время первого ответа робота составляет около 200 мс кэшированного TTFT, а скорость генерации текста достигает 14-15 токенов в секунду
Более 30 датчиков плюс встроенные в Gemma 4 функции зрения и OCR позволяют Sparky взаимодействовать с реальным миром
Стек ПО: llama.cpp с квантизацией Q4_K_M, SenseVoiceSmall для распознавания речи, Piper для синтеза, PixiJS для анимации лица с обновлением мимики на 43 Гц
Если вы хотите получить быстрого, способного и своенравного робота-компаньона, с которым можно общаться в любом месте, даже без сотовой связи или Wi-Fi, пользователь Reddit под ником CreativelyBankrupt приготовил кое-что интересное. Энтузиаст больших языковых моделей спроектировал «полностью автономного робота в чемодане на базе Jetson Orin NX Super 16GB» по имени Sparky. Он локально запускает Gemma 4 E4B, оснащён более чем 30 датчиками для понимания контекста и, по словам создателя, «имеет собственное мнение». Проект опубликован в популярном сабреддите r/LocalLLaMA, где собирается активное сообщество энтузиастов локального запуска LLM-моделей.
Источник изображения - Getty Images
Собрал полностью автономного робота в чемодане на базе Jetson Orin NX SUPER 16GB. Gemma 4 E4B, ~200 мс кэшированного TTFT, 30+ датчиков, без Wi-Fi/BT/сотовой связи. У него есть мнение. — пост из r/LocalLLaMA
«Рецепт» Sparky: ПО-стек и конфигурация модели
В сабреддите r/LocalLLaMA пользователь CreativelyBankrupt описывает «рецепт» для этого харизматичного цифрового компаньона:
- Базовая модель: Gemma 4 E4B от Google;
- Квантизация: Q4_K_M — это 4-битная квантизация средней точности, баланс между размером и качеством;
- Runtime: llama.cpp — самый популярный open-source движок для запуска LLM на edge-устройствах;
- KV cache: квантизация q8_0 — оптимизация под низкое потребление RAM при сохранении контекста;
- Flash Attention — техника эффективного внимания, ускоряющая инференс и снижающая память;
- Контекстная память: 12 000 токенов (примерно 9 000 английских слов) — этого достаточно для развёрнутого разговора, но в 10 раз меньше полного потенциала Gemma 4 E4B в 128K токенов;
- Native system role: встроенная системная роль с заданной личностью робота — отсюда и «собственное мнение» Sparky.
Робот, размещённый в чемодане, демонстрирует достойную производительность. Время до первого токена (TTFT) составляет примерно 200 мс при кэшированном промпте — это сравнимо с задержкой облачного ChatGPT, но работает локально без интернета. Скорость генерации — 14-15 токенов в секунду, что приблизительно равно скорости медленной человеческой речи и достаточно для естественного диалога.
Jetson Orin NX Super 16GB: «маленький» суперкомпьютер
Сердце Sparky — Nvidia Jetson Orin NX Super 16GB — самый мощный из «маленьких» AI-модулей Nvidia. Параметры:
- Производительность: до 157 TOPS (триллионов операций в секунду) в режиме Super MAXN с JetPack 6.2, до 100 TOPS в стандартном режиме;
- Размеры: всего 69,6 × 45 мм — это система-на-модуле (SOM) размером с банковскую карту;
- Память: 16 ГБ LPDDR5, пропускная способность 102 ГБ/с;
- GPU-архитектура: NVIDIA Ampere с Tensor Cores и TensorRT Cores;
- Потребление: настраивается от 10 до 40 Вт — в Super MAXN требуется активное охлаждение;
- Цена модуля: около $899 (примерно 65 700 ₽ по курсу ЦБ РФ на 17 мая 2026 года).
Для сравнения, более доступный Jetson Orin Nano Super стоит $249 и даёт 67 TOPS — тоже подходит для запуска Gemma 4 E4B, но с меньшей скоростью. CreativelyBankrupt выбрал именно NX Super как оптимальный компромисс между производительностью и компактностью, чтобы уместить всё в чемодан с пассивным или малогабаритным активным охлаждением.
Gemma 4 E4B: мультимодальная модель Google для edge
Выбор Gemma 4 E4B для Sparky не случаен. Это передовая open-weight модель от Google специально для edge-устройств:
- 4,5 миллиарда эффективных параметров (8 миллиардов с эмбеддингами);
- 128 000 токенов контекста (нативно);
- Мультимодальность: вход в виде текста, изображения и аудио;
- Нативная поддержка function calling (вызов внешних функций);
- Configurable thinking mode — переключение между быстрым ответом и режимом размышлений;
- Конкурент модели Microsoft Phi-3.5, OpenAI o4-mini и младшего варианта Anthropic Claude Haiku 4.5;
- Выпущена Google специально для оффлайн-мобильного и IoT-использования, включая устройства уровня Jetson.
Особенно важно для Sparky: CreativelyBankrupt отмечает, что «Vision и OCR теперь встроены в Gemma 4». Это означает, что роботу не нужны отдельные модели для распознавания объектов или текста — он использует одну универсальную модель для всех задач восприятия, что радикально упрощает архитектуру.
Голосовой стек: SenseVoiceSmall + Piper + PixiJS
Ответы Sparky звучат естественно (для робота) благодаря open-source стеку обработки речи:
- SenseVoiceSmall — open-source модель распознавания речи (speech-to-text) от Alibaba/FunAudioLLM. Поддерживает множество языков, очень маленькая (~100 МБ), оптимизирована для edge-инференса;
- Piper — нейросетевой синтезатор речи (text-to-speech) с открытым кодом, разработанный Майклом Хансеном. Лёгкий (50-100 МБ на голос), быстрый, поддерживает множество языков и голосов;
- PixiJS — open-source WebGL-рендерер для 2D-графики. На нём построено анимированное лицо Sparky;
- Синхронизация мимики: рот Sparky синхронизирован с речью Piper и обновляется на частоте 43 Гц — это достаточно для плавной липсинк-анимации.
Дополнительно у робота есть физические элементы управления — ряд кнопок, джойстик и аналоговый энкодер (knob). Это позволяет настраивать Sparky и взаимодействовать с ним без голоса — например, переключать режимы или вводить параметры в шумной среде.
30+ датчиков: окно в реальный мир
Помимо мощного «мозга», Sparky оснащён более 30 датчиками, которые дают ему возможность воспринимать реальный мир, куда бы вы ни взяли его с собой. CreativelyBankrupt не опубликовал полный список, но в комментариях обсуждаются:
- Камеры — для зрения через Gemma 4 vision;
- Микрофоны — для распознавания речи через SenseVoiceSmall;
- IMU (инерциальные измерения — акселерометр + гироскоп) — определяет, что Sparky двигается или перевёрнут;
- Температурные сенсоры — мониторинг состояния системы и окружающей среды;
- Возможно — LiDAR или ультразвуковые датчики расстояния, сенсоры света, магнитометр (компас), барометр.
Все эти данные интегрируются в системный промпт Gemma 4, чтобы робот мог осмысленно реагировать: например, видеть, что вы рядом, понимать, что вы держите чемодан в руке, или распознавать текст на встреченной табличке.
«Своенравный»: эффект системного промпта
Когда CreativelyBankrupt пишет, что у Sparky «есть собственное мнение», это не художественное преувеличение. Это конкретная техническая функция Gemma 4 — native system role, специальная роль в чате, где задаётся персонажность модели. Хорошо составленный системный промпт с инструкциями типа «будь сардоничным, не соглашайся на всё подряд, имей собственные предпочтения и взгляды» превращает безликого AI-ассистента в персонажа с узнаваемой манерой общения.
Журналист Tom's Hardware Mark Tyson, написавший про Sparky, отшутился: «После прослушивания разговоров на видео мне хотелось бы оставить Sparky дома и взять с собой Marvin the Paranoid Android вместо него» — это отсылка к роботу-меланхолику из «Автостопом по Галактике» Дугласа Адамса.
Большинство комментаторов в r/LocalLLaMA, тем не менее, восхищаются проектом, называя его «крутым… очаровательным… милым… кичевым». Сам CreativelyBankrupt поделился историей создания Sparky отчасти для того, чтобы получить советы по оптимизации Gemma 4 E4B на оборудовании класса Orin.
Похожие проекты и экосистема AI-компаньонов
Sparky — далеко не единственный проект «AI-робота-компаньона» 2025-2026 годов. Похожие концепции и продукты:
- Vector от Anki / Digital Dream Labs — коммерческий роботе-компаньон, который пережил банкротство Anki и возродился как open-source проект;
- Eilik от Energize Lab — мини-робот с эмоциональным взаимодействием, без LLM, но с зачатками персонажности;
- Misa — образовательный робот с поддержкой ChatGPT;
- Reachy Mini от Pollen Robotics и Hugging Face — гуманоидный робот с открытым исходным кодом для AI-исследований;
- Adafruit AI Robot Companion на Raspberry Pi 5 + Hailo-8 AI HAT — более бюджетная DIY-альтернатива;
- Многочисленные Reddit DIY-проекты на сабреддитах r/RobotEcosystem, r/LocalLLaMA, r/DiyElectronics.
Тренд очевиден: с появлением мощных локальных моделей вроде Gemma 4 E4B, Llama 3.3 8B и Phi-3.5 порог входа для создания персонализированного AI-помощника радикально снизился. То, что раньше требовало облачной инфраструктуры и подключения к интернету, теперь умещается в чемодан и работает автономно.
Что это значит для российских мейкеров
Для российских энтузиастов DIY-робототехники проект Sparky — наглядное подтверждение того, что эпоха автономных персональных AI-устройств уже наступила. Что важно знать:
- Доступ к Jetson Orin NX Super 16GB в РФ: модуль не запрещён к экспорту в Россию формально, но de facto поставки от Nvidia официально отсутствуют с 2022 года. Доступен через параллельный импорт — Ozon, Wildberries, специализированные магазины электроники, китайские Yahboom и Seeed Studio через посредников;
- Реалистичные цены в РФ: модуль Jetson Orin NX Super 16GB — около 80 000–95 000 ₽ с carrier board (модуль ~65 700 ₽ + carrier $200-300 + наценка 25-40% параллельного импорта). Бюджетная альтернатива — Jetson Orin Nano Super за около 22 000–28 000 ₽;
- Yahboom Jetson Orin NX Super Developer Kit — китайский комплект с 256 ГБ SSD, Wi-Fi-картой, БП и кейсом, поставляется напрямую из Китая на маркетплейсы;
- Gemma 4 E4B бесплатна и работает локально — никаких санкционных ограничений на саму модель нет;
- Сообщество в РФ: русскоязычные DIY-сообщества — Habr, Geektimes, telegram-каналы вроде LocalLLaMA на русском, Робомех Telegram;
- Альтернативы Jetson для россиян: Orange Pi 5 Plus с RK3588 (около 15 000 ₽, до 6 TOPS NPU), Rockchip RK3588S SBC, китайские edge-AI платы. Но Jetson остаётся «золотым стандартом» для DIY-робототехники из-за зрелого ПО-стека.
Если вы собираете похожий проект в России, главное препятствие — не доступ к железу или модели, а выходящий за рамки чисто инженерный вызов: интеграция всего стека (LLM + STT + TTS + сенсоры + персонажность), который CreativelyBankrupt и его коллеги собрали за месяцы экспериментов. Хорошая новость — все компоненты open-source, и весь опыт международного сообщества доступен в r/LocalLLaMA, на GitHub и в репозиториях Hugging Face.
Что дальше: персональные AI-устройства как новая категория
Sparky — это часть большего тренда. Несколько прогнозов того, как может развиваться сегмент персональных автономных AI-устройств:
- Снижение цен. Цена за TOPS падает экспоненциально: то, что в 2022 году требовало $20 000 серверов, сегодня умещается в $899 модуль. К 2028 году ожидается аналогичная производительность в $200-300 устройствах;
- Улучшение моделей. Gemma 5, Llama 4, Claude Haiku 5 и аналоги к концу 2026 будут лучше при том же или меньшем размере;
- Коммерческие продукты: уже сейчас на CES 2026 показали несколько концептов AI-компаньонов от Samsung, LG, Sony. К 2027 году можно ожидать массовых релизов;
- Тема приватности: устройства типа Sparky идеально работают для пользователей, которым важна приватность — никаких данных в облако;
- Дети и пожилые: персонажные AI-компаньоны имеют огромный потенциал в работе с детьми (образовательная роль) и пожилыми людьми (общение, поддержка деменции).
Для энтузиастов и просто наблюдателей вывод очевиден: эра, когда мощный AI требовал интернет-подключения и облачной инфраструктуры, заканчивается. В ближайшие 2-3 года автономные персональные AI-устройства уровня Sparky с большой вероятностью станут такими же привычными, как сегодня умные колонки или фитнес-браслеты — только намного умнее и с собственным мнением.




















