Как запустить локальный ИИ чатбот на смартфоне: пошаговое руководство для iPhone и Android

Когда большинство пользователей думает об AI-чат-ботах, на ум приходят сложные системы, работающие на мощном оборудовании в огромных центрах обработки данных. Вы задаёте вопрос ChatGPT или Gemini, видите, как он «размышляет», отправляя запрос на удалённый сервер, а затем получаете ответ. На самом деле это лишь один из вариантов взаимодействия с современными моделями — чат-бота с открытыми весами (open-weight chatbot) можно запустить прямо на актуальном смартфоне, будь то iPhone или Android. Локальный чат-бот, возможно, не так мощен, как облачные аналоги, но есть веские причины присмотреться к нему вместо ChatGPT, Claude и Gemini. В этом руководстве разберём эти причины и пошагово покажем, как установить локальную модель — отдельно для iPhone и отдельно для Android. Звучит сложно, но на деле всё проще, чем кажется.

Источник изображения — Igor Bonifacic / Engadget

Что такое локальный чат-бот и чем он отличается от облачного

Главное отличие в том, где происходят вычисления. Облачные чат-боты вроде ChatGPT, Claude и Gemini отправляют запрос на серверы лаборатории-разработчика, там его обрабатывает огромная модель, и ответ возвращается обратно на телефон. Локальный же чат-бот целиком умещается в памяти смартфона: модель загружается один раз, после чего работает прямо на чипе устройства. На iPhone задействуется нейронный ускоритель (Neural Engine) и графическое ядро через framework Metal, на Android — графический процессор и нейромодуль (NPU) через LiteRT, ONNX Runtime или llama.cpp. Никаких удалённых серверов, никакой передачи данных наружу.

Именно из этой архитектуры вытекают все плюсы и минусы локальных моделей, которые разберём ниже.

Экономия: разовый платёж или вовсе бесплатно против ежемесячной подписки

Для многих самой привлекательной причиной перейти на локального чат-бота станет экономия. Прямо сейчас на iPhone это максимум однократная покупка приложения (порядка 5 долларов, в пересчёте — несколько сотен рублей или пара тысяч тенге, и платить нужно лишь раз), а на Android подходящие приложения и вовсе бесплатны.

Сравните это с подпиской на любой крупный облачный сервис. Чтобы пользоваться ChatGPT без жёстких ограничений, придётся платить минимум 20 долларов в месяц за план Plus от OpenAI. Платные тарифы Google AI начинаются примерно от 8 долларов в месяц и доходят до 100 долларов ежемесячно за подписку Ultra. Вдобавок для пользователей из стран СНГ есть отдельная сложность: официальная оплата таких подписок зарубежными картами часто недоступна, и приходится прибегать к виртуальным картам или посредникам, что добавляет наценку и хлопот. Локальный же чат-бот работает на устройстве — оплачивать нечего, лимитов на количество запросов нет, а активный пользователь бесплатных версий облачных сервисов почти наверняка упрётся в дневной потолок.

Конфиденциальность и работа без интернета

Для тех, кто заботится о конфиденциальности, локальные чат-боты дают ещё одно весомое преимущество. Ни одно из приложений, рекомендованных ниже, не требует входа в учётную запись и не передаёт данные лабораториям, обучившим запускаемые модели. Разработчики самих приложений также заявляют, что не собирают статистику использования. С проприетарными облачными моделями стоит исходить из обратного: ваши запросы — а также любые изображения, аудио или видео, которыми вы делитесь, — могут пойти на обучение будущих версий. Есть редкие исключения (например, чат-бот Lumo от Proton по умолчанию полностью приватный), но в большинстве случаев, включая ChatGPT, отказаться от передачи данных можно лишь покопавшись в настройках.

Ещё одного облачные сервисы не умеют принципиально — работать без подключения к интернету. Локальный чат-бот функционирует даже в авиарежиме: после первой загрузки модели сеть ему не нужна вовсе. Это удобно в самолёте, в дороге, в роуминге, в зонах без покрытия и просто там, где важна полная автономность.

В чём локальные модели пока проигрывают облачным

Стоит честно отметить и недостатки. Какими бы способными ни были современные модели с открытыми весами, они всё ещё уступают новейшим проприетарным моделям от Anthropic, OpenAI и других коммерческих лабораторий. Дело прежде всего в масштабе:

Контекстное окно. Благодаря мощному облачному оборудованию закрытые модели предлагают куда более длинные контекстные окна и помнят детали из прошлых сообщений. На практике такой чат-бот кажется умнее и общительнее, поскольку повторяться приходится редко.
Память и персонализация. И ChatGPT, и Claude обладают функциями «памяти», подстраивающими ответы под конкретного пользователя: один раз упомянутые факты (модель машины, любимый инструмент, профессия) всплывают в дальнейших ответах. Локальные модели такой сквозной памяти между сессиями обычно лишены.
Скорость генерации. На смартфоне модель размером 1–3 млрд параметров выдаёт лишь несколько токенов (примерно слов) в секунду — заметно медленнее десятков и сотен токенов в секунду у облачных систем. Для офлайн-переписки и заметок этого достаточно, но мгновенным отклик не назовёшь.

Актуальность данных и веб-поиск

Если нужен чат-бот, выдающий свежую информацию, локальная модель, скорее всего, не подойдёт. У всех LLM есть отсечка по знаниям (knowledge cutoff) — момент, после которого данные уже не попали в обучающий набор. У многих компактных моделей вроде Llama 3.2 эта дата приходится на конец 2023 года, тогда как облачные сервисы обновляются заметно чаще.

Чтобы отвечать на вопросы за пределами отсечки, модели нужен доступ к веб-поиску. И здесь у облачных решений два преимущества. Во-первых, сама частота выпуска новых версий обеспечивает более свежую базу знаний. Во-вторых, поскольку ChatGPT, Claude и Gemini всё равно работают только в сети, они легко подтягивают информацию из интернета прямо в ответ. Локальные модели тоже умеют пользоваться веб-поиском, но лишь через сторонние расширения и обёртки.

Как установить локальный чат-бот на iPhone

На iOS есть два приложения, достойных внимания: Locally AI и Private LLM. Оба делают установку и запуск локального чат-бота предельно простыми. Первое скачивается бесплатно, второе — разовая покупка примерно за 5 долларов.

Для большинства пользователей удобнее Locally AI: оно не только бесплатно, но и предлагает самый интуитивный старт. Порядок действий:

Установите Locally AI из App Store.
При первом запуске приложение предложит на выбор одну из трёх стартовых моделей — выберите её, и она загрузится.
Сразу после загрузки можно начинать переписку, без регистрации и входа.
В настройках легко найти и скачать другие модели для тестов, а в разделе Personalization — задать системный промпт, направляющий стиль и структуру ответов.

Если важна максимальная широта выбора, у Private LLM своя сильная сторона: приложение поддерживает свыше сотни open-source-моделей и подробно расписывает требования каждой к оперативной памяти.

Как установить локальный чат-бот на Android

На Android выбор приложений даже шире, и почти все они бесплатны. Три самых удобных варианта — MLC Chat, PocketPal AI и связка Termux + Ollama для более опытных пользователей.

Начинающим стоит выбрать MLC Chat — это самый простой старт: установка из Google Play занимает меньше минуты, приложение предлагает готовый список преднастроенных моделей и не требует ни командной строки, ни ручной возни с файлами. Порядок действий:

Установите MLC Chat из Google Play (для работы нужен Android 10 или новее и минимум 4 ГБ оперативной памяти).
Откройте приложение и выберите модель из списка — например, компактную Phi, Gemma или Llama 3.2; для первого знакомства берите модель поменьше.
Нажмите значок загрузки рядом с моделью и дождитесь её скачивания (интернет нужен только на этом шаге).
Нажмите значок чата рядом с загруженной моделью и начинайте переписку — дальше всё работает офлайн.

Тем, кто захочет менять модели чаще и тоньше управлять настройками, подойдёт PocketPal AI — открытое приложение, выросшее из сообщества Hugging Face. Оно умеет напрямую загружать любые модели в формате GGUF из публичных репозиториев (аккаунт не обязателен), показывает в реальном времени скорость генерации и расход памяти, а также поддерживает «персоны» — сохранённые системные промпты-роли вроде «строгий редактор» или «помощник по коду», между которыми можно переключаться в один тап.

Наконец, для разработчиков, уже знакомых с Ollama, есть способ получить привычный консольный сценарий прямо на телефоне:

Установите Termux из F-Droid (версия из Google Play устарела).
В Termux выполните pkg update && pkg install ollama.
Дальше используйте стандартные команды Ollama, например ollama pull llama3 и ollama run llama3.
Для стабильной работы желателен смартфон с 8 ГБ оперативной памяти и более.

Отдельно стоит иметь в виду: Android постепенно ужесточает правила установки приложений из сторонних источников (сайдлоадинг APK). Пока такие APK ставятся штатно — достаточно разрешить установку из неизвестных источников в настройках, — но в будущем приоритет лучше отдавать приложениям из Google Play.

Параметры, размер модели и подбор под устройство

При тестировании разных чат-ботов следите за числом параметров (parameter counts). Модели с бо́льшим количеством параметров обычно выдают более качественные ответы, поскольку устроены сложнее. Расплата — больше занятого места и медленнее работа из-за выросших вычислительных требований. Ориентиры по объёму памяти:

Модель на 1 млрд параметров (например, Llama 3.2 в этой версии) — занимает менее 700 МБ и запускается даже на относительно старых смартфонах.
Модель на 3 млрд параметров от Meta* — требует около 1,8 ГБ; на iPhone приложения рекомендуют iPhone 15 Pro или новее, на Android — флагман с 8 ГБ оперативной памяти и более.
Модели на 7 млрд параметров — на телефонах с менее чем 8 ГБ оперативной памяти запускать не стоит вовсе.

В целом флагманский Android с 8+ ГБ памяти тянет модель на 2–3 млрд параметров со скоростью около 4–8 токенов в секунду, более старые и бюджетные устройства — 1–3 токена в секунду (терпимо для разовых задач, но утомительно для живого диалога). Само собой, более новые смартфоны справляются с локальными моделями лучше старых, однако и владельцам прежних устройств опускать руки не стоит: облегчённые сборки Llama 3.2 и Gemma 3 уверенно работают и на телефонах нескольких прошлых поколений. Если сомневаетесь, какая модель подойдёт вашему устройству, ориентируйтесь на рекомендуемый объём оперативной памяти — его указывают и в Private LLM на iOS, и в карточках моделей внутри Android-приложений.

Стоит ли переходить на локальный чат-бот

Локальный чат-бот не заменит ChatGPT или Claude в задачах, где нужны максимальный интеллект, длинная память и свежие данные из сети. Но для приватной переписки, работы с личными заметками, офлайн-сценариев и просто избавления от ежемесячной подписки (особенно с учётом сложностей с её оплатой в странах СНГ) он смотрится на удивление убедительно. А учитывая, как быстро улучшаются методы сжатия и обучения компактных моделей, разрыв между «карманной» и облачной нейросетью с каждым кварталом становится всё меньше. Самое приятное — попробовать ничего не стоит: достаточно бесплатного приложения и пары минут на загрузку первой модели.

* Meta признана экстремистской организацией, её деятельность запрещена на территории Российской Федерации.

Как запустить локальный ИИ чатбот на смартфоне: пошаговое руководство для iPhone и Android

Локальные AI-чатботы на iPhone: экономия, приватность и работа офлайн

Что такое локальный чат-бот и чем он отличается от облачного

Экономия: разовый платёж или вовсе бесплатно против ежемесячной подписки

Конфиденциальность и работа без интернета

В чём локальные модели пока проигрывают облачным

Актуальность данных и веб-поиск

Как установить локальный чат-бот на iPhone

Как установить локальный чат-бот на Android

Параметры, размер модели и подбор под устройство

Стоит ли переходить на локальный чат-бот

Популярное

Baldur's Gate 3: Бонусы и постоянные баффы в игре и Как их получить

Steam Machine: очередь резерваций может растянуться до декабря 2026 года — Valve выпустила CAD-файлы корпуса

Baldur's Gate 3: Одурманенная лягушка и тайник в Гнилостной трясине

Hunter x Hunter возвращается: долгожданное продолжение после полутора лет паузы

Baldur's Gate 3: Что такое Реверберация и как использовать это состояние

Лучшие материалы

Colibrì: как запустить ИИ-модель на 744 млрд параметров всего на 25 ГБ ОЗУ без видеокарты

Midjourney против Голливуда: зачем нейросеть требует раскрыть ИИ-секреты Disney и Warner Bros.

«Электрическая Дейзи» возвращается: культовая сёдзё-манга станет аниме в 2027 году — и да, это снова про загадочного защитника

Razer выпускает гибридный микрофон Seiren V3 Pro для стримеров и подкастеров

Google I/O: Android-шоу стартует 12 мая, готовьтесь к крупному обновлению

Обновление Riven Tides для Arc Raiders: новая карта и массивный враг

Как получить редких маунтов WoW быстрее: упрощённые ачивы и обновлённые рейды — подробный гайд

Activision Blizzard не намерена прекращать разработку серии Crash Bandicoot

Поездка в Америку 2 получит рейтинг PG-13

Как запустить локальный ИИ чатбот на смартфоне: пошаговое руководство для iPhone и Android

Локальные AI-чатботы на iPhone: экономия, приватность и работа офлайн

Что такое локальный чат-бот и чем он отличается от облачного

Экономия: разовый платёж или вовсе бесплатно против ежемесячной подписки

Конфиденциальность и работа без интернета

В чём локальные модели пока проигрывают облачным

Актуальность данных и веб-поиск

Как установить локальный чат-бот на iPhone

Как установить локальный чат-бот на Android

Параметры, размер модели и подбор под устройство

Стоит ли переходить на локальный чат-бот

Запрет соцсетей для подростков в Австралии: первые итоги — более 80% детей всё равно онлайн

ИИ-гонка большой четвёрки: триллион долларов, скрытый долг и рост цен на память и электричество

Первые Googlebook от Lenovo: два ноутбука и планшет-трансформер с Glowbar

Amazon переплачивает миллионы из-за неудачных ИИ-проектов

Baldur's Gate 3: Бонусы и постоянные баффы в игре и Как их получить

Steam Machine: очередь резерваций может растянуться до декабря 2026 года — Valve выпустила CAD-файлы корпуса

Baldur's Gate 3: Одурманенная лягушка и тайник в Гнилостной трясине

Hunter x Hunter возвращается: долгожданное продолжение после полутора лет паузы

Baldur's Gate 3: Что такое Реверберация и как использовать это состояние

Colibrì: как запустить ИИ-модель на 744 млрд параметров всего на 25 ГБ ОЗУ без видеокарты

Midjourney против Голливуда: зачем нейросеть требует раскрыть ИИ-секреты Disney и Warner Bros.

«Электрическая Дейзи» возвращается: культовая сёдзё-манга станет аниме в 2027 году — и да, это снова про загадочного защитника

Razer выпускает гибридный микрофон Seiren V3 Pro для стримеров и подкастеров

Google I/O: Android-шоу стартует 12 мая, готовьтесь к крупному обновлению

Обновление Riven Tides для Arc Raiders: новая карта и массивный враг

Как получить редких маунтов WoW быстрее: упрощённые ачивы и обновлённые рейды — подробный гайд

Activision Blizzard не намерена прекращать разработку серии Crash Bandicoot

Поездка в Америку 2 получит рейтинг PG-13