Карманный AI-чат-бот без подписки: на iPhone установка обойдётся максимум в однократные ~5 долларов, на Android — бесплатно
Локальные модели работают офлайн и не передают запросы разработчикам — полная конфиденциальность и автономность
Облачные ChatGPT, Claude и Gemini пока умнее: длиннее контекст, лучше память и персонализация, есть доступ к свежим данным
На iPhone проще всего начать с бесплатного Locally AI, на Android — с MLC Chat или PocketPal; компактная модель на 1 млрд параметров занимает менее 700 МБ
Когда большинство пользователей думает об AI-чат-ботах, на ум приходят сложные системы, работающие на мощном оборудовании в огромных центрах обработки данных. Вы задаёте вопрос ChatGPT или Gemini, видите, как он «размышляет», отправляя запрос на удалённый сервер, а затем получаете ответ. На самом деле это лишь один из вариантов взаимодействия с современными моделями — чат-бота с открытыми весами (open-weight chatbot) можно запустить прямо на актуальном смартфоне, будь то iPhone или Android. Локальный чат-бот, возможно, не так мощен, как облачные аналоги, но есть веские причины присмотреться к нему вместо ChatGPT, Claude и Gemini. В этом руководстве разберём эти причины и пошагово покажем, как установить локальную модель — отдельно для iPhone и отдельно для Android. Звучит сложно, но на деле всё проще, чем кажется.
Источник изображения — Igor Bonifacic / Engadget
Что такое локальный чат-бот и чем он отличается от облачного
Главное отличие в том, где происходят вычисления. Облачные чат-боты вроде ChatGPT, Claude и Gemini отправляют запрос на серверы лаборатории-разработчика, там его обрабатывает огромная модель, и ответ возвращается обратно на телефон. Локальный же чат-бот целиком умещается в памяти смартфона: модель загружается один раз, после чего работает прямо на чипе устройства. На iPhone задействуется нейронный ускоритель (Neural Engine) и графическое ядро через framework Metal, на Android — графический процессор и нейромодуль (NPU) через LiteRT, ONNX Runtime или llama.cpp. Никаких удалённых серверов, никакой передачи данных наружу.
Именно из этой архитектуры вытекают все плюсы и минусы локальных моделей, которые разберём ниже.
Экономия: разовый платёж или вовсе бесплатно против ежемесячной подписки
Для многих самой привлекательной причиной перейти на локального чат-бота станет экономия. Прямо сейчас на iPhone это максимум однократная покупка приложения (порядка 5 долларов, в пересчёте — несколько сотен рублей или пара тысяч тенге, и платить нужно лишь раз), а на Android подходящие приложения и вовсе бесплатны.
Сравните это с подпиской на любой крупный облачный сервис. Чтобы пользоваться ChatGPT без жёстких ограничений, придётся платить минимум 20 долларов в месяц за план Plus от OpenAI. Платные тарифы Google AI начинаются примерно от 8 долларов в месяц и доходят до 100 долларов ежемесячно за подписку Ultra. Вдобавок для пользователей из стран СНГ есть отдельная сложность: официальная оплата таких подписок зарубежными картами часто недоступна, и приходится прибегать к виртуальным картам или посредникам, что добавляет наценку и хлопот. Локальный же чат-бот работает на устройстве — оплачивать нечего, лимитов на количество запросов нет, а активный пользователь бесплатных версий облачных сервисов почти наверняка упрётся в дневной потолок.
Конфиденциальность и работа без интернета
Для тех, кто заботится о конфиденциальности, локальные чат-боты дают ещё одно весомое преимущество. Ни одно из приложений, рекомендованных ниже, не требует входа в учётную запись и не передаёт данные лабораториям, обучившим запускаемые модели. Разработчики самих приложений также заявляют, что не собирают статистику использования. С проприетарными облачными моделями стоит исходить из обратного: ваши запросы — а также любые изображения, аудио или видео, которыми вы делитесь, — могут пойти на обучение будущих версий. Есть редкие исключения (например, чат-бот Lumo от Proton по умолчанию полностью приватный), но в большинстве случаев, включая ChatGPT, отказаться от передачи данных можно лишь покопавшись в настройках.
Ещё одного облачные сервисы не умеют принципиально — работать без подключения к интернету. Локальный чат-бот функционирует даже в авиарежиме: после первой загрузки модели сеть ему не нужна вовсе. Это удобно в самолёте, в дороге, в роуминге, в зонах без покрытия и просто там, где важна полная автономность.
В чём локальные модели пока проигрывают облачным
Стоит честно отметить и недостатки. Какими бы способными ни были современные модели с открытыми весами, они всё ещё уступают новейшим проприетарным моделям от Anthropic, OpenAI и других коммерческих лабораторий. Дело прежде всего в масштабе:
- Контекстное окно. Благодаря мощному облачному оборудованию закрытые модели предлагают куда более длинные контекстные окна и помнят детали из прошлых сообщений. На практике такой чат-бот кажется умнее и общительнее, поскольку повторяться приходится редко.
- Память и персонализация. И ChatGPT, и Claude обладают функциями «памяти», подстраивающими ответы под конкретного пользователя: один раз упомянутые факты (модель машины, любимый инструмент, профессия) всплывают в дальнейших ответах. Локальные модели такой сквозной памяти между сессиями обычно лишены.
- Скорость генерации. На смартфоне модель размером 1–3 млрд параметров выдаёт лишь несколько токенов (примерно слов) в секунду — заметно медленнее десятков и сотен токенов в секунду у облачных систем. Для офлайн-переписки и заметок этого достаточно, но мгновенным отклик не назовёшь.
Актуальность данных и веб-поиск
Если нужен чат-бот, выдающий свежую информацию, локальная модель, скорее всего, не подойдёт. У всех LLM есть отсечка по знаниям (knowledge cutoff) — момент, после которого данные уже не попали в обучающий набор. У многих компактных моделей вроде Llama 3.2 эта дата приходится на конец 2023 года, тогда как облачные сервисы обновляются заметно чаще.
Чтобы отвечать на вопросы за пределами отсечки, модели нужен доступ к веб-поиску. И здесь у облачных решений два преимущества. Во-первых, сама частота выпуска новых версий обеспечивает более свежую базу знаний. Во-вторых, поскольку ChatGPT, Claude и Gemini всё равно работают только в сети, они легко подтягивают информацию из интернета прямо в ответ. Локальные модели тоже умеют пользоваться веб-поиском, но лишь через сторонние расширения и обёртки.
Как установить локальный чат-бот на iPhone
На iOS есть два приложения, достойных внимания: Locally AI и Private LLM. Оба делают установку и запуск локального чат-бота предельно простыми. Первое скачивается бесплатно, второе — разовая покупка примерно за 5 долларов.
Для большинства пользователей удобнее Locally AI: оно не только бесплатно, но и предлагает самый интуитивный старт. Порядок действий:
- Установите Locally AI из App Store.
- При первом запуске приложение предложит на выбор одну из трёх стартовых моделей — выберите её, и она загрузится.
- Сразу после загрузки можно начинать переписку, без регистрации и входа.
- В настройках легко найти и скачать другие модели для тестов, а в разделе Personalization — задать системный промпт, направляющий стиль и структуру ответов.
Если важна максимальная широта выбора, у Private LLM своя сильная сторона: приложение поддерживает свыше сотни open-source-моделей и подробно расписывает требования каждой к оперативной памяти.
Как установить локальный чат-бот на Android
На Android выбор приложений даже шире, и почти все они бесплатны. Три самых удобных варианта — MLC Chat, PocketPal AI и связка Termux + Ollama для более опытных пользователей.
Начинающим стоит выбрать MLC Chat — это самый простой старт: установка из Google Play занимает меньше минуты, приложение предлагает готовый список преднастроенных моделей и не требует ни командной строки, ни ручной возни с файлами. Порядок действий:
- Установите MLC Chat из Google Play (для работы нужен Android 10 или новее и минимум 4 ГБ оперативной памяти).
- Откройте приложение и выберите модель из списка — например, компактную Phi, Gemma или Llama 3.2; для первого знакомства берите модель поменьше.
- Нажмите значок загрузки рядом с моделью и дождитесь её скачивания (интернет нужен только на этом шаге).
- Нажмите значок чата рядом с загруженной моделью и начинайте переписку — дальше всё работает офлайн.
Тем, кто захочет менять модели чаще и тоньше управлять настройками, подойдёт PocketPal AI — открытое приложение, выросшее из сообщества Hugging Face. Оно умеет напрямую загружать любые модели в формате GGUF из публичных репозиториев (аккаунт не обязателен), показывает в реальном времени скорость генерации и расход памяти, а также поддерживает «персоны» — сохранённые системные промпты-роли вроде «строгий редактор» или «помощник по коду», между которыми можно переключаться в один тап.
Наконец, для разработчиков, уже знакомых с Ollama, есть способ получить привычный консольный сценарий прямо на телефоне:
- Установите Termux из F-Droid (версия из Google Play устарела).
- В Termux выполните pkg update && pkg install ollama.
- Дальше используйте стандартные команды Ollama, например ollama pull llama3 и ollama run llama3.
- Для стабильной работы желателен смартфон с 8 ГБ оперативной памяти и более.
Отдельно стоит иметь в виду: Android постепенно ужесточает правила установки приложений из сторонних источников (сайдлоадинг APK). Пока такие APK ставятся штатно — достаточно разрешить установку из неизвестных источников в настройках, — но в будущем приоритет лучше отдавать приложениям из Google Play.
Параметры, размер модели и подбор под устройство
При тестировании разных чат-ботов следите за числом параметров (parameter counts). Модели с бо́льшим количеством параметров обычно выдают более качественные ответы, поскольку устроены сложнее. Расплата — больше занятого места и медленнее работа из-за выросших вычислительных требований. Ориентиры по объёму памяти:
- Модель на 1 млрд параметров (например, Llama 3.2 в этой версии) — занимает менее 700 МБ и запускается даже на относительно старых смартфонах.
- Модель на 3 млрд параметров от Meta* — требует около 1,8 ГБ; на iPhone приложения рекомендуют iPhone 15 Pro или новее, на Android — флагман с 8 ГБ оперативной памяти и более.
- Модели на 7 млрд параметров — на телефонах с менее чем 8 ГБ оперативной памяти запускать не стоит вовсе.
В целом флагманский Android с 8+ ГБ памяти тянет модель на 2–3 млрд параметров со скоростью около 4–8 токенов в секунду, более старые и бюджетные устройства — 1–3 токена в секунду (терпимо для разовых задач, но утомительно для живого диалога). Само собой, более новые смартфоны справляются с локальными моделями лучше старых, однако и владельцам прежних устройств опускать руки не стоит: облегчённые сборки Llama 3.2 и Gemma 3 уверенно работают и на телефонах нескольких прошлых поколений. Если сомневаетесь, какая модель подойдёт вашему устройству, ориентируйтесь на рекомендуемый объём оперативной памяти — его указывают и в Private LLM на iOS, и в карточках моделей внутри Android-приложений.
Стоит ли переходить на локальный чат-бот
Локальный чат-бот не заменит ChatGPT или Claude в задачах, где нужны максимальный интеллект, длинная память и свежие данные из сети. Но для приватной переписки, работы с личными заметками, офлайн-сценариев и просто избавления от ежемесячной подписки (особенно с учётом сложностей с её оплатой в странах СНГ) он смотрится на удивление убедительно. А учитывая, как быстро улучшаются методы сжатия и обучения компактных моделей, разрыв между «карманной» и облачной нейросетью с каждым кварталом становится всё меньше. Самое приятное — попробовать ничего не стоит: достаточно бесплатного приложения и пары минут на загрузку первой модели.
* Meta признана экстремистской организацией, её деятельность запрещена на территории Российской Федерации.












