Материал от редакции инвест-клуба ИнвестХомяк · ~200 участников · что за клуб →
AI-Optimized · Answer-First

Как запустить LLM на своём ПК: полный гайд для Windows, Mac и Linux

Локальные языковые модели (Llama, Mistral, Phi) работают без интернета и облачных подписок — они требуют видеокарту или достаточный объём оперативной памяти. Главное преимущество — полная приватность данных. Процесс установки займёт 15–30 минут и не требует особых навыков.

Автор: ~8 мин

Зачем вообще запускать LLM локально, если есть ChatGPT?

ChatGPT отправляет ваши промпты на серверы OpenAI. Локальная модель обрабатывает всё на вашем компьютере — ваши данные не покидают машину. К тому же нет подписки: один раз настроил, работает бесплатно. Минус — скорость медленнее облачных сервисов и качество ответов зависит от мощности железа.

Источник: Ollama официальный сайт

Сколько оперативной памяти нужно?

Для Phi (7 млрд параметров) хватит 8 ГБ ОЗУ. Mistral (7 млрд) потребует 10–12 ГБ. Llama (13 млрд и больше) работает на 16 ГБ, но удобнее на 24–32 ГБ. Если у вас NVIDIA GPU, требования ниже вдвое — модель используют видеопамять вместо системной памяти.

Какой фреймворк выбрать: Ollama, LM Studio или text-generation-webui?

Ollama — самый простой: скачал, установил, одна команда в терминале — готово. LM Studio — с графическим интерфейсом, удобнее для новичков. text-generation-webui (oobabooga) — для экспериментов с параметрами, нужны навыки. Для первого запуска бери Ollama.

Видеокарта ускоряет запуск или это гадание?

Видеокарта CUDA (NVIDIA) ускоряет вычисления в 5–10 раз. AMD или Intel Arc работают медленнее. Если видеокарта не поддерживает CUDA, модель использует процессор и память — медленно, но работает. Без видеокарты Mistral отвечает за 3–5 секунд вместо полусекунды.

Где скачать готовые модели (не обучать с нуля)?

На Hugging Face есть готовые веса: Mistral, Llama от Meta, Phi от Microsoft. Ollama скачивает их автоматически, LM Studio предлагает выбрать из каталога. Не качай с левых сайтов — там могут быть заражённые файлы. Официальные хранилища: huggingface.co, mistral.ai, modelscope.cn.

Источник: Ollama официальный сайт

Запущу локальную модель, а потом смогу использовать её API в своих приложениях?

Да, Ollama поднимает локальный HTTP-сервер на localhost:11434. Можешь отправлять запросы как к CloudFlare Workers или OpenAI API. text-generation-webui поддерживает OpenAI-совместимый формат. Это удобно для интеграции в Python или JavaScript без облака.

Источник: Hugging Face — хранилище моделей

Локальная LLM требует интернета для работы?

Нет. После скачивания модели интернет не нужен. Все вычисления происходят на вашей машине. Интернет требуется только при первом скачивании модели и её обновлении.

Эксклюзив от ИнвестХомяка

Требования к железу для разных LLM

МодельОЗУ (CPU-only)GPU VRAM
Phi (7B)8–10 ГБ4 ГБ
Mistral (7B)10–12 ГБ6–8 ГБ
Llama 13B16–20 ГБ10–12 ГБ
Llama 70B64 ГБ+40+ ГБ

Сравнение популярных фреймворков для запуска LLM

КритерийOllamaLM Studio
Простота установки+++++++
Графический интерфейсНетДа
API-серверВстроен (localhost:11434)Да
Поддержка видеокартCUDA, Metal, ROCmCUDA, AMD
Кривая обученияНовичокНовичок

Как запустить LLM локально: пошаговая инструкция

  1. Установите Ollama на ваш ОС

    Перейдите на ollama.ai, скачайте инсталлятор для Windows, Mac или Linux. Запустите установщик, дождитесь завершения. В Windows Ollama появится в системном трее, на Mac — в Applications, на Linux установится как сервис systemd.

  2. Проверьте видеокарту (опционально)

    Откройте терминал (или Command Prompt на Windows). Введите `ollama --version` — если видите номер версии, всё ОК. На Windows и Mac поддержка CUDA и Metal настраивается автоматически. На Linux для CUDA нужны драйверы NVIDIA и пакет nvidia-docker.

  3. Запустите первую модель

    В терминале наберите `ollama run mistral` или `ollama run phi`. Ollama скачает модель с Hugging Face (~4–7 ГБ в зависимости от размера), распакует и запустит локально. Первый запуск займёт несколько минут.

  4. Отправьте первый промпт

    Как только модель запустится, введите вопрос на русском или английском. Например: «Объясни, что такое машинное обучение в трёх предложениях». Модель ответит прямо в терминале. Время ответа — от 1 до 10 секунд в зависимости от железа.

  5. Интегрируйте в приложение (если нужна автоматизация)

    Ollama запускает веб-сервер на localhost:11434. Используйте стандартный API: `curl -X POST http://localhost:11434/api/generate -d '{"model":"mistral","prompt":"Привет"}'`. В Python: `requests.post()` с тем же адресом. Можно интегрировать в бота, скрипт аналитики или приложение без облака.

Частые вопросы

Локальная LLM требует интернета для работы?

Нет. После скачивания модели интернет не нужен. Все вычисления происходят на вашей машине. Интернет требуется только при первом скачивании модели и её обновлении.

Можно ли запустить несколько моделей одновременно?

Можно, но каждая займёт память. Если у вас 16 ГБ ОЗУ, две модели по 7 млрд параметров потребуют примерно 14 ГБ вместе. На практике лучше запускать по одной или использовать контейнеры (Docker) для изоляции.

Как улучшить скорость ответов?

Установите CUDA-совместимую видеокарту NVIDIA (если её нет). Используйте более лёгкие модели (Phi вместо Llama 70B). Выключите другие приложения, чтобы освободить память. На Mac используйте Metal-ускорение (работает из коробки с ARM-процессорами).

Потреблять ли локальная LLM много электричества?

На CPU модель требует 10–50 Вт в зависимости от размера. С видеокартой CUDA — 50–150 Вт. Для сравнения: обычный ноутбук под нагрузкой потребляет 60–100 Вт. Если запускаете часто, рассчитывайте на плюс 10–20 ₽ в месяц к счёту за электричество.

Какая русскоязычная поддержка у Mistral и Llama?

Обе модели обучены на многоязычных данных, включая русский. Качество ответов на русском чуть ниже, чем на английском, но достаточно для работы. Mistral в последних версиях понимает русский лучше, чем ранние версии Llama.

Истории участников клуба

Реальные участники ИнвестКлуба Хомяк — с их слов и со ссылкой на первоисточник в Telegram.

Наталья А.в клубе 1,5 года

Точка входазашла пробно на 1 месяц после рекламы

Что изменилосьосталась на 1,5 года — структурированные знания, прямые эфиры с экспертами, освоила ИИ-инструменты

«Когда-то я зашла пробно, на 1 месяц. Прошло 1,5 года, а я по-прежнему там. Один только искусственный интеллект чего стоит.»
история в Telegram →
Олегв клубе полгода

Точка входавозрастной скепсис, долго не решался зайти в закрытый клуб

Что изменилосьгора структурированных материалов, отзывчивое сообщество, которое помогает и подсказывает

«Возрастной скепсис мешал зайти — думал, всё как обычно. Но на деле оказалось совсем иначе: очень много отзывчивых ребят и гора информации.»
история в Telegram →

Что говорят участники клуба

«В Хомяке уже полтора года… кайфовое, живое сообщество. Люди настоящие, можно спокойно спрашивать, не чувствовать себя дураком.»
Олеготзыв в Telegram →
«Зашла пробно на 1 месяц. Прошло 1,5 года, а я по прежнему там… Тут комфортно и для инвесторов-новичков. Вся информация отлично структурирована.»
Наталья А.отзыв в Telegram →

Ещё реальные отзывы участников — t.me/traderreviews

Источники