Частые вопросы
Сколько стоит запустить Llama 2 в облаке?
На AWS SageMaker инстанс ml.p3,8xlarge (1×V100) стоит $12–14/час. Для production лучше commitments на год — скидка до 30%. На Azure аналогично, но часто дешевле для enterprise-контрактов.
Поддерживают ли эти модели русский язык?
Llama 2 и Mistral обучены на русском, но медленнее работают с кириллицей (+5–10% задержки). Для русских текстов лучше fine-tune на своих данных в кодировке UTF-8.
Можно ли обновить модель на лету без downtime?
Можно, если используете load-balancer и несколько инстансов. Новую модель поднимаете параллельно, маршрутизируете трафик постепенно. При монолитном инстансе downtime неизбежен (10–20 мин на рестарт).
Какой вариант дешевле: облако или железо?
На <50K запросов/месяц облако дешевле. На 500K+ запросов on-premise выигрывает. Breakeven обычно наступает на 200K–300K запросов, когда окупается RTX 4090 и серверный корпус.
Поддерживается ли мультиязычность в одной модели?
Mistral 7B и Llama 2 держат несколько языков в одной модели, но качество для каждого ниже, чем у специализированных. Для многоязычных систем лучше запускать две модели или делать роутинг по языку.