LLM Engine

v0.9.1 Changelog

Дата выпуска: 2026-05-25

Added

Базовый UI для проверки моделей
Одновременная поддержка embeddings и Gen моделей и API
Поддержка контекстного окна до 32K токенов
Streaming API для потоковой генерации текста
Параметр stop_sequences для управления завершением генерации
UI для взаимодействия с моделями

Changed

Скорость инференса увеличена на 40% для архитектуры RTX 40xx (Ada Lovelace)
Обновлён формат конфигурационного файла — добавлены поля gpu_layers и context_size

Removed

Устаревший эндпоинт /api/v0/complete (используйте /api/v1/generate)