Будут ли ещё варианты моделей для локального использования?
10B слишком мало, было бы неплохо иметь ещё вариант 20-30B A3B как в gigachat 2 lite
Если что, то в таком размере есть исходный Qwen3-VL-30B-A3B-Instruct без сберовской цензуры и с хорошим русским.
Если что, то в таком размере есть исходный Qwen3-VL-30B-A3B-Instruct без сберовской цензуры и с хорошим русским.
буквально из статьи на хабре:
"это не дообучение готовой зарубежной модели, а полноценное обучение с нуля на собственном датасете. "
причем тут "исходный" квен, когда тут архитектура дипсика а обучение модели полностью свое.
Если что, то в таком размере есть исходный Qwen3-VL-30B-A3B-Instruct без сберовской цензуры и с хорошим русским.
А можно полюбопытствовать, в чем заключается сберовская цензура?
Если что, то в таком размере есть исходный Qwen3-VL-30B-A3B-Instruct без сберовской цензуры и с хорошим русским.
буквально из статьи на хабре:
"это не дообучение готовой зарубежной модели, а полноценное обучение с нуля на собственном датасете. "
причем тут "исходный" квен, когда тут архитектура дипсика а обучение модели полностью свое.
Я правильно понял, Сбер разрабатывал Gigachat на основе DeepSeek v2 MoE 16B ?