Будут ли ещё варианты моделей для локального использования?

#4
by NIK2703 - opened

10B слишком мало, было бы неплохо иметь ещё вариант 20-30B A3B как в gigachat 2 lite

Если что, то в таком размере есть исходный Qwen3-VL-30B-A3B-Instruct без сберовской цензуры и с хорошим русским.

Если что, то в таком размере есть исходный Qwen3-VL-30B-A3B-Instruct без сберовской цензуры и с хорошим русским.

буквально из статьи на хабре:

"это не дообучение готовой зарубежной модели, а полноценное обучение с нуля на собственном датасете. "

причем тут "исходный" квен, когда тут архитектура дипсика а обучение модели полностью свое.

Если что, то в таком размере есть исходный Qwen3-VL-30B-A3B-Instruct без сберовской цензуры и с хорошим русским.

А можно полюбопытствовать, в чем заключается сберовская цензура?

Если что, то в таком размере есть исходный Qwen3-VL-30B-A3B-Instruct без сберовской цензуры и с хорошим русским.

буквально из статьи на хабре:

"это не дообучение готовой зарубежной модели, а полноценное обучение с нуля на собственном датасете. "

причем тут "исходный" квен, когда тут архитектура дипсика а обучение модели полностью свое.

Я правильно понял, Сбер разрабатывал Gigachat на основе DeepSeek v2 MoE 16B ?

Sign up or log in to comment