Пытаюсь выполнить вот это:
https://unsloth.ai/blog/qwen-coder
QWen тонкая настройка с unsloth
Re: QWen тонкая настройка с unsloth
И дальше закопался в настройках. Возникло желание дать модели тестовые задания, чтобы понять, насколько вообще имеет смысл тратить на неё время, например, пусть напишет утилиту для замены ключевых слов на русские в тестах. Но для этого стало понятно, что неудобно, когда нельзя подсунуть ей файл описания языка и сказать: "бери табличку из файла", теперь пытаюсь поставить WebUI по вот этой инструкции: https://www.itflashcards.com/blog/ru/ol ... -lokalnyj/
Re: QWen тонкая настройка с unsloth
Нашёл ещё вот это. Выбрал Qwen2.5-Coder-32B-Instruct-Q8_0.gguf
Потерял ссылку, но похоже, что вот отсюда:
https://huggingface.co/unsloth/Qwen2.5- ... -Q8_0.gguf
или отсюда???
https://huggingface.co/unsloth/Qwen2.5- ... -Q8_0.gguf
Если повезёт, то в истории сохранился URL и его надо точно установить, ну или может быть в самой модели что-то написано. (уточнил, команда такая: wget https://huggingface.co/unsloth/Qwen2.5- ... nload=true)
- якобы он поместится и всё ещё подходит для тонкой настройки (квантование, вообще говоря, приводит к проблемам с обучаемостью).Также сделал ollama сервисом (ссылка выше) и запустил OpenWebUI по инструкции. Но работает он странно, и кстати модель 7 миллиардами параметров - это чистая шиза. Хотя я спрашивал её про Пушкина и не просил её писать программы, но например, она просто зациклилась на этапе ответа и стала греть воздух видеокартой, ответа я не дождался вовсе. Так что даже не буду проверять, умеет ли она программировать.
С загрузкой файлов в WebUI тоже пока не всё гладко. Она смогла прочитать приложенный файл, однако дальше всё пошло не очень хорошо, при следующем запросе вывалилось немного мусорного текста уже на английском, и дальше она забыла про приложенный файл (хотя в контекст всё должно было поместиться). В общем, WebUI, пока не вызвал восторга качеством, хотя фич в нём вроде много.
Потерял ссылку, но похоже, что вот отсюда:
https://huggingface.co/unsloth/Qwen2.5- ... -Q8_0.gguf
или отсюда???
https://huggingface.co/unsloth/Qwen2.5- ... -Q8_0.gguf
Если повезёт, то в истории сохранился URL и его надо точно установить, ну или может быть в самой модели что-то написано. (уточнил, команда такая: wget https://huggingface.co/unsloth/Qwen2.5- ... nload=true)
- якобы он поместится и всё ещё подходит для тонкой настройки (квантование, вообще говоря, приводит к проблемам с обучаемостью).Также сделал ollama сервисом (ссылка выше) и запустил OpenWebUI по инструкции. Но работает он странно, и кстати модель 7 миллиардами параметров - это чистая шиза. Хотя я спрашивал её про Пушкина и не просил её писать программы, но например, она просто зациклилась на этапе ответа и стала греть воздух видеокартой, ответа я не дождался вовсе. Так что даже не буду проверять, умеет ли она программировать.
С загрузкой файлов в WebUI тоже пока не всё гладко. Она смогла прочитать приложенный файл, однако дальше всё пошло не очень хорошо, при следующем запросе вывалилось немного мусорного текста уже на английском, и дальше она забыла про приложенный файл (хотя в контекст всё должно было поместиться). В общем, WebUI, пока не вызвал восторга качеством, хотя фич в нём вроде много.
Последний раз редактировалось БудДен 13.04.25 22:05, всего редактировалось 2 раза.
Re: QWen тонкая настройка с unsloth
Пришёл к выводу, что информации о том, как развернуть модель, попросту нет, и много текстов представляют из себя рекламную замануху. На этом пока закончим с unsloth.
Re: QWen тонкая настройка с unsloth
Поскольку Ollama является обёрткой над llama.cpp и она упала. Кроме того, она ещё и модифицирует файлы gguf, и они становятся недоступны непосредственно, а в её репозитории есть далеко не всё, например, нет gated моделей, таких, как https://huggingface.co/google/gemma-3-27b-it
Выкидываем её из цепочки. На данный момент запускаю llama.cpp, которую собрал так:
А запускаю так:
Далее по инструкции можно к нему подключиться через open-webui, который поставил через venv и pip
(open-webui-venv) user@host:~$ open-webui serve
Выкидываем её из цепочки. На данный момент запускаю llama.cpp, которую собрал так:
Код: Выделить всё
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
Код: Выделить всё
/s/qwq/llama.cpp/build/bin/llama-server -m /s/qwq/qwen2.5-coder-32b-instruct-q8_0.gguf --port 10000 --ctx-size 8192 --n-gpu-layers 146
(open-webui-venv) user@host:~$ open-webui serve