実際に動かしてみて個人的におすすめのモデルとSNSなどで評判の良いモデルなどを適当に載せています。(順番がぐちゃぐちゃ...)
主要なモデルに関してはローカルLLM のリリース年表@npaka様や、awesome-japanese-llm@llm-jp様でもまとめられています。
とても参考になるので一度ご覧になることをおすすめします。
ページの内容が古かったり誤った情報が載っているかもなので気をつけて下さい。
ページの編集途中です。
New nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B / NVIDIA-Nemotron-3-Super-120B-A12B (MoE 30BA3B, 120BA12B)
GLM-4.6よりRP性能は良い感じ, ← NSFWなRPだとGLM-4.6の方が良いかも, ただ、mistralai/Mistral-Large-3-675B-Instruct-2512 (MoE / 675BA41B)の方が個人的には好みかな(パラ数全然違うから比べるのも酷だけど),ただ、直接的な単語が出にくい感じ(プロンプトで改善する?), ←改善したっぽい(温度を0.2から0.5程度に下げたら良い感じ), GLM-4.6よりRP性能良いね,思考させた方が出力文の品質は良い(ただし少し時間かかるけど),
Mistralらしく(ほぼ)検閲もなくRP性能も良い,Ollama + Open Webuiで画像認識を試して見たがGemma3(27B)より視力が良い(?)※Ollama.comのmistral-small3.1を使用
STではsleepdeprived3/Mistral-V7-Tekken-T5-XMLのテンプレートを使ってみたがQ6_KでVRAM24GBに収まるモデルの中ではかなり良い
→温度などのプリセットもMistral-V7-Tekken-T5-XMLに同封されている物にしたらだいぶ良くなった,Mistral-Small-3.1-24Bと比較するとそっち系の具体的な単語などが出やすい感じ,なお、そっち方面の視力は3.1の方が体感的には良い こっち(3.2)の方が視力も良かった
どちらもRAGに対応,10言語対応の多言語モデル,コンテキスト長は128K(128,000)をサポートする,本来は一般的な用途向けのモデルだがいける
ナーフされたとは聞かないがソッチ系が良くなったともあまり聞かない
一般的な用途なら上記のc4ai-command-rよりこっちが良いのかな?
主要なモデルに関してはローカルLLM のリリース年表@npaka様や、awesome-japanese-llm@llm-jp様でもまとめられています。
とても参考になるので一度ご覧になることをおすすめします。
ページの内容が古かったり誤った情報が載っているかもなので気をつけて下さい。
ページの編集途中です。
基本的には、よほど大型のモデルでない限りVRAMに収まればチャットとして実用的な速度で動く
なお、MoEモデルだとVRAMから溢れたり、CPU/メインメモリのみでもそれなりに速度が出る
なお、MoEモデルだとVRAMから溢れたり、CPU/メインメモリのみでもそれなりに速度が出る
- 7Bから8Bクラス Q4に量子化したモデルでVRAM8GBに収まる,CPU/メインメモリのみでもチャットとして実用的な速度で動く
- 12Bから14Bクラス Q4に量子化したモデルでVRAM12GBに収まる,CPU/メインメモリのみでもチャットとしてまあ実用的な速度で動く
- 24Bから32Bクラス Q4に量子化したモデルでVRAM24GBに(ギリギリ)収まる,CPU/メインメモリのみではチャットとしては速度的にちょっと厳しい
- 70Bクラスかそれ以上 70BのQ4に量子化したモデルならVRAM24GBのGPU2枚刺しでギリギリ収まるけど、それ以上の123Bとかだとキツい,CPU/メインメモリのみではチャットとしては速度的に非常に厳しい
| 7Bから8Bクラス | 12Bから14Bクラス | 24Bから32Bクラス | 70Bクラスかそれ以上 | |
| 一般向け | mistralai/Ministral-8B-Instruct-2410 (8B), Qwen3.5 (9B), shisa-ai/shisa-v2-qwen2.5-7b (7B) | microsoft/phi-4 (14B), microsoft/Phi-4-reasoning (14B), Google/Gemma 3(12B), Mistral-Nemo-Japanese-Instruct-2408 (12B), Mistral-Nemo-2407 (12B), Qwen3(14B) | Gemma 3 (27B), Qwen3.5 35BA3B, Qwen3.5 (27B), mistralai/Mistral-Small-3.2-24B-Instruct-2506 (24B) | mistralai/Mistral-Large-Instruct-2411 (123B) , Qwen/Qwen3-235B-A22B-Instruct-2507(MoE 235BA22B), zai-org/GLM-4.5-Air (MoE 106BA12B), zai-org/GLM-4.7 (MoE 358BA32B) |
| NSFW | Local-Novel-LLM-project/Vecteus-v1, Umievo-itr012-Gleipnir-7B, Berghof-NSFW-7B | NeverSleep/Lumimaid-v0.2-12B (12B), magnum-v4(12B), Undi95/Lumimaid-Magnum-v4-12B (12B), mistralai/Ministral-3-14B-Instruct-2512(14B) | mistralai/Mistral-Small-3.2-24B-Instruct-2506 (24B), llmfan46/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-heretic (27B), Aratako/MistralPrism-24B (24B) | Aratako/Amaterasu-123B (123B), anthracite-org/magnum-v4(123B), Lumimaid-v0.2-123B (123B) , stepfun-ai/Step-3.5-Flash (MoE 196BA11B), zai-org/GLM-4.7 (MoE 358BA32B), Doctor-Shotgun/ML2-123B-Magnum-Diamond (123B), mistralai/Mistral-Large-3-675B-Instruct-2512 (MoE / 675BA41B) |
- 個人的におすすめな言語モデル一覧
- 一般向け
- microsoft/Phi-4-mini-instruct (3.8B)
- microsoft/phi-4 (14B)
- microsoft/Phi-4-reasoning (14B)
- microsoft/Phi-4-reasoning-plus (14B)
- microsoft/Phi-4-multimodal-instruct (5.6B)
- shisa-ai/shisa-v2-qwen2.5-7b (7B)
- abeja/ABEJA-QwQ32b-Reasoning-Japanese-v1.0 (32B)
- CohereForAI/c4ai-command-r7b-12-2024 (7B)
- mistralai/Ministral-8B-Instruct-2410 (8B)
- mistralai/Mistral-Small-24B-Instruct-2501 (24B)
- mistralai/Devstral-Small-2505 (24B)
- mistralai/Magistral-Small-2506 (24B)
- cyberagent/Mistral-Nemo-Japanese-Instruct-2408 (12B) ← 一般的な用途にオススメ
- meta-llama/Llama-3.2(1B, 3B, 11B, 90B, base/Instruct/Vision)
- nvidia/Llama-3.1-Nemotron-70B-Instruct (70B)
- New nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B / NVIDIA-Nemotron-3-Super-120B-A12B (MoE 30BA3B, 120BA12B)
- Qwen2.5 (0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B)
- Qwen3 (0.6B, 1.7B, 4B, 8B, 14B, 32B, / MoE 30BA3B, 235BA22B)
- Qwen3-VL (2B,4B,8B,32B, / MoE 30BA3B, 235BA22B / それぞれにInstruct版とThinking版)
- Qwen/Qwen3-Next-80B-A3B (MoE 80BA3B, Instruct版とThinking版)
- Qwen/Qwen3-30B-A3B-Instruct-2507 (MoE 30BA3B)
- New Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, / MoE 35BA3B, 122BA17B, 397BA17B) ← 一般的な用途にオススメ
- Qwen/Qwen3-30B-A3B-Thinking-2507 (MoE 30BA3B)
- rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b (32b) ← 一般的な用途にオススメ
- rinna/qwq-bakeneko-32b (32B)
- rinna/qwen2.5-bakeneko-32b-instruct-v2 (32B)
- Google/Gemma 2 (2B,9B,27B,base/it)
- Google/Gemma 3 (1B,4B,12B,27B,pt/it) ←健全な用途にオススメ
- VIDraft/Gemma-3-R1984-27B (27B) ←健全な用途にオススメ
- Llama-3.1 (8B,70B,405B,base/Instruct)
- Swallow (Llama 2ベース 7B,13B,70B,base/instruct)
- karakuri-ai/karakuri-vl-32b-instruct-2507 (32B)
- OpenGVLab/InternVL3_5 (MoE 241B-A28B)
- NSFW(にも使えるモデル)
- zai-org/GLM-4.5 (MoE 355BA32B) ←健全な用途にも
- zai-org/GLM-4.5-Air (MoE 106BA12B) ←健全な用途にも
- TheDrummer/GLM-Steam-106B-A12B-v1 (MoE 106BA12B) ←RP性能ならGLM-4.5-Airより良い
- zai-org/GLM-4.6 (MoE 355BA32B)
- zai-org/GLM-4.7 (MoE 358BA32B) ←オススメ, 健全な用途にも
- zai-org/GLM-4.7-Flash (MoE 30BA3B)
- stepfun-ai/Step-3.5-Flash (MoE 196BA11B) ←このクラスのサイズではオススメ
- Local-Novel-LLM-project/Vecteus-v1 (7B)
- umiyuki/Umievo-itr012-Gleipnir-7B (7B) ←初心者にもおすすめ
- Elizezen/Berghof-NSFW-7B (7B)
- dddump/Japanese-TextGen-MoE-TEST-2x7B-NSFW (2x7B MoE)
- Mistral-Nemo-2407 (12B)/Mistral-Large-2407 (123B) ←健全な用途にも
- mistralai/Mistral-Large-Instruct-2411 (123B) ←健全な用途にも
- Aratako/Amaterasu-123B (123B) ←ネットで評判が良い
- ascktgcc/Mistral-nemo-ja-rp-v0.2 (12B)
- NeverSleep/Lumimaid-v0.2-12B (12B)/ Lumimaid-v0.2-123B (123B) ←
最近のお気に入り - anthracite-org/magnum-v2-12b (12B) / anthracite-org/magnum-v2-123b (123B)
- anthracite-org/magnum-v2.5-12b-kto(12B)
- anthracite-org/magnum-v4 (9B, 12B, 22B, 27B, 72B, 123B) ←評判が良い
- ArliAI/Mistral-Nemo-12B-ArliAI-RPMax-v1.2 (12B)
- MarinaraSpaghetti/NemoMix-Unleashed-12B (12B)
- mistralai/Mistral-Small-Instruct-2409 (22B)
- mistralai/Mistral-Small-3.1-24B-Instruct-2503 (24B)
- mistralai/Mistral-Small-3.2-24B-Instruct-2506 (24B)
- mistralai/Devstral-2-123B-Instruct-2512 (123B) ←結構良い
- mistralai/Mistral-Large-3-675B-Instruct-2512 (MoE / 675BA41B) ←動かせられるならDeepSeek3.2より良い(好み) オススメ
- mistralai/Ministral 3 (3B, 8B, 14B, それぞれにInstruct版とReasoning(思考)版) ←VRAM12GBなら14BのInstruct版がオススメ
- Doctor-Shotgun/MS3.2-24B-Magnum-Diamond (24B) ←オススメ
- Doctor-Shotgun/ML2-123B-Magnum-Diamond (123B) ←動かせられるならオススメ
- Aratako/MistralPrism-24B (24B)
- shisa-ai/shisa-v2-mistral-small-24b (24B)
- shisa-ai/shisa-v2-qwen2.5-32b (32B)
- Qwen/Qwen2.5-VL-32B-Instruct (32B)
- Qwen/Qwen3-235B-A22B-Instruct-2507 (235B,アクティブ22B) ←健全な用途にも
- New llmfan46/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-heretic (27B) ←最近のお気に入り
- Undi95/Lumimaid-Magnum-12B (12B)
- Undi95/Lumimaid-Magnum-v4-12B (12B) ←おすすめ
- schnapper79/lumikabra-123B_v0.4 (123B)
- TheDrummer/UnslopNemo-12B-v3-GGUF (12B)
- TheDrummer/Cydonia-24B-v2 (24B)
- TheDrummer/Cydonia-24B-v3 (24B)
- TheDrummer/Cydonia-24B-v4 (24B)
- TheDrummer/Cydonia-24B-v4.1 (24B)
- TheDrummer/Skyfall-36B-v2 (32B)
- Gryphe/Pantheon-RP-1.8-24b-Small-3.1 (24B)
- CohereForAI/c4ai-command-r-v01 (35B) / c4ai-command-r-plus (104B)
- CohereForAI/c4ai-command-r-08-2024 (35B) / CohereForAI/c4ai-command-r-plus-08-2024 (104B)
- CohereForAI/c4ai-command-a-03-2025 (111B)
- CohereLabs/command-a-reasoning-08-2025 (111B)
- CohereLabs/command-a-translate-08-2025 (111B)
- huihui-ai/aya-expanse-32b-abliterated (32B)
- karakuri-ai/karakuri-lm-70b (70B,base/chat)
- 一般向け
- あまり触っていないから評価出来ないけど日本語対応ローカルモデル
Microsoft製の言語モデル,128kのコンテキストをサポート,日本語を含む多言語対応,3.8Bのわりに賢いモデル
- microsoft/phi-4 (GGUF版 unsloth/phi-4-GGUF)
Microsoft製の言語モデル,phi-4シリーズの思考モデル版,教師ありファインチューニング(SFT)で訓練されたらしい,時間とのトレードオフになるがmicrosoft/phi-4より賢く感じるのは思考モデル故か
Microsoft製の言語モデル,phi-4シリーズの思考モデル版,上記のモデルと違いは教師ありファインチューニング(SFT)に加えて強化学習(RL)で訓練されたらしい,数学的問題が得意との事,数学以外のタスクでは上記のモデルの方が体感的にはいい感じ
Microsoft製の言語モデル,128kのコンテキストとマルチモーダル(音声、画像)をサポート,日本語を含む多言語対応,
Qwen2.5-32B-Instructがベースの思考モデル,32Bとパラメータの多さもあって割と賢い,ただしソッチの用途には向かない(健全な一般用途向け)
CohereForAIのc4ai-command-r系の小型(7B)モデル,RAGをサポート
NSFWに寛容(?)なmistralai社の8Bの言語モデルだがパラメータ数の問題か量子化の影響なのか、日本語でそっち向けの出力の品質は低い(?)のでそういった用途にはあまり向かないので一般向け
Mistral社の24Bの言語モデル,日本語でそっち向けの出力の品質は低い(?)のでそういった用途にはあまり向かないので一般向け,派生型に期待したい
Mistral AIとAll Hands AIの共同開発によって開発されたソフトウェアエンジニアリングタスク向けのモデル,Mistral-Small-3.1をベースとしている
Mistral-Small-3.1をベースにした思考モデル,STでRPを試してみたがベースのMistral-Small-3.1より表現の幅は間違いなく広がってるものの量子化の影響か設定が悪いのか出力文の品質が悪い(英単語が混じったり*地の文* 「セリフ」 *地の文*のフォーマットを守らなかったり),元のMistral-Small-3.1の方が単調気味だが品質は良かった
- cyberagent/Mistral-Nemo-Japanese-Instruct-2408 (GGUF版mmnga/cyberagent-Mistral-Nemo-Japanese-Instruct-2408-gguf)
Meta製モデル,1Bと3Bはスマホなど向けらしい,11Bと90BはVisionモデル(画像を読み込ませて解説させたりできるやつ)
- nvidia/Llama-3.1-Nemotron-70B-Instruct
- nvidia/Llama-3.1-Nemotron-70B-Instruct-HF(GGUF版bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF
New nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B / NVIDIA-Nemotron-3-Super-120B-A12B (MoE 30BA3B, 120BA12B) 
GGUF版
ガイド
一般的な用途なら良い(?)が応答拒否こそされないものの学習データに入ってないのかNSFWな用途には向かない(あっさりしていて状況理解力もよくない)
ベンチマークによると7B以下は他のモデルに対して優位性はあまりないが72Bモデルは性能が良いらしい
単一モデルで思考モードと非思考モードを切り替えられる(プロンプトの末尾に/thinkと/no_thinkを記載することで切り替え可能),119の言語と方言をサポート,MCPのサポートも強化されているらしい,30BA3Bと235BA22BはMoEモデル,
RP性能も謳っているがOllama経由のSillyTavernではチャットテンプレートがおかしいような挙動をして上手く動かせない... 大葉経由のSillyTavernで行けた,32BモデルはRP性能も結構良い,ただ思考は無効化した方がRP性能は良いかも?NSFWなRPとしては直接的な単語が出にくいなど惜しい点も,
RP性能も謳っている
Alibaba社のQwenシリーズの視覚言語モデル(画像認識対応モデル),2B,4B,8B,32BがDense(密な)モデル,30BA3B,235BA22BがMoEモデル,それぞれにInstruct版とThinking版が提供されている,
8B以下のモデルで一般的なタスクではThinking(思考)版の方が良いかと思われる,
NanoGPTのAPIからSTで235BA22BのInstruct版とThinking版を軽く試してみたがRP性能はVLの付いていない以前のQwen3モデルとあまり変わらない感じ,ローカルで動かすならGLM-4.6の量子化の方が好みかなぁ
画像認識についてはローカルで30BA3B(Instruct版)のQ4_K_Mで検証してみたが一般的な画像なら視力はかなり良い,NSFWな画像だと拒否されるのでabliterated版のInstruct版とThinking版をそれぞれ試してみたが性器などを認識している(?)ものの具体的な単語が出にくい感じ(プロンプトで改善するかも? プロンプトで改善した,ちゃんと外性器などを認識しているようだ)
Qwen3-VL-235B-A22B-InstructのIQ3_XXSでも画像認識を試してみたがQwenシリーズは大きなパラのモデルのほうが軽い脱獄文でイケる傾向があるみたい(逆にパラが小さいモデルは検閲がキツイ傾向)で、abliterated版でなくてもNSFWな画像の解説がちゃんとできた
8B以下のモデルで一般的なタスクではThinking(思考)版の方が良いかと思われる,
NanoGPTのAPIからSTで235BA22BのInstruct版とThinking版を軽く試してみたがRP性能はVLの付いていない以前のQwen3モデルとあまり変わらない感じ,ローカルで動かすならGLM-4.6の量子化の方が好みかなぁ
画像認識についてはローカルで30BA3B(Instruct版)のQ4_K_Mで検証してみたが一般的な画像なら視力はかなり良い,NSFWな画像だと拒否されるのでabliterated版のInstruct版とThinking版をそれぞれ試してみたが性器などを認識している(?)ものの具体的な単語が出にくい感じ(
Qwen3-VL-235B-A22B-InstructのIQ3_XXSでも画像認識を試してみたがQwenシリーズは大きなパラのモデルのほうが軽い脱獄文でイケる傾向があるみたい(逆にパラが小さいモデルは検閲がキツイ傾向)で、abliterated版でなくてもNSFWな画像の解説がちゃんとできた
- Qwen3-Next-80B-A3B-Instruct (GGUF版 unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF)
- Qwen/Qwen3-Next-80B-A3B-Thinking (GGUF版 unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF)
Qwen3シリーズの30B(アクティブパラメータ3B)のMoEモデル,上記の30BA3Bは思考モード、非思考モードを切り替えれたが、このモデルは非思考モードのみ,Ollama.comの量子化モデルをOllama経由のSTで試してみたがあまりよくない,健全な用途なら良いかも?,→YouTube動画の字幕を読み込ませて要約させたり解説させたりする分には早くて実用的
ガイド
画像認識対応,思考と非思考を切り替えられる,397BA17B(思考)は結構そっち方面も良いものの、122BA17Bからそれ以下のモデルはあまりよくない,一般的なタスクならもちろん問題ない,画像生成のプロンプトを作ってもらいたいなら拒否解除版を使ってみると良いかも?
上記モデルの思考モードのみのモデル,STで試したがあまりよくない,派生型モデルに期待,YouTube動画の要約や解説程度なら上記のQwen3-30B-A3B-Instruct-2507(非思考版)で十分そう
- rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b(GGUF版rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf)
RPチャットで比較した場合、上記のrinna/deepseek-r1-distill-qwen2.5-bakeneko-32bより劣る感じ,思考モデルにありがちなぶっ飛んだ発想してくる(良く言えばプロンプトに忠実)
非思考モデルだがJMT-Benchで思考モデルと同等とのこと,確かに賢いが同サイズの"rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b"の方がさらに賢く感じる
Google製のモデル,baseとitでは基本的にitの方を使えば問題ない
2Bモデルはモデルサイズの割に高性能だと評判になった
ただし、いずれのモデルも健全な用途に最適化されている😢
2Bモデルはモデルサイズの割に高性能だと評判になった
ただし、いずれのモデルも健全な用途に最適化されている😢
Google製のモデル,pt(Pre-trained)とitではitの方を使えば良い
1Bモデル以外は画像、動画をサポートする(マルチモーダル),128kコンテキスト(1Bは32k)、140の言語に対応
27BモデルはベンチマークにてDeepseek V3、o3-miniに勝っているらしい
12BモデルをOllama + OpenWebUI環境でテストしてみたがYouTubeの自動生成字幕データを読み込ませて動画の内容を解説させてみたり画像を読み込ませて解説させてみたが実用的
※センシティブな画像の解説は拒否された😢 OpenWebUIで拒否された応答を"了解しました。"とかに書き換えて続きの応答で一応解説させられた!でもアッサリ...
1Bモデル以外は画像、動画をサポートする(マルチモーダル),128kコンテキスト(1Bは32k)、140の言語に対応
27BモデルはベンチマークにてDeepseek V3、o3-miniに勝っているらしい
12BモデルをOllama + OpenWebUI環境でテストしてみたがYouTubeの自動生成字幕データを読み込ませて動画の内容を解説させてみたり画像を読み込ませて解説させてみたが実用的
※センシティブな画像の解説は拒否された😢 OpenWebUIで拒否された応答を"了解しました。"とかに書き換えて続きの応答で一応解説させられた!でもアッサリ...
上記のGemma 3をベースとしたRAG、マルチモーダル対応、無検閲を謳うモデル,RPを試して見たが賢いものの表現があっさり気味なのはGemma3ベースゆえか,一般的な用途としてはオススメできる
Swallow-13B:
Swallow-13B-Instruct:
Swallow-13B-Instruct:
- TheBloke/Swallow-13B-Instruct-AWQ
- TheBloke/Swallow-13B-Instruct-GPTQ
- TheBloke/Swallow-13B-Instruct-GGUF
KARAKURIシリーズの視覚言語モデル(画像認識に対応した言語モデル),日本語に対応した画像認識可能なモデルとしてはかなり視力が良い,ただしそっち系の視力については検閲がキツい😢,,RP性能も何気に結構良いが、「(涙)」とか文末につけちゃう(プロンプトが悪いだけ?)
ビジョンモデル(画像認識対応)だが、ビジョンに関しては試していない,なんというか、NSFWな用途では検閲はない(?)が頭の固い(表現力が悪い)モデル,30B-A3B版も試したがそっちは量子化が悪いのかサンプラー設定の問題か中国語や韓国語混じりで一般的な用途にも使えないレベル
- zai-org/GLM-4.5 (GGUF版 unsloth/GLM-4.5-GGUF)
こちらはQ4_K_Mを試してみたが上記のGLM-4.5無印より早い代わりに若干プロンプトの理解力と表現力が落ちた感じ,/thinkタグが漏れ出る事があるは同じ,ちなみにSTでRPチャットだと上記のモデル同様、/thinkタグ内でキャラクターになりきって思考しているようだ
Cydoniaシリーズを提供している事で有名なTheDrummer氏によるGLM-4.5-AirのRP向け微調整モデル,STで試した感じだと素のGLM-4.5-AirよりRP性能がよくなっている,ただ、個人的にはGLM-4.5(無印)のIQ2_XXSの方が好みかなぁ
- zai-org/GLM-4.6 (GGUF版 unsloth/GLM-4.6-GGUF)
- zai-org/GLM-4.7 (GGUF版 unsloth/GLM-4.7-GGUF)
思考、非思考を切り替えられるMoEモデル,Nano-GPT.comのAPI経由でSTから使ってみた感想だが30BA3Bの割には頑張っているが...,温度を0.2から0.45程度に下げたらだいぶマシ,ただ、RP性能はQwen3-30B-A3B-Instruct-2507の方がまだ良い,←思考モードならまだ割と良い,ただしLMstudioからローカルでSTで試したら応答が滅茶苦茶(STのチャットテンプレートが合ってない感),淫語とか出るけどやっぱり日本語がおかしい
MoEアーキテクチャの思考モデル,Nano-GPT.comのAPI経由でSTからRPチャットを試してみたが、GLM系のモデルにありがちなワードチョイスのおかしさなども(温度を0.75程度まで下げれば)なく、比較的日本語性能高いものの表現があっさり目なのがキズ(プロンプトで改善するかも?),「Qwen3-235B-A22B-Instruct-2507 (235B,アクティブ22B)」よりは好みだが「zai-org/GLM-4.7 (MoE 358BA32B)」には少し劣る...か?
小説もチャットもイケる,プロンプトの書式がゆるい(割と適当なプロンプトでも大丈夫)ので初心者にもおすすめ
ロールプレイチャット時のキャラ設定などの理解力が良い,こちらも初心者にもおすすめ
割と評判が良い,小説もチャットもいける
- Mistral-Nemo-Base-2407(12B)
- Mistral-Nemo-Instruct-2407(12B)
- Mistralai/Mistral-Large-Instruct-2407(123B) GGUF版
Mistralai製の123Bモデル,多言語対応,128kのコンテキストとRAGサポート,
mistralai/Mistral-Large-Instruct-2411をベースに日英混合のロールプレイや小説執筆タスクのデータセットでファインチューニングしたモデルとの事,残念なことに筆者は動かせていないが動かす事のできる環境がある方はぜひ動かしてみてほしい
Mistral-NemoをベースにEPR向けに微調整したモデル,"temperature"の値を0.3ぐらいにするといい感じ
- NeverSleep/Lumimaid-v0.2-12B(GGUF版 NeverSleep/Lumimaid-v0.2-12B-GGUF)
- NeverSleep/Lumimaid-v0.2-123B(GGUF版 bartowski/Lumimaid-v0.2-123B-GGUF)
- anthracite-org/magnum-v2-12b(GGUF版 anthracite-org/magnum-v2-12b-gguf)
- anthracite-org/magnum-v2-123b(GGUF版 anthracite-org/magnum-v2-123b-gguf)
- anthracite-org/magnum-v2.5-12b-kto(GGUF版 anthracite-org/magnum-v2.5-12b-kto-gguf) (exl2版 anthracite-org/magnum-v2.5-12b-kto-exl2)
9b (gemma-2), 12b (Mistral-Nemo-Instruct-2407), 22b (Mistral-Small-Instruct-2409), 27b (gemma-2), 72b (qwen-2.5), 123b (mistralai/Mistral-Large-Instruct-2407)をそれぞれベースとしている
Mistralをベースとしている12B, 22B, 123Bのモデルはベースモデル自体がが無検閲なため期待できる
→ 12Bと22BのGGUFを軽くテストしてみたが12Bが問題無いのに対し、22Bは出力が不安定?
Mistralをベースとしている12B, 22B, 123Bのモデルはベースモデル自体がが無検閲なため期待できる
→ 12Bと22BのGGUFを軽くテストしてみたが12Bが問題無いのに対し、22Bは出力が不安定?
Mistral-Nemo-12BをベースとしてRPに特化するように微調整されたモデル,ベースモデルと比べると日本語出力の品質は少し下がってる感じがあるがキャラ設定などのプロンプトの理解力は12Bとしては高く感じる
Mistral派生モデルなどをマージしたモデル,どちらかと言えば小説向け(?),推奨Parametersの値をモデルカードから確認、設定すること,
Mistral製の22Bモデル,量子化モデルが悪いのか、同じようなテキストの繰り返しが多い ←量子化モデルが悪かっただけみたい。上記の量子化モデルにしたら繰り返しは改善した
- mistralai/Mistral-Small-3.1-24B-Instruct-2503 (GGUF版lmstudio-community/Mistral-Small-3.1-24B-Instruct-2503-GGUF
Mistralらしく(ほぼ)検閲もなくRP性能も良い,Ollama + Open Webuiで画像認識を試して見たがGemma3(27B)より視力が良い(?)※Ollama.comのmistral-small3.1を使用
STではsleepdeprived3/Mistral-V7-Tekken-T5-XMLのテンプレートを使ってみたがQ6_KでVRAM24GBに収まるモデルの中ではかなり良い
- mistralai/Mistral-Small-3.2-24B-Instruct-2506 (GGUF版 unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF
→温度などのプリセットもMistral-V7-Tekken-T5-XMLに同封されている物にしたらだいぶ良くなった,Mistral-Small-3.1-24Bと比較するとそっち系の具体的な単語などが出やすい感じ,
MistralAI社の123Bのdense(密な)モデル,Nano-GPT.comのAPI経由でSTで動かしてみたが結構良い,
ただ、クラウドで動かすなら下記のMistral-Large-3-675B-Instruct-2512の方が良いかと
ただ、クラウドで動かすなら下記のMistral-Large-3-675B-Instruct-2512の方が良いかと
- mistralai/Mistral-Large-3-675B-Instruct-2512 (GGUF版 unsloth/Mistral-Large-3-675B-Instruct-2512-GGUF)
- mistralai/Ministral-3-3B-Instruct-2512 (GGUF版 unsloth/Ministral-3-3B-Instruct-2512-GGUF)
- mistralai/Ministral-3-3B-Reasoning-2512 (GGUF版 unsloth/Ministral-3-3B-Reasoning-2512-GGUF)
- mistralai/Ministral-3-8B-Instruct-2512 (GGUF版 unsloth/Ministral-3-8B-Instruct-2512-GGUF)
- mistralai/Ministral-3-8B-Reasoning-2512 (GGUF版 unsloth/Ministral-3-8B-Reasoning-2512-GGUF)
- mistralai/Ministral-3-14B-Instruct-2512 (GGUF版 unsloth/Ministral-3-14B-Instruct-2512-GGUF)
- mistralai/Ministral-3-14B-Reasoning-2512 (GGUF版 unsloth/Ministral-3-14B-Reasoning-2512-GGUF)
Mistral-Small-3.2-24B-Instruct-2506をベースとしたモデル,ちなみに、画像認識はオミットされている,チャットテンプレートは"Mistral v7 Tekken",STで軽くテストした範囲だとベースのMistral-Small-3.2-24B-Instruct-2506の良さを引き継ぎつつ、サンプラー設定にピーキーな悪い所を改善したような印象を受ける,オススメ,動かす事ができるのならMistral-Large-Instruct-2411 (123B)ベースのDoctor-Shotgun/ML2-123B-Magnum-Diamond-GGUFも良いかも?
上記のモデルのMistral-Large-Instruct-2411 (123B)をベースにしたVer,EVO-X2(AMD Ryzen AI Max+ 395)とOCuLinkで接続したRTX3060(VRAM/12GB)で動かしてみたが結構良い,Mistral系をベースにしたNSFWなファインチューニングモデルは展開が直結気味で理解力が落ちている事が多いがそういった事もなく、オススメできる
mistralai/Mistral-Small-3.1-24B-Instruct-2503ベースのモデル,結構良い
mistral-small-24bをベースに日本語データセットなどで微調整したモデル,RP性能は良いものの応答の末尾に「続きはコチラから〜」などと出てしまう事がある(チャットテンプレートかシスプロが悪い?),暴走癖もある感じ
Qwen2.5-32B-Instructをベースとしたモデル,上記のmistral-small-24bをベースにしたshisa-v2-mistral-small-24bより暴走癖が治まっている,しかしERP性能は若干下がったかな?,ベース由来の性能の良さを引き継いでる感じ
Alibaba製言語モデルQwenシリーズの視覚言語モデル(画像認識対応モデル),日本語にも対応している,軽い脱獄文でNSFWな画像も解説してくれる,同クラスのGoogle/Gemma 3(27B)はNSFWな視力が悪い(Gemmaは学習データからNSFWなデータを除外してるっぽい?)から貴重かも,ただし、Qwen2.5-VL-7Bは同じ脱獄文が通らなかった,RP性能は正直、微妙(プロンプトが悪いかも?) ←プロンプトである程度改善した,Qwen2.5-VL-72Bについては未検証
Qwen3シリーズの235B(アクティブは22B)のMoEモデル,2507以前のQwen3-235B-A22Bと違い、非思考のみ(思考モード非対応)だがこっちの方がペンチマークは良いらしい,パラ数は大きいがMoEモデルのため128GB程度のメインメモリ(と、GPU)があればまあまあの速度で動く,2507以前のQwen3-235B-A22Bと比べるとRP性能良し,ただしセリフに「......」がよく出てくる?(←シスプロが悪かっただけみたい)
Qwen3.5-27BをベースにClaude-4.6-Opusの出力データで蒸留した(?)モデルの応答拒否を取り除いた物,表現力などは良いが量子化の影響か複雑な漢字が中国語になる癖があるがVRAM24GBで動かすなら結構良い出来のモデル,STのテンプレートはChatML,サンプリング設定は温度=1 top_k=20 top_p=.95 存在ペナルティ=1.5 その他設定は中立化で良い感じ(?), なお画像認識にも対応している
共にMistral-Nemo(12B)をベースとしているMagnum(12B)とLumimaid(12B)をマージしたモデル,日本語出力もNSFWもいける (結構良いかも?) おすすめ
LumimaidとMagnum-v4-12Bをマージしたモデル,上記のモデル同様、日本語出力もNSFWもいける,おすすめ
Magnum-v2-123B,Luminum-v0.1-123B,Tess-3-Mistral-Large-2-123Bをマージしたモデル
おそらくMistral-Nemo(12B)をベースとしているモデル,日本語出力、NSFWもできるがあまり確認できていない
Mistral Small(2501)をベースにしたモデル,VRAM16GB環境でIQ4_XSをn_ctx 32768、cache_type q4_0、tensorcores、Flash_attnを有効にして試した感じだと結構良い(元となったMistral SmallはNSFW方面はイマイチなので),SillyTavernのコンテキストテンプレートなどは"Mistral v7"が推奨されている
Cydoniaシリーズ,SillyTavernのテンプレートは"Mistral v7 Tekken"が推奨されている,プロンプトに忠実で表現力も良い
SillyTavernのテンプレートは"Mistral v7 Tekken"が推奨されている,
Cydoniaシリーズの最新版,SillyTavernのテンプレートは"Mistral v7 Tekken"が推奨されている,
こちらもMistral Small(2501)をベースにしたモデル,VRAM16GB環境でQ2_Kを動かしてみたが量子化の影響か少し単語の出力がおかしいような...?, Q4_K_MだとそこまでおかしくなかったがCydonia-24B-v2と比較してサイズのわりにそこまでよくないような...(Cydonia-24B-v2の方がサイズ比で優秀?),SillyTavernのコンテキストテンプレートなどは"Mistral v7"が推奨されている
Mistral-Small-3.1をベースにしたモデル,SillyTavernのテンプレートはChatMLが推奨されている,RP向けらしいが出力的には小説も行けそうな感じ
- CohereForAI/c4ai-command-r-v01(GGUF版/Q4KM)
- CohereForAI/c4ai-command-r-plus(GGUF版grapevine-AI/c4ai-command-r-plus-gguf)
どちらもRAGに対応,10言語対応の多言語モデル,コンテキスト長は128K(128,000)をサポートする,本来は一般的な用途向けのモデルだがいける
- CohereForAI/c4ai-command-r-08-2024→GGUF版lmstudio-community/c4ai-command-r-08-2024-GGUF or grapevine-AI/c4ai-command-r-08-2024-gguf
- CohereForAI/c4ai-command-r-plus-08-2024→GGUF版lmstudio-community/c4ai-command-r-plus-08-2024-GGUF or mmnga/c4ai-command-r-plus-08-2024-gguf
ナーフされたとは聞かないがソッチ系が良くなったともあまり聞かない
一般的な用途なら上記のc4ai-command-rよりこっちが良いのかな?
コンテキスト長は256kをサポートする,RAG対応,CohereForAIのモデルらしくセンシティブなチャットでも拒否はないし、Mistral系にありがちな直結気味でもない,一番の問題はデカすぎる事....
軽く試した範囲では酷い検閲などはなかったが、正直言ってこれを動かせれるマシンスペックなら他のモデル(Mistralの123Bや、GLM-4.5無印のIQ2XXSとか)の方が良いかと,単純にソッチ系の品質があまり良くない
上記のモデルよりはマシだが、他のモデルの方が良いだろうなのは同じ,(あるいはサンプラー設定が甘いだけ?)
CohereForAI/aya-expanse-32bをベースとした(ベースから規制を取り除いた)無修正版,SillyTavernで使う際はコンテキストテンプレートなどをcommand-rに設定する,ロールプレイチャットほか、ベースのaya-expanse-32bは小説にも強いとのネット評判
- karakuri-ai/karakuri-lm-70b-v0.1
- karakuri-ai/karakuri-lm-70b-chat-v0.1(GGUF版mmnga/karakuri-lm-70b-chat-v0.1-gguf)