個人的な日本語ローカルLLM関連のメモ用Wikiです。一般の方は編集できません。

×

NanoGPTとは

NanoGPTはOpenRouterのようなLLMルーターサービスです。
DeepSeekやGLM4.7といった各種オープンウェイトモデルのほか、Sonnet、Opus、ChatGPT、Geminiなどのクローズドモデルも提供されています。
公式WebサイトからSillyTavernのキャラクターカードを読み込ませてチャットする事もできるほか、OpenAI互換APIも提供されているのでOpenWebUIやSillyTavernと接続して利用する事もできます。



料金体系

従量課金制を基本としつつ、月8ドルのサブスク(Pro)に加入することでオープンウェイトモデルが従量課金の対象から外れ、オープンウェイトモデルに限り一日あたり2,000リクエスト(1分あたり60リクエスト)まで追加料金無しで利用できます。
サブスクに加入してオープンウェイトモデルを利用する場合はトークンの量に関係なくリクエスト単位なので、一度に大量のトークンを入力しても1リクエストとして扱われます。 一週間あたり最大6000万の入力トークン制限がかかるようになりました。

サブスク対象のオープンウェイトモデルに関しては下記のURLのモデル一覧で「Subscription」が「yes」になっているモデルが対象です。
https://nano-gpt.com/pricing

そのほかサブスクに加入している場合、特典としてSonnet、Opus、ChatGPT、Geminiなどのクローズドモデルを利用する場合に料金が5%OFFされます。

登録、支払い方法やアカウント設定など


今回はGoogleアカウントでログインします。


アカウント連携、ログイン後にサイト左の「Subscription」からサブスクへ加入します。


「JCB」、「VISA」、「Mastercard」などのクレカが使えます。


サブスク加入後、アカウント設定からいろいろ変更して行きます。
Web上だけの設定かもしれませんが、「Conversation」の「Mature content」を有効にしておきます。


「Subscription」セクションの「Also show paid models」(有料モデルも表示)と、「Enable paid models on API」(APIで有料モデルを有効にする)をOFFにします。※サブスクの範囲で使用する場合のみ

SillyTavernとの接続方法


https://nano-gpt.com/api
上記のURLにアクセスしてAPIキーを作成します。


「API」を「チャット完了」に、「チャット補完ソース」を「NanoGPT」、「NanoGPT API Key」に先ほど作成したAPIキーを貼り付けて完了です。

SillyTavern自体の使い方などはSillyTavernの使い方などページをご覧ください。

SillyTavernをNanoGPTで使う際のサンプリング設定や脱獄文の記述場所、記述例など


Common Settings(AI応答の構成) / チャット完了のプリセットから、サンプリング設定や「クイックプロンプトの編集」の「メイン」に脱獄文などを記述出来ます。

脱獄文の例 (※文章生成AIでオナニー プロンプトまとめwikiや、AIツールでオナニーまとめwikiの脱獄プロンプトをお借りして一部改変しています。

OpenWebUIとの接続方法

https://nano-gpt.com/api
上記のURLにアクセスしてAPIキーを作成します。


[Ctrl] + [.]で設定画面から「管理者設定」を開き、「接続」セクションから「OpenAI API接続の管理」のプラスボタンをクリックして、APIベースURLを下記の通りに入力します。
# 通常
https://nano-gpt.com/api/v1

# サブスク対象のモデルのみ
https://nano-gpt.com/api/subscription/v1
あとはAPIキーを貼り付けて保存すれば完了です。

OpenWebUI自体の使い方などはOllama & Open WebUIの使い方などページをご覧ください。

割引コード

https://nano-gpt.com/invite/6bXtnAME
上記のURLから登録するとクローズドモデルを利用するために課金する際、料金が5%OFFされます。
※サブスク代は割引対象外なのでご注意ください。

NanoGPT ドキュメント

NanoGPTのサブスクで利用できるモデルの中で実際にSillyTavernで動かしてみてオススメのモデル

モデルによっては提供を終了しているものもあるかもしれないのでご注意ください。

zai-org/GLM-5 (MoE / 744BA40B, 通常版とthinking版) ← オススメ ★★★★☆

GLM-4.7よりロールプレイ性能上がっている,Kimi-K2.5より出力が早いものの、総合的にKimi-K2.5に少し劣る感じ(地の文が弱い)ただ、Kimi-K2.5がすぐにNSFWなシーン、描写に持っていこうとするのに対してGLM-5はそうでないのでそういう意味では優れいている(RPだけするならKimi-K2.5より良いかも),プロンプトで改善するかも?,Context長200K、デフォルトの推奨サンプリング設定はtemperature=1.0, top_p=.95,だがtemperatureは0.75前後程度まで下げても良いかと,RPチャット向き

qwen/Qwen3.5-397B-A17B (MoE / 397BA17B, 通常版とthinking版) ★★☆☆☆

通常版と思考版が提供されている,他のモデルと比べると地の文が強く、RPチャットより小説向きかも?,ただ、直結気味(プロンプトで改善するかも? →改善した),推奨サンプリング設定などはこちらを参考に → 思考版の方だが temperature=0.7 top_p=0.95 tok_k=20 min_p=0 repeat penalty=1.0 ぐらいで良いかも,GLM-5より好みかな,LLMプロバイダの問題か、思考版を使ってるのに正常に思考しない事が何回かあったのと、正常に思考しても思考が長いので注意

mistralai/Mistral-Large-3-675B-Instruct-2512 (MoE / 675BA41B) ★★★☆☆

thinkingしないモデル,出力文でユーザー側のセリフを勝手に発言したりする癖や、繰り返し癖が気になるもののサンプリング設定(温度や繰り返しペナルティなど)などでなんとか対応できるレベル,SillyTavernでRPチャットするならオススメのモデルだが時間帯によっては応答まで時間がかかる時がある(重い時がある),

「API接続」の「迅速な後処理」を「Single user message (no tools)」にしないとユーザー側のセリフを勝手に出してしまうようだ

サンプリング設定はもうちょっと詰めれそうだがこんな感じに落ち着いた

moonshotai/Kimi-K2.5 (MoE / 1T32B, 通常版とthinking版) ← オススメ ★★★★☆

Context長は256K、推奨サンプリング設定は通常版でtemperature=0.6, top_p=.95, thinking版でtemperature=1.0, top_p=.95,軽く試した範囲では通常版はあっさり目の出力だがthinking版は良い感じ,出たばかりだからか、重い(出力まで時間がかかる),時折、英単語が少し混じることもある,ストーリーをすぐに進めようとする癖がある感じも,thinking版のtemperatureは0.75程度でも良いかも?

管理人/副管理人のみ編集できます

広告募集中