← Zur Doku-Startseite
Konfiguration

Modelle ueber Aliase, Tiers und Hybrid Billing steuern

In QuantenRam konfigurierst du keine rohen Upstream-Namen, sondern stabile Aliasfamilien. Genau diese Trennung macht Modellwahl alltagstauglich: Deine Clients bleiben gegenueber internen Katalogwechseln stabil, waehrend du pro Rolle, Tier und Budget bewusst entscheiden kannst, welcher Pfad fuer eine Aufgabe sinnvoll ist.

Der wichtigste Grundsatz lautet: /v1/models ist immer die oeffentliche Wahrheit fuer deinen aktuellen API-Key. Wenn ein Alias dort nicht auftaucht, ist er fuer diesen Key gerade nicht verfuegbar, egal was in alten Screenshots, Team-Chats oder lokalen Defaults steht. Jede Modellkonfiguration sollte deshalb mit einem Blick auf die reale Freigabe beginnen und nicht mit Annahmen aus der Vergangenheit.

Start fuer planbare Baseline

quantenram-start/* ist der richtige Standard fuer Routinearbeit, Zusammenfassungen, normale Planungsloops und preisbewusste Assistenz. Im Hybrid-Billing des Start-Tiers passt diese Familie besonders gut als Default, weil sie gute Alltagstauglichkeit mit planbarer Zyklusnutzung verbindet.

Coding fuer Implementierung

quantenram-coding/* ist fuer Refactoring, Tool-gestuetzte Coding-Loops und sensible Entwicklungsarbeit gedacht. Diese Lane sollte in Agentenprofilen und Commands explizit fuer Umsetzungsarbeit eingetragen werden, statt sie indirekt ueber generische Standardmodelle zu erreichen.

Zenmaster fuer hochwertige Eskalation

quantenram-zenmaster/* lohnt sich bei schwierigen Reviews, Architekturfragen und teuren Fehlentscheidungen. Gerade weil das Tier als Premium- und API-first-Pfad gedacht ist, sollte es nicht als unbewusster Default, sondern als klarer Eskalationskanal konfiguriert werden.

Die richtige Aliasfamilie konfigurieren

Ein gutes Modell-Setup trennt Standard-, Reasoning-, Coding- und Review-Arbeit schon in der Grundkonfiguration. Damit verschiebst du Qualitaets- und Kostenentscheidungen aus dem Bauchgefuehl in eine lesbare Konfigurationsdatei. In QuantenRam ist diese Trennung besonders wertvoll, weil Activity und Billing spaeter genau zeigen, ob deine Modellstrategie im echten Betrieb aufgeht.

{
  "provider": {
    "type": "openai-compatible",
    "base_url": "https://quantenram.net/v1",
    "api_key_env": "QUANTENRAM_API_KEY"
  },
  "models": {
    "default": "quantenram-start/glm-5",
    "reasoning": "quantenram-start/deepseek-reasoner",
    "coding": "quantenram-coding/qwen3codernext",
    "review": "quantenram-zenmaster/gpt-5.4"
  },
  "fallbacks": {
    "default": "quantenram-start/deepseek-chat",
    "coding": "quantenram-coding/qwen3.5-9b",
    "review": "quantenram-start/glm-5"
  }
}

Dieses Muster gibt dir eine klare Eskalationsleiter. Routine und Reasoning bleiben im Start-Tier, Implementierung laeuft ueber die Coding-Familie, und hochwertige Endabnahme wird erst auf Zenmaster gezogen, wenn der Auftrag es wirklich rechtfertigt.

Kontextfenster richtig lesen

Das Feld context_window ist keine Marketingzahl, sondern ein Arbeitsparameter. Wenn du lange Spezifikationen, grosse Diff-Kontexte oder mehrere Dateien gleichzeitig verarbeiten willst, solltest du das Kontextfenster genauso bewusst in deine Konfiguration aufnehmen wie Preis und Tier. Ein kleines, gut passendes Coding-Modell kann fuer taegliche Repo-Arbeit wertvoller sein als ein grosses Premiumfenster, das fuer jeden kleinen Schritt unnoetig teuer ist.

curl https://quantenram.net/v1/models   -H "Authorization: Bearer $QUANTENRAM_API_KEY"

Die Antwort auf diesen Aufruf ist die Grundlage fuer jede echte Modellentscheidung. Du siehst dort nicht nur den Alias, sondern auch, was dein aktueller Key wirklich nutzen darf. Wenn du lange Sessions planst, pruefe vorab, ob der ausgewaehlte Pfad das benoetigte Kontextfenster mitbringt, statt spaeter mitten im Workflow improvisieren zu muessen.

Kosten, Qualitaet und Hybrid Billing gegeneinander abwaegen

Im Start-Tier zaehlt nicht mehr bloss Request-Menge, sondern reale Nutzung innerhalb eines Hybrid-Billing-Rahmens. Darum ist quantenram-start/* als Default besonders stark: Du bekommst solide Qualitaet fuer Alltag und planst deine Nutzung gegen sichtbare Budgets statt gegen eine diffuse Premiumgewohnheit. Zenmaster dagegen ist der richtige Pfad, wenn die bessere Antwort den Mehrpreis rechtfertigt, etwa bei Architekturentscheidungen, Release-Reviews oder komplexen Risikoabwaegungen.

Auch der Zugriff selbst ist konfigurierbar und tiergebunden. Im Modellkatalog wird ueber allowed_tiers festgelegt, welche Tiers einen Alias ueberhaupt sehen und nutzen duerfen. Deshalb ist eine fehlende Freigabe fast nie ein Clientproblem, sondern meist ein Thema von Key, Tier oder Katalogzustand. Die sauberste Diagnose lautet immer: erst /v1/models, dann Smoke-Request, dann Billing- oder Tierlogik pruefen.

Die beste Modellkonfiguration in QuantenRam ist selten ein Lieblingsmodell. Meist ist sie eine Staffelung: Start als Baseline im Hybrid-Billing, Coding fuer Umsetzungsdurchsatz und Zenmaster nur fuer die wenigen Schritte, bei denen Qualitaet den Mehrpreis sichtbar rechtfertigt.