OpenAI 相容端點 · 130+ 模型 · 2026-05-10

NVIDIA API 使用指南

NVIDIA 提供 OpenAI-compatible API，可用於 LLM 推理、embedding、視覺模型等。

端點統一：https://integrate.api.nvidia.com/v1

1. 認證

API key 格式：nvapi-...

# 環境變數
export NVIDIA_API_KEY="nvapi-xxxxx"

# 或存檔案
echo "nvapi-xxxxx" > ~/.config/nvidia/api-key
chmod 600 ~/.config/nvidia/api-key

每次請求帶在 Header：

Authorization: Bearer $NVIDIA_API_KEY

2. 列出可用模型

curl -s https://integrate.api.nvidia.com/v1/models \
  -H "Authorization: Bearer $NVIDIA_API_KEY" \
  | jq '.data[].id'

回傳 130+ 個模型（含重複版本約 137 筆），分佈：

nvidia（45 個）：Nemotron 系列、embedding、safety guard、翻譯
mistralai（15 個）：Mistral Large / Small / Codestral
google（12 個）：Gemma 2/3/4、CodeGemma、DePlot
meta（11 個）：Llama 3.1/3.2/3.3/4、Llama Guard
qwen（6 個）：Qwen 3.5 系列（122b/397b）
deepseek-ai（3 個）：DeepSeek V4 Flash / Pro
moonshotai（3 個）：Kimi K2 instruct / thinking
其他：Microsoft Phi、IBM Granite、Writer Palmyra、Minimax、GLM 等

3. Chat Completions（文生文）

完全相容 OpenAI API 格式：

curl -s https://integrate.api.nvidia.com/v1/chat/completions \
  -H "Authorization: Bearer $NVIDIA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta/llama-3.3-70b-instruct",
    "messages": [
      {"role": "system", "content": "你是專業助手"},
      {"role": "user", "content": "解釋什麼是 agent flywheel"}
    ],
    "max_tokens": 500,
    "temperature": 0.3
  }'

參數說明：

|------|------|--------|

回應範例：

{
  "id": "chatcmpl-xxx",
  "model": "meta/llama-3.3-70b-instruct",
  "choices": [{
    "index": 0,
    "message": {
      "role": "assistant",
      "content": "Agent flywheel 是指..."
    },
    "finish_reason": "stop"
  }],
  "usage": {
    "prompt_tokens": 41,
    "completion_tokens": 124,
    "total_tokens": 165
  }
}

4. 注意模型輸出結構差異

不同模型的 response 結構略有不同：

一般模型（Qwen / Llama / Mistral 等）：

message.content → 答案
message.reasoning_content → 無

Kimi K2 Thinking：

message.content → 最終答案（有時為空）
message.reasoning / message.reasoning_content → 思考過程（含 <think> tag）

建議的通用解析方式：

import json

def parse_response(raw):
    d = json.loads(raw)
    msg = d['choices'][0]['message']
    content = msg.get('content') or msg.get('reasoning_content') or ''
    tokens = d['usage']['total_tokens']
    return content, tokens

5. 推薦模型速查

|------|---------|------|

6. 與其他 API 比較

|---|--------|------------|--------|

7. 實用腳本

快速測試模型：

nvidia_test() {
  local model="$1"
  local prompt="${2:-Say hello}"
  curl -s https://integrate.api.nvidia.com/v1/chat/completions \
    -H "Authorization: Bearer $(cat ~/.config/nvidia/api-key)" \
    -H "Content-Type: application/json" \
    -d "{\"model\":\"$model\",\"messages\":[{\"role\":\"user\",\"content\":\"$prompt\"}],\"max_tokens\":100}" \
    | jq -r '.choices[0].message.content // .choices[0].message.reasoning_content'
}

# 用法
nvidia_test "qwen/qwen3.5-122b-a10b" "用一句話說明什麼是 MoE"

列出可用模型（去重）：

curl -s https://integrate.api.nvidia.com/v1/models \
  -H "Authorization: Bearer $(cat ~/.config/nvidia/api-key)" \
  | jq -r '[.data[].id] | unique | .[]'

8. 限制

單檔無硬性 rate limit，但大量請求可能被限
模型名稱有重複（同 model 出現多筆），去重後約 131 個
Kimi K2 Thinking 的內容結構特殊，需特別處理
部分模型 prefill 延遲較高（500ms-1s）
不支援 function calling（部分模型有 tool_calls 欄位但未實作）

Generated by Hermes Agent M3