Update vLLM docker URI in model co-hosting notebook.

vertex-mg-bot · copybara-github · commit e3320d212687 · 2025-11-24T09:14:59.000-08:00
PiperOrigin-RevId: 836250727
diff --git a/notebooks/community/model_garden/model_garden_model_cohost.ipynb b/notebooks/community/model_garden/model_garden_model_cohost.ipynb
@@ -3435,7 +3435,7 @@
       "outputs": [],
       "source": [
         "# The MG vLLM model co-hosting serving container.\n",
-        "VLLM_DOCKER_URI = \"us-docker.pkg.dev/vertex-imageplatform/vertex-model-garden/vllm-inference-restricted-ubuntu22.04-py3.12:model-garden.vllm-restricted-x86-release_20251028.02_p0\"  # @param {type:\"string\"}"
+        "VLLM_DOCKER_URI = \"us-docker.pkg.dev/vertex-ai-restricted/vertex-vision-model-garden-dockers/vllm-serve-gpu:20251028_0916_RC01\"  # @param {type:\"string\"}"
       ]
     },
     {
@@ -3506,30 +3506,6 @@
         "\n",
         "Sample command:\n",
         "\n",
-        "# Local\n",
-        "python benchmark_util_multi_model.py \\\n",
-        "  --model /path/to/modelA,/path/to/modelB \\\n",
-        "  --gpu-memory-partition 0.45,0.45 \\\n",
-        "  --total-gpus 8 \\\n",
-        "  --input-length 1200 \\\n",
-        "  --output-length 250 \\\n",
-        "  --num-prompts 200 \\\n",
-        "  --sonnet-prefix-len 49 \\\n",
-        "  --concurrencies 1 8 16 \\\n",
-        "  --max-median-ttft-ms 1000 \\\n",
-        "  --max-p99-ttft-ms 10000 \\\n",
-        "  --max-median-tpot-ms 100 \\\n",
-        "  --max-p99-tpot-ms 1000 \\\n",
-        "  --docker-uri us-docker.pkg.dev/vertex-imageplatform/vertex-model-garden/vllm-inference-restricted-ubuntu22.04-py3.12:model-garden.vllm-restricted-x86-release_20251028.02_p0 \\\n",
-        "  --server-init-timeout 300 \\\n",
-        "  --benchmark-script-path /path/to/benchmark_serving.py \\\n",
-        "  --dataset-path /path/to/sonnet.txt \\\n",
-        "  --results-output-path /path/to/benchmark_results.csv \\\n",
-        "  --server-stats-output-path /path/to/server_stats.csv \\\n",
-        "  --figure-output-dir /path/to/benchmark_figures/ \\\n",
-        "  --no-skip-concurrencies-given-latency \\\n",
-        "  --backend local\n",
-        "\n",
         "# Vertex\n",
         "# Authenticate credentials\n",
         "gcloud auth application-default login\n",
@@ -3546,7 +3522,7 @@
         "  --max-p99-ttft-ms 10000 \\\n",
         "  --max-median-tpot-ms 100 \\\n",
         "  --max-p99-tpot-ms 1000 \\\n",
-        "  --docker-uri us-docker.pkg.dev/vertex-imageplatform/vertex-model-garden/vllm-inference-restricted-ubuntu22.04-py3.12:model-garden.vllm-restricted-x86-release_20251028.02_p0 \\\n",
+        "  --docker-uri us-docker.pkg.dev/vertex-ai-restricted/vertex-vision-model-garden-dockers/vllm-serve-gpu:20251028_0916_RC01 \\\n",
         "  --server-init-timeout 300 \\\n",
         "  --benchmark-script-path /path/to/benchmark_serving.py \\\n",
         "  --dataset-path /path/to/sonnet.txt \\\n",
@@ -3683,7 +3659,7 @@
         "    \"--docker-uri\",\n",
         "    type=str,\n",
         "    default=(\n",
-        "        \"us-docker.pkg.dev/vertex-imageplatform/vertex-model-garden/vllm-inference-restricted-ubuntu22.04-py3.12:model-garden.vllm-restricted-x86-release_20251028.02_p0\",\n",
+        "        \"us-docker.pkg.dev/vertex-ai-restricted/vertex-vision-model-garden-dockers/vllm-serve-gpu:20251028_0916_RC01\",\n",
         "    ),\n",
         "    help=\"Docker image URI for the vLLM server.\",\n",
         ")\n",
@@ -5852,7 +5828,7 @@
         "HF_TOKEN = \"\"  # @param {type:\"string\"}\n",
         "\n",
         "# The MG vLLM serving container supporting model replicas.\n",
-        "VLLM_DOCKER_URI = \"us-docker.pkg.dev/vertex-imageplatform/vertex-model-garden/vllm-inference-restricted-ubuntu22.04-py3.12:model-garden.vllm-restricted-x86-release_20251028.02_p0\"  # @param {type:\"string\"}\n",
+        "VLLM_DOCKER_URI = \"us-docker.pkg.dev/vertex-ai-restricted/vertex-vision-model-garden-dockers/vllm-serve-gpu:20251028_0916_RC01\"  # @param {type:\"string\"}\n",
         "SERVER_INIT_TIMEOUT = 300  # @param {type:\"integer\"}\n",
         "\n",
         "# The total number of GPUs available on the machine.\n",