addressed code rabbit comments

shubhammalhotra28 · shubhammalhotra28 · commit 03e2ba6d0f87 · 2026-02-27T17:37:23.000-08:00
diff --git a/sdk/runanywhere-commons/src/backends/llamacpp/llamacpp_backend.cpp b/sdk/runanywhere-commons/src/backends/llamacpp/llamacpp_backend.cpp
@@ -370,8 +370,12 @@ bool LlamaCppTextGeneration::unload_model_internal() {
 
     // Clear LoRA adapters from context before freeing
     // (adapter memory is freed automatically with the model per llama.cpp API)
+    // Best-effort during teardown: log but don't fail unload on error.
     if (context_ && !lora_adapters_.empty()) {
-        llama_set_adapters_lora(context_, nullptr, 0, nullptr);
+        int32_t rc = llama_set_adapters_lora(context_, nullptr, 0, nullptr);
+        if (rc != 0) {
+            LOGE("Failed to clear LoRA adapters during unload (error=%d)", rc);
+        }
     }
     lora_adapters_.clear();
 
@@ -927,18 +931,23 @@ bool LlamaCppTextGeneration::remove_lora_adapter(const std::string& adapter_path
         return false;
     }
 
-    // Remove from tracking and re-apply remaining adapters
-    lora_adapters_.erase(it);
-
-    // Re-apply remaining adapters (or clear if none left)
+    // Build remaining adapter list BEFORE mutating tracking state
     std::vector<llama_adapter_lora*> adapters;
     std::vector<float> scales;
-    for (auto& entry : lora_adapters_) {
-        adapters.push_back(entry.adapter);
-        scales.push_back(entry.scale);
+    for (auto iter = lora_adapters_.begin(); iter != lora_adapters_.end(); ++iter) {
+        if (iter == it) continue;
+        adapters.push_back(iter->adapter);
+        scales.push_back(iter->scale);
     }
-    llama_set_adapters_lora(context_, adapters.empty() ? nullptr : adapters.data(),
-                            adapters.size(), adapters.empty() ? nullptr : scales.data());
+
+    int32_t rc = llama_set_adapters_lora(context_, adapters.empty() ? nullptr : adapters.data(),
+                                          adapters.size(), adapters.empty() ? nullptr : scales.data());
+    if (rc != 0) {
+        LOGE("Failed to re-apply LoRA adapters after removal (error=%d)", rc);
+        return false;
+    }
+
+    lora_adapters_.erase(it);
 
     // Clear KV cache after adapter changes
     llama_memory_clear(llama_get_memory(context_), true);
@@ -955,7 +964,11 @@ void LlamaCppTextGeneration::clear_lora_adapters() {
     }
 
     if (context_) {
-        llama_set_adapters_lora(context_, nullptr, 0, nullptr);
+        int32_t rc = llama_set_adapters_lora(context_, nullptr, 0, nullptr);
+        if (rc != 0) {
+            LOGE("Failed to clear all LoRA adapters (error=%d)", rc);
+            return;
+        }
         llama_memory_clear(llama_get_memory(context_), true);
     }
 
diff --git a/sdk/runanywhere-commons/src/backends/llamacpp/rac_vlm_llamacpp.cpp b/sdk/runanywhere-commons/src/backends/llamacpp/rac_vlm_llamacpp.cpp
@@ -208,29 +208,42 @@ std::string format_vlm_prompt_with_template(llama_model* model, const std::strin
                     return formatted;
                 }
             }
-            RAC_LOG_WARNING(LOG_CAT, "llama_chat_apply_template with system failed (size=%d), trying without", size);
+            bool has_explicit_system = (system_prompt && system_prompt[0] != '\0');
+            if (has_explicit_system) {
+                RAC_LOG_WARNING(LOG_CAT, "Template with system failed (size=%d); falling back to manual to preserve explicit system prompt", size);
+            } else {
+                RAC_LOG_WARNING(LOG_CAT, "llama_chat_apply_template with system failed (size=%d), trying without", size);
+            }
+            // If the caller passed an explicit system prompt, skip user-only
+            // template to avoid silently dropping it -- go straight to manual.
+            if (has_explicit_system) {
+                goto manual_fallback;
+            }
         }
 
-        llama_chat_message messages[1];
-        messages[0].role = "user";
-        messages[0].content = user_content.c_str();
-
-        int32_t size = llama_chat_apply_template(tmpl, messages, 1, true, nullptr, 0);
-        if (size > 0) {
-            std::vector<char> buf(size + 1);
-            int32_t result = llama_chat_apply_template(tmpl, messages, 1, true, buf.data(), buf.size());
-            if (result > 0) {
-                std::string formatted(buf.data(), result);
-                RAC_LOG_DEBUG(LOG_CAT, "Template-formatted prompt (%d chars): %s",
-                              (int)formatted.length(), formatted.c_str());
-                return formatted;
+        {
+            llama_chat_message messages[1];
+            messages[0].role = "user";
+            messages[0].content = user_content.c_str();
+
+            int32_t size = llama_chat_apply_template(tmpl, messages, 1, true, nullptr, 0);
+            if (size > 0) {
+                std::vector<char> buf(size + 1);
+                int32_t result = llama_chat_apply_template(tmpl, messages, 1, true, buf.data(), buf.size());
+                if (result > 0) {
+                    std::string formatted(buf.data(), result);
+                    RAC_LOG_DEBUG(LOG_CAT, "Template-formatted prompt (%d chars): %s",
+                                  (int)formatted.length(), formatted.c_str());
+                    return formatted;
+                }
             }
+            RAC_LOG_WARNING(LOG_CAT, "llama_chat_apply_template failed (size=%d), falling back to manual", size);
         }
-        RAC_LOG_WARNING(LOG_CAT, "llama_chat_apply_template failed (size=%d), falling back to manual", size);
     } else {
         RAC_LOG_DEBUG(LOG_CAT, "No chat template in model, using manual formatting");
     }
 
+manual_fallback:
     // Fallback: manual chatml format (works for most models)
     std::string formatted;
     if (effective_system) {
@@ -659,9 +672,8 @@ rac_result_t rac_vlm_llamacpp_process(rac_handle_t handle, const rac_vlm_image_t
     full_prompt = format_vlm_prompt_with_template(backend->model, prompt, image_marker, has_image,
                                                   system_prompt, effective_model_type);
 
-    RAC_LOG_INFO(LOG_CAT, "[v3-process] Prompt (%d chars, img=%d, type=%d): %.200s",
-                 (int)full_prompt.length(), has_image ? 1 : 0, (int)effective_model_type,
-                 full_prompt.c_str());
+    RAC_LOG_INFO(LOG_CAT, "[v3-process] Prompt ready (chars=%d, img=%d, type=%d)",
+                 (int)full_prompt.length(), has_image ? 1 : 0, (int)effective_model_type);
 
     // Tokenize and evaluate
     if (backend->mtmd_ctx && bitmap) {
@@ -915,9 +927,8 @@ rac_result_t rac_vlm_llamacpp_process_stream(rac_handle_t handle, const rac_vlm_
     full_prompt = format_vlm_prompt_with_template(backend->model, prompt, image_marker, has_image,
                                                   system_prompt, effective_model_type);
 
-    RAC_LOG_INFO(LOG_CAT, "[v3-stream] Prompt (%d chars, img=%d, type=%d): %.200s",
-                 (int)full_prompt.length(), has_image ? 1 : 0, (int)effective_model_type,
-                 full_prompt.c_str());
+    RAC_LOG_INFO(LOG_CAT, "[v3-stream] Prompt ready (chars=%d, img=%d, type=%d)",
+                 (int)full_prompt.length(), has_image ? 1 : 0, (int)effective_model_type);
 
     // Tokenize and evaluate
     if (backend->mtmd_ctx && bitmap) {
diff --git a/sdk/runanywhere-web/packages/llamacpp/src/Infrastructure/VLMWorkerRuntime.ts b/sdk/runanywhere-web/packages/llamacpp/src/Infrastructure/VLMWorkerRuntime.ts
@@ -595,8 +595,8 @@ async function processImage(
   for (let i = 0; i < optSize; i++) m.setValue(optPtr + i, 0, 'i8');
   const vo = offsets!.vlmOptions;
   m.setValue(optPtr + vo.maxTokens, maxTokens, 'i32');
-  m.setValue(optPtr + vo.temperature, temperature, 'float');
-  m.setValue(optPtr + vo.topP, topP, 'float');
+  m.setValue(optPtr + vo.temperature, Number.isFinite(temperature) ? temperature : 0.7, 'float');
+  m.setValue(optPtr + vo.topP, Number.isFinite(topP) ? topP : 0.9, 'float');
 
   let systemPromptPtr = 0;
   if (systemPrompt) {
diff --git a/sdk/runanywhere-web/packages/onnx/src/Foundation/SherpaHelperLoader.ts b/sdk/runanywhere-web/packages/onnx/src/Foundation/SherpaHelperLoader.ts
@@ -95,7 +95,8 @@ async function doLoad<T>(
 ): Promise<T> {
   // Prefer the bridge's resolved base URL (auto-derived during WASM load)
   // over import.meta.url which breaks when bundlers rewrite module paths.
-  const bridgeBase = SherpaONNXBridge.shared.helperBaseUrl;
+  const raw = SherpaONNXBridge.shared.helperBaseUrl;
+  const bridgeBase = raw ? (raw.endsWith('/') ? raw : `${raw}/`) : null;
   const url = bridgeBase
     ? `${bridgeBase}${filename}`
     : new URL(`../../wasm/sherpa/${filename}`, import.meta.url).href;
diff --git a/sdk/runanywhere-web/packages/onnx/src/ONNX.ts b/sdk/runanywhere-web/packages/onnx/src/ONNX.ts
@@ -45,7 +45,11 @@ export const ONNX = {
   async register(options?: ONNXRegisterOptions): Promise<void> {
     const bridge = SherpaONNXBridge.shared;
     if (options?.wasmUrl) bridge.wasmUrl = options.wasmUrl;
-    if (options?.helperBaseUrl) bridge.helperBaseUrl = options.helperBaseUrl;
+    if (options?.helperBaseUrl) {
+      bridge.helperBaseUrl = options.helperBaseUrl.endsWith('/')
+        ? options.helperBaseUrl
+        : `${options.helperBaseUrl}/`;
+    }
     return ONNXProvider.register();
   },