RunanywhereAI
diff --git a/‎Package.swift‎
Lines changed: 16 additions & 1 deletion b/‎Package.swift‎
Lines changed: 16 additions & 1 deletion
diff --git a/‎examples/ios/RunAnywhereAI/RunAnywhereAI.xcodeproj/project.pbxproj‎
Lines changed: 8 additions & 0 deletions b/‎examples/ios/RunAnywhereAI/RunAnywhereAI.xcodeproj/project.pbxproj‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎examples/ios/RunAnywhereAI/RunAnywhereAI/App/RunAnywhereAIApp.swift‎
Lines changed: 130 additions & 16 deletions b/‎examples/ios/RunAnywhereAI/RunAnywhereAI/App/RunAnywhereAIApp.swift‎
Lines changed: 130 additions & 16 deletions
diff --git a/‎examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Benchmarks/Models/BenchmarkTypes.swift‎
Lines changed: 2 additions & 0 deletions b/‎examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Benchmarks/Models/BenchmarkTypes.swift‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Benchmarks/Services/BenchmarkRunner.swift‎
Lines changed: 3 additions & 1 deletion b/‎examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Benchmarks/Services/BenchmarkRunner.swift‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Benchmarks/Services/LLMBenchmarkProvider.swift‎
Lines changed: 18 additions & 3 deletions b/‎examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Benchmarks/Services/LLMBenchmarkProvider.swift‎
Lines changed: 18 additions & 3 deletions
diff --git a/‎examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Benchmarks/Utilities/BenchmarkReportFormatter.swift‎
Lines changed: 7 additions & 1 deletion b/‎examples/ios/RunAnywhereAI/RunAnywhereAI/Features/Benchmarks/Utilities/BenchmarkReportFormatter.swift‎
Lines changed: 7 additions & 1 deletion
@@ -213,7 +213,7 @@ let package = Package(
         // =================================================================
         .target(
             name: "MetalRTBackend",
-            dependencies: [],
+            dependencies: ["RABackendMetalRTBinary"],
             path: "sdk/runanywhere-swift/Sources/MetalRTRuntime/include",
             publicHeadersPath: "."
         ),
@@ -226,13 +226,19 @@ let package = Package(
             dependencies: [
                 "RunAnywhere",
                 "MetalRTBackend",
+                "RABackendMetalRTBinary",
             ],
             path: "sdk/runanywhere-swift/Sources/MetalRTRuntime",
             exclude: ["include"],
+            resources: [
+                .copy("Resources/default.metallib"),
+            ],
             linkerSettings: [
                 .linkedLibrary("c++"),
                 .linkedFramework("Accelerate"),
                 .linkedFramework("Metal"),
+                .linkedFramework("CoreGraphics"),
+                .linkedFramework("ImageIO"),
             ]
         ),
 
@@ -291,6 +297,10 @@ func binaryTargets() -> [Target] {
                 name: "RABackendONNXBinary",
                 path: "sdk/runanywhere-swift/Binaries/RABackendONNX.xcframework"
             ),
+            .binaryTarget(
+                name: "RABackendMetalRTBinary",
+                path: "sdk/runanywhere-swift/Binaries/RABackendMetalRT.xcframework"
+            ),
         ]
 
         // ONNX Runtime xcframeworks - split by platform
@@ -330,6 +340,11 @@ func binaryTargets() -> [Target] {
                 url: "https://github.com/RunanywhereAI/runanywhere-sdks/releases/download/v\(sdkVersion)/RABackendONNX-v\(sdkVersion).zip",
                 checksum: "809e2510da49f71f6d019e77bcc0a7e12e967f3b739ba0b9eea7adb77936edc0"
             ),
+            .binaryTarget(
+                name: "RABackendMetalRTBinary",
+                url: "https://github.com/RunanywhereAI/runanywhere-sdks/releases/download/v\(sdkVersion)/RABackendMetalRT-v\(sdkVersion).zip",
+                checksum: "0000000000000000000000000000000000000000000000000000000000000000"
+            ),
             .binaryTarget(
                 name: "ONNXRuntimeiOSBinary",
                 url: "https://github.com/RunanywhereAI/runanywhere-sdks/releases/download/v\(sdkVersion)/onnxruntime-ios-v\(sdkVersion).zip",
 
@@ -15,6 +15,7 @@
 		58ABEDD22ED16DA40058D033 /* RunAnywhereONNX in Frameworks */ = {isa = PBXBuildFile; productRef = 58ABEDD12ED16DA40058D033 /* RunAnywhereONNX */; };
 		58LLAMACPP12ED16DA40058D0 /* RunAnywhereLlamaCPP in Frameworks */ = {isa = PBXBuildFile; productRef = 58LLAMACPP02ED16DA40058D0 /* RunAnywhereLlamaCPP */; };
 		58WHISPERKIT1ED16DA40058D0 /* RunAnywhereWhisperKit in Frameworks */ = {isa = PBXBuildFile; productRef = 58WHISPERKIT0ED16DA40058D0 /* RunAnywhereWhisperKit */; };
+		58METALRT12ED16DA40058D0 /* RunAnywhereMetalRT in Frameworks */ = {isa = PBXBuildFile; productRef = 58METALRT02ED16DA40058D0 /* RunAnywhereMetalRT */; };
 		RACACTIVITY01ACTIVITY01RAC /* DictationActivityAttributes.swift in Sources */ = {isa = PBXBuildFile; fileRef = RACACTIVITY02ACTIVITY02RAC /* DictationActivityAttributes.swift */; };
 		RACSHARED01RACSHARED01RACS /* SharedConstants.swift in Sources */ = {isa = PBXBuildFile; fileRef = RACSHARED02RACSHARED02RACS /* SharedConstants.swift */; };
 		RACSHARED03RACSHARED03RACS /* SharedDataBridge.swift in Sources */ = {isa = PBXBuildFile; fileRef = RACSHARED04RACSHARED04RACS /* SharedDataBridge.swift */; };
@@ -169,6 +170,7 @@
 				541C59DA2E63772A00DD7839 /* RunAnywhere in Frameworks */,
 				58LLAMACPP12ED16DA40058D0 /* RunAnywhereLlamaCPP in Frameworks */,
 				58WHISPERKIT1ED16DA40058D0 /* RunAnywhereWhisperKit in Frameworks */,
+				58METALRT12ED16DA40058D0 /* RunAnywhereMetalRT in Frameworks */,
 			);
 			runOnlyForDeploymentPostprocessing = 0;
 		};
@@ -309,6 +311,7 @@
 				58ABEDD12ED16DA40058D033 /* RunAnywhereONNX */,
 				58LLAMACPP02ED16DA40058D0 /* RunAnywhereLlamaCPP */,
 				58WHISPERKIT0ED16DA40058D0 /* RunAnywhereWhisperKit */,
+				58METALRT02ED16DA40058D0 /* RunAnywhereMetalRT */,
 			);
 			productName = RunAnywhereAI;
 			productReference = 5480A1F02E2F250200337F2F /* RunAnywhereAI.app */;
@@ -1080,6 +1083,11 @@
 			package = 58E021172E52A86000B722EF /* XCLocalSwiftPackageReference "../../.." */;
 			productName = RunAnywhereWhisperKit;
 		};
+		58METALRT02ED16DA40058D0 /* RunAnywhereMetalRT */ = {
+			isa = XCSwiftPackageProductDependency;
+			package = 58E021172E52A86000B722EF /* XCLocalSwiftPackageReference "../../.." */;
+			productName = RunAnywhereMetalRT;
+		};
 /* End XCSwiftPackageProductDependency section */
 	};
 	rootObject = 5480A1E82E2F250200337F2F /* Project object */;
 
@@ -273,6 +273,26 @@ struct RunAnywhereAIApp: App {
             )
         }
 
+        // LFM2.5-1.2B-Instruct - General-purpose instruction-tuned LFM (Liquid AI)
+        if let lfm25InstructQ4URL = URL(string: "https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct-GGUF/resolve/main/LFM2.5-1.2B-Instruct-Q4_K_M.gguf") {
+            RunAnywhere.registerModel(
+                id: "lfm25-1.2b-instruct-q4_k_m",
+                name: "LiquidAI LFM2.5 1.2B Instruct Q4_K_M",
+                url: lfm25InstructQ4URL,
+                framework: .llamaCpp,
+                memoryRequirement: 900_000_000
+            )
+        }
+        if let lfm25InstructQ8URL = URL(string: "https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct-GGUF/resolve/main/LFM2.5-1.2B-Instruct-Q8_0.gguf") {
+            RunAnywhere.registerModel(
+                id: "lfm25-1.2b-instruct-q8_0",
+                name: "LiquidAI LFM2.5 1.2B Instruct Q8_0",
+                url: lfm25InstructQ8URL,
+                framework: .llamaCpp,
+                memoryRequirement: 1_400_000_000
+            )
+        }
+
         // Qwen3 models
         if let qwen3_06bURL = URL(string: "https://huggingface.co/unsloth/Qwen3-0.6B-GGUF/resolve/main/Qwen3-0.6B-Q4_K_M.gguf") {
             RunAnywhere.registerModel(
@@ -334,24 +354,118 @@ struct RunAnywhereAIApp: App {
         logger.info("✅ LLM models registered (including tool-calling optimized models)")
 
         // ============================================================================
-        // Register MetalRT LLM models (custom Metal GPU kernels, framework-hint only)
+        // Register MetalRT models (custom Metal GPU kernels, framework-hint only)
         // These models use MetalRT's safetensors format, NOT GGUF.
+        // Models are from runanywhere/ HuggingFace org, packaged as tar.gz archives.
         // ============================================================================
-        // TODO: Add MetalRT model download URLs once hosted
-        // For now, models are loaded from local paths during development.
-        // Example registration (uncomment when URLs are available):
-        //
-        // if let qwen3MetalRTURL = URL(string: "https://huggingface.co/.../Qwen3-0.6B-MLX-4bit.tar.gz") {
-        //     RunAnywhere.registerModel(
-        //         id: "qwen3-0.6b-metalrt",
-        //         name: "Qwen3 0.6B (MetalRT)",
-        //         url: qwen3MetalRTURL,
-        //         framework: .metalrt,
-        //         memoryRequirement: 400_000_000
-        //     )
-        // }
-
-        logger.info("✅ MetalRT models registered (framework-hint only)")
+        #if canImport(MetalRTRuntime)
+
+        // --- MetalRT LLM models ---
+        // All MetalRT iOS models are hosted at: huggingface.co/runanywhere/metalrt-ios
+        let metalrtBase = "https://huggingface.co/runanywhere/metalrt-ios/resolve/main"
+
+        if let url = URL(string: "\(metalrtBase)/qwen3-0.6b-metalrt.tar.gz") {
+            RunAnywhere.registerModel(
+                id: "qwen3-0.6b-metalrt",
+                name: "Qwen3 0.6B (MetalRT)",
+                url: url,
+                framework: .metalrt,
+                artifactType: .archive(.tarGz, structure: .nestedDirectory),
+                memoryRequirement: 400_000_000
+            )
+        }
+
+        if let url = URL(string: "\(metalrtBase)/qwen3-4b-metalrt.tar.gz") {
+            RunAnywhere.registerModel(
+                id: "qwen3-4b-metalrt",
+                name: "Qwen3 4B (MetalRT)",
+                url: url,
+                framework: .metalrt,
+                artifactType: .archive(.tarGz, structure: .nestedDirectory),
+                memoryRequirement: 2_500_000_000
+            )
+        }
+
+        if let url = URL(string: "\(metalrtBase)/llama3-3b-metalrt.tar.gz") {
+            RunAnywhere.registerModel(
+                id: "llama3-3b-metalrt",
+                name: "Llama 3.2 3B (MetalRT)",
+                url: url,
+                framework: .metalrt,
+                artifactType: .archive(.tarGz, structure: .nestedDirectory),
+                memoryRequirement: 1_800_000_000
+            )
+        }
+
+        if let url = URL(string: "\(metalrtBase)/lfm25-1.2b-metalrt.tar.gz") {
+            RunAnywhere.registerModel(
+                id: "lfm25-1.2b-metalrt",
+                name: "LFM 2.5 1.2B (MetalRT)",
+                url: url,
+                framework: .metalrt,
+                artifactType: .archive(.tarGz, structure: .nestedDirectory),
+                memoryRequirement: 800_000_000
+            )
+        }
+
+        // --- MetalRT STT models (Whisper) ---
+
+        if let url = URL(string: "\(metalrtBase)/whisper-tiny-metalrt.tar.gz") {
+            RunAnywhere.registerModel(
+                id: "whisper-tiny-metalrt",
+                name: "Whisper Tiny (MetalRT)",
+                url: url,
+                framework: .metalrt,
+                modality: .speechRecognition,
+                artifactType: .archive(.tarGz, structure: .nestedDirectory),
+                memoryRequirement: 35_000_000
+            )
+        }
+
+        if let url = URL(string: "\(metalrtBase)/whisper-small-metalrt.tar.gz") {
+            RunAnywhere.registerModel(
+                id: "whisper-small-metalrt",
+                name: "Whisper Small (MetalRT)",
+                url: url,
+                framework: .metalrt,
+                modality: .speechRecognition,
+                artifactType: .archive(.tarGz, structure: .nestedDirectory),
+                memoryRequirement: 100_000_000
+            )
+        }
+
+        // --- MetalRT TTS model (Kokoro) ---
+
+        if let url = URL(string: "\(metalrtBase)/kokoro-metalrt.tar.gz") {
+            RunAnywhere.registerModel(
+                id: "kokoro-metalrt",
+                name: "Kokoro TTS (MetalRT)",
+                url: url,
+                framework: .metalrt,
+                modality: .speechSynthesis,
+                artifactType: .archive(.tarGz, structure: .nestedDirectory),
+                memoryRequirement: 350_000_000
+            )
+        }
+
+        // --- MetalRT VLM model (Qwen3-VL) ---
+
+        if let url = URL(string: "\(metalrtBase)/qwen3-vl-2b-metalrt.tar.gz") {
+            RunAnywhere.registerModel(
+                id: "qwen3-vl-2b-metalrt",
+                name: "Qwen3-VL 2B (MetalRT)",
+                url: url,
+                framework: .metalrt,
+                modality: .multimodal,
+                artifactType: .archive(.tarGz, structure: .nestedDirectory),
+                memoryRequirement: 1_800_000_000
+            )
+        }
+
+        logger.info("✅ MetalRT models registered")
+        #else
+        logger.info("ℹ️ MetalRT not available (MetalRTRuntime not linked)")
+        #endif
 
         // Register VLM (Vision Language) models
         // VLM models require 2 files: main model + mmproj (vision projector)
 
@@ -123,6 +123,8 @@ struct BenchmarkMetrics: Codable, Sendable {
     // LLM-specific
     var ttftMs: Double?
     var tokensPerSecond: Double?
+    var prefillTokensPerSecond: Double?
+    var decodeTokensPerSecond: Double?
     var inputTokens: Int?
     var outputTokens: Int?
 
 
@@ -112,6 +112,7 @@ final class BenchmarkRunner {
 
     func runBenchmarks(
         categories: Set<BenchmarkCategory>,
+        modelIds: Set<String>? = nil,
         onProgress: @escaping @Sendable (BenchmarkProgressUpdate) -> Void
     ) async throws -> BenchmarkRunOutput {
         let preflight = try await preflight(categories: categories)
@@ -129,8 +130,9 @@ final class BenchmarkRunner {
         for category in BenchmarkCategory.allCases where categories.contains(category) {
             guard let provider = providers[category],
                   let models = preflight.availableCategories[category] else { continue }
+            let filteredModels = modelIds == nil ? models : models.filter { modelIds!.contains($0.id) }
             let scenarioList = provider.scenarios()
-            for model in models {
+            for model in filteredModels {
                 for scenario in scenarioList {
                     workItems.append((category, model, scenario))
                 }
 
@@ -29,6 +29,9 @@ struct LLMBenchmarkProvider: BenchmarkScenarioProvider {
 
         let memBefore = SyntheticInputGenerator.availableMemoryBytes()
 
+        // Ensure clean state: unload any model left over from Chat or a previous run
+        try? await RunAnywhere.unloadModel()
+
         // Load
         let loadStart = Date()
         try await RunAnywhere.loadModel(model.id)
@@ -45,20 +48,32 @@ struct LLMBenchmarkProvider: BenchmarkScenarioProvider {
 
             // Benchmark
             let benchStart = Date()
-            let options = LLMGenerationOptions(maxTokens: maxTokens, temperature: 0.0)
+            let systemPrompt = "You are a helpful assistant. Always give extremely detailed, thorough responses. Never stop early. Use the full response length available to you. Elaborate on every point with examples and explanations."
+            let options = LLMGenerationOptions(maxTokens: maxTokens, temperature: 0.0, systemPrompt: systemPrompt)
             let streamResult = try await RunAnywhere.generateStream(
-                "Explain the concept of machine learning in detail.",
+                "Write a very long and detailed explanation of how neural networks work, covering perceptrons, activation functions, backpropagation, gradient descent, loss functions, convolutional layers, recurrent layers, transformers, attention mechanisms, and training procedures. Be as thorough as possible.",
                 options: options
             )
             for try await _ in streamResult.stream {}
             let result = try await streamResult.result.value
 
-            metrics.endToEndLatencyMs = Date().timeIntervalSince(benchStart) * 1000
+            let e2eMs = Date().timeIntervalSince(benchStart) * 1000
+            metrics.endToEndLatencyMs = e2eMs
             metrics.ttftMs = result.timeToFirstTokenMs
             metrics.tokensPerSecond = result.tokensPerSecond
             metrics.inputTokens = result.inputTokens
             metrics.outputTokens = result.tokensUsed
 
+            if let ttft = result.timeToFirstTokenMs, ttft > 0 {
+                let decodeMs = e2eMs - ttft
+                if decodeMs > 0, result.tokensUsed > 0 {
+                    metrics.decodeTokensPerSecond = Double(result.tokensUsed) / (decodeMs / 1000.0)
+                }
+                if result.inputTokens > 0 {
+                    metrics.prefillTokensPerSecond = Double(result.inputTokens) / (ttft / 1000.0)
+                }
+            }
+
             let memAfter = SyntheticInputGenerator.availableMemoryBytes()
             metrics.memoryDeltaBytes = memBefore - memAfter
 
 
@@ -82,6 +82,8 @@ enum BenchmarkReportFormatter {
                         lines.append("- Warmup: \(String(format: "%.0f", m.warmupTimeMs))ms")
                     }
                     lines.append("- End-to-end: \(String(format: "%.0f", m.endToEndLatencyMs))ms")
+                    if let decode = m.decodeTokensPerSecond { lines.append("- Decode: \(String(format: "%.1f", decode)) tok/s") }
+                    if let prefill = m.prefillTokensPerSecond { lines.append("- Prefill: \(String(format: "%.1f", prefill)) tok/s") }
                     if let tps = m.tokensPerSecond { lines.append("- Tokens/s: \(String(format: "%.1f", tps))") }
                     if let ttft = m.ttftMs { lines.append("- TTFT: \(String(format: "%.0f", ttft))ms") }
                     if let inp = m.inputTokens { lines.append("- Input tokens: \(inp)") }
@@ -129,7 +131,7 @@ enum BenchmarkReportFormatter {
     // MARK: - File Export: CSV
 
     static func writeCSV(run: BenchmarkRun) -> URL {
-        var csv = "Category,Scenario,Model,Framework,LoadMs,WarmupMs,E2EMs,TPS,TTFT,RTF,AudioLen,AudioDur,Chars,PromptTok,CompTok,GenMs,MemDeltaBytes,Success,Error\n"
+        var csv = "Category,Scenario,Model,Framework,LoadMs,WarmupMs,E2EMs,DecodeTPS,PrefillTPS,TPS,TTFT,InTokens,OutTokens,RTF,AudioLen,AudioDur,Chars,PromptTok,CompTok,GenMs,MemDeltaBytes,Success,Error\n"
         for r in run.results {
             let m = r.metrics
             var row: [String] = []
@@ -140,8 +142,12 @@ enum BenchmarkReportFormatter {
             row.append(String(format: "%.0f", m.loadTimeMs))
             row.append(String(format: "%.0f", m.warmupTimeMs))
             row.append(String(format: "%.0f", m.endToEndLatencyMs))
+            row.append(m.decodeTokensPerSecond.map { String(format: "%.1f", $0) } ?? "")
+            row.append(m.prefillTokensPerSecond.map { String(format: "%.1f", $0) } ?? "")
             row.append(m.tokensPerSecond.map { String(format: "%.1f", $0) } ?? "")
             row.append(m.ttftMs.map { String(format: "%.0f", $0) } ?? "")
+            row.append(m.inputTokens.map { "\($0)" } ?? "")
+            row.append(m.outputTokens.map { "\($0)" } ?? "")
             row.append(m.realTimeFactor.map { String(format: "%.2f", $0) } ?? "")
             row.append(m.audioLengthSeconds.map { String(format: "%.1f", $0) } ?? "")
             row.append(m.audioDurationSeconds.map { String(format: "%.1f", $0) } ?? "")