feat(ml): add more search models (#11468)

* update export code * add uuid glob, sort model names * add new models to ml, sort names * add new models to server, sort by dims and name * typo in name * update export dependencies * onnx save function * format
2025-06-16 03:40:33 +02:00 · 2024-07-31 00:34:45 -04:00
parent 2423bb36c4
commit 41580696c7
9 changed files with 3804 additions and 2923 deletions
--- a/machine-learning/export/models/optimize.py
+++ b/machine-learning/export/models/optimize.py
@ -5,13 +5,26 @@ import onnxruntime as ort
 import onnxsim


+def save_onnx(model: onnx.ModelProto, output_path: Path | str) -> None:
+    try:
+        onnx.save(model, output_path)
+    except ValueError as e:
+        if "The proto size is larger than the 2 GB limit." in str(e):
+            onnx.save(model, output_path, save_as_external_data=True, size_threshold=1_000_000)
+        else:
+            raise e
+
+
 def optimize_onnxsim(model_path: Path | str, output_path: Path | str) -> None:
    model_path = Path(model_path)
    output_path = Path(output_path)
    model = onnx.load(model_path.as_posix())
-    model, check = onnxsim.simplify(model, skip_shape_inference=True)
+    model, check = onnxsim.simplify(model)
    assert check, "Simplified ONNX model could not be validated"
-    onnx.save(model, output_path.as_posix())
+    for file in model_path.parent.iterdir():
+        if file.name.startswith("Constant") or "onnx" in file.name or file.suffix == ".weight":
+            file.unlink()
+    save_onnx(model, output_path)


 def optimize_ort(
@ -33,6 +46,4 @@ def optimize(model_path: Path | str) -> None:
    model_path = Path(model_path)

    optimize_ort(model_path, model_path)
-    # onnxsim serializes large models as a blob, which uses much more memory when loading the model at runtime
-    if not any(file.name.startswith("Constant") for file in model_path.parent.iterdir()):
-        optimize_onnxsim(model_path, model_path)
+    optimize_onnxsim(model_path, model_path)