Enabled Infer CLI for VLM (quic#287)

asmigosw · shubhagr-quic · abukhoy · eplatero97 · commit a889c429ccfe · 2025-04-29T04:49:50.000-05:00
Added support for enabling VLMs via CLI. Sample command: ```bash python -m QEfficient.cloud.infer --model_name meta-llama/Llama-3.2-11B-Vision-Instruct --batch_size 1 --prompt_len 32 --ctx_len 512 --num_cores 16 --device_group [0] --prompt "Descrive the image?" --mos 1 --allocator_dealloc_delay 1 --image_url https://i.etsystatic.com/8155076/r/il/0825c2/1594869823/il_fullxfull.1594869823_5x0w.jpg ``` --------- Signed-off-by: Shubham Agrawal <quic_shubhagr@quicinc.com> Signed-off-by: Asmita Goswami <quic_asmigosw@quicinc.com> Signed-off-by: Abukhoyer Shaik <quic_abukhoye@quicinc.com> Co-authored-by: shubhagr-quic <quic_shubhagr@quicinc.com> Co-authored-by: Abukhoyer Shaik <quic_abukhoye@quicinc.com>
diff --git a/QEfficient/base/common.py b/QEfficient/base/common.py
@@ -18,7 +18,7 @@
 from transformers import AutoConfig
 
 from QEfficient.base.modeling_qeff import QEFFBaseModel
-from QEfficient.transformers.models.modeling_auto import QEFFAutoModelForCausalLM
+from QEfficient.transformers.modeling_utils import MODEL_CLASS_MAPPING
 from QEfficient.utils import login_and_download_hf_lm
 
 
diff --git a/QEfficient/transformers/modeling_utils.py b/QEfficient/transformers/modeling_utils.py
@@ -10,6 +10,8 @@
 
 import torch
 import torch.nn as nn
+import transformers.models.auto.modeling_auto as mapping
+from transformers import AutoModelForCausalLM
 from transformers.models.codegen.modeling_codegen import (
     CodeGenAttention,
     CodeGenBlock,
@@ -278,6 +280,15 @@
 }
 
 
+MODEL_CLASS_MAPPING = {
+    **{architecture: "QEFFAutoModelForCausalLM" for architecture in mapping.MODEL_FOR_CAUSAL_LM_MAPPING_NAMES.values()},
+    **{
+        architecture: "QEFFAutoModelForImageTextToText"
+        for architecture in mapping.MODEL_FOR_IMAGE_TEXT_TO_TEXT_MAPPING_NAMES.values()
+    },
+}
+
+
 def _prepare_cross_attention_mask(
     cross_attention_mask: torch.Tensor,
     num_vision_tokens: int,