mPLUG
/

mPLUG-Owl3-7B-240728

@@ -142,7 +142,6 @@ class mPLUGOwl3Model(mPLUGOwl3PreTrainedModel):
         media_offset=None,
         attention_mask=None,
         tokenizer=None,
-        return_vision_hidden_states=False,
         stream=False,
         decode_text=False,
         **kwargs
@@ -156,9 +155,6 @@ class mPLUGOwl3Model(mPLUGOwl3PreTrainedModel):
                 result = self._decode_stream(input_ids=input_ids, image_embeds=image_embeds, media_offset=media_offset, tokenizer=tokenizer, **kwargs)
             else:
                 result = self._decode(input_ids=input_ids, image_embeds=image_embeds, media_offset=media_offset, tokenizer=tokenizer, attention_mask=attention_mask, decode_text=decode_text, **kwargs)
-        if return_vision_hidden_states:
-            return result, image_embeds
         return result
@@ -166,10 +162,9 @@ class mPLUGOwl3Model(mPLUGOwl3PreTrainedModel):
         self,
         images,
         videos,
-        msgs,
         tokenizer,
         processor=None,
-        vision_hidden_states=None,
         max_new_tokens=2048,
         min_new_tokens=0,
         sampling=True,
@@ -180,21 +175,23 @@ class mPLUGOwl3Model(mPLUGOwl3PreTrainedModel):
         use_image_id=None,
         **kwargs
     ):
-        print(msgs)
         if processor is None:
             if self.processor is None:
-                self.processor = AutoProcessor.from_pretrained(self.config._name_or_path, trust_remote_code=True)
-            processor = self.processor
-        inputs = processor(
-            prompts_lists,
-            input_images_lists,
-            max_slice_nums=max_slice_nums,
-            use_image_id=use_image_id,
-            return_tensors="pt",
-            max_length=max_inp_length
-        ).to(self.device)
         if sampling:
             generation_config = {
@@ -202,12 +199,12 @@ class mPLUGOwl3Model(mPLUGOwl3PreTrainedModel):
                 "top_k": 100,
                 "temperature": 0.7,
                 "do_sample": True,
-                "repetition_penalty": 1.05
             }
         else:
             generation_config = {
                 "num_beams": 3,
-                "repetition_penalty": 1.2,
             }
         if min_new_tokens > 0:
@@ -216,14 +213,10 @@ class mPLUGOwl3Model(mPLUGOwl3PreTrainedModel):
         generation_config.update(
             (k, kwargs[k]) for k in generation_config.keys() & kwargs.keys()
         )
-        inputs.pop("image_sizes")
         with torch.inference_mode():
             res = self.generate(
                 **inputs,
-                tokenizer=tokenizer,
-                max_new_tokens=max_new_tokens,
-                vision_hidden_states=vision_hidden_states,
                 stream=stream,
                 decode_text=True,
                 **generation_config
@@ -238,9 +231,5 @@ class mPLUGOwl3Model(mPLUGOwl3PreTrainedModel):
             return stream_gen()
         else:
-            if batched:
-                answer = res
-            else:
-                answer = res[0]
             return answer

         media_offset=None,
         attention_mask=None,
         tokenizer=None,
         stream=False,
         decode_text=False,
         **kwargs
                 result = self._decode_stream(input_ids=input_ids, image_embeds=image_embeds, media_offset=media_offset, tokenizer=tokenizer, **kwargs)
             else:
                 result = self._decode(input_ids=input_ids, image_embeds=image_embeds, media_offset=media_offset, tokenizer=tokenizer, attention_mask=attention_mask, decode_text=decode_text, **kwargs)
         return result
         self,
         images,
         videos,
+        messages,
         tokenizer,
         processor=None,
         max_new_tokens=2048,
         min_new_tokens=0,
         sampling=True,
         use_image_id=None,
         **kwargs
     ):
+        print(messages)
+        if len(images)>1:
+            cut_flag=False
+        else:
+            cut_flag=True
         if processor is None:
             if self.processor is None:
+                processor = self.init_processor(tokenizer)
+            else:
+                processor = self.processor
+        inputs = processor(messages, images=images, videos=videos, cut_enable=cut_flag)
+        inputs.to('cuda')
+        inputs.update({
+            'tokenizer': tokenizer,
+            'max_new_tokens': max_new_tokens,
+            # 'stream':True,
+        })
         if sampling:
             generation_config = {
                 "top_k": 100,
                 "temperature": 0.7,
                 "do_sample": True,
+                # "repetition_penalty": 1.05
             }
         else:
             generation_config = {
                 "num_beams": 3,
+                # "repetition_penalty": 1.2,
             }
         if min_new_tokens > 0:
         generation_config.update(
             (k, kwargs[k]) for k in generation_config.keys() & kwargs.keys()
         )
+        print(inputs)
         with torch.inference_mode():
             res = self.generate(
                 **inputs,
                 stream=stream,
                 decode_text=True,
                 **generation_config
             return stream_gen()
         else:
+            answer = res[0]
             return answer