Visual Models - a startupspaceai Collection

startupspaceai 's Collections

MIT License models

Visual Models

updated Sep 25, 2025

microsoft/git-base-vqav2

Visual Question Answering • 0.2B • Updated Mar 9, 2024 • 270 • 21
vidore/colqwen2.5-v0.2

Visual Document Retrieval • Updated Jun 16, 2025 • 39.7k • 98
PaddlePaddle/PP-OCRv5_server_det

Image-to-Text • Updated Jul 22, 2025 • 584k • 59
PaddlePaddle/PP-LCNet_x1_0_doc_ori

Image-to-Text • Updated Jul 22, 2025 • 356k • 11
ibm-granite/granite-docling-258M

Image-Text-to-Text • 0.3B • Updated Sep 23, 2025 • 97.4k • 1.16k
Qwen/Qwen2.5-VL-7B-Instruct

Image-Text-to-Text • 8B • Updated Apr 6, 2025 • 8.85M • • 1.51k
Runtime error

Agents

131

PaddleOCR

⚡

131

Extract text from images in multiple languages
Running

Agents

182

OCR Image To Text

📸

182

Extract text from images using OCR technology
Running

Agents

79

Mistral OCR 3

🌆

79

Try out Mistral's latest OCR with pdfs and images
meta-llama/Llama-3.2-11B-Vision-Instruct

Image-Text-to-Text • 11B • Updated Dec 4, 2024 • 120k • 1.59k