⚡️ Mistral OCR – это новый высокоточный и мультимодальный API, предназначенный для
⚡️ Mistral OCR – это новый высокоточный и мультимодальный API, предназначенный для всестороннего анализа документов.
Он работает с изображениями и PDF, возвращая результат в виде упорядоченного, структурированного вывода, где текст и визуальные элементы перемежаются в соответствии с исходной структурой документа.
Согласно внутренним тестам, Mistral OCR достигает 94.89% точности, опережая Google Document AI (83.42%) и Azure OCR (89.52%).
Система способна обрабатывать 2000 страниц в минуту (в том числе на русском языке) на одном вычислительном узле, предлагая функцию "doc-as-prompt" для использования документов в качестве инструкций. Полученные данные могут быть структурированы в формат JSON. Mistral OCR доступен в Le Chat и через API на la Plateforme.
Вот колаб, в котором всё, что вам нужно для запуска:
— Вставить API в строку api_key (его можно получить бесплатно); — Загрузить файл в левую папку и заменить pdf_file = Path на имя вашего документа.
На выходы вы получите текст, изображения и таблицы — а таблицы всегда были для меня особенно сложными.
https://mistral.ai/fr/news/mistral-ocr
@ai_machinelearning_big_data
#mistral #ocr