search

Разработка локального OCR-парсера для инженерных PDF (Python, CUDA, Extraction)

33 просмотров опубликовано 4 часа назад №999 от 05.04.2026
Бюджет: по договорённости
Сравнивайте предложения по цене, срокам и рейтингу исполнителей.
Войти и откликнуться

Описание заказа

Необходимо разработать консольное приложение или локальный скрипт на Python для автоматизированного извлечения данных из инженерных спецификаций (вентиляция) в формате PDF и их конвертации в Excel (.xlsx). Особенности исходных данных: Формат: PDF-файлы разного качества (векторные «кривые», сканы, фото чертежей). Структура: Таблицы со спецификациями оборудования и материалов. Сложность: Текст часто не копируется, сетка таблиц может отсутствовать или быть прерывистой. Функциональные требования: Распознавание (OCR): Использование библиотек с поддержкой GPU (EasyOCR, PaddleOCR или аналоги). Система должна работать локально на моей конфигурации (RTX 4080 Super, CUDA). Извлечение данных: Сбор колонок «Наименование», «Количество» и т.п. Инженерные расчеты: Реализовать парсинг размеров из текста (например, «700х400», «ф315», «d=500»). Автоматический расчет площади поверхности (кв.м) на основе типа сечения (прямоугольное/круглое) и погонных метров. Выгрузка: Формирование корректного XLSX-файла с сохранением данных. Технический стек (предпочтительно): Python 3.10+ EasyOCR / PaddleOCR / PyMuPDF Pandas / Openpyxl Оптимизация под CUDA Что я жду от исполнителя: Опыт работы с извлечением данных из сложных PDF (Data Extraction). Понимание работы с регулярными выражениями (Regex) для поиска инженерных параметров. Готовность продемонстрировать протокол распознавания на 1-2 тестовых страницах моих документов перед началом основной работы. Бюджет: Обсуждаем индивидуально по результатам оценки сложности. Срок: Укажите ваш реалистичный срок на разработку MVP.