Описание заказа
Необходимо разработать консольное приложение или локальный скрипт на Python для автоматизированного извлечения данных из инженерных спецификаций (вентиляция) в формате PDF и их конвертации в Excel (.xlsx).
Особенности исходных данных:
Формат: PDF-файлы разного качества (векторные «кривые», сканы, фото чертежей).
Структура: Таблицы со спецификациями оборудования и материалов.
Сложность: Текст часто не копируется, сетка таблиц может отсутствовать или быть прерывистой.
Функциональные требования:
Распознавание (OCR): Использование библиотек с поддержкой GPU (EasyOCR, PaddleOCR или аналоги). Система должна работать локально на моей конфигурации (RTX 4080 Super, CUDA).
Извлечение данных: Сбор колонок «Наименование», «Количество» и т.п.
Инженерные расчеты:
Реализовать парсинг размеров из текста (например, «700х400», «ф315», «d=500»).
Автоматический расчет площади поверхности (кв.м) на основе типа сечения (прямоугольное/круглое) и погонных метров.
Выгрузка: Формирование корректного XLSX-файла с сохранением данных.
Технический стек (предпочтительно):
Python 3.10+
EasyOCR / PaddleOCR / PyMuPDF
Pandas / Openpyxl
Оптимизация под CUDA
Что я жду от исполнителя:
Опыт работы с извлечением данных из сложных PDF (Data Extraction).
Понимание работы с регулярными выражениями (Regex) для поиска инженерных параметров.
Готовность продемонстрировать протокол распознавания на 1-2 тестовых страницах моих документов перед началом основной работы.
Бюджет: Обсуждаем индивидуально по результатам оценки сложности.
Срок: Укажите ваш реалистичный срок на разработку MVP.