Описание заказа

1. Цель Разработать систему (программу), которая автоматизирует сбор релевантной информации из открытых интернет-источников для анализа социальных, политических, экономических процессов. Данные будут использоваться в RAG-пайплайнах (Retrieval-Augmented Generation), поэтому выход должен быть структурированным и пригодным для чанкования/индексации. 2. Общие требования Только открытые источники: Без доступа по логину/паролю, обхода защиты или нарушения ToS сайтов. Мультиязычность: Поддержка минимум: русский, английский, французский, немецкий, испанский, китайский, японский, корейский, арабский, иврит, идиш (локализация поиска/экстракции). Анонимность и этичность: Задержки между запросами, ротация user-agents/proxies (если нужно), не более разумной нагрузки на источники. Входные данные: Ключевые слова/фразы, временной диапазон (от... до...), список URL (опционально), языки. Выходные данные: Структурированный JSON/CSV/NDJSON с метаданными + очищенным текстом (чанки по 500–2000 слов/токенов). Хранение локально или в указанной БД. 3. Основные задачи (User Stories) Задача 1: Сбор из наукометрических баз и авторефератов диссертаций Как исследователь, я хочу получить метаданные/текст/PDF авторефератов диссертаций и статей из открытых источников (OpenAlex, arXiv, CrossRef, PubMed, РГБ ldiss.rsl.ru, dslib.net, CyberLeninka, OATD, DART-Europe, CiNii Dissertations и подобные), чтобы анализировать научные тренды. Фильтры: ключевые слова (в заголовке/аннотации/тексте), даты, языки. Выход: JSON с полями {title, authors, date, doi/url, abstract, full_text_chunks[], language, source}. Задача 2: Общий поиск релевантной информации по интернету Как исследователь, я хочу найти и скачать текст/файлы/PDF из результатов поиска по всему интернету (локализованные SERP), чтобы охватить глобальные источники. Фильтры: ключевые слова + даты + языки. Топ-результаты (10–50). Выход: То же + {snippet, relevance_score (опционально)}. Задача 3: Сбор с конкретных целевых сайтов Как исследователь, я хочу указать URL сайтов и получить релевантный текст/файлы/PDF из их разделов, чтобы фокусироваться на приоритетных источниках. Фильтры: ключевые слова в тексте/заголовках, даты публикаций, языки. Выход: То же + {page_url, section_title}. 4. Примеры Пример входа: Ключевые слова: "геополитика США", даты: "2024-01-01 to 2026-02-01", языки: "ru,en,zh", источники: "CyberLeninka + Google SERP". Пример выхода (JSON для одного документа): json { "id": "doc_001", "title": "Автореферат: Геополитические риски...", "authors": ["Иванов И.И."], "date": "2025-05-15", "doi": "10.1234/example", "url": "https://cyberleninka.ru/article/...", "language": "ru", "source": "CyberLeninka", "abstract": "Краткое описание...", "full_text_chunks": ["Чанк 1...", "Чанк 2..."], "files": [{"type": "PDF", "url": "...", "extracted_text": "..."}] } 5. Критерии приёмки (тестовые сценарии) Тест 1: Собрать 10 авторефератов по "диссертация климат" (ru/en) — проверить структуру, релевантность, чанки. Тест 2: Поиск по интернету "экономика РФ 2025" (top-20, 3 языка) — без блокировок, все ссылки рабочие. Тест 3: Сайт example.com — извлечь релевантные статьи/PDF. Данные чистые (без HTML-мусора), полные (метаданные + текст), без дубликатов. Система устойчива к типичным изменениям сайтов (1–2 сбоя на 100 запросов max). Дополнительно: Документация по использованию (как запускать, конфиги). Предложение исполнителя: описание вашего технического подхода (стек, архитектура, риски, масштабируемость) для оценки.

разработка системы сбора данных (парсера) для научных исследований

description Описание заказа

Описание заказа