Описание заказа
1. Цель
Разработать систему (программу), которая автоматизирует сбор релевантной информации из открытых интернет-источников для анализа социальных, политических, экономических процессов. Данные будут использоваться в RAG-пайплайнах (Retrieval-Augmented Generation), поэтому выход должен быть структурированным и пригодным для чанкования/индексации.
2. Общие требования
Только открытые источники: Без доступа по логину/паролю, обхода защиты или нарушения ToS сайтов.
Мультиязычность: Поддержка минимум: русский, английский, французский, немецкий, испанский, китайский, японский, корейский, арабский, иврит, идиш (локализация поиска/экстракции).
Анонимность и этичность: Задержки между запросами, ротация user-agents/proxies (если нужно), не более разумной нагрузки на источники.
Входные данные: Ключевые слова/фразы, временной диапазон (от... до...), список URL (опционально), языки.
Выходные данные: Структурированный JSON/CSV/NDJSON с метаданными + очищенным текстом (чанки по 500–2000 слов/токенов). Хранение локально или в указанной БД.
3. Основные задачи (User Stories)
Задача 1: Сбор из наукометрических баз и авторефератов диссертаций
Как исследователь, я хочу получить метаданные/текст/PDF авторефератов диссертаций и статей из открытых источников (OpenAlex, arXiv, CrossRef, PubMed, РГБ ldiss.rsl.ru, dslib.net, CyberLeninka, OATD, DART-Europe, CiNii Dissertations и подобные), чтобы анализировать научные тренды.
Фильтры: ключевые слова (в заголовке/аннотации/тексте), даты, языки.
Выход: JSON с полями {title, authors, date, doi/url, abstract, full_text_chunks[], language, source}.
Задача 2: Общий поиск релевантной информации по интернету
Как исследователь, я хочу найти и скачать текст/файлы/PDF из результатов поиска по всему интернету (локализованные SERP), чтобы охватить глобальные источники.
Фильтры: ключевые слова + даты + языки. Топ-результаты (10–50).
Выход: То же + {snippet, relevance_score (опционально)}.
Задача 3: Сбор с конкретных целевых сайтов
Как исследователь, я хочу указать URL сайтов и получить релевантный текст/файлы/PDF из их разделов, чтобы фокусироваться на приоритетных источниках.
Фильтры: ключевые слова в тексте/заголовках, даты публикаций, языки.
Выход: То же + {page_url, section_title}.
4. Примеры
Пример входа: Ключевые слова: "геополитика США", даты: "2024-01-01 to 2026-02-01", языки: "ru,en,zh", источники: "CyberLeninka + Google SERP".
Пример выхода (JSON для одного документа):
json
{
"id": "doc_001",
"title": "Автореферат: Геополитические риски...",
"authors": ["Иванов И.И."],
"date": "2025-05-15",
"doi": "10.1234/example",
"url": "https://cyberleninka.ru/article/...",
"language": "ru",
"source": "CyberLeninka",
"abstract": "Краткое описание...",
"full_text_chunks": ["Чанк 1...", "Чанк 2..."],
"files": [{"type": "PDF", "url": "...", "extracted_text": "..."}]
}
5. Критерии приёмки (тестовые сценарии)
Тест 1: Собрать 10 авторефератов по "диссертация климат" (ru/en) — проверить структуру, релевантность, чанки.
Тест 2: Поиск по интернету "экономика РФ 2025" (top-20, 3 языка) — без блокировок, все ссылки рабочие.
Тест 3: Сайт example.com — извлечь релевантные статьи/PDF.
Данные чистые (без HTML-мусора), полные (метаданные + текст), без дубликатов.
Система устойчива к типичным изменениям сайтов (1–2 сбоя на 100 запросов max).
Дополнительно: Документация по использованию (как запускать, конфиги). Предложение исполнителя: описание вашего технического подхода (стек, архитектура, риски, масштабируемость) для оценки.