кейс #9
1СРазработка и сайтыИскусственный интеллект
Специализированный депозитарий
С какой проблемой пришли?
Проблема клиента:
Специализированный депозитарий ежедневно обрабатывал сотни сложных договоров, каждый из которых содержит множество юридически значимых параметров (участники, суммы, даты, реквизиты, номера счетов, кадастровые номера и пр.).
Особенности процесса:
1) В процесс были вовлечены около 30 операторов, вручную вносящих данные в систему.
2) К концу дня количество ошибок возрастало в 3–5 раз — падала концентрация, а договоры становились всё сложнее.
3) Цена ошибки — высокая: в случае неправильного ввода параметров могла быть нарушена логика исполнения, что приводило к:
- штрафам за неисполнение (в т.ч. договоров на миллионы рублей),
- судебным разбирательствам,
- репутационным потерям на рынке.
Цель проекта:
- Автоматизировать извлечение параметров из документов.
- Снизить нагрузку на операторов и риск ошибок.
- Сформировать JSON/XML-объект с выделенными сущностями для интеграции в существующие IT-системы.
Что сделали
Решение и результат:
Шаг 1: Проанализировано 789 документов, в основном — запросы на распоряжение имуществом ПИФов.
Шаг 2: Определены ключевые сущности для извлечения: ФИО, ИНН, ОГРН, адреса, даты, номера документов, суммы, кадастровые номера и др.
Шаг 3: Обучена нейросетевая модель NER на собственной архитектуре BiLSTM с учетом морфологии русского языка.
Добавлены токенизация и символные векторные представления для повышения точности при встрече новых слов.
Шаг 4: Создана система предварительной очистки, исправления пунктуации и токенизации под русский язык (т.к. англоязычные инструменты не работали корректно).
Шаг 5: Разработан веб-интерфейс с подсветкой сущностей + API-выгрузка в JSON/XML.
Шаг 6: Использован OCR (tesseract) для обработки PDF-сканов, хотя на этом этапе была самая высокая погрешность.
Результаты:
- Точность модели по сущностям: до 90% (при дообучении может превысить)
- Время обработки 1 документа — до 30 секунд против 5–10 минут вручную.
- Устранено до 80% типичных ошибок ввода (особенно по числовым и реквизитным данным).
- Снижена загрузка операторов, особенно во второй половине дня.
- Повышена прозрачность и контроль юридических рисков.
Где ещё применимо
- Банки — обработка заявлений, договоров кредитования, анкет.
- Страховые компании — автоматическое извлечение данных из полисов и заявлений.
- Юридические фирмы — парсинг типовых и нетиповых договоров, доверенностей.
- Фонды и инвестиционные компании — автоматическая регистрация документов ПИФов, доверительного управления.
- Госструктуры — потоковая обработка архивов юридически значимых документов.
- Компании с ЭДО и архивами сканов — превращение PDF-архивов в структурированные данные для поиска и контроля.


