Портфолио | Александр

Добро пожаловать в моё портфолио! Здесь вы можете найти информацию о моих проектах, демонстрации и описания.
Сайт портфолио | Видеовизитка | Github

Мои проекты

DataMind: Сервис обработки бухгалтерских документов

Пилотная версия серверной части системы "DataMind" для анализа PDF-документов (договоров, актов, счетов, счет-фактур и т.д.) с использованием OCR и LLM. Система извлекает номер, дату, реквизиты, контрагентов и классифицирует документ, обеспечивая REST API и удобный HTML-интерфейс.

Развёртывание серверной части на базе Ubuntu + Docker + FastAPI.
Интеграция и настройка OCR-сервисов (EasyOCR + Tesseract) с GPU-поддержкой.
Подключение локальных LLM (Qwen3-4B, DeepSeek-v3) через Ollama.
Разработка скриптов для классификации и извлечения атрибутов.
Реализация API для загрузки и анализа документов.
Тестирование и оптимизация производительности (до 10 одновременных документов, таймауты, ограничение по размеру).

Технологии: Python 3.12, FastAPI, Docker, EasyOCR, Tesseract, Ollama, Qwen3, DeepSeek, Gunicorn, Nginx, Poetry, OpenCV.

Примеры API:


    # Массовая загрузка документов:
    curl -X POST http://x.x.x.x/api/upload \
      -F "files=@/путь/Акт.pdf" \
      -F "files=@/путь/Договор.pdf"
    
    # Получение результата:
    GET http://x.x.x.x/api/result/{pdf_id}
    
    # Скачивание JSON:
    GET http://x.x.x.x/download/{pdf_id}.json

Результаты:

Точность классификации: 97.5%
Извлечение номера/даты: ~90%
Поддержка до 10 документов одновременно, обработка: 30–50 сек
Проект развёрнут и доступен по тестовой ссылке

Автоматизация контроля ядер подсолнечника методом компьютерного зрения

Проект направлен на автоматизацию контроля содержания ядер подсолнечника в шелухе на производстве. Использованы классические методы компьютерного зрения (бинаризация и фильтрация). Изначально выявлена высокая корреляция (до 0.98) процента белых пикселей с лабораторными измерениями содержания ядер, однако дополнительная перепроверка командой заказчика на кратковременных выбросах показала ограниченность подхода и необходимость дальнейших исследований с применением моделей глубокого обучения.

Сбор и анализ данных с промышленных GigE Vision камер.
Подтверждение корреляции между лабораторными замерами и процентом белых пикселей в ряде случаев.
Дополнительный эксперимент выявил ограничения текущего метода при коротких выбросах.

Технологии: Python, OpenCV, Aravis, Pandas, NumPy

Выводы и перспективы: Необходима дальнейшая разработка с использованием машинного обучения и автоматической калибровки для повышения устойчивости и точности метода.

Система подсчета трафика

"Система подсчета автомобильного трафика по полосам движения в реальном времени с трекингом и классификацией на базе YOLO и Raspberry Pi."

Трекинг и классификация транспорта в реальном времени.
Запись результатов в базу данных.
Низкие системные требования, работа на Raspberry Pi.

Технологии: YOLO, Raspberry Pi, OpenCV, Python

Сервис OCR + LLM для изображений книг

Извлечение ключевой информации из изображений книг. Обрабатывает около 3000 запросов в день.

Использование LLM для анализа текста.
Высокая производительность: обработка тысяч запросов ежедневно.
REST API для интеграции с другими системами.

Технологии: OCR, LLM, FastAPI, Python

Lipsync и реставрация лиц с GAN

Реставрация лиц и улучшение качества видео с помощью GAN в рамках рабочего проекта в компании. Работа с моделями lipsync для синхронизации мимики с аудио.

Детекция, идентификация лиц
Устранение артефактов в мимике
Синхронизация мимики с аудио
Использование предобученных моделей и кастомизация

Технологии: Python, Wav2Lip, YOLOv5, tortoise-TTS, GFPGAN, GAN, VideoReTalking, Roop