Привет! Я Александр

Computer Vision Engineer и Data Scientist

Добро пожаловать в моё портфолио! Здесь вы можете найти информацию о моих проектах, демонстрации и описания.
Сайт портфолио | Видеовизитка | Github

Мои проекты

DataMind: Сервис обработки бухгалтерских документов

Пилотная версия серверной части системы "DataMind" для анализа PDF-документов (договоров, актов, счетов, счет-фактур и т.д.) с использованием OCR и LLM. Система извлекает номер, дату, реквизиты, контрагентов и классифицирует документ, обеспечивая REST API и удобный HTML-интерфейс.

Технологии: Python 3.12, FastAPI, Docker, EasyOCR, Tesseract, Ollama, Qwen3, DeepSeek, Gunicorn, Nginx, Poetry, OpenCV.

Примеры API:


    # Массовая загрузка документов:
    curl -X POST http://x.x.x.x/api/upload \
      -F "files=@/путь/Акт.pdf" \
      -F "files=@/путь/Договор.pdf"
    
    # Получение результата:
    GET http://x.x.x.x/api/result/{pdf_id}
    
    # Скачивание JSON:
    GET http://x.x.x.x/download/{pdf_id}.json
    

Результаты:

Автоматизация контроля ядер подсолнечника методом компьютерного зрения

Проект направлен на автоматизацию контроля содержания ядер подсолнечника в шелухе на производстве. Использованы классические методы компьютерного зрения (бинаризация и фильтрация). Изначально выявлена высокая корреляция (до 0.98) процента белых пикселей с лабораторными измерениями содержания ядер, однако дополнительная перепроверка командой заказчика на кратковременных выбросах показала ограниченность подхода и необходимость дальнейших исследований с применением моделей глубокого обучения.

Технологии: Python, OpenCV, Aravis, Pandas, NumPy

График и изображения ядра

Выводы и перспективы: Необходима дальнейшая разработка с использованием машинного обучения и автоматической калибровки для повышения устойчивости и точности метода.

Система подсчета трафика

"Система подсчета автомобильного трафика по полосам движения в реальном времени с трекингом и классификацией на базе YOLO и Raspberry Pi."

Технологии: YOLO, Raspberry Pi, OpenCV, Python

Видео 1 Видео 2

Сервис OCR + LLM для изображений книг

Извлечение ключевой информации из изображений книг. Обрабатывает около 3000 запросов в день.

Технологии: OCR, LLM, FastAPI, Python

OCR LLM видео

Lipsync и реставрация лиц с GAN

Реставрация лиц и улучшение качества видео с помощью GAN в рамках рабочего проекта в компании. Работа с моделями lipsync для синхронизации мимики с аудио.

Технологии: Python, Wav2Lip, YOLOv5, tortoise-TTS, GFPGAN, GAN, VideoReTalking, Roop

GAN видео

Контакты

Email: alnibl88@gmail.com
GitHub: Посетить мой профиль
Telegram: @Alnibl
Сайт портфолио: https://alnibl.github.io/Portfolio/