멀티모달 딥러닝을 활용한 이미지.센서 기반 불량 검출 및 위험도 예측_4회차

카테고리 없음

멀티모달 딥러닝을 활용한 이미지.센서 기반 불량 검출 및 위험도 예측_4회차

iron-min 2026. 1. 9. 19:25

1. 컴퓨터 비전 이미지셋 분류

MS COCO

마이크로소프트에서 생성한 이미지 데이터셋(2014)
32만장, 80개의 클래스 보유
ImageNet의 Iconic한 문제를 해결하기 위해 제안된 복잡한 이미지: → Iconic 함: 이미지 내 객체 수가 적고, 크고, 중앙에 위치함
Bounding Box와 함께, 인스턴스 세그멘테이션(Mask), 키포인트(Keypoints) 등 다양한 라벨 지원

Pascal VOC

영국 서리 대학교(University of Surrey)가 개최한 Visual Object Classes (VOC) 챌린지에서 시작 (2007~2012)
약 1~2만 장 이미지, 20개 클래스 보유
xml 형식, 바운딩 박스가 최상단 좌표, 최하단 좌표로 구성 (MS COCO와 차이점)

ImageNet

스탠포드 대학교의 페이페이 리(Fei-Fei Li) 교수 팀이 시작한 대규모 이미지 데이터셋 (2009년)
1400만장 이미지, 1천개 클래스

CIFAR

클래수 수에 따라 CIFAR-10 과 CIFAR-100으로 나뉘며, 이미지 크기는 32 x 32
CIFAR-10: 6만장 이미지, 10개 클래스

2. YOLO 모델 활용

darknet : YOLO의 공식 구현 프레임워크

Joseph Redmon이 개발한 C/CUDA 기반 딥러닝 라이브러리
make 명령으로 컴파일 후, Linux/Windows 환경에서 명령어로 모델 학습·추론 가능

⇒ Darknet뿐만 아니라, OpenCV DNN, PyTorch, TensorFlow 등 다른 프레임워크로도 YOLO 모델을 포팅해 사용할 수 있음

cfg, yaml : 네트워크 구조와 파라미터 설정을 텍스트 형태로 정리해 둔 파일

→ 구성요소:

입력 이미지 크기 (width, height)
레이어(Convolution, BatchNorm, Upsample 등) 구조와 채널 수
학습 하이퍼파라미터 (batch, subdivisions, momentum, decay 등)
학습/추론 시 Anchor box 크기, 클래스 수 등

weights : 네트워크를 학습한 결과(파라미터)들을 바이너리 형식으로 저장한 파일

.cfg 에서 정의된 모델 구조에 .weights 를 로드하면 학습 완료된 모델이 됨

모델간 차이: 입력 해상도나 특수 모듈 추가 여부에 따른 차이

YOLOv3-320 / YOLOv3-416 / YOLOv3-608
- 입력 이미지 크기가 320×320, 416×416, 608×608으로 다름
- 해상도가 커질수록 정확도가 높아지지만 연산량도 많아짐
YOLOv3-spp
- YOLOv3 모델에 SPP(Spatial Pyramid Pooling) 레이어 추가 → 더 정확도↑
- 연산량도 증가
YOLOv3-tiny
- 레이어가 확 줄어 든 경량화 모델
- 정확도는 상대적으로 낮지만 속도가 빨라, 5.56 Billion 정도의 연산량(BFLOPs)으로 일반 YOLOv3 대비 훨씬 가벼움

YOLO-tiny

YOLOv3:
- 완전한 YOLOv3 모델로 Darknet-53 백본(53개 레이어) 사용
- 정확도가 상대적으로 높지만, 연산량이 많아서 GPU 메모리와 추론 시간이 더 필요
YOLOv3-tiny:
- 경량화된 YOLOv3로, Tiny Darknet이라는 간소화된 백본 사용
- 레이어 수가 훨씬 적어 파일 크기와 추론 속도가 크게 줄어듦
- 대신 **정확도(mAP: mean Average Precision)**가 일반 YOLOv3보다 다소 낮을 수 있음
- 임베디드, 모바일, 실시간 CCTV 등 제한된 자원에서 고속 추론이 필요할 때 사용

전이학습 모델 소개

pytorch 기반

Faster R-CNN : Two-stage Detector로, Region Proposal을 거쳐 높은 정확도의 객체 탐지를 수행.
FCOS : Anchor-Free 방식으로, 픽셀 중심(centerness)을 활용해 간단히 박스 예측을 구현
RetinaNet : Focal Loss를 활용해 One-stage Detector의 클래스 불균형 문제를 효과적으로 해결.
SSD : 여러 스케일의 Feature Map에서 한 번에 박스를 예측해, 빠른 속도를 구현한 One-stage 모델.
SSDLite : SSD를 모바일 환경에 맞춰 더 가볍게 최적화한 버전으로, 경량 백본을 사용.

Tensorflow 기반 전이학습 모델(detection model zoo)

현재글멀티모달 딥러닝을 활용한 이미지.센서 기반 불량 검출 및 위험도 예측_4회차

iron-min 님의 블로그

iron-min 님의 블로그 입니다.

Today :
Yesterday :

티스토리툴바