컴퓨터 비전
기본 개념부터 최신 모바일 응용 예까지
오일석 지음
Chapter 02 영상 처리
디지털 영상
신문 산업에서 태동, 케이블 영상 전송 시스템이 등장
카메라는 사람의 눈과 비슷한 구조
(i, j) 한 점을 pixel, 영상의 크기를 나타내는 M x N 을 해상도 resolution 라고 부름
히스토그램
용도: 영상의 특성 파악, 조작을 통한 영상 품질 개선(ex. histogram equalization)
히스토그램 역투영(histogram backprojection)과 얼굴 검출:
물체 검출 문제를 풀 때 모양 특징을 주로 사용, 상황에 따라 색 분포 정보를 보조로 사용, 히스토그램은 물체의 이동과 회전에 불변하다.
이진 영상
이진화(값이 크면 백, 작으면 흑), 임계값 방법(히스토그램을 관찰하여 계곡 지점을 알아내어 임계값으로 설정)
오츄 알고리즘(임계값을 기준으로 화소를 두 집합으로 나누고, 각 집합의 명암 분포가 균일할수록 좋으니 균일성이 클수록 높은 점수를 준다, 균일성은 그룹의 분산으로 측정하고, 분산이 작을수록 균일성이 높다. 가능한 모든 임계값에 대해 점수를 계산 후 가장 좋은 임계값을 최종 임계값으로 취하는 일종의 최적화 알고리즘이라고 볼 수 있다.)
connected component 연결 요소
서로 연결된 화소의 집합 각각을 부르는 말
Flood fill 알고리즘
연결요소를 찾아 번호를 붙이기 위해 사용하는 알고리즘
영상 처리의 세 가지 기본 연산
새로운 값을 어디에서 취하느냐에 따라 연산을 세 가지로 구분할 수 있다.
점 연산 point operation
자신의 값만 보고 새로운 값을 결정하는 경우
ex (2. 10), 이진화의 step function, histogram equalization의 누적 히스토그램
영역 연산 area operation
이웃에 있는 몇 개의 화소들을 보고 새로운 값을 정한다
- 상관 Correlation : 물체를 표현하는 윈도우와 입력 영상이 얼마나 비슷한지 측정해주는 연산
- 컨볼루션 Convolution : 상관과 비슷하나, 윈도우를 적용하기 전에 뒤집는 것만 차이가 있다.
- 단위 임펄스 unit impulse : 크기가 1인 곳에만 나타나는 것(나머지는 0이라)
- 임펄스 반응 함수 impulse response function : 임펄스 함수에 그대로 반응한다는 뜻으로 컨볼루션에서는 윈도우를 이렇게 부른다.
- 매칭하여 물체를 검출한다는 목적에서 보면 상관이 필요,
신호 처리 분야는 연산의 특성과 동작을 분석하는 데에 임펄스 반응이라는 성질을 사용하기에 컨볼루션이 필요
- 윈도우 == mask == kernel == template == filter
- normalized mask 정규 마스크 : 마스크이 화소 값을 모두 합하면 1이 되도록 정규화한 것
- 가우시안 마스크는 표준편차가 0.5일 때이다
- 컨볼루션은 선형, 상수를 변수에 곱하고 그것들을 단순히 합하기 때문
- 비선형 연산 nonlinear operation 은 변수에 제곱을 취항려 더하거나 어떤 비선형 규칙을 적용해 결과값을 정하는 연산, 대표적으로 median filter 가 있다. 여러 개의 값을 정렬했을 때 가운데 위치한 값을 말하며, 메디안 필터는 화소에 필터를 씌우고 그 속 화소들의 메디안을 결과로 취한다.
- 가우시안은 경계 부근의 대비가 훼손, 메디안은 상대적으로 대비를 잘 유지-> 이러한 특성으로 메디안을 에지 보존 스무딩 필터라 부르기도.. 사용성 : 가우시안 > 메디안
기하 연산 geometric operation
일정한 기하학적 규칙에 따라 다른 곳에 있는 값을 취할 수 있다
- 영상을 회전시키거나 특정 영역을 크게 하는 등의 작업이 필요한 경우 멀리 떨어져 있는 화소의 값도 봐야할 때 기하 연산을 적용하여 해결
- 동차 좌표와 동차 행렬로 표현
- 복합변환 composite transformation : k 단계의 변환이 이뤄지는 상황에서 행렬은 곱셈에 대해 결합 법칙이 성립하므로 따로 계산해 놓고 각 점에 곱하면, 점마다 한 번의 행렬 곱셈으로 모든 변환을 처리할 수 있어서 k배 만큼 빨라지고 이것이 동차 좌표를 사용하는 이유다.
- affine transformation 직선을 구부러뜨리지 않으며, 평행인 선을 평행으로 유지한다.
- aliasing 에일리어싱 : 영상처리과정에서 인공적으로 발생하는 시각적으로 불만족스러운 현상을 통틀어 말함
- anti-aliasing 안티 에일리어싱 : 에일리어싱 현상을 해소하려는 노력
- 보간 intepolation: 실수 좌표를 단순히 반올림하여 정수로 바꾸기보다 목표 영상의 여러 점이 원래 영상의 같은 점을 참조할 수 있으므로 에일리어싱이 여전히 남는데 이 문제를 해결하는데 효과적인 안티 에일리어싱 기법.
- nearest neighbor 최근접 이웃 방법 : 좌표를 반올림으로 처리, 심한 에일리어싱 현상 발생
- linear interpolation 선형 보간을 이용하며, 가까운 네 개의 점을 구하고 보간식에 대입하여 구한다. 최근접 이웃 방법보다 계산 시간은 더 걸리지만 영상의 품질을 뛰어나다. 두 방향에 걸쳐 보간을 수행하므로 이것을 양방향 선형 보간 bilinear interpolation 방법이라 부른다.
다해상도
upsampling : 해상도를 늘리는 영상 처리 연산
downsampling : 해상도를 줄이는 영상 처리 연산
image pyramid : 다양하게 변화된 상황에 상관없이 물체를 안정적으로 찾아내고 인식하는 요구에 따라 고안된 기법,
해상도가 다른 여러 장의 영상, 다중해상도 영상으로 구성되며, coarse-to-fin 거침과 세밀함 처리 방식의 강점이 있다. 저해상도의 거친 영상에서 물체의 대략적인 위치와 모양을 찾아낸 후, 고해상도의 세밀한 영상에서 정확한 위치와 모양을 결정하는 접근 방법이다.
피라미드는 sampling rate 를 1/2 로 설정하여 영상을 절반으로 다운샘플링하는 작업을 반복하여 만든다.
홀수 좌표의 화소가 참여하지 못하고 그 화소에 무시할 수 없는 정보가 들어있기 때문에 다운샘플링을 하기 전에 스무딩을 적용하는 방법이 고안되었다. 스무딩-다운샘플링 식이다.
모폴로지
영상에 나타난 물체의 모양을 분석하거나 원하는 형태로 바꾸는 작업을 할 때 유용하게 사용할 수 있는 연산
원래 생물학자들이 동물이나 식물이 보여주는 모양을 지칭하기 위해 사용하는 용어
구분을 위해 수학적 모폴로지 mathematical morphology 라는 용어로 사용한다.
이진 모폴로지
구조 요소 structuring element 를 사용하여 이진 영상에 있는 연결요소의 모양을 조작
팽창 dilation : f의 1인 화소에 구조요소 s를 씌우고 s의 1인 점과 겹치는 곳을 모두 1로 바꾼다 (합집합), 영상의 연결 요소는 구조요소만큼 외부로 팽창한다.
침식 erosion : f의 어떤 화소에 구조요소를 씌웠을 때, 구조요소의 1인 곳과 겹치는 곳이 모두 1인 경우만 그 화소를 1로 결정(교집합), 따라서 구조요소만큼 침식이 일어나게 된다.
명암 모폴로지
명암영상은 명암을 지표면부터의 높이로 간주하면 지형으로 해석할 수 있어서 지형에서 골짜기를 메우거나, 봉우리를 깎는 효과를 제공할 수 있다.
팽창은 지형을 솟구치게, 영상에 구조요소 값을 더해준 후 최댓값을 취한다.
침식은 지형을 깎아서, 구조요소 값을 뺀 후, 최솟값을 취한다.
영상 경계에서 구조요소를 씌우며 일부가 영상 밖에 걸쳐지면 팽창에서는 -무한대, 침식에서는 무한대로 간주
팽창은 영상을 더 밝게, 밝은 영역은 넓혀주고 어두운 영역은 좁혀주고,
침식은 영상을 어둡게, 어두운 영역은 넓혀주고 밝은 영역은 좁혀주고.
컬러
(1,0,0) red
(0,1,0) green
(0,0,1) blue
(1,1,0) yellow
(1,0,1) magenta
(0,1,1) cyan
(0,0,0) black
(1,1,1) white
(c,c,c) 0 <= c <= 1 무채색, 회색
이들을 정수 좌표로 표현하기 위해 양자화, 보통 L = 2^8 = 256 사용, RGB 각 1바이트씩 총 3바이트 필요
컴퓨터 비전은 RGB 모델을 세 장의 영상으로 나타내며, 영상 각각을 채널이라 부른다.
RGB 에서는 조명이 밝아지면 세 요소의 값이 모두 커지지만, HSI 모델에서는 색상은 Hue 서로 다른 색을 나타내는 색상과 Saturation 색깔의 순수성인 채도를 나타내며, 밝기는 Intensity로 구성, 두 개의 콘을 맞붙여 놓은 모양.
컴퓨터 비전에서는 대부분의 경우, 먼저 명암 영상을 대상으로 알고리즘을 개발한 후 필요에 따라 컬러 버전으로 변형
'공부 > 단행본' 카테고리의 다른 글
밑바닥부터 시작하는 딥러닝 (0) | 2022.07.30 |
---|---|
[컴퓨터 비전] Chapter 03 에지 검출 (0) | 2022.02.11 |
[컴퓨터 비전] Chapter 01 소개 (0) | 2022.02.11 |
데이터중심의 어플리케이션 설계 2장 (0) | 2022.01.02 |
데이터중심의 어플리케이션 설계 1장 (0) | 2021.12.30 |