의 Afshine Amidi 및 Shervine Amidi
개요
건물의 전통적인 현지 나선형의 신경 네트워크로도 알려진 CNNs,특정 유형의 신경 네트워크는 일반적으로 다음으로 구성되어 층:
선층과 풀링 계층을 조정할 수 있습과 관련하여 hyperparameters 에서 설명하는 다음 섹션이 있습니다.,
층의 유형
회선 층(전환)회선 층(CONV)필터를 사용합을 수행하는 회선 작업으로 스캔하는 입력$I$관하여 그것의 크기입니다. 그 하이퍼 파라미터에는 필터 크기$F$및 보폭$S$가 포함됩니다. 결과 출력$O$를 기능 맵 또는 활성화 맵이라고합니다.
말:회선의 단계는 일반화할 수 있는지 1D 및 3D 경우 뿐만 아니라.,
풀링()와 풀링 계층(수영장)은 다운 샘플링 작업,일반적으로 적용 후 나선 레이어는 몇 가지의 공간적 불변. 특히,최대 및 평균 풀링은 각각 최대 및 평균값이 취해지는 특별한 종류의 풀링입니다.,이온 선택의 최대값이 현재 보기
•가장 일반적으로 사용되는
•에서 사용 LeNet
완전히 연결되어 있(FC)가 완전히 연결되는 계층(FC) 운영에 평평하게 입는 각각의 입력을 연결하는 모든 신경., 존재하는 경우,FC 레이어는 일반적으로 찾을 끝으로의 CNN 아키텍처를 사용할 수 있습을 최적화하는 목적 등급 점수가 있습니다.
필터 hyperparameters
선층을 필터가 포함되는것은 중요한 의미를 알고 뒤에 hyperparameters.,
치수의 필터는 필터의 크기는$F\배 F$적용을 포함하는 입력$C$채널은$F\배 F\배 C$볼륨을 수행하는 주름을 입력 크기의$I\번 I\배 C$및 출력을 생성 기능을 지도(또한 활성화지도)크기의$O\번 O\간 1$.
비고:응용 프로그램의$K$필터의 크기는$F\배 F$결과에서 출력 기능 지의 크기는$O\번 O\번 K$.,
보폭 컨볼 루션 또는 풀링 작업의 경우 보폭$S$는 각 작업 후에 창이 이동하는 픽셀 수를 나타냅니다.
제로 패딩로 패딩은 의미를 추가하는 과정$P$제로 각 측면의 경계의 입력이 있습니다.,led 아래
튜닝 hyperparameters
호환성을 매개변수에 나선 레이어 주목할$I$의 길이를 입력 볼륨 크기,$F$길이의 필터링,$P$양의로 패딩,$S$의 보폭,다음 출력 크기$O$의 기도와 함께하는 차원에 의해 제공됩니다.
이해서는 모델의 복잡성을 평가하기 위해 복잡한 모델,그것은 종종 결정하는 데 유용합의 번호를 매개 변수는 그것의 건축을 것입니다., 주어진 레이어의 나선형 신경 네트워크,그것은 다음과 같습니다:
아래 예에서,우리는$F_1=F_2=3$및$S_1=S_2=1$제공$R_2=1+2\cdot1+2\cdot1=5$.
일반적으로 사용되는 활성화 기능
정형 장치 선형 정류 단위 계층(ReLU)은 활성화 기능$g$에서 사용되는 모든 요소의 양이다. 그것은 네트워크에 비선형 성을 도입하는 것을 목표로합니다., 그 변종 요약에서 아래 테이블:
Softmax 의 softmax 단계에 볼 수 있으로 일반화하는 로지스틱 함수에 입력으로는 벡터의 점수$x\\에서 mathbb{R}^n$및 출력의 벡터 출력 확률$p\\에서 mathbb{R}^n$통해 softmax 기능의 끝에서 건물입니다. 그것은의 정의는 다음과 같습니다.
체 감지
형식의 모델은 3 가지 종류가 있는 객체의 인식 알고리즘,어떤 성격의 예측은 다릅니다., They are described in the table below:
Image classification | Classification w., 의 개체 | •을 감지하는 객체에 사진 •예측 확률의 개체이며 어디에 위치하고 있 |
•까지 감지하여 여러 개체에서의 사진 •예측 확률의 개체고 그들이 어디에 위치하고 있 |
전통적인 CNN | 단순화 된지는데,R-CNN | YOLO, R-CNN |
탐지 컨텍스트에서의 물체 감지,다른 방법을 사용할 수 있는지에 따라 우리는 단지 개체를 찾거나 탐지하는 더 복잡한 모양에 이미지입니다., 두 가지 주요 것들 있는 표현에서 아래 테이블:
교차점을 통해 유니온 교차점을 통해 유니온으로도 알려진$\textrm{IoU}$은 기능을 수량화하는 방법을 올바르게 배치 예측된 경계 상자$B_p$통해 실제 경계 상자$B_a$. 그것은 다음과 같이 정의됩니다.
앵커 박스 앵커로 복싱은 사용하는 기술을 예측하는 겹치는 경계 상자입니다., 실제로,네트워크 허용된 예측하는 하나 이상 상자를 동시에,각 상자는 예측은 제한을 주는 설정의 기하학적 속성입니다. 예를 들어,첫 번째 예측할 수 있는 잠재적으로는 직사각형자의 특정 형태로,두 번째는 동안 또 다른 직사각형의 다른 기하학적인 형태입니다.
비 최대 억제 비 최대 억제 기법을 목표로 중복을 제거하는 겹치는 경계 상자의 동일한 개체에 의해 선택하는 가장 대표적인 것들입니다. 보다 낮은 확률 예측을 갖는 모든 상자를 제거한 후 0.,주어진 클래스에 대해
,
•1 단계:예측 확률이 가장 큰 상자를 선택하십시오.
*2 단계:이전 상자와 함께$\textrm{IoU}\geqslant0.5$가있는 상자를 버립니다.
욜로 당신은 단지 한 번 보면(욜로)객체 검출 알고리즘에서는 다음 단계를 수행합니다.
•1 단계:나누어 입력으로 이미지는$G\번 G$니다.,
•2 단계:에 대한 각각의 그리드 셀 실행 CNN 예측$y$의 다음과 같은 형식으로 제공합니다.
어디$p_c$는지 개체$b_x,b_y,b_h,b$는 속성의 탐지 bouding 상자$c_1,…,c_p$는$p$클래스 중 어느 것이 감지되었는지에 대한 하나의 핫 표현이며,$k$는 앵커 박스의 수입니다.r•*3 단계:비 최대 억제 알고리즘을 실행하여 잠재적 인 중복 겹치는 경계 상자를 제거하십시오.,
R-CNN 지역으로 나선형 신경 네트워크(R-CNN)객체 검출 알고리즘은 그 첫 번째 세그먼트의 이미지를 찾으려면 관련된 경계 상자면 다음과 감지 알고리즘을 찾을 가능성이 가장 높은 개체들에서 경계 상자입니다.,
비고:원래 있지만 알고리즘을 계산 비용이 높은 느리고,새로운 아키텍처를 활성화하는 알고리즘을 빠르게 실행하는 등 빠른 R-CNN 고 빠르게 R-CNN.
얼굴을 인증하고 인식
형식의 모델은 두 종류의 주요 모델을 표현에서 아래 테이블:
얼굴 verification | 얼굴 인식 |
•이 올바른 사람입니까?, •일대일 조회 |
*이 데이터베이스의$K$사람 중 하나입니까? •One-to-many 조회 |
중 하나 촬영 배우 하나의 촬영 배는 얼굴을 인증하는 알고리즘을 사용하여 제한 훈련 설정을 배우 유사하는 함수를 정량화하는 방법을 다 주어진 두 이미지이다. 두 이미지에 적용된 유사성 함수는 종종$d(\textrm{image1},\textrm{image2})로 표시됩니다.,$
신경 스타일을 전송
동기 목표의 신경 스타일을 전송하는 이미지를 생성$G$에 따라 지정된 콘텐츠$C$및 주어진타$S$.,
활성화에서 주어진 레이어$l$활성화가 주목$는^{}$고의 치수$n_H\번 n_w\번 n_c$
말: 스타일을 위한 매트릭스 스타일 이미지 및 이미지를 생성하는 지적$G^{(S)}$및$G^{(G)}$각각합니다.,
전반적인 비용 함수에서 전체 비용이 기능으로 정의되는 조합의 콘텐츠와 스타일을 비용 함수에 가중 매개변수에 의하여$\알파,\베타$를 다음과 같습니다:
말: 더 높은 값$\alpha$만들 것입니다 모델에 더 관심이 많은 콘텐츠는 동안 더 높은 값$\베타$만들 것입니다 그것에 더 관심이 많은 스타일입니다.,
아키텍처를 사용하여 계산 트릭
발생하는 적대적인 네트워크를 생성하는 적대적인 네트워크,또한 알려져 있으로 간츠,로 구성된 생식과 차별적 모델을 생성적인 모델을 생성에서 가장 진실되는 출력이 될 것으로 먹는 차별적 취급,구속조건부 목표로 차별화를 생성하고 진정한 이미지입니다.
말:사용 사례를 사용하여 개의 슈타 텍스트를 포함하는 이미지,음악대하고 합니다.,
ResNet 잔류 네트워크 아키텍처(또 ResNet)사용한 잔여 블록으로 높은 층을 줄이기 위한 것이지만 훈련 오류가 있습니다. 잔류 차단은 다음과 같은 특성화 방정식:
처음부터 네트워크 이 아키텍처를 사용하여 처음부터 모듈과 목표에 주는 시도에서 다른 회선기 위해서는 그것의 성능을 향상시키기 위해 기능을 통해 다양합니다. 특히$1\times1$convolution 트릭을 사용하여 계산 부담을 제한합니다.