728x90

* 다중 분류 : Multi-class classification

  - target data에 2개 이상의 class가 포함된 문제

* 로리스틱 회귀: logistic regression

   - 선형 방정식을 사용한 분류 알고리즘으로 선형 회귀와 달리 sigmoid function이나 softmax 함수를 사용하여 클래스 확률 출력

* sigmoid function

  - logistic regression이라고 부르기도 하며 선형 방정식의 출력을 0과 1사이의 값으로 압축하여 이진 분류를 위해 사용.

  - binary 분류일 경우 sigmoid function의 출력이 0.5보다 크면 양성, 작으면 음성으로 판단

* boolean indexing

  - 넘파이 배열은 True, False를 전달하여 행을 선택할 수 있음

* Softmax function

  - 여러개의 선형 방정식의 출력값을 0~1사이로 압축, 전체 합이 1이 되도록 만든다. 이를 위해 지수 함수를 사용하기 때문에 정규화된 지수 함수라고도 함

* 확률적 경사 : Stochastic Gradient Descent

  : 하강법 : 훈련 세트에서 랜덤하게 하나의 샘플을 선택하여 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘

  : 에포크 : epoch : 확률적 경사 하강법에서 훈련세트를 한번 모두 사용하는 과정

 

* 미니배치 경사 : minibatch gradient descent

  : 하강법 : 1개가 아닌 여러 개의 샘플을 사용해 경사 하강법을 수행하는 방법으로 실전에서 많이 사용

* 배치 경사 하강법 : batch gradient descent

  - 한번에 전체 샘플을 사용하는 방법으로 전체 데이터를 사용하므로 가장 안정적인 방법이지만 그만큼 컴퓨터 자원을 많이 사용. data가 너무 많아 한번에 처리되지 않을 수 도 있음

 

* 손실함수 : loss function

  - 어떤 문제에서 머신러닝 알고리즘이 얼마나 엉터리인지 측정하는 기준

* 로지스틱 손실함수 : logistic loss function

  - 양성 클래스(target=1)일 때 손실은 -log(예측 확률)로 계산하며, 1 확률이 1에서 멀어질수록 손실은 아주 큰 양수가 됨. 음성 클래스(target=0)일 때 손실은 -log(예측 확률)로 계산. 이 예측 확률이 0에서 멀어질수록 손실은 아주 큰 양수가 됨

 

*크로스엔트로피 손실함수 : cross-entropy loss function

  : 손실함수 : 다중 분류에서 사용하는 손실 함수

* 힌지 손실 : hinge loss

  : support vector machine이라 불리는 머신러닝 알고리즘을 위한 손실 함수로 널리 사용하는 알고리즘 중 하나. SGDClassifier가 여러종류의 손실 함수를 loss 매개변수에 지정하여 다양한 머신러닝 앝고리즘을 지원함.

 

728x90

+ Recent posts