데이터분석에서 미분의 쓸모 데이터분석의 중요한 목표 중 하나는 예측모형 최적화다. 곧, 예측모형 성능을 최대화(오차를 최소화) 하는 것이 매우 중요하다. $\Rightarrow$ 예측모형의 성능함수 또는 손실함수가 있을 것이다. 성능함수 또는 손실함수 출력은 최대화 또는 최소화 되어야 한다. 최적화를 통해 목적함수 출력을 최대화 또는 최소화 ...
[파이썬/넘파이] 데이터분석/머신러닝에 유용한 넘파이 명령어 정리
이 글은 데이터분석/머신러닝에 유용한 넘파이 명령어를 기록해둔 것이다. 필요할 때 바로바로 꺼내쓸 수 있도록 기록해 둔 저장소. np.argmax(반복가능자) 반복가능자 안 max 값의 인덱스를 반환해준다. np.argmin(반복가능자) 반복가능자 안 min 값의 인덱스를 반환해준다. np.meshgrid(x값, y값) ...
[수학/미적분] 다양한 함수 소개, 함수 기본개념 복습, 함수 그래프로 표현법
함수 정의 : 입력과 출력 사이 일정한 대응’관계’ 포인트는 일정한 대응 ‘관계’다. 일정한 대응관계 이기 때문에, 임의의 입력값 하나에는 특정한 출력 1개만 대응될 수 있다. 예) 항상 2에 대해 3이 대응되는 경우 2와 3은 함수관계에 속해있다. $f(2) = 3$ 만약 임의의 입력값에 대해서 출력값이 계속 바뀌면 함수관계 아니다. ...
[수학/선형대수] 주성분분석 (PCA)
잠재변수 정의 : 기저에 숨어서 여러 확률변수에 영향. 여러 확률변숫값을 동시에 결정짓는 확률변수 특징 : 직접 데이터 획득이 불가능하다. 측정데이터와 잠재변숫값 사이 관계 저차원벡터공간 기저벡터가 모두 단위벡터이고 정규직교한다고 하자. 이때, 저차원벡터공간에 대한 투영벡터는 다음과 같이 나타낼 수 있다. 예) 1차원 $x^{\Ve...
[수학/선형대수] 행렬 고윳값분해, 특잇값분해
고윳값분해(고유분해) 정방행렬 $A$의 고윳값과 고유벡터를 찾는 과정 오직 정방행렬만 고유분해 할 수 있다. 고유분해 식 $Av = \lambda v$ $A$는 정방행렬, $v$는 벡터, $\lambda$ 는 스칼라. 위 식 만족하는 $\lambda$를 ‘고윳값’, $v$ 벡터를 ‘고유벡터’라고 한다. 고유벡터 정...
[수학/선형대수] 공간 속 벡터의 좌표와 좌표변환
좌표와 변환 (공간 속 좌표 의미와 좌표 변환) 벡터의 선형종속과 선형독립 벡터공간의 틀. 기준인 기저벡터를 정의하기 위해 쓰인다. 예측모형 성능 극대화를 위해서는 벡터들의 선형종속을 없애야 한다. 선형종속 정의 : 벡터들을 선형조합 할 때 쓰이는 스칼라 계수들이 전부 0이 아닌 경우에도 선형조합 결과가 0벡터 되는 경우가 있으면...
[수학/선형대수] 기하학적 관점에서의 벡터
선형대수와 해석기하의 기초 선형대수 : 선과 도형, 수와 수의 관계를 다루는 학문 n차원 벡터의 기하학적 의미 n차원 벡터 공간 상의 ‘점’ n차원 벡터 공간의 원점과 점을 연결한 화살표 화살표로서의 벡터는 크기와 방향 두 가지를 표현한 것이다. 벡터를 화살표로 생각할 경우, 길이와 방향을 고정한 채 화살표만 평행이동 해도 상관없...
[수학/엔트로피] 상호정보량(MI), 최대정보 상관계수(MIC)
상호정보량 (Mutual Information) 정의 : 확률변수 $X$ 와 $Y$ 사이 상관관계 정도 나타내는 값 피어슨 상관계수 대용으로 쓸 수 있다. 피어슨 상관계수는 비선형 상관관계 나타내지 못한다. 하지만 상호정보량은 선형, 비선형 상관관계 모두 나타낼 수 있다. $p(x,y)$와 $p(x)p(y)$의 쿨백-라이블...
[수학/엔트로피] 엔트로피, 결합엔트로피, 조건부엔트로피, 크로스엔트로피, 쿨백-라이블러 발산
엔트로피 정의 확률분포에서 나온 표본 1개가 특정 표본인지 추려내기 위해 필요한 평균 질문 갯수(정보량) 분포의 불확실성 분포에서 새롭게 얻을 수 있는 정보의 양 (=놀람의 정도) 분포의 분산 정도 엔트로피 단위 : 비트 표기 H 수학적 정의는 확률변수를 입력으로 받는 범함수다. 이산확률변수 $H[Y] = -\sum...
[수학/확률과 통계] Scipy 패키지를 이용한 검정 방법
사이파이 사용해서 검정하기 파이썬 사이파이 패키지를 사용하면 다양한 검정을 쉽게 할 수 있다. 검정통계량 분포 그리고, 누적분포함숫값 직접 계산하고 안 해도 된단 거다. 요약 이항검정 검정통계량 분포로 이항분포 사용, 베르누이확률변수 모수가설 검정 카이제곱검정 카테고리분포 모수 $\mu$ 벡터 검정 카이제곱 독립검정 두 범...