반응형

나는야 데이터사이언티스트/통계 11

마르코브체인 몬테카를로 알고리즘

진짜 생전 처음들어봄 ! 몬테카를로 알고리즘이랑 부트스트랩이 뭔지 그래도 알고 있어야 할 것 같아서 진짜 간단히 간단히 알아보려고 유투브보고 정리한 내용. 몬테카를로 시뮬레이션 몬테카를로 이름이 되게 생소한데, 모나코의 유명한 도박 도시 "몬테카를로"를 본따서 스타니스와프 울람(수소 폭탄 개발자)이 이름을 지었다고 한다. 알파고 관련 기사를 보여줬는데, 바둑은 경우의 수가 10의 170승올 막대해 컴퓨터가 모두 계산하는게 불가능하다. 그래서 난수를 발생시켜 그 샘플을 얻어서 답을 구하는 방식인 몬테카를로 방법을 사용했다는 기사였다. 즉, 몬테카를로 방법(Monte-Carlo Algorithm)은 수식만으로 계산하기 어려운 문제가 있을 때, 무작위 샘플을 얻은 뒤 그 샘플을 이용해서 답을 구하는 방법이다...

베이지안(Bayesian Inference) 쉽게 이해하기

확률의 정의 베이지안 정리가 무엇인지 알아보기 전에 '확률'에 대한 두가지 관점을 먼저 이해해야 한다. 통계학은 크게 빈도주의자(frequentist)와 베이즈주의자(Bayesian)로 나뉜다. 어느 쪽이든 확률을 계산하는 방법은 똑같지만 확률을 해석하는 방법이 다르다. 예를 들어, "동전을 던졌을 때 앞면이 나올 확률이 50%다" 라는 진술은 빈도주의자는 "동전 하나 던지기를 수 천, 수 만 번 하면 그중에 50%는 앞면이 나오고, 50%는 뒷면이 나온다"라고 해석한다. 반면 베이즈주의자는 "동전 하나 던지기의 결과가 앞면이 나올 것이라는 확신은 50%이다"라고 해석한다. 다시말하면, 빈도주의자는 확률을 객관적 확률로 해석하고, 베이즈주의자는 주관적 확률로 해석한다는 것이다. 빈도주의의 관점에서 분명한..

상관분석(Correlation Analysis) 쉽게 이해하기

상관분석이란 ? 상관분석은 연속형 변수로 측정된 두 변수 간의 선형적 관계를 분석하는 기법이다. 연속형 변수는 산술 평균을 계산할 수 있는 숫자형의 데이터이며, 선형적 관계라 함은 흔히 비례식이 성립되는 관계를 말한다. 예를들어 A 변수가 증가함에 따라 B 변수도 증가되는지 혹은 감소하는지를 분석하는 것이다. 상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용한다. 상관분석에는 측정 데이터에 따라 피어슨 상관분석, 스퍼만 상곤분석 등의 여러가지 분석 방법이 있지만, 일반적으로 상관계수라 함은 피어슨 상관계수(Pearson correlation coefficient)를 의미한다. 두 변수간의 관련성은 각 케이스의 값을 좌표위에 점으로..

[통계]표본 크기 계산 방법

빅데이터라는 개념이 등장하면서 표본의 의미가 사라지고 있지만 아직까지 어떤 분야에서는 표본이 필요한 경우도 있다. 그리고 스몰데이터라는 개념이 등장하면서 이런 개념이 또 필요하지 않을까 생각해서 하는 포스팅 표본 크기가 무엇인가요? 표본 크기는 설문조사에서 받는 완성 응답 수로 일단의 사람들 중 일부(즉, 대상 모집단)만 대표하므로 표본이라고 부르며, 바로 이들의 의견이나 행동양상을 알고자 하는 것입니다. 예를 들어 한 가지 표집 방법으로 대규모 모집단에서 전적으로 우연히 응답자를 선정하는 ‘무작위 표본’을 사용할 수 있습니다. 이러한 정의를 염두에 두고 다음 주제에 대해 자세히 살펴보도록 하죠. 다양한 방법으로 표본의 결과 해석 표본 크기 계산에 사용되는 공식 설문조사에 적절한 표본 크기가 중요한 이유..

데이터 전처리 필요성 및 방법(Feature Engineering, EDA)

이상값의 원인 데이터 전처리를 말하기 전에 이상값부터 먼저 말하고 싶다. 이상값의 원인? 우리가 이상 값을 발견할 때마다 이를 해결하는 이상적인 방법은 이러한 이상값을 갖는 이유를 찾는 것이다. 그런 다음 처리 방법은 발생 이유에 따라 다르니다. 이상값의 원인은 크게 두 가지 범주로 분류 할 수 있다. 1. 인공(오류) / 비자연적 2. 자연적 다양한 유형의 이상값을 더 자세히 살펴보자. ○ 데이터 입력 오류 : 데이터 수집, 기록 또는 입력 중 발생하는 오류와 같은 인적 오류는 데이터에 이상값을 유발할 수 있다. ex) 연간 수입이 $ 100,000인 고객이 있다. 실수로 데이터 입력시 0을 추가하면, 이제 수입은 $ 1,000,000가 되어 10 배가 된다. 분명히 이것은 다른 모집단과 비교할 때 이..

모델 성능 평가 지표 (회귀 모델, 분류 모델)

모델 성능 평가 모델을 만드는 이유는 일반화를 통해 미래(미실현) 예측을 추정하고자 하는 것이다. 그래서 우리는 train data로 학습시키고, 알고리즘을 계속해서 수정하고, 주어진 가설 공간에서 최고의 성능을 발휘하는 모델을 선택함으로써 예측 성능을 높힌다. 그렇게 여러가지로 만든 모델을 서로 비교해서 좋은 모델을 선택해야하는데 이때 모델 평가 지표를 사용해서 성능을 평가한다. 연속된 값에 대한 평가 지표(회귀 모델)와 분류에 대한 평가 지표를 다르게 사용한다. 회귀 모델 ● MAE(Mean Absolute Error) 모델의 예측값과 실제값의 차이를 모두 더한다는 개념 절대값을 취하기 때문에 가장 직관적으로 알 수 있는 지표이다. MSE 보다 특이치에 robust한다. (robust란 ? 이상치에 ..

교차검증(Cross-Validation) 쉽게 이해하기

training / validation / test dataset 교차 검증을 설명하기에 앞서 training / validation / test dataset에 대해 간단한 개념부터 이해해야 합니다. 먼저 데이터를 왜 분할하여 사용할까요. 모델을 만드는 것은 가지고 있는 샘플 데이터를 이용하여 충분한 정확도로 일반화 시켜야 합니다. 이를 위해 샘플 데이터를 training / validation / test dataset으로 나누어 진행합니다. Training Dataset - The sample of data used to fit the model - 모델을 만드는데 사용하는 실제 dataset입니다 Validation Dataset - The sample of data used to provide ..

AIC, BIC, Mallow's Cp 쉽게 이해하기

개요회귀모델에서 설명변수가 많을 경우에는 설명변수를 줄일 필요가 있습니다. 설명변수가 많으면 예측 성능이 좋지 않기 때문이죠. 많은 설명변수를 가지는 회귀분석의 경우 설명변수들사이의 독립성 등의 가정을 만족시키기 어렵습니다. 또한 설명변수의 증가는 모형의 결정계수 등을 증가시키기는 하지만 다중 공선성 문제 등을 일으키므로 결과적으로 추정의 신뢰성을 저하시킵니다. 그렇다면 설명변수를 줄여주는 방법은 무엇이 있을까요 ?변수 선택 방법(variable selection)위에서 말한 설명변수를 줄여주는 것은 다시 말해 유의미한 설명변수를 선택하는 방법이겠죠 ?변수를 선택하는 방법에는 다음과 같은 세가지 방법이 있습니다.1. Subset Selection - 1부터 p까지 k개에 대해 모델을 쭈욱 구하고 RSS(..

최대우도추정법 쉽게 이해하기

1. 들어가기 앞서 개념이해 아래의 글은 최대우도추정법 설명 유투브를 가장 이해하기 쉽게 정리한 블로그 글입니다. 블로그 글과 유투브를 함께 보시면 쉽게 이해할 수 있을 것 같네요. https://seungtae-jeff.tistory.com/entry/%ED%86%B5%EA%B3%84%ED%95%99-1-%EC%B5%9C%EB%8C%80%EC%9A%B0%EB%8F%84%EC%B6%94%EC%A0%95%EB%B2%95 [통계학 #1] 최대우도추정법(Maximum Likelihood Estimation) "Sangho Lee"님의 유튜브 영상을 보고 정리한 내용입니다. 링크는 하단에 있습니다. 1. 도입 아래의 그림과 같은 상자에 검은 구슬과 흰 구슬이 섞여있고, 총 개수는 100개이다. 이 상자에서 10..

Ridge regression(릿지 회귀)와 Lasso regression(라쏘 회귀) 쉽게 이해하기

Ridge regression와 Lasso regression를 이해하려면 일단 정규화(regularization)를 알아야합니다. 첫번째 그림을 보면 직선 방정식을 이용하여 선을 그었습니다. 데이터와 직선의 차이가 꽤 나네요. 정확한 예측은 아닙니다. 이런 경우를 underfitted 또는 high bias 라고 합니다. bias가 큰 모델은 test data를 위한 학습이 덜 된 것이 원인이고, 이는 train data와 test data간의 차이가 너무 커서 train data로만 학습한 모델은 test data를 맞출수가 없는 것입니다 세번째 그림을 보면 현재 데이터로는 잘 맞겠지만 다른 데이터를 사용한다면 정확한 예측을 하지 못합니다. 이런 경우는 overfitting 또는 high varian..

반응형