반응형

나는야 데이터사이언티스트 87

[Python]데이터분석 EDA 쉽게 하기 - pandas_profiling

pandas 라이브러리 중 EDA를 한눈에 볼 수 있는 라이브러리 발견 ! 보고서 쓸 때나 데이터 확인할 때 쓰면 아주 좋을 것 같다. pandas_profiling 이란 ? 딱 EDA할 때 보는 거 다 나온다. 이제 파이썬으로 하나하나 다 코드 안짜도 pandas profiling으로 해결 가능 ~ https://pypi.org/project/pandas-profiling/ pandas-profiling Generate profile report for pandas DataFrame pypi.org 살펴보기 전체 데이터 overview도 알려주고 각 변수마다 overview도 알려준다. missing value도 알려주고 Zero 가 몇개인지도 알려줌. 오...완전 좋은데 일단 기능이 좋은건 확실 실습..

[Python] 결측치 시각화 하기 - missingno 종류

https://github.com/ResidentMario/missingno ResidentMario/missingno Missing data visualization module for Python. Contribute to ResidentMario/missingno development by creating an account on GitHub. github.com 사용방법은 어렵지 않아 missingno의 종류만 알고 있으면 사용있을 것 같다. 코드는 위의 깃허브 주소로 들어가면 나와있음 ! Matrix Bar Chart Heatmap heatmap은 각 컬럼 null의 상관 관계를 측정합니다. 한 변수의 유무 여부가 다른 변수의 유무에 얼마나 큰 영향을 미치는지 측정합니다. Dendrogram 덴..

교차검증(Cross-Validation) 쉽게 이해하기

training / validation / test dataset 교차 검증을 설명하기에 앞서 training / validation / test dataset에 대해 간단한 개념부터 이해해야 합니다. 먼저 데이터를 왜 분할하여 사용할까요. 모델을 만드는 것은 가지고 있는 샘플 데이터를 이용하여 충분한 정확도로 일반화 시켜야 합니다. 이를 위해 샘플 데이터를 training / validation / test dataset으로 나누어 진행합니다. Training Dataset - The sample of data used to fit the model - 모델을 만드는데 사용하는 실제 dataset입니다 Validation Dataset - The sample of data used to provide ..

AIC, BIC, Mallow's Cp 쉽게 이해하기

개요회귀모델에서 설명변수가 많을 경우에는 설명변수를 줄일 필요가 있습니다. 설명변수가 많으면 예측 성능이 좋지 않기 때문이죠. 많은 설명변수를 가지는 회귀분석의 경우 설명변수들사이의 독립성 등의 가정을 만족시키기 어렵습니다. 또한 설명변수의 증가는 모형의 결정계수 등을 증가시키기는 하지만 다중 공선성 문제 등을 일으키므로 결과적으로 추정의 신뢰성을 저하시킵니다. 그렇다면 설명변수를 줄여주는 방법은 무엇이 있을까요 ?변수 선택 방법(variable selection)위에서 말한 설명변수를 줄여주는 것은 다시 말해 유의미한 설명변수를 선택하는 방법이겠죠 ?변수를 선택하는 방법에는 다음과 같은 세가지 방법이 있습니다.1. Subset Selection - 1부터 p까지 k개에 대해 모델을 쭈욱 구하고 RSS(..

[Python/seaborn] 데이터 시각화 - regplot, lmplot, catplot, swarmplot

regplot python seaborn의 regplot은 scatter plot과 line plot을 함께 볼 수 있는 데이터 시각화 방법입니다. 사용방법 : https://seaborn.pydata.org/generated/seaborn.regplot.html lmplot lmplot은 regplot + facegrid를 합친 것으로 regplot을 여러개 보고싶을 때 사용하면 됩니다. 사용방법 : https://seaborn.pydata.org/generated/seaborn.lmplot.html catplot 숫자형 변수와 하나 이상의 범주형 변수의 관계를 보여주는 함수입니다. Categorical scatterplots Categorical distribution plots Categorical..

최대우도추정법 쉽게 이해하기

1. 들어가기 앞서 개념이해 아래의 글은 최대우도추정법 설명 유투브를 가장 이해하기 쉽게 정리한 블로그 글입니다. 블로그 글과 유투브를 함께 보시면 쉽게 이해할 수 있을 것 같네요. https://seungtae-jeff.tistory.com/entry/%ED%86%B5%EA%B3%84%ED%95%99-1-%EC%B5%9C%EB%8C%80%EC%9A%B0%EB%8F%84%EC%B6%94%EC%A0%95%EB%B2%95 [통계학 #1] 최대우도추정법(Maximum Likelihood Estimation) "Sangho Lee"님의 유튜브 영상을 보고 정리한 내용입니다. 링크는 하단에 있습니다. 1. 도입 아래의 그림과 같은 상자에 검은 구슬과 흰 구슬이 섞여있고, 총 개수는 100개이다. 이 상자에서 10..

[Python]문자열 양 끝 공백 또는 문자 제거 - strip(),lstrip(),rstrip()

문자열 양 끝에 있는 공백을 없애야 하는 경우나 특정 문자를 제거하고 싶을 때 사용 -관련 문서 https://docs.python.org/2/library/stdtypes.html?highlight=str.strip#str.strip 5. Built-in Types — Python 2.7.18 documentation The following sections describe the standard types that are built into the interpreter. Note Historically (until release 2.2), Python’s built-in types have differed from user-defined types because it was not possible t..

[Python]matplotlib, dataframe 한글 폰트 설정 방법

python matplotlib에서 한글 폰트, 마이너스(숫자)가 안보일 때 설정하는 방법 #한글폰트 설정 #mac ver. plt.rc("font",family="AppleGothic") #window ver. plt.rc("font",family="Malgun Gothic") #마이너스 숫자 설정 plt.rc("axes",unicode_minus=False) python dataframe 불러올 때, index가 한글일 경우 설정 방법 df= pd.read_csv("../test.csv",encoding = "cp949") UTF-8보다 cp949로 하는게 더 좋음 !

[Python]Dataframe에서 like 검색-str.startswith() , str.contains()

Python Dataframe에서 str을 사용하면 문자열을 사용하기 쉽습니다. str을 사용해서 dataframe에서 SQL의 like search처럼 사용하는 방법을 알아보았습니다. example 데이터프레임 을 살펴보겠습니다. CA_1부터 TX_2까지 있고 item_id도 종류별로 있습니다. 이때 store_id가 'CA' 인 것만 나타내보겠습니다. example[example['store_id'].str.startswith('CA')] store_id가 CA%인 것이 나왔습니다. 여기서 startswith는 앞 문자만 검색가능해 %CA% 같은 검색은 하지 못합니다. 앞뒤 글자 상관없이 특정 단어가 필요한 것을 찾으려면 contains 함수를 사용하면 됩니다. 이번에는 item_id에서 BB글자가 ..

Ridge regression(릿지 회귀)와 Lasso regression(라쏘 회귀) 쉽게 이해하기

Ridge regression와 Lasso regression를 이해하려면 일단 정규화(regularization)를 알아야합니다. 첫번째 그림을 보면 직선 방정식을 이용하여 선을 그었습니다. 데이터와 직선의 차이가 꽤 나네요. 정확한 예측은 아닙니다. 이런 경우를 underfitted 또는 high bias 라고 합니다. bias가 큰 모델은 test data를 위한 학습이 덜 된 것이 원인이고, 이는 train data와 test data간의 차이가 너무 커서 train data로만 학습한 모델은 test data를 맞출수가 없는 것입니다 세번째 그림을 보면 현재 데이터로는 잘 맞겠지만 다른 데이터를 사용한다면 정확한 예측을 하지 못합니다. 이런 경우는 overfitting 또는 high varian..

반응형