반응형

나는야 데이터사이언티스트 87

[Python] 결측치 확인 방법

1) 컬럼별 결측치 확인 df.isnull().sum() 2) 결측치 비율 확인 df_missing = df_service np.sum(df_missing.isnull()) missing_number = df_missing.isnull().sum().sort_values(ascending=False) missing_percentage = missing_number/len(df_missing) missing_info = pd.concat([missing_number,missing_percentage], axis=1, keys=['missing number','missing percentage']) missing_info.head(50) 3) 그래프로 확인 import missingno as msno imp..

[Python]DataFrame value type 확인하기

dataframe 타입 확인하려고 할때, 구글링하면 계속 df.dtypes() 만 알려준다. 근데 내가 원한거는 이런게 아니라 하나하나 나와야하눈디... 할때 사용하는 것 ! import pandas as pd from pandas.api.types import is_numeric_dtype from pandas.api.types import is_string_dtype is_string_dtype(df['uno']) 이렇게 하면 아래 결과처럼 string이 TRUE or False 이렇게 나온다. 전체적으로 string or numeric 값만 보고싶을때 사용사용사용했음

[Python]네이버 쇼핑 리뷰 크롤링 하기

일단 크롤링 처음 해봄. 허접한 부분이 많지만 기록용, 그리고 나와 같은 초보가 알기 쉽도록 블로그 포스팅 먼저 내가 크롤링하고 싶은 네이버 쇼핑 페이지는 이것 쇼핑몰 리뷰에 있는 리뷰들을 크롤링하고 싶었다 - 필요한 모듈 from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup from time import sleep import requests import re import pandas as pd import numpy as np import os from selenium.webdriver.common.keys import Keys 웹 크롤링하는 모듈은 여러개 있었..

unix epoch time SQL로 바꾸는 방법

aws athena 하는 중에 timestamp가 unix epoch time으로 나오는 문제때문에 찾은 방법입니다. 기본적으로 unix epoch time을 SQL로 바꾸는 방법은 다음과 같습니다. FROM_UNIXTIME(time) 하지만 제가 찾은 방법은 다음과 같습니다(이것 사용 !!!) from_unixtime(timerecv / 1000e0) 혹시 안되면 date_format도 한번 넣어보세요 date_format(from_unixtime(timerecv),'%Y-%m') ▼잘 바뀌었는지 확인 ! www.epochconverter.com/ Epoch Converter Convert Unix Timestamps (and many other date formats) to regular dates...

[Python]Could not fetch URL https://pypi.org/simple/dash/: There was a problem confirming the ssl certificate: HTTPSConnectionPool(host='pypi.org', port=443): Max retries exceeded with url: /simple/dash/ (Caused by SSLError(SSLCertVerificationError(1, '..

오류 짜증나... python으로 dashboard 만드려고하니까 설치부터 바로 에러 나는 python 못해먹겠다 아휴 어쨌든 오류 해결 방법 !!! 기존 !pip install dash 을 해서 오류가 났습니다. 오류 해결로는 !pip install dash --trusted-host pypi.python.org --trusted-host files.pythonhosted.org --trusted-host pypi.org 이렇게 뒤에 붙여주시면 돼요 오류 이유는 pip를 이용하여 원하는 패키지를 설치하려고 하면, 아래와 같은 에러가 발생할 수 있습니다. 주로 인트라넷을 사용하는 경우 아래와 같은 문제가 많이 발생합니다. 아래와 같은 에러가 발생하는 이유는 각 회사 컴퓨터에는 신뢰할 수 있는 루트 인증 ..

의사결정나무(Decision Tree) 쉽게 이해하기

의사결정나무(Decision Tree)란 ? 의사결정나무(decision tree) 또는 나무 모형(tree model)은 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification) 하거나 예측 (prediction)을 수행하는 분석방법이다. 목표변수가 이산형인 경우의 분류나무(classification tree)와 목표변수가 연속형인 경우의 회귀나무(regression tree)로 구분된다. ■ 의사결정나무(decision tree) 장점 1) 결과를 해석하고 이해하기 쉽다. 2) 자료를 가공할 필요가 거의 없다. 3) 수치 자료와 범주 자료 모두에 적용할 수 있다. 3) 화이트박스 모델을 사용한다. 5) 안정적이다. 6) 대규모의 데이터 셋에서도 잘 동작한..

[Python]lambda 함수(filter,map,reduce)

Lambda 함수란 ˙ 코드를 간결하게 만들기 위해 사용 ˙ 단일문으로 표현되는 익명함수 ˙ 익명함수란 이름이 없는 구현체만 존재하는 간단한 함수를 의미 ˙ 코드상에서 한번만 사용되는 기능이 있을 때, 굳이 함수로 만들지 않고 1회성으로 만들어 쓸 때 사용 예제 1. #x를 넣으면 x제곱이 나오는 함수를 만들어보자 a=lambda x:x**2 a(5) #위의 lambda함수와 같은 함수 def a2(x): return x**2 예제 2. #x,y 두 변수를 덧셈하는 함수 add = lambda x,y:x+y add(1,2) #위의 lambda 함수와 같은 함수 def add(x,y): return x+y 예제 3. #문자 길이로 sorting 하기 ex = ['aaa','bbbbbbb','c','dddd..

반응형