반응형

나는야 데이터사이언티스트/PYTHON 45

[Python]DataFrame value type 확인하기

dataframe 타입 확인하려고 할때, 구글링하면 계속 df.dtypes() 만 알려준다. 근데 내가 원한거는 이런게 아니라 하나하나 나와야하눈디... 할때 사용하는 것 ! import pandas as pd from pandas.api.types import is_numeric_dtype from pandas.api.types import is_string_dtype is_string_dtype(df['uno']) 이렇게 하면 아래 결과처럼 string이 TRUE or False 이렇게 나온다. 전체적으로 string or numeric 값만 보고싶을때 사용사용사용했음

[Python]네이버 쇼핑 리뷰 크롤링 하기

일단 크롤링 처음 해봄. 허접한 부분이 많지만 기록용, 그리고 나와 같은 초보가 알기 쉽도록 블로그 포스팅 먼저 내가 크롤링하고 싶은 네이버 쇼핑 페이지는 이것 쇼핑몰 리뷰에 있는 리뷰들을 크롤링하고 싶었다 - 필요한 모듈 from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup from time import sleep import requests import re import pandas as pd import numpy as np import os from selenium.webdriver.common.keys import Keys 웹 크롤링하는 모듈은 여러개 있었..

[Python]lambda 함수(filter,map,reduce)

Lambda 함수란 ˙ 코드를 간결하게 만들기 위해 사용 ˙ 단일문으로 표현되는 익명함수 ˙ 익명함수란 이름이 없는 구현체만 존재하는 간단한 함수를 의미 ˙ 코드상에서 한번만 사용되는 기능이 있을 때, 굳이 함수로 만들지 않고 1회성으로 만들어 쓸 때 사용 예제 1. #x를 넣으면 x제곱이 나오는 함수를 만들어보자 a=lambda x:x**2 a(5) #위의 lambda함수와 같은 함수 def a2(x): return x**2 예제 2. #x,y 두 변수를 덧셈하는 함수 add = lambda x,y:x+y add(1,2) #위의 lambda 함수와 같은 함수 def add(x,y): return x+y 예제 3. #문자 길이로 sorting 하기 ex = ['aaa','bbbbbbb','c','dddd..

[PYTHON] 이미지 불러오기

1. 사용하는 모듈 import numpy as np from PIL import Image import matplotlib.pyplot as plt %matplotlib inline 2. 파일 열기 # 파일 열기 path = './dog.jpg' image_pil = Image.open(path) image = np.array(image_pil) 3. 이미지 정보 확인 image.shape #이미지 range 확인 np.min(image), np.max(image) #이미지 시각화 plt.hist(image.ravel(),256,[0,256]) plt.show() 출력값은 아래의 그림과 같이 나옵니다 4. 이미지 보기 plt.imshow(image) plt.show() #이미지 흑백으로 열기 image..

[Python]파이썬에서 Oracle DB 연동하는 방법

1. Anaconda Prompt창을 관리자 권한으로 실행 2. cx_Oracle 라이브러리를 설치 cx_Oracle 라이브러리를 설치합니다 -------> python -m pip install cx_Oracle --upgrade 혹시 이미 설치되어 있다면 업그레이드 해주세요 3. Oracle Instant Client Downloads에서 다운로드 라이브러리 설치 후, oracle instant client 도 다운로드 받아야합니다 컴퓨터 사양에 맞게 다운받으세요 ! 참고로 저는 윈도우 64비트였습니다 저는 zip 파일을 받고 C 드라이브 밑에 압축풀었습니다 -----> C:\instantclient_19_8 www.oracle.com/database/technologies/instant-client..

[Python]파이썬 스핑크스 - 파이썬 코드 문서화 하기

스핑크스(Spinhx) 스핑크스(Sphinx)는 파이썬 프로젝트를 문서화하는 도구입니다. 스핑크스는 RST(reStructuredText)와 파이썬의 문서화 문자열을 이용해 매뉴얼과 레퍼런스 문서를 작성하며 문서를 정적 웹페이지, 이북, PDF 등으로 출력합니다. 설치하기 anaconda prompt를 열어서 설치해줍니다 pip install Sphinx 그리고 문서화를 하기 원하는 프로젝트로 이동해서 sphinx-quickstar를 실행합니다. #prompt 내에서 cd를 이용해 문서화 원하는 프로젝트로 이동 sphinx-quickstar y를 입력하면 문서의 내용을 작성한 파일이 들어가는 source 디렉토리와 출력을 지정하는 build디렉토리가 별도로 생성됩니다. n을 입력하면 프로젝트 최상위 디렉..

[Python]지도 데이터 시각화 - Folium 기초 실습하기

먼저 Folium은 Python data, leaflet.js 맵입니다. Python에서 데이터를 조작한 다음 leaflet.js를 통해 데이터를 시각화합니다. 라이브러리에는 OpenStreetMap, Mapbox 및 Staten의 여러 타일 세트가 내장되어 있으며, Mapbox 또는 Cloudmade API 키를 사용하여 사용자 지정 타일 셋을 지원합니다. Folium은 이미지, 비디오, GeoJSON 및 TopoJ를 모두 지원합니다. 자세한 내용은 아래 주소 클릭 https://python-visualization.github.io/folium/ - 실습 먼저 실습할 데이터를 만들어줍니다. from pandas import DataFrame #예제 데이터 만들기 ex = {'경도' : [127.061..

[Python/pandas]데이터 결측치 처리하기(보간법/보외법) -pandas.DataFrame.interpolate

보간법/보외법 python에서 간단하게 보간,보외할 수 있는 방법이 있다. 보간 보외에 관한 간단한 설명은 아래의 블로그에서 확인 가능. http://blog.naver.com/PostView.nhn?blogId=release&logNo=50094947851 pandas.DataFrame.interpolate DataFrame.interpolate(self, method='linear', axis=0, limit=None, inplace=False, limit_direction='forward', limit_area=None, downcast=None, **kwargs) Parameters : method : str, default ‘linear’ ‘linear’: 선형 방법으로 보간 ‘time’: 시간..

[Python]데이터분석 EDA 쉽게 하기 - pandas_profiling

pandas 라이브러리 중 EDA를 한눈에 볼 수 있는 라이브러리 발견 ! 보고서 쓸 때나 데이터 확인할 때 쓰면 아주 좋을 것 같다. pandas_profiling 이란 ? 딱 EDA할 때 보는 거 다 나온다. 이제 파이썬으로 하나하나 다 코드 안짜도 pandas profiling으로 해결 가능 ~ https://pypi.org/project/pandas-profiling/ pandas-profiling Generate profile report for pandas DataFrame pypi.org 살펴보기 전체 데이터 overview도 알려주고 각 변수마다 overview도 알려준다. missing value도 알려주고 Zero 가 몇개인지도 알려줌. 오...완전 좋은데 일단 기능이 좋은건 확실 실습..

반응형