반응형

나는야 데이터사이언티스트 87

[Python] geodatasets 설치 안될때

Geopandas 써보려고 하던 중 데이터를 쓰려고하는데 geodatasets가 설치가 안됨 ㅠㅠ #에러코드 import geodatasets geodatasets.data geodatasets.get_path('geoda airbnb') #수정코드 import geopandas as gpd gpd.read_file(gpd.datasets.get_path('naturalearth_lowres')) #사용가능 geopandas 샘플데이터셋 geopandas.datasets.available = ['naturalearth_cities', 'naturalearth_lowres', 'nybb'] geodatasets는 왜 안되는지 모르겠지만... 그냥 geopandas 로 사용하면 됐다! 그럼 뿅!

[Python]DataFrame N등분 하기, DataFrame 분할

python DataFrame을 분할하고 싶을때, N 등분하고 싶을 때 방법 numpy의 split이나 array_split을 사용하면 가능! #정확하게 10등분하기 #정확하게 10등분하지 못하는 행의 수는 에러 메세지 출력 # ex)23/10 = 2.3으로 나머지가 3이 남기때문에 정확하게 n 등분하지 못함 sep_df=[df.loc[idx] for idx in np.split(df.index,10)] #비슷한 행의 수로 10등분하기 #정확하게 10등분하지 않아도 비슷한 숫자로 분할 sep_df=np.array_split(df,10) #sep_df[0],sep_df[1],...로 확인 가능

[Python]Python hive JDBC 연결하기

python이랑 hive JDBC 연결하는 방법 hive 말고 다른 DB 서버랑도 연결 가능! https://pypi.org/project/JayDeBeApi/ JayDeBeApi Use JDBC database drivers from Python 2/3 or Jython with a DB-API. pypi.org #pip install 설치 import jaydebeapi as jp import os import pandas as pd path = 'jar 파일 있는 디렉토리' #jar 파일 전체 들고오기 file_list = os.listdir(path) jar_list = [path + file for file in file_list if file.endswith(".jar")] # .jar로 끝나..

[R]Anaconda(Jupyter Notebook)에서 R 사용하기(+가상환경 생성/커널 생성)

Anaconda에서 R 사용하기 Anaconda에서 R 사용하려면 일단 관리자 권한으로 실행하고 아래 구문을 적으면 된다 conda install -c r r-essentials 기본적으로 설치해줄거 다 설치해주고 주르륵 뜨면 끝~ Jupyter notebook에서 이제 R 사용할 수 있음 2. Anaconda R 가상환경 생성하기(커널 생성하기) 1. 일단 가상환경 생성한다 conda create --name r 2. jupyter-lab에서 쉽게 사용하기 위해서 커널도 생성한다 //가상환경 리스트보기 conda env list // 커널을 생성하고자하는 가상환경으로 접속 후 작업한다. conda activate 가상환경이름 //R을 실행 R //R에서 IRkernel을 설치 install.packag..

마르코브체인 몬테카를로 알고리즘

진짜 생전 처음들어봄 ! 몬테카를로 알고리즘이랑 부트스트랩이 뭔지 그래도 알고 있어야 할 것 같아서 진짜 간단히 간단히 알아보려고 유투브보고 정리한 내용. 몬테카를로 시뮬레이션 몬테카를로 이름이 되게 생소한데, 모나코의 유명한 도박 도시 "몬테카를로"를 본따서 스타니스와프 울람(수소 폭탄 개발자)이 이름을 지었다고 한다. 알파고 관련 기사를 보여줬는데, 바둑은 경우의 수가 10의 170승올 막대해 컴퓨터가 모두 계산하는게 불가능하다. 그래서 난수를 발생시켜 그 샘플을 얻어서 답을 구하는 방식인 몬테카를로 방법을 사용했다는 기사였다. 즉, 몬테카를로 방법(Monte-Carlo Algorithm)은 수식만으로 계산하기 어려운 문제가 있을 때, 무작위 샘플을 얻은 뒤 그 샘플을 이용해서 답을 구하는 방법이다...

[JupyterLab]주피터랩 실행 안될때

C:\ProgramData\Anaconda3\envs\Environment_1\lib\site-packages\nbclassic\notebookapp.py:73: FutureWarning: The alias `_()` will be deprecated. Use `_i18n()` instead. _("Don't open the notebook in a browser after startup.") C:\ProgramData\Anaconda3\envs\Environment_1\lib\site-packages\nbclassic\notebookapp.py:89: FutureWarning: The alias `_()` will be deprecated. Use `_i18n()` instead. _("Allow th..

[딥러닝]tf.keras.layers.Dropout

#학습 시, 20% 드롭아웃이 적용 tf.keras.layers.Dropout(rate=0.2, input_shape=(2,)) # rate : 드롭아웃을 적용할 확률을 지정한다. (0~1 사이의 값 지정) # (ex : dropout=0.2로 지정 시 전체 입력 값 중 20%를 0으로 만듦) #noise_shape : 정수형의 1D-tensor 값을 받는다. 여기서 받은 값은 shape을 뜻하는데, 이 값을 지정함으로써 특정 값만 드롭아웃을 적용할 수 있다. #(ex : 입력값이 이미지일 경우 noise_shape을 지정하면 특정 채널에만 드롭아웃 지정 가능함) #seed : 드롭아웃의 경우 지정된 확률 값을 바탕으로 무작위로 드롭아웃을 적용하는데, # 이때 임의의 선택을 위한 시드 값을 의미한다. #..

[Python] 마지막 날짜 얻기, 마지막 날짜 계산하기

매월 다른 마지막 날짜를 구하기 위한 함수 1. 필요한 라이브러리 from dateutil import rrule from datetime import date from datetime import datetime from datetime import timedelta from dateutil import relativedelta import time 2. 시작 날짜 구하기 나는 여러 월의 마지막 날짜를 한번에 구하기 위해서 시작 날짜를 list로 만들었다 2019.01 ~ 2022.03 기간의 마지막 날짜를 구하기 위해서 시작 날짜를 만들어 줬다 date = list(rrule.rrule(rrule.MONTHLY, dtstart=date(2019,1,1), util=date(2022,3,1))) sta..

반응형