본문 바로가기

Python/Pandas25

[Python] Pandas DataFrame 함수 숫자 데이터만 계산하기(numeric_only=True) 📝파이썬 판다스 데이터프레임 함수 숫자 데이터만 계산하기 (numeric_only=True) : 데이터프레임을 함수로 계산할때 numeric_only=True를 입력해주면 숫자인 데이터만 계산해준다 # (numeric_only=Tru) 데이터 프레임 값에서 숫자만 계산해준다 >>> df.함수(numeric_only=True) 2022. 11. 24.
[Python] Pandas DataFrame NaN값 처리하기 isna(), notna(), dropna(), fillna() 📝파이썬 판다스 데이터프레임 NaN값 처리하기 (확인, 삭제, 추가, 변경) NaN? 값이 없을 때의 값 ( = null) df.isna() : 비어있는 데이터 갯수를 파악한다 # 해당 데이터프레임에 비어있는 값을 True로 나타낸다 >>> df.isna() # .sum()을 입력시 각 컬럼별로 비어 있는 값을 알려준다 >>> df.isna().sum() # .sum()을 두번 입력시 총 값(비어있는 총 갯수)을 알려준다 >>> df.isna().sum().sum() df.notna() : 비어있지 않은 데이터 갯수를 파악한다 (isna() 함수의 반대) df.dropna() : NaN이 들어있는 행을 삭제한다 # NaN이 들어있는 행을 삭제한다 >>> df.dropna() df.fillna(a) : N.. 2022. 11. 24.
[Python] Pandas csv 파일 불러오기 pd.read_csv() 📝파이썬 판다스 csv 파일 불러오기 pd.read_csv('csv파일명') : csv파일 불러오기 ( ../ → 지금 위치해있는 파일 위로 가라는 뜻) ※ index_col= 0 파일을 불러왔는데 Unnamed : 0 일때 입력하면 해당 컬럼이 인덱스로 지정됨 encoding=' ' 인코딩 입력 thousands=',' df에 콤마가 있을때 콤마를 빼고 숫자로 읽어오라고 입력 # 파일 불러오기 >>> pd.read_csv('csv파일명') >>> pd.read_csv('csv파일명', index_col= 0, encoding=' ', thousands=',') # index_col= 0 파일을 불러왔는데 Unnamed : 0 일때 입력하면 해당 컬럼이 인덱스로 지정됨 # encoding=' ' 인코딩입.. 2022. 11. 24.
[Python] Pandas DataFrame 가져오기(엑세스) loc[], iloc[] 📝판다스 데이터 프레임 가져오기(엑세스) 데이터 프레임에서 원하는 데이터를 엑세스하는 방법은 3가지이다 1. 컬럼의 데이터를 가져오는 방법 (변수명 바로 오른쪽에 대괄호[ ] 사용) 대괄호[ ] 안에 가져오고싶은 데이터 컬럼을 입력해주면 해당 컬럼에 있는 데이터를 가져온다 # 1가지 가져올때 >>> df['컬럼'] # 2가지 이상 가져올때는 리스트 >>> df[['컬럼','컬럼']] 2. 행과 열의 정보로 데이터를 가져오는 .loc[ , ] loc는 대괄호[ ] 안에 인덱스명과 컬럼명을 입력해주면 해당 인덱스와 컬럼에 있는 데이터를 가져온다 >>> df.loc['인덱스', '컬럼'] 3. 행과 열의 정보로 데이터를 가져오는 .iloc[ , ] iloc는 대괄호[ ] 안에 인덱스와 컬럼을 컴퓨터가 매기는 .. 2022. 11. 23.
[Python] Pandas 데이터 생성 pd.Series, pd.DataFrame, to_frame() 📝import pandas as pd 판다스(Pandas)는 데이터 셋을 이용한 다양한 통계 처리 기능을 제공하는 라이브러리다 (쉽게 말하면 엑셀의 기능을 제공하는 파이썬 모듈) ※ 판다스 1차원 배열은 시리즈(Series), 2차원 배열은 데이터프레임(DataFrame)이라고 한다 >>> import pandas as pd # pd는 판다스를 줄여서 사용할때 쓴다(약칭) pd.Series(data= a, index=b) : a 에 데이터(values) 값, b에 인덱스(index)값을 입력하면 1차원 데이터(시리즈)를 생성한다 인덱스값을 입력하지 않으면 컴퓨터가 매기는 인덱스값으로 나온다 >>> index = ['eggs', 'apples', 'milk', 'bread'] >>> data = [30, .. 2022. 11. 23.