본문 바로가기

Python/Pandas25

[Python] Pandas DataFrame 인덱스, 컬럼명 변경하기 rename() 📝파이썬 판다스 데이터프레임 인덱스, 컬럼명 변경하기 df.rename(index={'기존 인덱스' : '입력하고싶은 인덱스'}) : 기존에 있는 인덱스명을 변경한다 >>> df.rename(index={'기존 인덱스' : '입력하고싶은 인덱스'}) # 두가지 이상 변경할시 >>> df.rename(index={'기존 인덱스' : '입력하고싶은 인덱스', '기존 인덱스' : '입력하고싶은 인덱스'}) df.rename(columns={'기존 컬럼' : '입력하고싶은 컬럼'}) : 기존에 있는 컬럼명을 변경한다 >>> df.rename(columns={'기존 컬럼' : '입력하고싶은 컬럼'}) # 두가지 이상 변경할시 >>> df.rename(columns={'기존 컬럼' : '입력하고싶은 컬럼', '기존.. 2022. 11. 25.
[Python] Pandas DataFrame 인덱스 변경, 초기화 set_index(), reset_index() 📝파이썬 판다스 데이터 프레임 인덱스 변경, 초기화 df.set_index('컬럼') : 기존에 있는 컬럼의 값을 인덱스로 만든다 ※ 뒤에 써준 inplace=True는 메모리 자체를 변경한다는 뜻 >>> df.set_index('컬럼') # 메모리 자체를 변경할시 >>> df.set_index('컬럼', inplace=True) df.reset_index() : 인덱스를 원래대로(컴퓨터가 매기는 인덱스) 초기화 시킨다 >>> df.reset_index() 2022. 11. 25.
[Python] Pandas DataFrame 데이터 확인하기 head(), tail(), describe(), shape, columns, info() 📝파이썬 판다스 데이터프레임 데이터 확인하기 .head() : 데이터 프레임의 맨 윗부분 데이터를 5개 확인한다 (숫자를 입력시 해당 숫자만큼 보여준다) >>> df.head() # 숫자를 입력시 해당 숫자만큼 보여준다 >>> df.head(2) # 2개 출력 .tail() : 데이터 프레임의 맨 끝부분 데이터를 5개 확인한다 (숫자를 입력시 해당 숫자만큼 보여준다) >>> df.tail() # 숫자를 입력시 해당 숫자만큼 보여준다 >>> df.tail(2) # 2개 출력 .describe() : 데이터 프레임의 숫자데이터 통계치를 제공한다(문자열도 가능하다) >>> df.describe() .shape : 데이터 프레임의 데이터 행, 열 갯수를 확인한다 >>> df.shape .columns : 데이터.. 2022. 11. 25.
[Python] Pandas DataFrame 유일한 값 찾기 unique(), nunique(), value_counts() 📝파이썬 판다스 데이터프레임 유일한 값 찾기 unique() : 데이터에 유일한 값들이 어떠한 종류가 있는지 알려준다 >>> df['컬럼'].unique() nunique() : 데이터에 유일한 값들의 총 갯수를 알려준다 >>> df['컬럼'].nunique() value_counts() : 값별로 데이터의 수를 출력해준다 # 데이터 숫자가 큰 순서대로(내림차순) 정렬된다 >>> df['컬럼'].value_counts() 2022. 11. 25.
[Python] Pandas DataFrame 합치기 pd.concat(), pd.merge() 📝파이썬 판다스 데이터프레임 합치기 pd.concat( [df1, df2, df3] ) : 컬럼 이름이 동일하면 여러 데이터 프레임을 하나로 합칠 수 있다 # 리스트 안에 데이터 프레임 변수를 입력한다 >>> pd.concat([df1, df2, df3]) # df : 데이터프레임 약자 pd.merge(df, df, on= , how= ) : 두 데이터 프레임의 공통 컬럼이 있으면 이 컬럼을 기준으로 하나로 합칠 수 있다 ※ 두 데이터 프레임에 공통으로 있는 데이터만 합쳐준다 (교집합) 데이터 프레임 2개만 가능하다 # 합칠 데이터 프레임 두개 입력 후, on=뒤에 공통되는 컬럼명을 입력 >>> pd.merge(df1, df2, on= 'Employee ID') # 마지막 how= 'left'를 입력해주.. 2022. 11. 25.
[Python] Pandas DataFrame 문자열 포함, 제외 여부 확인 str.contains(), str.startswith() 📝파이썬 판다스 데이터프레임 문자열 포함, 제외 여부 확인하기 df['컬럼'].str.contains('a') : 데이터프레임의 해당 컬럼에 어떤 문자열(a)을 포함하고 있는지 True, False로 알려준다 ※ 문자열 뒤에 아무것도 입력하지 않으면 디폴트값 case=True이 적용되고 case=False값을 입력하면 대소문자 상관없이 가져온다 ※ 앞에 물결(~) 표시 입력시 True 와 False 를 바꿔준다 ※ 판다스 공식 홈페이지 참고하기 https://pandas.pydata.org/docs/reference/api/pandas.Series.str.upper.html # 해당 문자열 포함 여부 확인 >>> df['컬럼'].str.contains('찾을 문자열', case=False) # 해당 문자.. 2022. 11. 25.
[Python] Pandas DataFrame 정렬하기 sort_values(), sort_index() 📝파이썬 판다스 데이터프레임 정렬하기 df.sort_values('컬럼') : 데이터 프레임의 데이터(밸류)를 해당 컬럼을 기준으로 오름차순 정렬한다 ※ 컬럼 뒤에 ascending=False 입력시 내림차순 정렬 된다(ascending=False만 입력 가능) # 기준으로 정렬하고 싶은 컬럼만 입력시 오름차순 정렬 >>> df.sort_values('컬럼') # 컬럼 뒤에 ascending=False 입력시 내림차순 정렬 >>> df.sort_values('컬럼', ascending=False) # 컬럼을 두개 입력시 컬럼1으로 정렬 후, 컬럼2로 정렬 >>> df.sort_values( ['컬럼1','컬럼2'] ) # 컬럼1, 2를 내림차순 오름차순 각각 다르게 정렬할 경우 ascending=에 순서.. 2022. 11. 25.
[Python] Pandas DataFrame 함수 적용하기 apply() 📝파이썬 판다스 데이터프레임 함수 적용하기 .apply(함수) : DataFrame에 함수를 적용하여 반환한다 >>> df['컬럼'].apply(함수) # 함수의 ()를 빼고 이름만 넣어 사용한다 def 로 직접 만든 함수를 이용할 수도 있다 apply 메서드로 함수적용이 불가할때는 판다스의 str 라이브러리 이용하는 방법도 있다 ※ 판다스 공식 홈페이지 참고하기 https://pandas.pydata.org/docs/reference/api/pandas.Series.str.upper.html >>> df['컬럼'].str.함수() 2022. 11. 25.
[Python] Pandas DataFrame 조건 데이터 가져오기 loc[ ], isin() 📝파이썬 판다스 데이터프레임 조건 데이터 가져오기 조건 하나를 만족하는 데이터 전체 가져오기 / 특정 컬럼 가져오기 # 해당 컬럼의 값이 3이상인 데이터(행)만 가져오기 >>> df.loc[ df['컬럼'] >= 3 ] # 해당 컬럼a의 값이 3이상인 특정 컬럼들만 가져오기 >>> df.loc[ df['컬럼a'] >= 3, ['컬럼', '컬럼'] ] # 콜론(:)도 가능 조건 두개를 만족하는 데이터 전체 가져오기 ( &를 사용한다 ) # 해당 컬럼의 값이 4이상이고 8이하인 데이터(행)만 가져오기 >>> df.loc[ (df['컬럼'] >= 4) & (df['컬럼'] >> df.loc[ (df['컬럼'] >= 4) & (df['컬럼'] >> df.loc[ (df['컬럼']) == (df['컬럼'].max.. 2022. 11. 24.
[Python] Pandas DataFrame 중복 데이터 그룹하기 groupby() 📝파이썬 판다스 데이터프레임 중복 데이터 그룹하기 카테고리컬 데이터(Categorical Date)의 경우 데이터 분석시 데이터별로 묶어서 데이터를 분석할 수 있다 df.groupby('컬럼') : 컬럼 중복 데이터를 그룹화 해준다 >>> df.groupby('컬럼') # 그룹할 컬럼, 구할 컬럼 엑세스, 함수 입력하면 그룹화된 컬럼에서 원하는 컬럼값을 구할 수 있다 >>> df.groupby('그룹할 컬럼')['값을 구하고싶은 컬럼'].함수 df.groupby('컬럼').agg([함수, 함수]) : 집계함수를 한가지가 아닌 여러가지를 사용할때 사용한다 # 집계함수를 한가지가 아닌 여러가지를 사용할때 .agg를 사용한다 >>> df.groupby('컬럼').agg([함수, 함수]) df['컬럼'].val.. 2022. 11. 24.