조건에 맞는 데이터 추출하기
# mpg 데이터에서 category가 2seater인 경우만 추출
mpg_df.query("category == '2seater'") #""를 사용해야 ''사용 가능
# mpg 데이터에서 category가 minivan이 아닌 경우만 추출
mpg_df.query("category != 'minivan'")
초과, 미만, 이상, 이하 조건 걸기
# 연식이 2000년 초과인 경우
mpg_df.query("year > 2000")
# 연식이 2000년 미만인 경우
mpg_df.query("year < 2000")
# 연식이 2000년 이상인 경우
mpg_df.query("year >= 2000")
# 차종이 minivan 이거나, 2seater거나 pickup인 경우
mpg_df.query("category == 'minivan' | category == '2seater' | category == 'pickup' ")
# 차종이 minivan 이거나, 2seater거나 pickup인 경우 in을 사용하여 간단하게 추출
mpg_df.query("category in ['minivan', '2seater', 'pickup'] ")
필요한 변수만 추출하기
# 차종만 추출 데이터 프레임으로 추출하고 싶으면 [] 한번 더 씌어주기
mpg_df[['category']]
# 모델, 연식, 차종만 추출
mpg_df[['model', 'year', 'category']]
변수 제거하기
# category 삭제
mpg_df.drop(columns='category')
# category, model 삭제
mpg_df.drop(columns = ['category', 'model'])
#inplace = True 사용시 mpg_df 삭제 후 적용
mpg_df.drop(columns = ['category', 'model'], inplace = True)
순서대로 정렬하기
# 자동차 연식 기준으로 정렬하기 (오름차순)
mpg_df.sort_values('year')
# 자동차 연식 기준으로 정렬하기 (내림차순)
mpg_df.sort_values('year', ascending=False)
# 자동차 차종(오름차순), 연식(내림차순) 기준으로 정렬하기
mpg_df.sort_values(['category', 'year'], ascending = [True, False])
파생변수 추가하기
# total(도시연비+고속도로연비/2) 변수 추가
mpg_df.assign(total = (mpg_df['cty']+mpg['hwy'])/2)#.sort_values('total')
# total(도시연비+고속도로연비) 변수
# mean(도시연비+고속도로연비/2) 통합 평균연비 변수
mpg_df = mpg_df.assign(total = mpg_df['cty']+mpg['hwy'],
mean = (mpg_df['cty']+mpg['hwy'])/2)
집단별로 요약 통계량 구히가
# 차종별로 통합연비 평균 구하기
mpg_df.groupby('category').agg(mean_total = ('total', 'mean'))
# 제조회사별로 구동 방식별로 분리 -> 도시 연비의 평균
# F는 Front Wheel: 전륜, R은 Rear Wheel: 후륜, 4: 사륜
mpg.groupby(['manufacturer', 'drv']).agg(mean_cty = ('cty', 'mean') )
# audi의 구동방식별 차량의 수
# 1) audi 추출
# 2) 구동방식별 분류 groupby
# 3) 차량의 빈도 구하기 agg -> count
mpg.query("manufacturer == 'audi'").groupby('drv').agg(n = ('drv', 'count'))
산점도 그리기
# x축 displ(배기량), y축 hwy(고속도로 연비)나타내는 산점도 만들기
sns.scatterplot(data = mpg, x = 'displ', y = 'hwy')
# x축 displ(배기량), y축 cty(도시 연비)나타내는 산점도 만들기 -> 구동방식(drv) 색으로 표시
sns.scatterplot(data = mpg, x = 'displ', y = 'cty', hue = 'drv')
막대 그래프 그리기
# 구동방식별 고속도로 연비의 평균표 만들기
df_mpg = mpg.groupby('drv', as_index=False).agg(mean_hwy = ('hwy', 'mean'))
sns.barplot(df_mpg, x = 'drv', y = 'mean_hwy')
# 구동방식별 빈도표 만들기
df_mpg = mpg.groupby('drv', as_index=False).agg(n = ('drv', 'count'))
sns.barplot(data = df_mpg.sort_values('n', ascending=False), x = 'drv', y = 'n')
집가서 주술회전+피자+맥주 최고의 조합😊
'ABC부트캠프' 카테고리의 다른 글
ABC 부트캠프 11일차(07.17) (0) | 2023.07.22 |
---|---|
ABC 부트캠프 10일차(07.14) (0) | 2023.07.14 |
ABC 부트캠프 8일차(07.12) (0) | 2023.07.13 |
ABC 부트캠프 7일차(07.11) (0) | 2023.07.11 |
ABC 부트캠프 6일차(07.10) (0) | 2023.07.11 |