DA 서적 정리(5)
-
웹 크롤링 & 데이터 분석 with 파이썬 요약 1
목차 1.웹 크롤링을 하기 전에 알아야할 것들 정리2. BeautifulSoup 기초 사용법 3. 정적 웹 사이트 크롤링 4. 동적 웹 사이트 크롤링 5. API로 웹 사이트 크롤링 1. 웹 크롤링을 하기 전에 알아야할 것들 정리 1. 웹 크롤링과 웹 스크래이핑 웹 크롤링: 웹 사이트에 있는 수많은 데이터를 반복 작업을 통해 자동 수집하는것 웹 스크래이핑: 웹 스크래이핑은 웹 사이트에서 원하는 정보만 추출한다는 의미인 반면 웹 크롤러는 데이터 전체를 가져온다는 뜻이다 하지만 웹크롤링과 웹스크래이핑은 같은 의미로 쓰이는 경우가 많다고 한다 웹 크롤링의 대략적인 과정 1. 원하는 데이터가 있는 웹 사이트 접속 2. 웹 사이트에서 F12 키를 눌러 원하는 정보 위치 확인 3. 웹 페이지에서 HT..
2025.03.12 -
혼자 공부하는 데이터 분석 with 파이썬 요약 2
목차1. 가설검정2. 머신러닝 1. 가설검정# c++ 도서 데이터 프레임cpp_df.head(3) # 파이썬 도서 데이터 프레임pyt_df.head(3)print('파이썬 도서 대출건수 평균 :', np.mean(pyt_df['대출건수']))print('C++ 도서 대출건수 평균 :',np.mean(cpp_df['대출건수']))파이썬 도서 집단과 c++ 도서 집단의 평균은 통계적으로 다르다고 할 수 있는지 검정 귀무가설은 '평균이 서로 다르지 않다' 이며,대립가설은 '평균이 서로 다르다' 이다 검정통계량은 다음과 같다# 두 표본의 평균과 표준오차 계산pyt_mean = np.mean(pyt_df['대출건수'])cpp_mean = np.mean(cpp_df['대출건수'])pyt_se = np.std(py..
2025.03.08 -
혼자 공부하는 데이터 분석 with 파이썬 요약 1
목차 1. JSON, XML 문서 살펴보기 2. API 사용해서 데이터 가져오기 3. 웹스크래이핑 해서 데이터 가져오기 4. 데이터 정제 메서드 정리 5. 정규표현식으로 문자열 다루기6. 기술 통계 메서드 정리 7. 시각화 1. JSON, XML 문서 살펴보기JSON 문서import json# JSON 객체는 파이썬의 딕셔너리와 비슷하다# API로 받은 데이터가 JSON 문자열일 때# 다음과 같은 방법을 파이썬에서 사용할 수 있게 해준다# 파이썬 딕셔너리 객체 생성d = {'name' : '혼공 데이터분석', 'year' : 2022}print(d)print(type(d))# 파이썬 딕셔너리 -> JSON 문자열로 변환d_str = json.dumps(d, ensure_ascii= False) # 한글..
2025.03.08 -
Do it! - 데이터 분석을 위한 판다스 입문 요약 2
피벗과 피벗 되돌리기'열 이름이 값일 때 넓은 데이터를 긴데이터로 만들기 (피벗 되돌리기)'# 데이터 준비ebola = ebola.melt(id_vars = ['Date', 'Day'])ebola.head()# 데이터 확인pew.head()pew_long = pew.melt( id_vars= 'religion', # 유지할 열 (리스트로 여러 열을 유지할 수도 있다) var_name='income', # 되돌리기한 열 이름 value_name='count' # '열로 정리된 셀'의 열 이름)pew_long.head()'셀 값을 열로 변형 (피벗)'# 데이터 준비weather.head()weather_pivot = weather.pivot_table( inde..
2025.02.27 -
Do it! - 데이터 분석을 위한 판다스 입문 요약 1
# csv 파일을 불러오는 함수, sep 인수를 설정해 tsv같은 파일을 불러올 수도 있다df = pd.read_csv('data/gapminder.tsv', sep = '\t')데이터 불러오기 및 확인데이터 불러오기 및 확인# 데이터의 타입 확인type(df)# 데이터의 크기 확인df.shape# 데이터의 변수 명 확인df.columns# 데이터의 변수 별 타입 확인df.dtypes# 데이터 프레임의 전반적인 정보 확인df.info()# 데이터 프레임의 주요 속성 (행이름, 열이름, 데이터 값)df.index df.columnsdf.values'''df.shape 처럼 객체에 붙여서 쓰지만 괄호가 없으면 해당 객체의 '속성'이다df.info() 처럼 객체에 붙여서 쓰고 괄호가 있으..
2025.02.26