2. 데이터 수집 및 탐색
목차
- Step 0. 데이터 베이스 기초
- Step 1. SQL 문을 활용한 python에 데이터 적재
- Step 2. pandas를 이용한 데이터 적재
- Step 3. 웹 데이터 적재
- Step 4. library를 이용한 데이터 적재
Step 0. 데이터 베이스 활용 - SQL
이번 포스팅은 데이터가 저장되어 있는 Database로 부터 SQL 언어를 사용하여 python으로 데이터를 불러오는 방법에 대하여 공부하겠다.
아래 사진을 통해 간단한 SQL의 개념에 대해서 숙지하면 되겠다.
Step 1. SQL 문을 활용한 python에 데이터 적재
우선 사용할 데이터인 boston.db를 아래와 같은 폴더에 저장해두었다.
(1) SQL 언어 사용 준비
1 |
|
(2) 조회 그리고 적재
이제 SQL과 python을 연결 했으니, SQL 문을 이용하여 데이터를 조회하고 그리고 적재를 할 것이다.
간단히 이해하면 조회는 사용자가 원하는 데이터를 꺼내오기 위해 SQL 문을 통하여 명령하는 것이고, 적재는 명령을 통해 조회한 데이터를 실제로 쌓는 과정이다.
1 |
|
1 |
|
SQL 문을 활용하여 조건을 추가할 수 도 있다.
1 |
|
(3) 조회된 데이터를 데이터프레임으로 저장
함수 fetchall()로 적재한 데이터의 형태는 list 이다. 데이터를 다루기 쉽게, 보기 쉽게하기 위해 dataframe으로 저장이 가능하다.
1 |
|
1 |
|
위에서 언급했다싶이, SQL 문을 통해 조건을 추가할 수 있다. 그래서 SQL 문이 길어질 경우 “”” ~~~ “”” 을 통해 여러 줄을 작성이 가능하다.
1 |
|
1 |
|
(4) 통로 연결 끊기
원하는 작업이 끝나면, SQL과 python을 이어주는 연결 통로를 제거해야한다.
1 |
|
Step 2. pandas를 이용한 데이터 적재
이번에는 pandas를 이용하여 만든 데이터프레임을 직접 Database에 저장하는 방법을 공부해보자.
우선 boston DB로부터 10개의 행을 불러온다
1 |
|
DB 테이블 생성
1 |
|
생성된 DB 테이블 확인
1 |
|
1 |
|
DB 테이블 제거
1 |
|
1 |
|
Step 3. 웹 데이터 불러오기
데이터가 너무 방대한 파일을 폴더에 넣기 부담스러울 경우, url을 이용하여 데이터를 불러올 수 있다.
1 |
|
1 |
|
Step 4. library를 이용한 데이터 불러오기
파이썬에서는 dataset을 제공하는 여러 library들이 존재한다.
sklearn
1 |
|
1 |
|
Seaborn
1 |
|
1 |
|