스파르타 코딩클럽 내일배움캠프 AI 웹개발자양성과정 3회차
2022.12.06. 68일차 - TIL
1. 데이터 전처리
프로젝트를 위해 크롤링을 했는데 결과를 살펴보면 사이트 자체에서 잘못 올린 값, 양식 불일치 등의 문제로 데이터를 가공할 필요성을 느꼈다. 그래서 내용을 찾아보다 데이터 전처리에 대해 알게 되었다.
데이터 전처리란 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭한다. 일반적으로 비어있는 부분이 있거나 형식이 맞지 않는 경우가 많이 있다. 따라서 이러한 데이터를 보다 품질이 좋게 만드는 과정이라고 생각하면 될 것 같다.
실제로 우리도 값을 양식에 맞추어 수정하는데 오래 걸렸는데 데이터 과학자는 시간의 60%를 데이터를 정리하고 구성하는데 보낸다고 한다. 데이터 세트 수집이 19%로, 이 과정이 도합 80%의 시간을 소비한다.
정형 데이터 전처리 작업 순서는 다음과 같다.
1. 데이터세트 가져오기 및 내보내기
2. 변수 이름 지정 또는 이름 바꾸기
3. 변수 유형 변경
4. 중복 키 또는 전체 중복 레코드가 있는 하나 이상의 변수 정렬
5. 입력 데이터 세트에서 출력 데이터 세트로 열 선택
6. 하나 이상의 조건을 기반으로 행 필터링
7. 기존 변수의 기능을 통한 새로운 변수 생성
8. 변수의 조건부 처리(새 변수의 값은 기존 변수의 값을 기반으로)
9. 테이블 추가
10. 테이블 조인(내부 조인, 왼쪽 및 오른쪽 조인, 전체 외부 조인)
11. 전치 테이블
12. 열 요약 또는 그룹별로 열 요약
13. 열 정규화 및 표준화(연속형 변수의 경우)
14. 연속 변수의 비닝
15. 변수에 결측값 대입
그래서 우리는 현재 데이터 분석에 대해 자세히 알지 못하기 때문에 크롤링한 데이터를 수기로 수정했다. 자동화 작업도 있을 것 같지만 현재 백엔드에 더 집중하기 위해 해당 내용 공부는 다음에 추가로 이어서 하기로 했다.
참고
'개발일지 > AI 캠프' 카테고리의 다른 글
내일배움캠프 AI - 70일차 TIL, 2022.12.08 (0) | 2022.12.09 |
---|---|
내일배움캠프 AI - 69일차 TIL, 2022.12.07 (0) | 2022.12.08 |
내일배움캠프 AI - 67일차 TIL, 2022.12.05 (0) | 2022.12.06 |
내일배움캠프 AI - 14주차 WIL (0) | 2022.12.05 |
내일배움캠프 AI - 66일차 TIL, 2022.12.02 (0) | 2022.12.05 |