#빅데이터 

데이터 전처리란?

데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭합니다. 데이터 전처리는 데이터 분석 및 처리 과정에서 중요한 단계이고 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용 합니다. 그리고 일반적으로 데이터는 비어있는 부부인 있거나 정합성이 맞지 않는 경우가 많이 있습니다. 아무리 좋은 도구나 분석 기법도 품질이 낮은 데이터로는 좋은 결과를 얻기가 힘듭니다.

2022-11-07 | 우성우

데이터 전처리란 무엇인가?

데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭합니다.

데이터 전처리는 데이터 분석 및 처리 과정에서 중요한 단계이고 데이터 분석,

데이터 마이닝, 머신 러닝 프로젝트에 적용 합니다. 그리고 일반적으로 데이터는 비어있는 부분이 있거나 정합성이 맞지 않는 경우가 많이 있습니다.

아무리 좋은 도구나 분석 기법도 품질이 낮은 데이터로는 좋은 결과를 얻기가 힘듭니다.

데이터 과학자에게 데이터 전처리 작업 비중은?

 

출처:(https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=123b5f906f63)

데이터 과학자는 시간의 60%를 데이터를 정리하고 구성하는 데 보냅니다. 데이터 세트 수집은 19%의 시간으로 두 번째로 이루어지며, 이는 데이터 과학자가 분석을 위해 데이터를 준비하고 관리하는 데 시간의 약 80%를 소비한다는 것을 의미합니다.

 

데이터 과학자의 57%는 데이터 준비를 업무에서 가장 재미 없는 부분으로 생각합니다.

데이터 분석 단계(데이터 선택->전처리->변환->데이터 마이닝->해석과평가)에서

데이터 전처리 과정은 2번쨰 단계입니다.

데이터 전처리 단계?

데이터 수집 – > 데이터 정제 -> 데이터 통합 -> 데이터 축소 -> 데이터 변환의 가정을 거치게 됩니다.

몇가지 전처리 예시로

중복값 제거, 결측값 보정, 데이터 연계/통합 , 노이즈 제거, 데이터 구조 변경(차원 변경), 데이터 벡터화, outlier detection, feature Engineering 등이 있습니다.

출처:(https://bdataanalytics.biomedcentral.com/articles/10.1186/s41044-016-0014-0)

정형 데이터 전처리 작업 순서

작업 목록은 구조화된 데이터에 중점을 둡니다.

  1. 데이터세트 가져오기 및 내보내기
  2. 변수 이름 지정 또는 이름 바꾸기
  3. 변수 유형 변경(명시적 강제라고도 함)
  4. 중복 키 또는 전체 중복 레코드가 있는 하나 이상의 변수 정렬
  5. 입력 데이터 세트에서 출력 데이터 세트로 열 선택
  6. 하나 이상의 조건을 기반으로 행 필터링
  7. 기존 변수의 기능을 통한 새로운 변수 생성
  8. 변수의 조건부 처리(즉, 새 변수의 값은 기존 변수의 값을 기반으로 함)
  9. 테이블 추가
  10. 테이블 조인(내부 조인, 왼쪽 및 오른쪽 조인, 전체 외부 조인)
  11. 전치 테이블
  12. 열 요약 또는 그룹별로 열 요약
  13. 열 정규화 및 표준화(연속형 변수의 경우)
  14. 연속 변수의 비닝
  15. 변수에 결측값 대입

출처:(https://medium.datadriveninvestor.com/data-cleaning-for-data-scientist-363fbbf87e5f)

파이썬을 가지고 데이터 전처리를 해보는 과정을 소개해 주는 자료 링크

1.https://iambeginnerdeveloper.tistory.com/30

 

2.https://velog.io/@changhtun1/%EA%B8%B0%EC%B4%88%EB%B6%80%ED%84%B0-%EC%8C%93%EC%95%84%EA%B0%80%EB%8A%94-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-2

 

3.https://youtu.be/qxpKCBV60U4