Tidy Data - 깔끔한 혹은 단정한 데이터
분석하기 좋게 잘 정돈된 데이터란 어떤 것인지에 대한 내용입니다.
▶ Tidy: 깔끔한, 단정한, 잘 정돈된
데이터 분석 작업에서 약 70~80%의 시간은 데이터 변환 및 전처리에
사용된다고 합니다. 그리고, '데이터 전처리'란 데이터를 특정 분석 목적에
맞게 만드는 것을 말합니다.
업무 시스템을 설계할 때, 데이터를 저장하는 테이블들에 대해 향후 해당
데이터들에 대한 분석을 고려하여 만들기는 쉽지 않을 것 같습니다.
해서, 업무 분석 시스템(DW, BI 등)들은 기존 운영 시스템에서 분석에 필요한
데이터들을 뽑아내어 별도의 테이블로 구성하는 것이 일반적으로 보입니다.
데이터 분석을 위한 변환 혹은 전처리에 많은 경험을 쌓으신 전문가 분들의 경우,
이러한 작업의 패턴을 통해 함수나 패키지들을 만들어 좀 더 원할한 작업을
하고자 많은 노력을 기울이신 것으로 보입니다.
그중에 'Tidy Data'라는 논문까지 발표하신 Hadley Wickham (해들리 위컴) 교수께서
주창하신 아래 사항이 많은 귀감이 되고 있는 것으로 보입니다.
상기 논문에서 위컴 교수님은 "깔끔한 데이터는 데이터 세트의 의미를 해당 구조에 매핑하는
표준 방법이다." 라는 말씀과 함께 'Tidy Data' 란 다음과 같은 것이라고 합니다.
1. Each variable forms a column.
>> 각 변수는 열(column)의 형태를 이룬다.
2. Each observation forms a row.
>> 각 관측값은 행(row)의 형태를 이룬다.
3. Each type of observational unit forms a table.
>> 각 관측 단위의 유형은 테이블 형태를 이룬다.