tidy data 2

Messy Data - 지저분한 데이터

Tidy Data와 반대되는 Messy Data (지저분한 데이터)에 대해 알아 봅니다. 역시나 Hadley Wickham (해들리 위컴) 교수님의 'Tidy Data' 논문에는 Messy Datasets에 대해 다음과 같이 설명하고 있습니다. 1. Column headers are values, not variable names. >> 열(column) 머리글은 변수 명이 아닌, 값으로 되어있음. 2. Multiple variables are stored in one column. >> 여러 변수가 하나의 열(column)에 저장 되어있음. 3. Variables are stored in both rows and columns. >> 변수가 행(row)과 열(column) 모두에 저장 되어있음. 4. ..

카테고리 없음 2023.07.14

Tidy Data - 깔끔한 혹은 단정한 데이터

분석하기 좋게 잘 정돈된 데이터란 어떤 것인지에 대한 내용입니다. ▶ Tidy: 깔끔한, 단정한, 잘 정돈된 데이터 분석 작업에서 약 70~80%의 시간은 데이터 변환 및 전처리에 사용된다고 합니다. 그리고, '데이터 전처리'란 데이터를 특정 분석 목적에 맞게 만드는 것을 말합니다. 업무 시스템을 설계할 때, 데이터를 저장하는 테이블들에 대해 향후 해당 데이터들에 대한 분석을 고려하여 만들기는 쉽지 않을 것 같습니다. 해서, 업무 분석 시스템(DW, BI 등)들은 기존 운영 시스템에서 분석에 필요한 데이터들을 뽑아내어 별도의 테이블로 구성하는 것이 일반적으로 보입니다. 데이터 분석을 위한 변환 혹은 전처리에 많은 경험을 쌓으신 전문가 분들의 경우, 이러한 작업의 패턴을 통해 함수나 패키지들을 만들어 좀 ..

데이터 분석 2023.07.13