전체 글 59

R 프로그래밍 기본 - V

통계 패키지 SPSS(Statistical Package for the Social Sciences) 에서 저장된 파일들은 'sav' 확장자를 가지는데, 이런 파일을 R에서 읽어 들이는 명령은 아래와 같습니다. ▶ 명령어: read.spss("파일명") 아울러, 상기 명령어를 사용하기위해서는 "foreign" 패키지가 install 되어 있어야 합니다. 미국에서 조사된 종교와 수입관련 설문 자료(.sav 포맷)를 R에서 읽어들여 보았습니다. 'namws(pew)' 로 확인해 보니 컬럼(column)이 135개인 자료이네요. 데이터의 형태는 아래와 같습니다.

카테고리 없음 2023.07.16

데이터 포털(Data Portal) - GOVDATA.de (독일)

이번에 소개할 공공데이터 포털은 독일입니다. ▶ GOVDATA.de: https://www.govdata.de/ GovData | Datenportal für Deutschland - GovData Auf GovData, dem Datenportal für Deutschland sind Daten aller Verwaltungsebenen zentral zugänglich. Aktuelle Infos und Ähnliches finden Sie im Blog von GovData. www.govdata.de 독일은 연방정부 차원에서 2013년 부터 '열린 정부'를 표방하며, 광범위한 오픈데이터를 투명하게 보여주는 국가적 오픈데이터 포털인 'GOVDATA'를 운영하고 있습니다. 올해가 운영 10년째로 독일..

데이터 시각화 2023.07.15

Messy Data - 지저분한 데이터

Tidy Data와 반대되는 Messy Data (지저분한 데이터)에 대해 알아 봅니다. 역시나 Hadley Wickham (해들리 위컴) 교수님의 'Tidy Data' 논문에는 Messy Datasets에 대해 다음과 같이 설명하고 있습니다. 1. Column headers are values, not variable names. >> 열(column) 머리글은 변수 명이 아닌, 값으로 되어있음. 2. Multiple variables are stored in one column. >> 여러 변수가 하나의 열(column)에 저장 되어있음. 3. Variables are stored in both rows and columns. >> 변수가 행(row)과 열(column) 모두에 저장 되어있음. 4. ..

카테고리 없음 2023.07.14

Tidy Data - 깔끔한 혹은 단정한 데이터

분석하기 좋게 잘 정돈된 데이터란 어떤 것인지에 대한 내용입니다. ▶ Tidy: 깔끔한, 단정한, 잘 정돈된 데이터 분석 작업에서 약 70~80%의 시간은 데이터 변환 및 전처리에 사용된다고 합니다. 그리고, '데이터 전처리'란 데이터를 특정 분석 목적에 맞게 만드는 것을 말합니다. 업무 시스템을 설계할 때, 데이터를 저장하는 테이블들에 대해 향후 해당 데이터들에 대한 분석을 고려하여 만들기는 쉽지 않을 것 같습니다. 해서, 업무 분석 시스템(DW, BI 등)들은 기존 운영 시스템에서 분석에 필요한 데이터들을 뽑아내어 별도의 테이블로 구성하는 것이 일반적으로 보입니다. 데이터 분석을 위한 변환 혹은 전처리에 많은 경험을 쌓으신 전문가 분들의 경우, 이러한 작업의 패턴을 통해 함수나 패키지들을 만들어 좀 ..

데이터 분석 2023.07.13

R 프로그래밍 기본 - IV_1

데이터 프레임(Data Frame) 관련 몇 가지 명령어를 좀 더 알아 봅니다. 1. 데이터 프레임 내 열 이름 변경 >> 앞서 구성한 'my_df2'를 사용하여 진행합니다. ▶ 명령어: names(my_df2)[1] > 같은 열 이름과 데이터 타입을 가진 데이터 프레임을 '행' 기준으로 결합 할 수 있습니다. ▶ 명령어: rbind(데이터 프레임 명, 데이터 프레임 명) 3. 데이터 프레임을 '열(column)' 기준으로 결합 >> 같은 열 이름과 데이터 타입을 가진 데이터 프레임을 '열' 기준으로 결합 할 수 있습니다 ▶ 명령어: cbind(데이터 프레임 명, 데이터 프레임 명)

R & RStudio 2023.07.12

R 프로그래밍 기본 - IV

R 에서 가장 널리 사용되는 데이터 프레임(Data Frame)에 대해 알아 봅니다. 앞서 언급되었지만 데이터 프레임은 행렬과 유사하지만 각 요소가 다른 Data Type을 가질 수 있습니다. '회귀분석(Regression Analysis) - I' 에서 다루었던 게임사 광고비자료를 확인해 보면, 상기에서 보이듯이 'chr'과 'num' 형태의 서로 다른 Data Type을 가지고 있는 것을 볼 수 있습니다. 그리고, 이들 각각의 데이터 요소에 접근하는 방법은 행렬과 같습니다. 상기 이미지에서 'c()' 는 함수로 여러 타입의 벡터나 리스트를 결합할 수 있습니다. 그리고, 아래와 같이 접근할 수도 있습니다. '광고비' 가 500억 이상인 '게임사' 추출.

R & RStudio 2023.07.11

R 에 내장된 Datasets 확인

R 을 설치하면 기본으로 내장되어 있는 Dataset 들이 있다고 하며, 이에 대해서는 다음의 명령으로 그 목록을 확인할 수 있다고 합니다. ▶ 명령어: data() 상기 명령어를 입력하면, 'R data sets' 탭에 다음과 같은 목록이 나타나는 것을 확인할 수 있습니다. 그리고, 해당 Dataset을 불러오기 위해서는 다음의 명령어를 입력하면 됩니다. ▶ 명령어: data('데이터셋 이름') 상기 Datasets 중에서 'mtcars' 데이터를 불러와 봅니다. 'mtcars' 데이터의 형태는 아래와 같습니다. 상기 명령어를 통해 내장 dataset에 대해 확인해 볼 수 있습니다.

R & RStudio 2023.07.10

R 프로그래밍 기본 - III

R에서 데이터를 읽어 들이는 방법에 대해 정리해 봅니다. 1. R에서 외부 파일 불러오기 ▶ 파일 종류: csv 파일, excel 파일, txt 파일, xml / JASON 파일 ▶ 관련 함수 - read.csv(): csv 파일을 불러올 때. - read_excel(): excel 파일을 불러올 때. ('readxl' package 설치 필요) - read.table(): txt 파일을 불러올 때. - xmlToDataFrame(): xml 파일을 불러올 때. ('xml' package 설치 필요) - read_xml(): xml 파일을 불러올 때. ('xml2' package 설치 필요) - fromJSON(): JASON 파일을 불러올 때. ('jsonlite' package 설치 필요) 2. Wo..

R & RStudio 2023.07.06

데이터 포털(Data Portal) - Data.gov.sg(싱가포르)

이번에 소개할 공공데이터 포털은 싱가포르입니다. ▶ DATA.GOV.SG: https://beta.data.gov.sg/ Data.gov.sg Park Connector Loop This dataset shows the indicative segments of the Park Connector Loop. The Park Connector Loop are islandwide network of linear open spaces around major residential areas, linking up parks and nature sites. An important part of Singapor beta.data.gov.sg 싱가포르는 'Smart Nation' 정책의 일환으로 정부가 운영하는 공공데이터..

데이터 시각화 2023.07.04

회귀분석(Regression Analysis) - VIII

회귀진단(Regression Diagnostics)에 대해 알아 봅니다. ▶ 모형 및 가정 진단: *잔차분석(Residual Analysis)을 통하여 오차항의 등분산성 / 정규성 / 독립성을 체크. ※ 잔차: 추정한 에러. 앞의 난방비 관련 회귀분석 자료를 기반으로 하여 상기 진단을 진행해 보겠습니다. ▶ 명령어: plot(회귀식 오브젝트) ※ 아래 참조 1) 등분산성: 추정값 vs. 잔차에 대한 plot을 그려 보아 확인. 상기 명령어를 실행하면 총 4개의 그래프가 그려지는데, 그 중 첫 번째로 그려 진 그래프. 아래 그래프에서 'Fitted values' 가 Y' 값을 나타냄. 또한, 그래프상 빨간 라인은 plot 상에 있는 점들을 가지고 non-parametric 방법으로 Fit을 해준 것임. (..

데이터 분석 2023.07.03