빅엑셀(BigExcel.KR) : 엑셀 업무 자동화, 마케팅 관리, 빅데이터 분석, 시각화 and more...

1-4 [사례 실습] 파워쿼리로 엑셀에 블로그 글(RSS, XML) 가져오기2 본문

1.업체 모니터링 자동화 : 블로그, 뉴스, 주가 정보

1-4 [사례 실습] 파워쿼리로 엑셀에 블로그 글(RSS, XML) 가져오기2

BIGEXCEL 2016. 9. 21. 17:54

[목표]

1. 파워쿼리를 통해 데이터 원본에 열을 추가합니다.

2. 파워쿼리로 불러온 데이터의 형식을 변경합니다.

3. 파워쿼리를 통해 같은 구조의 다른 데이터를 합칩니다.



안녕하세요? 빅엑셀입니다. 이번에는 바로 전 글에 이어 2번째 내용을 진행하겠습니다.


1-3 [사례 실습] 파워쿼리로 엑셀에 블로그 글(RSS, XML) 가져오기1을 통해 기본적인 파워쿼리의 사용방법과 블로그의 체계 그리고 블로그 글을 가져오는 방법에 대해 실습해보셨는데요.


이번에는 삼성전자 블로그의 글에 추가해서 LG전자 블로그의 글을 가져온 후 데이터를 합치고, 이를 어떻게 사용할지에 대해 알아보겠습니다.


실습을 잘 진행하셨다면 아래와 같은 엑셀 파일을 가지고 계실겁니다.




이번에는 LG전자 블로그의 글을 가져오겠습니다.

(블로그 글 가져오는 방법에 대해서는 이전 글을 참고해주시기 바랍니다.)


- 파워쿼리 메뉴 > 웹에서 클릭 > http://social.lge.co.kr/feed/ 입력 > 확인 클릭

- 문서 아이콘 더블클릭 > channel의 Table 클릭 > item의 Table 클릭

- title, link, pubDate열 선택 > 오른쪽 마우스 > 다른 열 제거

- title은 제목으로, link는 URL로, pubDate는 일시로 열 이름 변경, 쿼리 이름을 LG전자블로그로 수정

- URL열을 선택 > 우마우스 클릭 > 이동 > 끝으로 선택하여 제목->일시->URL의 순서대로 열이 정렬되게 함.

- 홈메뉴 > 닫기 및 로드 클릭


위와 같은 절차를 거치셨다면 아래 화면처럼 LG전자의 블로그 글목록이 정상적으로 엑셀에 표시되고 있을 것입니다.




이제 2가지 글목록을 통합해서 하나의 글목록으로 만들겠습니다.


서로 다른 구조의 데이터를 하나로 합칠 때는 '병합'을 사용하지만, 같은 구조의 데이터를 합칠 때는 '추가'를 사용합니다.

하지만, 추가를 하기 전에 해야할 작업이 하나 있습니다.


데이터를 합치면 어떤 것이 삼성전자의 글인지, 어떤 것이 LG전자의 것인지 알기 어렵기 때문에 열을 하나 추가해서 일종의 태깅 작업을 해두는 것이 좋습니다.


1. 파워쿼리를 통해 데이터 원본에 열을 추가합니다.


열 추가를 해서 어디에서 온 글인지 표시해보겠습니다.


쿼리 편집기를 통해 열 추가를 할 수 있습니다. 

아래 화면처럼 수정할 쿼리를 선택 > 우마우스 클릭 > 편집을 선택합니다.(또는 쿼리 더블클릭)





열 추가 메뉴 > 사용자 지정 열 추가 클릭 > 새 열 이름에 '출처' 입력 > 사용자 지정 열 수식에 "삼성전자"입력한 후 > '확인' 클릭하면, 4번째 열이 생기고 그 이름이 '출처', 그 내용이 '삼성전자'로 되어 있는 것을 확인하실 수 있습니다.





하지만, 새로 만든 열의 제목란을 보니 물음표 아이콘이 있습니다. 이는 새로 만든 열의 데이터 형식이 정의되지 않아서인데요. 이 형식을 정하지 않아도 대부분은 문제가 없지만, 간혹 문제가 생기는 경우도 있으니 데이터 형식을 '텍스트'형식으로 정의해보겠습니다.


2. 파워쿼리로 불러온 데이터의 형식을 변경합니다.


데이터 형식을 변경하기 위해서는

변환 메뉴 > 데이터 형식 클릭한 후 '텍스트'를 선택합니다.





데이터 형식이 텍스트로 바뀌어 있고, 새로 만든 열인 '출처' 제목 앞에 있던 물음표 아이콘이 ABC로 바뀐 것을 확인하실 수 있습니다.



삼성전자 블로그 데이터에 대한 작업이 다 되었으면, 동일한 요령으로 LG전자의 블로그에 '출처' 열을 만들고 값을 "LG전자"라고 입력하시고, 데이터 형식을 '텍스트'로 변경해주시기 바랍니다.


3. 파워쿼리를 통해 같은 구조의 다른 데이터를 합칩니다.


각각의 데이터에 출처를 나타내는 열을 추가했으니, 본격적으로 데이터 결합 작업을 진행하겠습니다.


파워쿼리 메뉴 > 추가 클릭 > 2개의 테이블이 선택된 상태에서 > 각각 삼성전자블로그와 LG전자블로그를 선택 > 확인 클릭




처음 연결하는 웹사이트인 경우는 아래와 같은 경고가 나타날 수 있습니다.

보안을 위한 일반적인 절차이므로, 웹사이트 수집이 문제가 되지 않는다면 '계속'버튼을 클릭한 후,




아래 화면처럼 '공용'을 선택하고 '저장'버튼을 클릭합니다.





통합된 데이터가 잘 표시되고 있다면 이번에는 이 쿼리의 이름을 '삼성LG전자블로그통합'으로 바꾸고,

일시 열 오른쪽에 있는 화살표를 클릭 > 내림차순 정렬을 선택하여 최신글을 먼저 표시하도록 정렬 기준을 바꾸겠습니다.

여기까지 진행하신 후

홈 메뉴 > 닫기 및 로드를 클릭하셔서 내용을 엑셀로 불러옵니다.





아래 화면처럼 삼성전자와 LG전자 블로그 글이 통합되어 날짜순으로 표시되고 있습니다.



다음 글에서는 매크로를 이용하여 가져온 글목록을 갱신하고, 새 글을 표시해주는 작업을 진행해보겠습니다.


감사합니다.


[사례 실습 파일]

1-4 사례 실습 파워쿼리로 엑셀에 블로그 글(RSS XML) 가져오기2.xlsx