빅엑셀(BigExcel.KR) : 엑셀 업무 자동화, 마케팅 관리, 빅데이터 분석, 시각화 and more...

Tip1-2 엑셀 파워쿼리로 Yes24 책 정보(웹페이지) 가져오기 2 본문

유용한 팁 모음

Tip1-2 엑셀 파워쿼리로 Yes24 책 정보(웹페이지) 가져오기 2

BIGEXCEL 2016. 11. 7. 08:43

[목표]

1. 파워쿼리로 수집 대상의 웹페이지 열기

2. html 구조 탐색을 통해 필요한 정보 찾기

3. 필요한 정보를 엑셀로 가져오기


웹페이지를 수집하실 때, 몇 가지 참고하실 부분이 있는데요.

1. 너무 많은 수집을 한꺼번에 하지 않는 것이 좋습니다. 한꺼번에 너무 많이 수집하면, 웹서버가 과부하에 걸릴 수도 있고, 수집하는 PC의 네트워크가 차단될 수 있습니다.

2. 수집가능한 정보인지 확인하는 것이 좋습니다. 해당 사이트에 공지된 정보나 수집에 대한 정책을 참고하여 수집하셔야 합니다. 특히 개인정보가 포함된 내용을 수집하실 때는 관련 정책을 꼭 확인하시고 수집하셔야 합니다.

3. 대부분의 프로그램 언어에는 웹페이지 수집(크롤링 또는 스크래핑)을 위한 기능이 포함되어 있습니다. 따라서 전문적인 수집을 하실 경우는 엑셀이 아닌 전문 프로그램 언어를 사용하여 수집하시는 것을 권해드립니다.


 

1. 파워쿼리로 수집 대상의 웹페이지 열기


아래와 같은 URL로 책 정보를 확인하셨다면, 이 URL을 파워쿼리에 입력하여 해당 웹페이지 내용을 가져오겠습니다.


- 상단 메뉴 파워쿼리 > 웹에서 > URL 입력한 후 > '확인'버튼 클릭

(엑셀 2016의 경우는 데이터 > 새 쿼리 > 기타 > 웹에서... 로 진행하시면 됩니다.)



간혹 필요로하는 정보가 Table 형태로 제공되는 경우도 있지만, Yes24의 경우는 일반 문서로 제공하고 있기 때문에 Document부분을 선택한 후 '편집'을 클릭합니다.




2. html 구조 탐색을 통해 필요한 정보 찾기


브라우져로 가서 Yes24 상세 페이지 내용 중 출간일 부분을 마우스 우클릭 한 후 '검사'(크롬 브라우저) 또는 '요소 검사'(IE)를 선택하면 출간일에 해당하는 부분의 html 소스를 보여줍니다.


자세히 보면 삼각형 모양의 화살표가 오른쪽을 향하고 있는 것과, 아래를 향하고 있는 것이 있는데요.

오른쪽을 향하고 있는 것은 내용이 접힌(closed) 상태이고, 

아래를 향하고 있는 것이 내용이 보여진(opened) 상태입니다.


html의 구조가 나무가지처럼 tree구조를 가지고 있는데요. 해당하는 내용이 포함된 가지들만 열려진 상태(아래를 향한 삼각형)로 보이게 됩니다. 아래 그림의 동그라미 안의 화살표를 참고해주세요.




듀얼모니터를 쓰시는 분은

1번 모니터에 웹페이지를 두시고, 2번 모니터에는 엑셀 파워쿼리 편집창을 두시면 작업하시기 편리합니다.

듀얼이 아니시라면 아래 화면처럼 창을 2개 영역으로 나누어서 웹페이지 부분과 엑셀 파워쿼리 편집창을 한꺼번에 보면서 작업하시는 것이 편리합니다.


html내용과 파워쿼리 편집창 부분을 보면 비슷한 내용이 나옵니다.

아래 그림을 보시면


웹페이지에 <html>이 있고 그 밑에

<head>(오른쪽 화살표, 닫힌 상태)와

<body>(아래쪽 화살표, 열린 상태)가 있는 것을 확인하실 수 있습니다.


파워쿼리 편집창을 보시면,

HTML로 표시된 부분이 있고, 오른쪽에 Table이라고 된 부분이 링크 색깔로 표시되어 있습니다.




Table을 클릭하시면,

아래 화면처럼 파워쿼리 편집창에 HEAD부분과 BODY부분이 보입니다.


왼쪽 웹페이지 구조에서 우리가 따라가야할 부분은 화살표가 아래쪽으로 된 부분(<body>)이므로,

오른쪽 파워쿼리 편집창에서도 BODY부분의 Table링크를 클릭합니다.




다음 화면을 보면,

왼쪽 화면에는

<body>가 있고 그 밑에

<dl

<hr>

<div

<hr

<div

가 있는데, 마지막 <div부분의 화살표가 아래쪽으로 되어 있습니다.


오른쪽 화면에도

DL

HR
DIV

HR

DIV

가 있고 마지막 DIV 부분의 오른쪽 영역에 Table 링크가 있습니다.


Table 링크를 클릭하여 다음 단계(가지)로 진행합니다.




출간일 부분까지 이와 같은 요령으로 데이터를 찾아가면 오른쪽 하면에 Text부분에 출간일 정보가 표시됩니다.


원하는 정보를 얻었기 때문에 나머지 불필요한 열을 제거하기 위해,

- 해당 열을 선택 > 우마우스 > 다른 열 제거

를 실행합니다.




3. 필요한 정보를 엑셀로 가져오기


- 파일 > 닫기 및 로드 클릭 하여


파워쿼리 편집창을 닫으면 출간일 정보만 엑셀에 표시되는 것을 확인하실 수 있습니다.



이번 글에서는 웹페이지에서 필요한 정보 부분만 엑셀로 불러오는 실습을 함께 진행했습니다.

다음 글에서는 출간일 외에 판매지수를 가져오고, 출간일과 함께 표시하는 것을 소개하겠습니다.


[사례 실습 파일]

etc01웹파싱01.xlsx


감사합니다.