목록크롤링 (4)
빅엑셀(BigExcel)
[목표]1. 파워쿼리에서 반복문(loop, for) 만들기 : 비슷한 처리를 여러번 반복시키기2. 함수를 통해 책 정보 가져오기3. 열 추가를 통해 전체 책 정보를 가져오기4. 데이터 나누기를 통해 가져온 정보를 2개의 열로 만들기 지난 글에서는 개별 도서의 출간일과 판매지수를 묶어서 가져오는 방법까지 소개해드렸습니다.이번 글에서는 지난 글에서 한 방법을 이용하여 목록에 있는 전체 책에 대한 정보를 반복해서 수집하고 적용하는 방법을 소개하겠습니다. 1. 파워쿼리에서 반복문(loop, for) 만들기 : 비슷한 처리를 여러번 반복시키기 파워쿼리는 전문 프로그램언어라기 보다는 엑셀의 쿼리문을 지원하기 위한 것이라서 일반적인 프로그램 언어에서 사용하는 for문이나 do문을 사용하기 보다는 함수를 통해 반복문을..
[목표]1. 파워쿼리 소스 코드 확인하기2. '판매지수'값 가져오기3. 2개의 값을 하나로 합친 후 하나로 불러오기 지난 글에서는 각 도서의 '출간일'을 가져오는 방법을 소개했는데요.이번에는 원래 수집하기로 했던 '판매지수'를 가져온 후 앞서 가져온 '출간일'정보와 통합하는 방법을 소개해드리겠습니다. 1. 파워쿼리 소스 코드 확인하기 파워쿼리를 이용하는 방법으로는1. 상단 메뉴를 이용하여 조작하는 방법과2. 다른 하나는 직접 해당 파워쿼리 소스를 편집하여, 개별 상황에 맞게 수정하는 방법이 있습니다.(파워쿼리 소스 코드 체계를 M이라고도 부릅니다. 이 블로그에서는 전체를 다루기 보다는 실무에 필요한 부분을 중심으로 설명드리겠습니다.) 2개의 웹사이트 값을 가져오는 경우는 일반적인 기능이 아니기 때문에, ..
[목표]1. 파워쿼리로 수집 대상의 웹페이지 열기2. html 구조 탐색을 통해 필요한 정보 찾기3. 필요한 정보를 엑셀로 가져오기 웹페이지를 수집하실 때, 몇 가지 참고하실 부분이 있는데요.1. 너무 많은 수집을 한꺼번에 하지 않는 것이 좋습니다. 한꺼번에 너무 많이 수집하면, 웹서버가 과부하에 걸릴 수도 있고, 수집하는 PC의 네트워크가 차단될 수 있습니다.2. 수집가능한 정보인지 확인하는 것이 좋습니다. 해당 사이트에 공지된 정보나 수집에 대한 정책을 참고하여 수집하셔야 합니다. 특히 개인정보가 포함된 내용을 수집하실 때는 관련 정책을 꼭 확인하시고 수집하셔야 합니다.3. 대부분의 프로그램 언어에는 웹페이지 수집(크롤링 또는 스크래핑)을 위한 기능이 포함되어 있습니다. 따라서 전문적인 수집을 하실 ..
[목표]1. 수집 대상 목록을 파워쿼리로 가져오기2. 상품번호로 수집 대상의 웹 페이지 열기 다음 내용으로 넘어가기 전에... 많은 분들이 궁금해하시고, 질문해주신 웹페이지 내용 수집(크롤링) 기초를 소개해드리고자 합니다. 웹페이지의 내용을 가져오기 위해서는 보다 전문적인 언어(Python, R, Php, Java 등)를 이용하시는 것이 편리하지만, 엑셀의 파워쿼리를 통해서도 기본적인 내용을 가져올 수 있습니다. [크롤링 할 때 주의하실 점]1. 크롤링은 다른 회사의 지적재산권을 수집하는 것이 될 수도 있기 때문에, 상대 회사의 robots.txt나 컨텐츠에 대한 수집 거부 정책을 확인하신 후 수집하시는 것이 좋습니다.(해당 사이트 '도메인/robots.txt' 에서 확인)2. 동시에 너무 많은 요청(Q..