본문 바로가기
반응형

토이프로젝트9

[크롤링] 네이버에서 영화정보 가져오기 - #5 ('국가 -> 개봉연도' 변경) 당초 계획은 제작국가를 통해서 네이버에 등록된 모든 영화를 가져오는 것이었습니다. 근데 계획을 좀 변경해서, 사실 코드를 오랜만에 다시 짜면서 생각을 못 하고 있었는데 옛날 코드를 발견하면서 기억이 돌아와... , 영화의 개봉 연도 별로 파일을 저장하는 것이 좋겠다는 판단이 들었습니다. 그래도 뭐 크게 바뀐 건 없습니다. 그냥 매번 하던 대로 하면 됩니다. 나중에 코드를 완성하면 멀티프로세싱으로 고속 처리를 할 예정입니다. 그리고 또 네이버 측에서 짧은 시간 내 다량의 트래픽을 발생시키면, 어쩌면 차단의 가능성이 있을 수 있기 때문에 자동으로 위 이미지에서 보이는 연도를 가져와서 url에 하나 대입해가며 전체 영화를 한큐에 가져오는 프로그램을 구성하기보다는 연도는 수동으로 입력해주고 각 연도별로 저장을 .. 2022. 1. 5.
[크롤링] 네이버에서 영화정보 가져오기 - #4 (방향잡기) 이번 시간에는 프로그램을 통해 사이트를 돌아다니면서 모든 영화의 정보를 가져오기 위해 필요한 작업에 대해 알아보고자 합니다. 앞으로 우리는 영화에서 위 붉은 박스에 해당하는 정보를 가져오려고 합니다. -> 평점, 장르, 상영시간, 개봉일, 감독, 출연, 등급 이 되겠죠? 문제는 저 정보를 가져온다고 해도 네이버에 등록된 모든 영화를 어떻게 찾아가느냐가 문제가 됩니다. 각 영화마다의 url을 수동으로 등록해줄 수는 없으니! 먼저 각각의 영화를 찾아가는 방법에 대해 알아보고자 합니다! 1. 국가정보를 이용하기 네이버 영화에서 디렉터리를 보면 영화를 국가별로 모아놓은 것을 확인할 수 있다. 이때 '가봉'은 국가 코드가 GA인 것을 우측의 코드 영역을 통해 확인할 수 있다. 각 국가의 코드는 태그 하위에 태그의.. 2022. 1. 2.
[크롤링] 네이버에서 영화정보 가져오기 - #3 (HTML 알아보기) 크롤링을 하려면 기초적인 HTML을 알아야 합니다. 그래야 어느 부분을 가져올지, 링크를 어떻게 넘어갈지 등에 대한 방향을 잡을 수 있기 때문입니다. 그래서 지금부터 브라우저를 이용해 기초적인 html을 알아보고자 합니다. 열심히 만들진 않았지만,,, ㅎㅎ 보면 일반적으로 html은 다음과 같은 구조를 갖습니다. 전체 틀인 html에 head와 body가 있습니다. 그리고 body안에 내용을 div, ul, li, a, span, section, nav, table 등등 각종 상황에 따른 태그가 오게 됩니다. 사이트에 html을 보면 수만은 태그들 사이에 특정 태그에 대한 속성을 주고 싶을 때가 있습니다. 여기선 그 태그로 div를 사용하겠습니다. 2개의 div가 있는데 이 들 중에 가장 먼저 나오는 첫.. 2022. 1. 1.
[크롤링] 네이버에서 영화정보 가져오기 - #2 (Beautifulsoup 사용해 보기) 설치가 완료되었다면 한번 사용해봄으로써 설치가 잘 되었는지 알 수 있겠죠?> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 import requests from bs4 import BeautifulSoup if __name__ == "__main__": url = 'https://movie.naver.com/movie/sdb/browsing/bmovie_nation.naver' response = requests.get(url) if response.status_code == 200: html = response.text soup = BeautifulSoup(html, 'lxml') print(soup) else : print(response.status_code) Colored by .. 2022. 1. 1.
반응형