본문 바로가기
반응형

분류 전체보기77

[크롤링] 네이버에서 영화정보 가져오기 - #5 ('국가 -> 개봉연도' 변경) 당초 계획은 제작국가를 통해서 네이버에 등록된 모든 영화를 가져오는 것이었습니다. 근데 계획을 좀 변경해서, 사실 코드를 오랜만에 다시 짜면서 생각을 못 하고 있었는데 옛날 코드를 발견하면서 기억이 돌아와... , 영화의 개봉 연도 별로 파일을 저장하는 것이 좋겠다는 판단이 들었습니다. 그래도 뭐 크게 바뀐 건 없습니다. 그냥 매번 하던 대로 하면 됩니다. 나중에 코드를 완성하면 멀티프로세싱으로 고속 처리를 할 예정입니다. 그리고 또 네이버 측에서 짧은 시간 내 다량의 트래픽을 발생시키면, 어쩌면 차단의 가능성이 있을 수 있기 때문에 자동으로 위 이미지에서 보이는 연도를 가져와서 url에 하나 대입해가며 전체 영화를 한큐에 가져오는 프로그램을 구성하기보다는 연도는 수동으로 입력해주고 각 연도별로 저장을 .. 2022. 1. 5.
[Docker] Tomcat, Mysql 서버 배포 및 Tomcat-Mysql 연동 하기 요즘 포스팅 중인 '네이버에서 영화 정보 크롤링하기'라는 주제를 다 포스팅하면 그다음으로 넷플릭스나 왓차를 클론 코딩하는 포스팅을 진행하려고 한다. 요즘에 도커 매력에 빠져서 도커를 이용해 Tomcat, Mysql 서버를 구축하고 도커 환경에서 클론 코딩을 진행하기 위해서 공부하던 중 Tomcat을 설치하는데 Tomcat과 Mysql을 연동하는 블로그를 따라 하는 과정에서 tomcat, mysql 설치 및 연동을 세세하게 보여주는 블로그를 찾기 못해 직접 써보고자 한다. 1. Tomcat 설치 1.1) 도커 레지스트리에서 tomcat pull 해오기 docker pull tomcat 다음 명령어를 통해 최신버전의 tomcat을 가져올 수 있다. 1.2) tomcat 컨테이너 생성 docker run -d.. 2022. 1. 5.
[Python] Opencv - 이미지 사이즈 확인 (shape 함수) opencv 라이브러리에서 이미지의 사이즈를 알아보는 방법은 다음과 같다. 1 2 3 4 5 6 7 8 import cv2 import os path = r'이미지 파일 경로' imgName = '이미지 파일 이름' img = cv2.imread(os.path.join(path, imgName)) print(img.shape) # h, w, c cs 이때 img.shape는 튜플 형태로 반환되며, 순서는 (높이, 넓이, 채널) 순이다. 2022. 1. 5.
[크롤링] 네이버에서 영화정보 가져오기 - #4 (방향잡기) 이번 시간에는 프로그램을 통해 사이트를 돌아다니면서 모든 영화의 정보를 가져오기 위해 필요한 작업에 대해 알아보고자 합니다. 앞으로 우리는 영화에서 위 붉은 박스에 해당하는 정보를 가져오려고 합니다. -> 평점, 장르, 상영시간, 개봉일, 감독, 출연, 등급 이 되겠죠? 문제는 저 정보를 가져온다고 해도 네이버에 등록된 모든 영화를 어떻게 찾아가느냐가 문제가 됩니다. 각 영화마다의 url을 수동으로 등록해줄 수는 없으니! 먼저 각각의 영화를 찾아가는 방법에 대해 알아보고자 합니다! 1. 국가정보를 이용하기 네이버 영화에서 디렉터리를 보면 영화를 국가별로 모아놓은 것을 확인할 수 있다. 이때 '가봉'은 국가 코드가 GA인 것을 우측의 코드 영역을 통해 확인할 수 있다. 각 국가의 코드는 태그 하위에 태그의.. 2022. 1. 2.
반응형