본문 바로가기
반응형

bs42

[크롤링] 네이버에서 영화정보 가져오기 - #3 (HTML 알아보기) 크롤링을 하려면 기초적인 HTML을 알아야 합니다. 그래야 어느 부분을 가져올지, 링크를 어떻게 넘어갈지 등에 대한 방향을 잡을 수 있기 때문입니다. 그래서 지금부터 브라우저를 이용해 기초적인 html을 알아보고자 합니다. 열심히 만들진 않았지만,,, ㅎㅎ 보면 일반적으로 html은 다음과 같은 구조를 갖습니다. 전체 틀인 html에 head와 body가 있습니다. 그리고 body안에 내용을 div, ul, li, a, span, section, nav, table 등등 각종 상황에 따른 태그가 오게 됩니다. 사이트에 html을 보면 수만은 태그들 사이에 특정 태그에 대한 속성을 주고 싶을 때가 있습니다. 여기선 그 태그로 div를 사용하겠습니다. 2개의 div가 있는데 이 들 중에 가장 먼저 나오는 첫.. 2022. 1. 1.
[크롤링] 네이버에서 영화정보 가져오기 - #1 (환경셋팅) 파이썬을 이용해서 네이버에서 영화정보를 크롤링하는 간단한 프로젝트를 시작합니다. 1. 파이썬 설치 https://www.python.org/downloads/ Download Python The official home of the Python Programming Language www.python.org 22년 1월 1일 기준 python 3.10.1까지 나왔네요. 너무 최신 버전을 오류가 있을 수 있으니(?) 적당히 3.8, 3.9 등을 설치해주면 됩니다. 2. Beautifulsoup, lxml 설치하기 파이썬 설치가 완료되면 CMD창에서 pip3를 이용해 Beautifulsoup4를 설치해줍시다 pip3 install beautifulsoup4 pip3 install lxml 당연히 설치되어 있.. 2022. 1. 1.
반응형