반응형

안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다.

 


파이썬 기초 문법 강의를 마치고 블로그의 방향성에 대해 많이 고민했습니다.

 

여기서 클래스나 정규표현식, 예외 처리 등의 중급 문법을 바로 들어갈까도 생각해봤지만 아무리 생각해봐도 너무 지루합니다.

(중급 문법은 추후 필요하다고 판단될 때 정리하는 시간을 가질 예정입니다)

 

그래서 먼저 지금까지 배운 파이썬을 가장 유용하게 써먹을 곳이 무엇일까 생각해보다가 가장 처음으로 웹 크롤링을 선택했습니다.

가장 유용하다고 판단한 이유는 우리가 많은 정보를 인터넷에서 검색하고, 그 결과를 수집하고 정리해야하는 일이 자주 있기 때문입니다.

 

먼저 웹 크롤링을 배우기로 했으니 먼저 웹이란 것이 무엇인지 개념을 확실히 할 필요가 있을 것 같아요.

 

웹 (Web)

 

Web은 World Wide Web의 줄임말입니다. 우리가 인터넷 웹사이트의 주소를 칠 때 www.google.com이런 식으로 입력하죠?

바로 이 www가 World Wide Web에서 유래된 것입니다.

 

흔히 인터넷과 웹을 자주 혼동해서 사용하는데요. 인터넷컴퓨터 네트워크 통신망을 의미하며 인터넷 상에서 동작하는 하나의 서비스입니다. 인터넷을 활용한 서비스는 전자우편(e-mail), 파일전송(FTP), 원격접속(telnet), 유즈넷(usenet) 등이 있다고 하는데 e-mail 말고는 잘 모르겠네요. 그만큼 인터넷을 활용한 서비스에서 웹의 영향력이 압도적이라 할 수 있습니다.

 

또 하나 알아두셔야할 중요한 사실은 웹은 HTML(Hypertext Markup Language)이라는 언어로 작성된 문서라는 것입니다.

대충 아래처럼 생겼답니다.

<!DOCTYPE html>
<html lang="ko">

<head>
    <meta charset="UTF-8">
    <title>HTML Intro</title>
</head>

<body>

    <h1>여기는 코딩유치원입니다</h1>

</body>


</html>

 

웹 브라우저 (Web Browser)

 

이런 HTML로 작성된 웹을 보기 편하게 해주는 소프트웨어를 웹 브라우저(Web browser)라고 하는데요. 여러분들이 흔히 아시는 인터넷 익스플로러, 크롬, 사파리 등이 있습니다.

 

출처. pixabay

 

웹 크롤링과 웹 스크래핑

 

우리는 앞으로 파이썬을 이용해 웹 페이지에서 HTML 문서를 분석해서 원하는 정보를 얻어오는 웹 크롤링을 해볼 예정입니다.

참고로 웹 크롤링이란 용어가 많이 사용되는데 사실 웹 크롤링은 싹 다 긁어 오는 것이고, 웹 스크래핑은 원하는 부분만 선택적으로 추려내는 것이니 우리가 할 것은 웹 스크래핑이라고 할 수 있겠네요.

 

앞으로는 우리는 프로잭트를 수행하면서 크롬(Chrome)을 사용 할 예정인데요. 크롬을 켜고 우클릭-검사 혹은 F12를 누르면 아래 사진과 같이 우측에 HTML 문서가 쭉 나옵니다. 다음시간부터는 HTML 문서에서 원하는 부분을 추출하기 위해 간단히 HTML을 다루어 보겠습니다.

 

 

그리고 나서는 파이썬의 라이브러리 selenium을 이용해서 로봇이 크롬 브라우저를 조정할 수 있는 방법과 BeautifulSoup4를 이용해서 HTML문서의 원하는 부분을 효과적으로 추출하는 방법을 배워보겠습니다.

 

그럼 다음 시간에 만나요~

반응형

+ Recent posts