[python] 파이썬 beautifulsoup로 데이터 분석(추출)하기#1


BeautifulSoup

특징

데이터를 분석
다운로드 불가


BeautifulSoup 설치

관리자 모드로 콘솔창 실행후 

>pip3 install beautifulsoup4 

라고 입력하고 Successfully 라고 뜨면 설치 완료

 


beautifulsoup 주요 함수

find() : 하나의 요소의 값을 읽어옴, html id 속성값을 가지고 올수있음

find_all() : 전체 데이터를 읽어옴


beautifulsoup 사용 예


코드

from bs4 import BeautifulSoup

BeautifulSoup 라이브러리 import

html = """
<html>
    <body>
        <h1>스크레이핑 실습</h1>
        <p>웹페이지를 분석해보기</p>
        <p>데이터 정제하기 ..</p>
    </body>
</html>
"""

html변수에 더미값 삽입

soup = BeautifulSoup(html, 'html.parser')

html.parser를 이용해 태그를 뽑아오고 soup에 저장을 합니다.

h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

태그에 접근할때 메소드나 클래스에 접근하는것과 같이 순차적으로 큰범위 -> 작은범위로 가서 추출합니다.
현재 태그(p1)기준 next_sibling은 다음태그를 찾아줍니다.

print("h1: "+ h1.string)
print("p1: "+ p1.string)
print("p2: "+ p2.string)

값이 출력되는것을 확인할수 있습니다.

 

댓글

Designed by JB FACTORY