[python] 파이썬 beautifulsoup로 데이터 분석(추출)하기#1
- 언어/파이썬
- 2020. 11. 4.
BeautifulSoup
특징
데이터를 분석
다운로드 불가
BeautifulSoup 설치
관리자 모드로 콘솔창 실행후
>pip3 install beautifulsoup4
라고 입력하고 Successfully 라고 뜨면 설치 완료
beautifulsoup 주요 함수
find() : 하나의 요소의 값을 읽어옴, html id 속성값을 가지고 올수있음
find_all() : 전체 데이터를 읽어옴
beautifulsoup 사용 예
코드
from bs4 import BeautifulSoup
BeautifulSoup 라이브러리 import
html = """
<html>
<body>
<h1>스크레이핑 실습</h1>
<p>웹페이지를 분석해보기</p>
<p>데이터 정제하기 ..</p>
</body>
</html>
"""
html변수에 더미값 삽입
soup = BeautifulSoup(html, 'html.parser')
html.parser를 이용해 태그를 뽑아오고 soup에 저장을 합니다.
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling
태그에 접근할때 메소드나 클래스에 접근하는것과 같이 순차적으로 큰범위 -> 작은범위로 가서 추출합니다.
현재 태그(p1)기준 next_sibling은 다음태그를 찾아줍니다.
print("h1: "+ h1.string)
print("p1: "+ p1.string)
print("p2: "+ p2.string)
값이 출력되는것을 확인할수 있습니다.
'언어 > 파이썬' 카테고리의 다른 글
[python] 파이썬 beautifulsoup로 데이터 분석(추출)하기#3 ( find_all 함수 사용 ) (0) | 2020.11.04 |
---|---|
[python] 파이썬 beautifulsoup로 데이터 분석(추출)하기#2 ( find 함수 사용 ) (0) | 2020.11.04 |
[python] 파이썬 빅데이터 기초 ( 웹사이트에 접근해서 사진 다운받기 ) (0) | 2020.11.03 |
[python] 파이썬 아나콘다 설치 (0) | 2020.11.03 |
[python] 파이썬 람다 표현식 사용하기 (0) | 2020.10.15 |