[python] 파이썬 네이버뉴스 헤드라인 가져오기

JY2
언어/파이썬
2020. 11. 4.

news.naver.com/main/list.nhn?mode=LPOD&mid=sec&sid1=01&sid2=140&oid=001&isYeonhapFlash=Y&aid=0011991977

위 사이트에서 헤드라인결과만 출력해보겠습니다.

위의 뉴스와 같은 내용이 출력되는것을 확인할 수 있습니다.

코드

import urllib.request, urllib.parse, urllib.error
from bs4 import BeautifulSoup
import requests

requests 포함 import

url = 'https://news.naver.com/main/list.nhn?mode=LPOD&mid=sec&sid1=001&sid2=140&oid=001&isYeonhapFlash=Y&aid=0011991977'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36' }
html = requests.get(url,headers = headers)
soup = BeautifulSoup(html.text,'html.parser')

기존 방식으로 하면 에러나기때문에 ( 사이트 문제인지 이유는 모르겠음 ) headers추가하고 urlopen대신 requests를 사용 했습니다.

headers에는 {'User-Agent' : 'useragent정보' } 를 넣어주면됩니다.
User-Agent정보는 개발자도구 -> console탭에서 >navigator.userAgent라고 입력하면 확인할 수 잇습니다.

temp = soup.select('a')

for i in range(42,58):
    print(temp[i].string)

네이버 뉴스 헤드라인의 태그를 보면 a 태그로 되어있는것을 확인할 수 있는데 태그에 함수가 같이 있어 select()로 추출할 수가 없습니다 ( 다른 방법 있을수도 있지만 본인은 모르겠음.. )

모든 <a>태그를 추출해오면 굉장히 많은 <a>태그를 가져오는것을 확인할 수 있는데 헤드라인 시작 index와 끝나는 index를 수동으로 찾아내서 추출해보았습니다.

저작자표시 (새창열림)

'언어 > 파이썬' 카테고리의 다른 글

[python]requests 모듈 ( 쿠키, 세션을 사용해야할 경우 ) (0)	2020.11.06
[python] Http 통신의 특성 (0)	2020.11.06
[python] 파이썬 스크레이핑으로 환율정보 가져오기 (0)	2020.11.04
[python] CSS 선택자로 스크레이핑 (0)	2020.11.04
[python] html 스크레이핑 실습예제 (기상청 rss파일의 원하는 태그내용 가져오기) (0)	2020.11.04

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

갑자기코딩