import requests from bs4 import BeautifulSoup import pandas as pd import streamlit as st import random import time # time 모듈을 임포트 # 네이버 모바일 뉴스 랭킹 URL url = "https://m.news.naver.com/rankingList" # 헤더 설정 (User-Agent 및 Referer 추가) headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36", "Referer": "https://m.news.naver.com/" } # 랜덤 딜레이 함수 def random_delay(min_delay=1, max_delay=3): delay = random.uniform(min_delay, max_delay) time.sleep(delay) # time 모듈의 sleep 함수 사용 # 웹 페이지 요청 및 파싱 response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, 'html.parser') # 뉴스 리스트 추출 news_list = [] # 새로운 HTML 구조에 맞게 데이터 추출 for news_box in soup.select('div.rankingnews_box'): # 언론사 이름 추출 press_name = news_box.find('strong', class_='rankingnews_name').text.strip() # 각 뉴스 항목을 리스트로 추출 for news_item in news_box.select('ul.rankingnews_list li'): random_delay() # 딜레이 추가 # 순위 번호 추출 rank_tag = news_item.find('em', class_='list_ranking_num') rank = rank_tag.text if rank_tag else 'No Rank' # 제목 추출 title_tag = news_item.find('strong', class_='list_title') title = title_tag.text.strip() if title_tag else 'No Title' # 링크 추출 link = news_item.find('a')['href'] if news_item.find('a') else '#' # 시간 추출 time_tag = news_item.find('span', class_='list_time') time_info = time_tag.text.strip() if time_tag else 'No Time' # 이미지 URL 추출 img_tag = news_item.find('img') image_url = img_tag['src'] if img_tag and 'src' in img_tag.attrs else 'No Image Available' # 데이터 리스트에 추가 news_list.append({ 'Press': press_name, 'Rank': rank, 'Title': title, 'Link': link, 'Time': time_info, 'Image URL': image_url }) # 데이터프레임으로 변환 df = pd.DataFrame(news_list) # Streamlit에서 결과 표시 st.title("Naver Mobile Ranking News Scraper") # 개별 뉴스 항목 출력 for index, row in df.iterrows(): if row['Image URL'] != 'No Image Available': st.image(row['Image URL'], width=100) st.markdown(f"**[{row['Title']}]({row['Link']})**") st.write(f"Press: {row['Press']} | Rank: {row['Rank']} | Time: {row['Time']}") st.write("---")