Spaces:

CSB261
/

newsranking

Sleeping

File size: 2,663 Bytes

import requests
from bs4 import BeautifulSoup
import pandas as pd
import streamlit as st
import random
import time  # time 모듈을 임포트

# 네이버 모바일 뉴스 랭킹 URL
url = "https://m.news.naver.com/rankingList"

# 헤더 설정 (User-Agent 및 Referer 추가)
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36",
    "Referer": "https://m.news.naver.com/"
}

# 랜덤 딜레이 함수
def random_delay(min_delay=1, max_delay=3):
    delay = random.uniform(min_delay, max_delay)
    time.sleep(delay)  # time 모듈의 sleep 함수 사용

# 웹 페이지 요청 및 파싱
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')

# 뉴스 리스트 추출
news_list = []

# 새로운 HTML 구조에 맞게 데이터 추출
for news_box in soup.select('div.rankingnews_box'):
    # 언론사 이름 추출
    press_name = news_box.find('strong', class_='rankingnews_name').text.strip()
    
    # 각 뉴스 항목을 리스트로 추출
    for news_item in news_box.select('ul.rankingnews_list li'):
        random_delay()  # 딜레이 추가

        # 순위 번호 추출
        rank_tag = news_item.find('em', class_='list_ranking_num')
        rank = rank_tag.text if rank_tag else 'No Rank'

        # 제목 추출
        title_tag = news_item.find('strong', class_='list_title')
        title = title_tag.text.strip() if title_tag else 'No Title'

        # 링크 추출
        link = news_item.find('a')['href'] if news_item.find('a') else '#'

        # 시간 추출
        time_tag = news_item.find('span', class_='list_time')
        time_info = time_tag.text.strip() if time_tag else 'No Time'

        # 이미지 URL 추출
        img_tag = news_item.find('img')
        image_url = img_tag['src'] if img_tag and 'src' in img_tag.attrs else 'No Image Available'

        # 데이터 리스트에 추가
        news_list.append({
            'Press': press_name,
            'Rank': rank,
            'Title': title,
            'Link': link,
            'Time': time_info,
            'Image URL': image_url
        })

# 데이터프레임으로 변환
df = pd.DataFrame(news_list)

# Streamlit에서 결과 표시
st.title("Naver Mobile Ranking News Scraper")

# 개별 뉴스 항목 출력
for index, row in df.iterrows():
    if row['Image URL'] != 'No Image Available':
        st.image(row['Image URL'], width=100)
    st.markdown(f"**[{row['Title']}]({row['Link']})**")
    st.write(f"Press: {row['Press']} | Rank: {row['Rank']} | Time: {row['Time']}")
    st.write("---")