Spaces:

CSB261
/

newsranking

Sleeping

App Files Files Community

CSB261 commited on Sep 5

Commit

c539900

•

1 Parent(s): 46f067b

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -31

app.py CHANGED Viewed

@@ -2,55 +2,78 @@ import requests
 from bs4 import BeautifulSoup
 import pandas as pd
 import streamlit as st
-# 네이버 랭킹 뉴스 URL
-url = "https://news.naver.com/main/ranking/popularDay.naver"
 # 웹 페이지 요청 및 파싱
-response = requests.get(url)
 soup = BeautifulSoup(response.content, 'html.parser')
 # 뉴스 리스트 추출
 news_list = []
-for news_item in soup.select('div.rankingnews_box ul.rankingnews_list li'):
-    # 순위 번호가 존재하는지 확인
-    rank_tag = news_item.find('em', class_='list_ranking_num')
-    rank = rank_tag.text if rank_tag else 'No Rank'
-    # 제목이 존재하는지 확인
-    title_tag = news_item.find('a', class_='list_title')
-    title = title_tag.text.strip() if title_tag else 'No Title'
-    # 링크가 존재하는지 확인
-    link = title_tag['href'] if title_tag else '#'
-    # 시간 정보가 존재하는지 확인
-    time_tag = news_item.find('span', class_='list_time')
-    time = time_tag.text.strip() if time_tag else 'No Time'
-    # 이미지 태그와 src 속성 확인
-    img_tag = news_item.find('img')
-    image_url = img_tag['src'] if img_tag and 'src' in img_tag.attrs else 'No Image Available'
-    news_list.append({
-        'Rank': rank,
-        'Title': title,
-        'Link': link,
-        'Time': time,
-        'Image URL': image_url
-    })
 # 데이터프레임으로 변환
 df = pd.DataFrame(news_list)
 # Streamlit에서 결과 표시
-st.title("Naver Ranking News Scraper")
 # 개별 뉴스 항목 출력
 for index, row in df.iterrows():
     if row['Image URL'] != 'No Image Available':
         st.image(row['Image URL'], width=100)
     st.markdown(f"**[{row['Title']}]({row['Link']})**")
-    st.write(f"Rank: {row['Rank']} | Time: {row['Time']}")
     st.write("---")

 from bs4 import BeautifulSoup
 import pandas as pd
 import streamlit as st
+import random
+import time
+# 네이버 모바일 뉴스 랭킹 URL
+url = "https://m.news.naver.com/rankingList"
+# 헤더 설정 (User-Agent 및 Referer 추가)
+headers = {
+    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36",
+    "Referer": "https://m.news.naver.com/"
+}
+# 랜덤 딜레이 함수
+def random_delay(min_delay=1, max_delay=3):
+    delay = random.uniform(min_delay, max_delay)
+    time.sleep(delay)
 # 웹 페이지 요청 및 파싱
+response = requests.get(url, headers=headers)
 soup = BeautifulSoup(response.content, 'html.parser')
 # 뉴스 리스트 추출
 news_list = []
+# 새로운 HTML 구조에 맞게 데이터 추출
+for news_box in soup.select('div.rankingnews_box'):
+    # 언론사 이름 추출
+    press_name = news_box.find('strong', class_='rankingnews_name').text.strip()
+    # 각 뉴스 항목을 리스트로 추출
+    for news_item in news_box.select('ul.rankingnews_list li'):
+        random_delay()  # 딜레이 추가
+        # 순위 번호 추출
+        rank_tag = news_item.find('em', class_='list_ranking_num')
+        rank = rank_tag.text if rank_tag else 'No Rank'
+        # 제목 추출
+        title_tag = news_item.find('strong', class_='list_title')
+        title = title_tag.text.strip() if title_tag else 'No Title'
+        # 링크 추출
+        link = news_item.find('a')['href'] if news_item.find('a') else '#'
+        # 시간 추출
+        time_tag = news_item.find('span', class_='list_time')
+        time = time_tag.text.strip() if time_tag else 'No Time'
+        # 이미지 URL 추출
+        img_tag = news_item.find('img')
+        image_url = img_tag['src'] if img_tag and 'src' in img_tag.attrs else 'No Image Available'
+        # 데이터 리스트에 추가
+        news_list.append({
+            'Press': press_name,
+            'Rank': rank,
+            'Title': title,
+            'Link': link,
+            'Time': time,
+            'Image URL': image_url
+        })
 # 데이터프레임으로 변환
 df = pd.DataFrame(news_list)
 # Streamlit에서 결과 표시
+st.title("Naver Mobile Ranking News Scraper")
 # 개별 뉴스 항목 출력
 for index, row in df.iterrows():
     if row['Image URL'] != 'No Image Available':
         st.image(row['Image URL'], width=100)
     st.markdown(f"**[{row['Title']}]({row['Link']})**")
+    st.write(f"Press: {row['Press']} | Rank: {row['Rank']} | Time: {row['Time']}")
     st.write("---")