Spaces:

alankabisov
/

youtube-video-summary

Runtime error

App Files Files Community

alankabisov commited on Nov 25, 2022

Commit

e06c27b

•

1 Parent(s): 6c022f9

preview of ui

Browse files

Files changed (1) hide show

app.py +92 -6

app.py CHANGED Viewed

@@ -1,6 +1,29 @@
 import streamlit as st
 from urllib.parse import urlparse, parse_qs
 def get_videoid_from_url(url:str):
@@ -14,21 +37,84 @@ def get_videoid_from_url(url:str):
     return video_id
 def main():
     st.title('YouTube Video Summary 📃')
-    st.text('This app creates summary for given YouTube video based on transcripts.')
     col1, col2 = st.columns(2)
     with col1:
-        video_id = st.text_input('YouTube Video ID:', placeholder='Live it empty if you want to use example video...')
-        # video_id = 'aircAruvnKk'
-        # video_id = 'https://www.youtube.com/watch?v=aircAruvnKk'
-        st.write(get_videoid_from_url(video_id))
     with col2:
-        st.button('Process')

+import os
 import streamlit as st
 from urllib.parse import urlparse, parse_qs
+from tqdm import tqdm
+from stqdm import stqdm
+# https://github.com/pytorch/pytorch/issues/77764
+os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
+from youtube_transcript_api import YouTubeTranscriptApi
+from transformers import pipeline, T5ForConditionalGeneration, T5Tokenizer
+import torch
+# Setting device for PYTorch
+if torch.cuda.is_available():
+    device = torch.device('cuda')
+elif torch.has_mps:
+    device = torch.device('mps')
+else:
+    device = torch.device('cpu')
 def get_videoid_from_url(url:str):
     return video_id
+def process_click_callback():
+    st.session_state.process_btn = True
+    print('Using {} device'.format(device))
+    transcript_list = YouTubeTranscriptApi.list_transcripts('aircAruvnKk')  # 3blue1Brown
+    try:
+        transcript = transcript_list.find_manually_created_transcript(['en'])
+    except Exception as e:
+        print('No manual transcripts were found, trying to load generated ones...')
+        transcript = transcript_list.find_generated_transcript(['en'])
+    subtitles = transcript.fetch()
+    subtitles = [sbt['text'] for sbt in subtitles if sbt['text'] != '[Music]']
+    subtitles_len = [len(sbt) for sbt in subtitles]
+    sbt_mean_len = sum(subtitles_len)/len(subtitles_len)
+    print('Mean length of subtitles: {}'.format(sbt_mean_len))
+    print(subtitles)
+    print(len(subtitles))
+    # Number of subtitles per step/summary
+    # Since number length of transcripts differs
+    # between generated and manual ones
+    # we set different step size
+    n_sbt_per_step = int(400 / (sbt_mean_len / 4))
+    print('Number subtitles per summary: {}'.format(n_sbt_per_step))
+    n_steps = len(subtitles) // n_sbt_per_step if len(subtitles) % n_sbt_per_step == 0 else \
+        len(subtitles) // n_sbt_per_step + 1
+    summaries = []
+    for i in stqdm(range(n_steps)):
+        sbt_txt = ' '.join(subtitles[n_sbt_per_step*i:n_sbt_per_step*(i+1)])
+        # print('length of text: {}'.format(len(sbt_txt)))
+        # print(sbt_txt)
+        summarizer = pipeline('summarization', model='t5-small', tokenizer='t5-small',
+                              max_length=512, truncation=True)
+        summary = summarizer(sbt_txt, do_sample=False)
+        summary = summary[0]['summary_text']
+        # print('Summary: ' + summary)
+        summaries.append(summary)
+    out = ' '.join(summaries)
+    print(out)
+    st.session_state.summary_output = out
+    st.success('Processing complete!', icon="✅")
+    st.session_state.process_btn = False
 def main():
     st.title('YouTube Video Summary 📃')
+    st.markdown('Creates summary for given YouTube video URL based on transcripts.')
+    st.code('https://www.youtube.com/watch?v=aircAruvnKk')
+    st.code('https://youtu.be/p0G68ORc8uQ')
     col1, col2 = st.columns(2)
     with col1:
+        video_url = st.text_input('YouTube Video URL:',  placeholder='YouTube URL',
+                                 label_visibility='collapsed')
+        st.write(get_videoid_from_url(video_url))
     with col2:
+        st.button('Process 📭', key='process_btn', on_click=process_click_callback)
+    st.text_area(label='', key='summary_output', height=444)