Spaces:

davidpengg
/

pdf_from_indianculture

Runtime error

App Files Files Community

davidpengg commited on Jun 22, 2023

Commit

43e0ac1

•

1 Parent(s): 6b79276

init

Browse files

Files changed (3) hide show

app.py +32 -0
download_pdf.py +43 -0
requirements.txt +3 -0

app.py ADDED Viewed

	@@ -0,0 +1,32 @@

+"""
+Gradio App
+David Peng
+20230621
+"""
+import base64
+import gradio as gr
+from download_pdf import download
+examples = [
+    "https://indianculture.gov.in/reports-proceedings/report-village-and-cottage-industries-national-committee-development-backward"
+]
+with gr.Blocks() as app:
+    gr.Markdown("# <p align='center'>Extract PDF from indianculture[dot]gov[dot]in</p>")
+    # with gr.Row():
+    #     with gr.Column():
+    #         landing_page_url = gr.Textbox(label="Landing Page URL")
+    #         landing_page_url_btrn = gr.Button(value="Extract PDF")
+    #     with gr.Column():
+    #         pdf_file = gr.File(label="PDF")
+    landing_page_url = gr.Textbox(label="Landing Page URL")
+    landing_page_url_btrn = gr.Button(value="Extract PDF")
+    pdf_file = gr.File(label="PDF")
+    gr.Examples(examples=examples,inputs=landing_page_url,outputs=pdf_file)
+    landing_page_url_btrn.click(
+        download,
+        inputs=landing_page_url,
+        outputs=pdf_file
+    )
+app.launch()

download_pdf.py ADDED Viewed

	@@ -0,0 +1,43 @@

+"""
+Extract PDF from indianculture[dot]gov[dot]in
+David Peng
+20230621
+"""
+import requests
+from bs4 import BeautifulSoup as bs
+from urllib.parse import unquote
+import time
+import os
+DEFAULT_TIMEOUT = 10
+RETURN_CODE = 0
+# script borrowed from https://github.com/lalitaalaalitah/Scrape_IndianCulture.Gov.In_Release
+def download(book_page_url):
+    while RETURN_CODE == 0 :
+        try:
+            book_page_get = requests.get(book_page_url, timeout=DEFAULT_TIMEOUT)
+        except:
+            continue
+        if book_page_get.status_code == 200:
+            break
+        time.sleep(10)
+    book_page_get = requests.get(book_page_url)
+    parsed_book_page = bs(book_page_get.content, 'html.parser')
+    class_pdf_in_page = parsed_book_page.find_all('iframe', class_='pdf')
+    if len(class_pdf_in_page) >= 1:
+        # assume there is just 1 right now
+        pdf_item = class_pdf_in_page[0]
+        src_each_item = pdf_item['src']
+        pdf_address = src_each_item.split('file=')[-1]
+        cleaned_pdf_address = unquote(pdf_address)
+        pdf_name = cleaned_pdf_address.split('/')[-1]
+        cmd_for_curl = 'curl ' + cleaned_pdf_address + " -H 'User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:87.0) Gecko/20100101 Firefox/87.0' -H 'Accept: */*' -H 'Accept-Language: en-US,en;q=0.8,sa;q=0.5,hi;q=0.3' --compressed -H 'Referer: https://www.indianculture.gov.in/libraries/pdf.js/web/viewer.html?file=https%3A%2F%2Fwww.indianculture.gov.in%2Fsystem%2Ffiles%2FdigitalFilesICWeb%2Figncarepository%2F963%2Fignca-19280-rb.pdf' -H 'DNT: 1' -H 'Connection: keep-alive' -H 'TE: Trailers'" + " --output " + pdf_name
+        print(cmd_for_curl)
+        os.system(cmd_for_curl)
+        return pdf_name
+    else:
+        return None

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+gradio==3.35.2
+bs4==0.0.1
+requests==2.31.0