FreeBibTec2

Sleeping

App Files Files Community

C2MV commited on Dec 14, 2024

Commit

401d3db

verified ·

1 Parent(s): bf37274

Update app.py

Browse files

Files changed (1) hide show

app.py +76 -139

app.py CHANGED Viewed

@@ -10,10 +10,6 @@ from urllib.parse import quote, urlencode
 import gradio as gr
 from bs4 import BeautifulSoup
 import io
-from docx import Document
-from docx.shared import Inches
-from docx.enum.text import WD_ALIGN_PARAGRAPH
 # Configure logging
 logging.basicConfig(level=logging.INFO,
@@ -219,42 +215,42 @@ class PaperDownloader:
     def download_single_doi(self, doi):
         """Downloads a single paper using a DOI"""
         if not doi:
-            return None, "Error: DOI not provided", "Error: DOI not provided", None, None
         try:
             pdf_content = self.download_with_retry(doi)
             if pdf_content:
                 if doi is None:
-                     return None, "Error: DOI not provided", "", None, None
                 filename = f"{str(doi).replace('/', '_').replace('.', '_')}.pdf"
                 filepath = os.path.join(self.output_dir, filename)
                 with open(filepath, 'wb') as f:
                     f.write(pdf_content)
                 logger.info(f"Successfully downloaded: {filename}")
-                return filepath, f'<a href="https://doi.org/{doi}">{doi}</a>', "", None
             else:
                 logger.warning(f"Could not download: {doi}")
-                return None, f"Could not download {doi}", f'<a href="https://doi.org/{doi}">{doi}</a>', None, None
         except Exception as e:
             logger.error(f"Error processing {doi}: {e}")
-            return None, f"Error processing {doi}: {e}", f"Error processing {doi}: {e}", None, None
     def download_multiple_dois(self, dois_text):
         """Downloads multiple papers from a list of DOIs"""
         if not dois_text:
-            return None, "Error: No DOIs provided", "Error: No DOIs provided", None, None
         dois = [doi.strip() for doi in dois_text.split('\n') if doi.strip()]
         if not dois:
-            return None, "Error: No valid DOIs provided", "Error: No valid DOIs provided", None, None
         downloaded_files = []
         failed_dois = []
         downloaded_links = []
         for i, doi in enumerate(tqdm(dois, desc="Downloading papers")):
-            filepath, success_message, fail_message, _ = self.download_single_doi(doi)
             if filepath:
               # Unique filename for zip
               filename = f"{str(doi).replace('/', '_').replace('.', '_')}_{i}.pdf"
@@ -273,7 +269,7 @@ class PaperDownloader:
                     zipf.write(file_path, arcname=os.path.basename(file_path))
             logger.info(f"ZIP file created: {zip_filename}")
-        return zip_filename if downloaded_files else None, "\n".join(downloaded_links), "\n".join(failed_dois), None, None
     def process_bibtex(self, bib_file):
@@ -284,14 +280,14 @@ class PaperDownloader:
                  bib_content = f.read()
         except Exception as e:
              logger.error(f"Error reading uploaded file {bib_file.name}: {e}")
-             return None, f"Error reading uploaded file {bib_file.name}: {e}", f"Error reading uploaded file {bib_file.name}: {e}", None, None
         # Parse BibTeX data
         try:
             bib_database = bibtexparser.loads(bib_content)
         except Exception as e:
              logger.error(f"Error parsing BibTeX data: {e}")
-             return None, f"Error parsing BibTeX data: {e}", f"Error parsing BibTeX data: {e}", None, None
         # Extract DOIs
         dois = [entry.get('doi') for entry in bib_database.entries if entry.get('doi')]
@@ -311,7 +307,7 @@ class PaperDownloader:
                 # Save PDF
                 if pdf_content:
                     if doi is None:
-                        return None, "Error: DOI not provided", "", None, None
                     filename = f"{str(doi).replace('/', '_').replace('.', '_')}.pdf"
                     filepath = os.path.join(self.output_dir, filename)
@@ -336,41 +332,7 @@ class PaperDownloader:
                     zipf.write(file_path, arcname=os.path.basename(file_path))
             logger.info(f"ZIP file created: {zip_filename}")
-        return zip_filename, "\n".join(downloaded_links), "\n".join(failed_dois), None, None
-    def create_report_docx(self, downloaded_dois, failed_dois):
-        """Creates a Word document report of downloaded and failed DOIs."""
-        document = Document()
-        # Add a title
-        title_paragraph = document.add_paragraph()
-        title_run = title_paragraph.add_run("DOI Download Report")
-        title_run.bold = True
-        title_paragraph.alignment = WD_ALIGN_PARAGRAPH.CENTER
-        # Add downloaded DOIs
-        document.add_heading('Downloaded DOIs', level=2)
-        if downloaded_dois:
-            for doi in downloaded_dois.split('\n'):
-                 if doi:
-                     document.add_paragraph(doi)
-        else:
-            document.add_paragraph("No DOIs were successfully downloaded.")
-        # Add failed DOIs
-        document.add_heading('Failed DOIs', level=2)
-        if failed_dois:
-            for doi in failed_dois.split('\n'):
-                if doi:
-                     document.add_paragraph(doi)
-        else:
-            document.add_paragraph("No DOIs failed to download.")
-        report_path = "doi_report.docx"
-        document.save(report_path)
-        return report_path
 def create_gradio_interface():
     """Create Gradio interface for Paper Downloader"""
@@ -380,42 +342,31 @@ def create_gradio_interface():
         if bib_file:
             # Check file type
             if not bib_file.name.lower().endswith('.bib'):
-                return None, "Error: Please upload a .bib file", "Error: Please upload a .bib file", None, None
-            zip_path, downloaded_dois, failed_dois, _ , _= downloader.process_bibtex(bib_file)
-            return zip_path, downloaded_dois, failed_dois, None, None
         elif doi_input:
-            filepath, message, failed_doi, _ = downloader.download_single_doi(doi_input)
-            return None, message, failed_doi, filepath, None
         elif dois_input:
-           zip_path, downloaded_dois, failed_dois, _ , _= downloader.download_multiple_dois(dois_input)
-           return zip_path, downloaded_dois, failed_dois, None, None
         else:
-           return None, "Please provide a .bib file, a single DOI, or a list of DOIs", "Please provide a .bib file, a single DOI, or a list of DOIs", None, None
-    def create_report(downloaded_dois_html, failed_dois_html):
-        """Creates a report and returns the report path."""
-        downloaded_dois = ""
-        failed_dois = ""
-         # Extract text content from HTML elements
-        if downloaded_dois_html:
-             soup = BeautifulSoup(downloaded_dois_html, 'html.parser')
-             downloaded_dois_items = [li.text for li in soup.find_all('li')]
-             downloaded_dois = "\n".join(downloaded_dois_items)
-        if failed_dois_html:
-           soup = BeautifulSoup(failed_dois_html, 'html.parser')
-           failed_dois_items = [li.text for li in soup.find_all('li')]
-           failed_dois = "\n".join(failed_dois_items)
-        if downloaded_dois or failed_dois:
-            report_path = downloader.create_report_docx(downloaded_dois, failed_dois)
-            return report_path
-        return None
-    downloaded_dois_html = gr.HTML(label="""
                <div style='padding-bottom: 5px; font-weight: bold;'>
                         Enter Single DOI
                </div>
@@ -425,76 +376,62 @@ def create_gradio_interface():
                     </div>
                     <div id="downloaded-dois"></div>
                  </div>
-            """)
-    failed_dois_html = gr.HTML(label="""
                 <div style='border: 1px solid #ddd; padding: 5px; border-radius: 5px;'>
                     <div style='padding-bottom: 5px; font-weight: bold;'>
                         Failed DOIs
                     </div>
                     <div id="failed-dois"></div>
                  </div>
-            """)
-    with gr.Blocks(theme="Hev832/Applio") as interface:
-        gr.Markdown("""# 🔬 Academic Paper Batch Downloader""")
-        gr.Markdown("Upload a BibTeX file or enter DOIs to download PDFs. We'll attempt to fetch PDFs from multiple sources like Sci-Hub, Libgen, Google Scholar and Crossref. You can use any of the three inputs at any moment.")
-        with gr.Row():
-           with gr.Column():
-                bib_file_input = gr.File(file_types=['.bib'], label="Upload BibTeX File")
-                doi_input = gr.Textbox(label="Enter Single DOI", placeholder="10.xxxx/xxxx")
-                dois_input = gr.Textbox(label="Enter Multiple DOIs (one per line)", placeholder="10.xxxx/xxxx\n10.yyyy/yyyy\n...")
-                with gr.Row():
-                    clear_button = gr.Button("Clear")
-                    submit_button = gr.Button("Submit")
-                with gr.Accordion("Examples"):
-                    gr.Examples(
-                    examples=[
-                        ["example.bib", None, None], # Bibtex File
-                        [None, "10.1038/nature12373", None], # Single DOI
-                        [None, None, "10.1109/5.771073\n10.3390/horticulturae8080677"], # Multiple DOIs
-                    ],
-                      inputs=[bib_file_input, doi_input, dois_input]
-                    )
-           with gr.Column():
-                file_output = gr.File(label="Download Papers (ZIP) or Single PDF")
-                downloaded_dois_html
-                failed_dois_html
-                single_pdf_output = gr.File(label="Downloaded Single PDF")
-                with gr.Row():
-                    report_button = gr.Button("Create Report")
-                    report_output = gr.File(label="Download Report")
-        interface.load = """
         function(downloaded_dois, failed_dois){
-             let downloaded_html =  '<ul>';
              downloaded_dois.split('\\n').filter(Boolean).forEach(doi => {
-                downloaded_html +=  '<li>' + doi + '</li>';
             });
-            downloaded_html +=  '</ul>';
             document.querySelector("#downloaded-dois").innerHTML = downloaded_html;
-             let failed_html = '<ul>';
              failed_dois.split('\\n').filter(Boolean).forEach(doi => {
-                failed_html += '<li>' + doi + '</li>';
             });
-             failed_html += '</ul>';
             document.querySelector("#failed-dois").innerHTML = failed_html;
             return [downloaded_html, failed_html];
         }
-        """
-        submit_button.click(
-            download_papers,
-            inputs=[bib_file_input, doi_input, dois_input],
-            outputs=[file_output, downloaded_dois_html, failed_dois_html, single_pdf_output],
-        )
-        report_button.click(create_report, inputs = [downloaded_dois_html,failed_dois_html], outputs=report_output)
     return interface
 def main():
@@ -502,4 +439,4 @@ def main():
     interface.launch(share=True)
 if __name__ == "__main__":
-    main()

 import gradio as gr
 from bs4 import BeautifulSoup
 import io
 # Configure logging
 logging.basicConfig(level=logging.INFO,
     def download_single_doi(self, doi):
         """Downloads a single paper using a DOI"""
         if not doi:
+            return None, "Error: DOI not provided", "Error: DOI not provided"
         try:
             pdf_content = self.download_with_retry(doi)
             if pdf_content:
                 if doi is None:
+                     return None, "Error: DOI not provided", "Error: DOI not provided"
                 filename = f"{str(doi).replace('/', '_').replace('.', '_')}.pdf"
                 filepath = os.path.join(self.output_dir, filename)
                 with open(filepath, 'wb') as f:
                     f.write(pdf_content)
                 logger.info(f"Successfully downloaded: {filename}")
+                return filepath, f'<a href="https://doi.org/{doi}">{doi}</a>', ""
             else:
                 logger.warning(f"Could not download: {doi}")
+                return None, f"Could not download {doi}", f'<a href="https://doi.org/{doi}">{doi}</a>'
         except Exception as e:
             logger.error(f"Error processing {doi}: {e}")
+            return None, f"Error processing {doi}: {e}", f"Error processing {doi}: {e}"
     def download_multiple_dois(self, dois_text):
         """Downloads multiple papers from a list of DOIs"""
         if not dois_text:
+            return None, "Error: No DOIs provided", "Error: No DOIs provided"
         dois = [doi.strip() for doi in dois_text.split('\n') if doi.strip()]
         if not dois:
+            return None, "Error: No valid DOIs provided", "Error: No valid DOIs provided"
         downloaded_files = []
         failed_dois = []
         downloaded_links = []
         for i, doi in enumerate(tqdm(dois, desc="Downloading papers")):
+            filepath, success_message, fail_message = self.download_single_doi(doi)
             if filepath:
               # Unique filename for zip
               filename = f"{str(doi).replace('/', '_').replace('.', '_')}_{i}.pdf"
                     zipf.write(file_path, arcname=os.path.basename(file_path))
             logger.info(f"ZIP file created: {zip_filename}")
+        return zip_filename if downloaded_files else None, "\n".join(downloaded_links), "\n".join(failed_dois)
     def process_bibtex(self, bib_file):
                  bib_content = f.read()
         except Exception as e:
              logger.error(f"Error reading uploaded file {bib_file.name}: {e}")
+             return None, f"Error reading uploaded file {bib_file.name}: {e}", f"Error reading uploaded file {bib_file.name}: {e}", None
         # Parse BibTeX data
         try:
             bib_database = bibtexparser.loads(bib_content)
         except Exception as e:
              logger.error(f"Error parsing BibTeX data: {e}")
+             return None, f"Error parsing BibTeX data: {e}", f"Error parsing BibTeX data: {e}", None
         # Extract DOIs
         dois = [entry.get('doi') for entry in bib_database.entries if entry.get('doi')]
                 # Save PDF
                 if pdf_content:
                     if doi is None:
+                        return None, "Error: DOI not provided", "Error: DOI not provided", None
                     filename = f"{str(doi).replace('/', '_').replace('.', '_')}.pdf"
                     filepath = os.path.join(self.output_dir, filename)
                     zipf.write(file_path, arcname=os.path.basename(file_path))
             logger.info(f"ZIP file created: {zip_filename}")
+        return zip_filename, "\n".join(downloaded_links), "\n".join(failed_dois), None
 def create_gradio_interface():
     """Create Gradio interface for Paper Downloader"""
         if bib_file:
             # Check file type
             if not bib_file.name.lower().endswith('.bib'):
+                return None, "Error: Please upload a .bib file", "Error: Please upload a .bib file", None
+            zip_path, downloaded_dois, failed_dois, _ = downloader.process_bibtex(bib_file)
+            return zip_path, downloaded_dois, failed_dois, None
         elif doi_input:
+            filepath, message, failed_doi = downloader.download_single_doi(doi_input)
+            return None, message, failed_doi, filepath
         elif dois_input:
+           zip_path, downloaded_dois, failed_dois = downloader.download_multiple_dois(dois_input)
+           return zip_path, downloaded_dois, failed_dois, None
         else:
+           return None, "Please provide a .bib file, a single DOI, or a list of DOIs", "Please provide a .bib file, a single DOI, or a list of DOIs", None
+    # Gradio Interface
+    interface = gr.Interface(
+        fn=download_papers,
+        inputs=[
+            gr.File(file_types=['.bib'], label="Upload BibTeX File"),
+            gr.Textbox(label="Enter Single DOI", placeholder="10.xxxx/xxxx"),
+            gr.Textbox(label="Enter Multiple DOIs (one per line)", placeholder="10.xxxx/xxxx\n10.yyyy/yyyy\n...")
+        ],
+        outputs=[
+            gr.File(label="Download Papers (ZIP) or Single PDF"),
+             gr.HTML(label="""
                <div style='padding-bottom: 5px; font-weight: bold;'>
                         Enter Single DOI
                </div>
                     </div>
                     <div id="downloaded-dois"></div>
                  </div>
+            """),
+           gr.HTML(label="""
                 <div style='border: 1px solid #ddd; padding: 5px; border-radius: 5px;'>
                     <div style='padding-bottom: 5px; font-weight: bold;'>
                         Failed DOIs
                     </div>
                     <div id="failed-dois"></div>
                  </div>
+            """),
+            gr.File(label="Downloaded Single PDF")
+        ],
+        title="🔬 Academic Paper Batch Downloader",
+        description="Upload a BibTeX file or enter DOIs to download PDFs. We'll attempt to fetch PDFs from multiple sources like Sci-Hub, Libgen, Google Scholar and Crossref. You can use any of the three inputs at any moment.",
+        theme="Hev832/Applio",
+        examples=[
+            ["example.bib", None, None], # Bibtex File
+            [None, "10.1038/nature12373", None], # Single DOI
+            [None, None, "10.1109/5.771073\n10.3390/horticulturae8080677"], # Multiple DOIs
+         ],
+         css="""
+        .gradio-container {
+            background-color: black;
+        }
+        .gr-interface {
+            max-width: 800px;
+            margin: 0 auto;
+        }
+        .gr-box {
+            background-color: black;
+            border-radius: 10px;
+            box-shadow: 0 4px 6px rgba(0, 0, 0, 0.1);
+        }
+           .output-text a {
+               color: #007bff; /* Blue color for hyperlinks */
+            }
+        """,
+        cache_examples = False,
+    )
+    # Add Javascript to update HTML
+    interface.load = """
         function(downloaded_dois, failed_dois){
+             let downloaded_html = '';
              downloaded_dois.split('\\n').filter(Boolean).forEach(doi => {
+                downloaded_html +=  doi + '<br>';
             });
             document.querySelector("#downloaded-dois").innerHTML = downloaded_html;
+             let failed_html = '';
              failed_dois.split('\\n').filter(Boolean).forEach(doi => {
+                failed_html += doi + '<br>';
             });
             document.querySelector("#failed-dois").innerHTML = failed_html;
             return [downloaded_html, failed_html];
         }
+    """
     return interface
 def main():
     interface.launch(share=True)
 if __name__ == "__main__":
+    main()