Spaces:

Soumen
/

Text-Summarization-and-NLP-tasks

Running

Soumen commited on Sep 26, 2023

Commit

5496661

1 Parent(s): e993791

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -32,6 +32,7 @@ import numpy as np
 import pytesseract
 import line_cor
 import altair as alt
 #pytesseract.pytesseract.tesseract_cmd = r"./Tesseract-OCR/tesseract.exe"
 from PIL import Image
 API_URL0 = "https://api-inference.huggingface.co/models/csebuetnlp/mT5_multilingual_XLSum"
@@ -64,18 +65,15 @@ def read_pdf(file):
 @st.cache(suppress_st_warning=True)
 def engsum(output):
-    def query(payload):
-        response = requests.post(API_URL1, headers=headers1, json=payload)
-        return response.json()
-    out = query({
-        "inputs": output,
-        "min_length":450,
-        "max_length": 650
-    })
-    if isinstance(out, list) and out[0].get("generated_text"):
-       text_output = out[0]["generated_text"]
-       st.success(text_output)
 @st.cache(suppress_st_warning=True)
 def bansum(text):
     def query(payload):

 import pytesseract
 import line_cor
 import altair as alt
+from transformers import AutoTokenizer, AutoModelWithLMHead
 #pytesseract.pytesseract.tesseract_cmd = r"./Tesseract-OCR/tesseract.exe"
 from PIL import Image
 API_URL0 = "https://api-inference.huggingface.co/models/csebuetnlp/mT5_multilingual_XLSum"
 @st.cache(suppress_st_warning=True)
 def engsum(output):
+    tokenizer = AutoTokenizer.from_pretrained('t5-base')
+    model = AutoModelWithLMHead.from_pretrained('t5-base', return_dict=True)
+	#st.text("Using Google T5 Transformer ..")
+    inputs = tokenizer.encode("summarize: " + text,return_tensors='pt',
+										max_length= 512,
+										truncation=True)
+    summary_ids = model.generate(inputs, max_length=150, min_length=80, length_penalty=5., num_beams=2)
+    summary = tokenizer.decode(summary_ids[0])
+    st.success(text_output)
 @st.cache(suppress_st_warning=True)
 def bansum(text):
     def query(payload):