Spaces:

rt4u
/

marker

Sleeping

peppermenta commited on Sep 23

Commit

8627bc6

1 Parent(s): ffc1cfb

Update tests for new model

Files changed (6) hide show

tests/builders/test_garbled_pdf.py CHANGED Viewed

@@ -12,7 +12,7 @@ def test_garbled_pdf(pdf_document, recognition_model, table_rec_model, detection
     table_block = pdf_document.pages[0].get_block(pdf_document.pages[0].structure[0])
     assert table_block.block_type == BlockTypes.Table
-    assert table_block.structure[0] == "/page/0/Line/1"
     table_cell = pdf_document.pages[0].get_block(table_block.structure[0])
     assert table_cell.block_type == BlockTypes.Line

     table_block = pdf_document.pages[0].get_block(pdf_document.pages[0].structure[0])
     assert table_block.block_type == BlockTypes.Table
+    assert table_block.structure[0] == "/page/0/Line/8"
     table_cell = pdf_document.pages[0].get_block(table_block.structure[0])
     assert table_cell.block_type == BlockTypes.Line

tests/conftest.py CHANGED Viewed

@@ -157,7 +157,7 @@ def llm_service(request, config):
 def temp_image():
     img = Image.new("RGB", (512, 512), color="white")
     draw = ImageDraw.Draw(img)
-    draw.text((10, 10), "Hello, World!", fill="black", font_size=24)
     with tempfile.NamedTemporaryFile(suffix=".png") as f:
         img.save(f.name)
         f.flush()

 def temp_image():
     img = Image.new("RGB", (512, 512), color="white")
     draw = ImageDraw.Draw(img)
+    draw.text((200, 200), "Hello, World!", fill="black", font_size=36)
     with tempfile.NamedTemporaryFile(suffix=".png") as f:
         img.save(f.name)
         f.flush()

tests/processors/test_document_toc_processor.py CHANGED Viewed

@@ -8,5 +8,5 @@ def test_document_toc_processor(pdf_document, detection_model, recognition_model
     processor = DocumentTOCProcessor()
     processor(pdf_document)
-    assert len(pdf_document.table_of_contents) == 3
     assert pdf_document.table_of_contents[0]["title"] == "Subspace Adversarial Training"

     processor = DocumentTOCProcessor()
     processor(pdf_document)
+    assert len(pdf_document.table_of_contents) == 4
     assert pdf_document.table_of_contents[0]["title"] == "Subspace Adversarial Training"

tests/processors/test_ignoretext.py CHANGED Viewed

@@ -6,6 +6,7 @@ from marker.schema import BlockTypes
 @pytest.mark.filename("bio_pdf.pdf")
 @pytest.mark.config({"page_range": list(range(10))})
 def test_ignoretext_processor(pdf_document):
     processor = IgnoreTextProcessor()
     processor(pdf_document)

 @pytest.mark.filename("bio_pdf.pdf")
 @pytest.mark.config({"page_range": list(range(10))})
+@pytest.mark.skip(reason="New layout model correctly identifies the block as a PageHeader, so nothing to be done by the IgnoreTextProcessor")
 def test_ignoretext_processor(pdf_document):
     processor = IgnoreTextProcessor()
     processor(pdf_document)

tests/renderers/test_extract_images.py CHANGED Viewed

@@ -10,7 +10,7 @@ def test_disable_extract_images(pdf_document):
     md = renderer(pdf_document).markdown
     # Verify markdown
-    assert len(md) == 0
 @pytest.mark.config({"page_range": [0]})

     md = renderer(pdf_document).markdown
     # Verify markdown
+    assert "jpeg" not in md
 @pytest.mark.config({"page_range": [0]})

tests/schema/groups/test_list_grouping.py CHANGED Viewed

@@ -5,6 +5,7 @@ from marker.schema import BlockTypes
 @pytest.mark.config({"page_range": [4]})
 def test_list_grouping(pdf_document):
     structure = StructureBuilder()
     structure(pdf_document)

 @pytest.mark.config({"page_range": [4]})
+@pytest.mark.skip(reason="Model breaks this up due to equations")
 def test_list_grouping(pdf_document):
     structure = StructureBuilder()
     structure(pdf_document)