網(wǎng)站首頁編程語言正文

C#/VB.NET中從?PDF?文檔中提取所有表格_C#教程

作者：wx62c7d51fdb3c6??????? ? 更新時間： 2022-09-29 編程語言

前言

有時，我們可能需要從 PDF 文檔中提取表格數(shù)據(jù)，例如，當(dāng)PDF發(fā)票的表格中存儲了一些有用的信息，需要提取數(shù)據(jù)以進(jìn)行進(jìn)一步分析時。在這篇文章中，我將介紹如何使用Spire.PDF for .NET?從 PDF 文檔中提取所有表格數(shù)據(jù)。

安裝

首先，我們需要將 Spire.PDF for .NET 包中包含的 DLL 文件添加為 .NET 項(xiàng)目中的引用。可以從此鏈接下載 DLL 文件，也可以通過?NuGet?安裝 DLL 文件。

PM> Install-Package Spire.PDF

從PDF文檔中提取表格

Spire.PDF提供了PdfTableExtractor.ExtractTable()方法，用于從特定頁面中提取表格。以下是從整個PDF文檔中提取表格的詳細(xì)步驟。

創(chuàng)建一個Document類的對象，并加載源 PDF 文件。
遍歷文檔中的頁面，并使用ExtractTable()方法從特定頁面獲取表格列表。
遍歷特定表格中的單元格，并通過PdfTable.GetText()方法獲取單元格值。
將所提取的數(shù)據(jù)寫入 TXT 文件。

[C#]

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;

namespace ExtractTable
{
class Program
{
static void Main(string[] args)
{
//實(shí)例化PdfDocument類的對象
PdfDocument pdf = new PdfDocument();

//加載PDF文檔
pdf.LoadFromFile("sample.pdf");

//創(chuàng)建StringBuilder類的對象
StringBuilder builder = new StringBuilder();

//實(shí)例化PdfTableExtractor類的對象
PdfTableExtractor extractor = new PdfTableExtractor(pdf);

//聲明一個PdfTable類的表格數(shù)組
PdfTable[] tableLists;

//遍歷PDF頁面
for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
{
//從頁面提取表格
tableLists = extractor.ExtractTable(pageIndex);

//判斷表格列表是否為空
if (tableLists != null && tableLists.Length > 0)
{
//遍歷表格
foreach (PdfTable table in tableLists)
{
//獲取表格中的行和列數(shù)
int row = table.GetRowCount();
int column = table.GetColumnCount();

//遍歷表格行和列
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
//獲取行和列中的文本
string text = table.GetText(i, j);

//寫入文本到StringBuilder容器
builder.Append(text + " ");
}
builder.Append("\r\n");
}
}
}
}
//保存提取的表格內(nèi)容為.txt文檔
File.WriteAllText("ExtractedTable.txt", builder.ToString());
}
}

VB.NET

Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text

Namespace ExtractTable
Class Program
Private Shared Sub Main(args As String())
'實(shí)例化PdfDocument類的對象
Dim pdf As New PdfDocument()

'加載PDF文檔
pdf.LoadFromFile("sample.pdf")

'創(chuàng)建StringBuilder類的對象
Dim builder As New StringBuilder()

'實(shí)例化PdfTableExtractor類的對象
Dim extractor As New PdfTableExtractor(pdf)

'聲明一個PdfTable類的表格數(shù)組
Dim tableLists As PdfTable()

'遍歷PDF頁面
For pageIndex As Integer = 0 To pdf.Pages.Count - 1
'從頁面提取表格
tableLists = extractor.ExtractTable(pageIndex)

'判斷表格列表是否為空
If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
'遍歷表格
For Each table As PdfTable In tableLists
'獲取表格中的行和列數(shù)
Dim row As Integer = table.GetRowCount()
Dim column As Integer = table.GetColumnCount()

'遍歷表格行和列
For i As Integer = 0 To row - 1
For j As Integer = 0 To column - 1
'獲取行和列中的文本
Dim text As String = table.GetText(i, j)

'寫入文本到StringBuilder容器
builder.Append(text & Convert.ToString(" "))
Next
builder.Append(vbCr & vbLf)
Next
Next
End If
Next

'保存提取的表格內(nèi)容為.txt文檔
File.WriteAllText("ExtractedTable.txt", builder.ToString())
End Sub
End Class
End Namespace

原文鏈接：https://blog.51cto.com/u_15711850/5533826

上一篇：k8s證書有效期時間修改的方法詳解_云其它
下一篇：關(guān)于numpy兩個array疊加操作詳解_python

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁編程語言正文

C#/VB.NET中從?PDF?文檔中提取所有表格_C#教程

目錄

前言

安裝

從PDF文檔中提取表格

相關(guān)推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁 編程語言 正文

C#/VB.NET中從?PDF?文檔中提取所有表格_C#教程

目錄

前言

安裝

從PDF文檔中提取表格

相關(guān)推薦

網(wǎng)站首頁編程語言正文