c#读取pdf里的表格
2024-10-10
43
在C#中读取PDF文件中的表格需要使用一些第三方库来实现。其中比较常用的是iTextSharp和PDFSharp。
下面是使用iTextSharp库读取PDF文件中表格的示例代码:
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
public static string ExtractTextFromPdf(string path)
{
StringBuilder text = new StringBuilder();
using (PdfReader reader = new PdfReader(path))
{
for (int i = 1; i <= reader.NumberOfPages; i++)
{
text.Append(PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy()));
}
}
return text.ToString();
}
要读取表格中的数据,可以使用iTextSharp的PdfReader对象的GetPageN方法获取指定页的PdfDictionary对象。然后使用PdfDictionary的GetAsArray方法获取该页的所有PdfObject对象。在这些PdfObject对象中查找PdfArray类型的对象,它们代表表格中的行和单元格。使用PdfArray的GetAsNumber和GetAsString方法获取单元格中的数据。
需要注意的是,这种方法只能读取PDF文件中的表格,如果需要修改或创建PDF文件中的表格,可以使用iTextSharp的PdfPTable和PdfPCell类。
PDFSharp库也提供了类似的功能,可以使用PdfSharp.Pdf.IO.PdfReader对象读取PDF文件中的表格数据。
更新于:1个月前赞一波!
相关文章
- .NET9 C# 13 有哪些新特性?
- C#中的String和StringBuilder的区别
- .NET C#中的IEnumerable和IEnumerator的区别
- C# Const 和 ReadOnly的区别
- C# 使用Barrier进行多线程同步
- C#发送邮件代码简洁示例(附源码下载)
- C# Word转换成Pdf的方法
- c#使用MongoDB开发LBS应用
- hprose for C#使用教程
- c#实现与Java无差异的GZip压缩和GZip解压缩
- .NET Core c#使用SkiaSharp压缩裁切图片去除水印
- c# decimal保留2位小数 并向下舍入
- .NET Core c#使用SkiaSharp压缩图片
- C#复制文件到指定文件夹
- c#获取枚举的Description
- c# HttpClient下载图片
- c#使用HtmlAgilityPack编辑html并保存
- c#获取文件夹所有文件列表
- c# int数值转enum枚举
- c#获取枚举的描述Description和摘要Summary
文章评论
评论问答