c#读取pdf里的表格
2024-10-10
16
在C#中读取PDF文件中的表格需要使用一些第三方库来实现。其中比较常用的是iTextSharp和PDFSharp。
下面是使用iTextSharp库读取PDF文件中表格的示例代码:
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
public static string ExtractTextFromPdf(string path)
{
StringBuilder text = new StringBuilder();
using (PdfReader reader = new PdfReader(path))
{
for (int i = 1; i <= reader.NumberOfPages; i++)
{
text.Append(PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy()));
}
}
return text.ToString();
}
要读取表格中的数据,可以使用iTextSharp的PdfReader对象的GetPageN方法获取指定页的PdfDictionary对象。然后使用PdfDictionary的GetAsArray方法获取该页的所有PdfObject对象。在这些PdfObject对象中查找PdfArray类型的对象,它们代表表格中的行和单元格。使用PdfArray的GetAsNumber和GetAsString方法获取单元格中的数据。
需要注意的是,这种方法只能读取PDF文件中的表格,如果需要修改或创建PDF文件中的表格,可以使用iTextSharp的PdfPTable和PdfPCell类。
PDFSharp库也提供了类似的功能,可以使用PdfSharp.Pdf.IO.PdfReader对象读取PDF文件中的表格数据。
更新于:8天前赞一波!
相关文章
- C# Word转换成Pdf的方法
- c#使用MongoDB开发LBS应用
- hprose for C#使用教程
- c#实现与Java无差异的GZip压缩和GZip解压缩
- .NET Core c#使用SkiaSharp压缩裁切图片去除水印
- c# decimal保留2位小数 并向下舍入
- .NET Core c#使用SkiaSharp压缩图片
- C#复制文件到指定文件夹
- c#获取枚举的Description
- c# HttpClient下载图片
- c#使用HtmlAgilityPack编辑html并保存
- c#获取文件夹所有文件列表
- c# int数值转enum枚举
- c#获取枚举的描述Description和摘要Summary
- .NET C#获取客户端真实IP
- c# 常用语法糖
- c# 爬虫组件有哪些?
- c#和f#的区别
- 自学.NET C#的中文网站推荐
- 10个c#基础面试题和答案
文章评论
评论问答