網(wǎng)站首頁(yè) 編程語(yǔ)言 正文
前些日子有一個(gè)項(xiàng)目需要從word文件中取表格數(shù)據(jù)并進(jìn)行處理,網(wǎng)上大部分方案都是基于office的com組件實(shí)現(xiàn),但是這樣有一個(gè)缺點(diǎn),如果電腦里沒有安裝office將無(wú)法使用,因?yàn)橹安僮鱡xcel都是使用的NPOI,所以理所當(dāng)然的想用NPOI解決此問題。
于是找到了如下代碼
private List<string> GetDoc(string Path)
{
if (Path == "")
return null; //文件路徑為空
List<string> Result = new List<string>(); //結(jié)果容器
FileStream stream = new FileStream(Path, FileMode.Open); //打開流
XWPFDocument docx = new XWPFDocument(stream);
var list = new List<XWPFTableCell>();
//循環(huán)遍歷表格內(nèi)容
foreach (var row in docx.Tables[0].Rows)
{
foreach (var cell in row.GetTableCells())
{
if (!list.Contains(cell))
{
list.Add(cell);
Result.Add(cell.GetText());
}
}
}
stream.Close();
return Result; //關(guān)閉文件流(很關(guān)鍵,否則會(huì)導(dǎo)致下一個(gè)文件無(wú)法大開)
}
但是這樣做又有一個(gè)缺點(diǎn) ,NPOI僅支持.docx格式的文件,如果讀取.doc會(huì)直接報(bào)錯(cuò)!
于是后續(xù)又找到了另一開源組件freeSpire。有如下代碼
private List<string> GetDocX(string Path)
{
if (Path == "")
return null; //文件路徑為空
List<string> Result = new List<string>();
Spire.Doc.Document doc = new Spire.Doc.Document();
doc.LoadFromFile(Path);
TextBox textbox = doc.TextBoxes[0];
Spire.Doc.Table table = textbox.Body.Tables[0] as Spire.Doc.Table;
foreach (TableRow row in table.Rows)
{
foreach (TableCell cell in row.Cells)
{
foreach (Paragraph paragraph in cell.Paragraphs)
{
Result.Add(paragraph.Text);
}
}
}
return Result;
}
但是不知道什么原因,并不能抓取.doc文件中的表格。
隨后嘗試了其getText()函數(shù)確定可以直接抓取文字內(nèi)容,初步判斷可能是格式問題。
有考慮過自己寫匹配函數(shù)對(duì)文本內(nèi)容進(jìn)行分析,但由于格式過于復(fù)雜,很多通用性問題無(wú)法解決后放棄。如果格式不復(fù)雜的話,也不失為一種解決方法。
最后采用的方法是先利用Spire組件將.doc轉(zhuǎn)換為.docx后再利用NPOI進(jìn)行內(nèi)容處理,效果拔群!!!
private string ChangeToDocx(string Path)
{
if (Path == "")
return ""; //文件路徑為空
List<string> Result = new List<string>();
Spire.Doc.Document doc = new Spire.Doc.Document();
doc.LoadFromFile(Path); //打開文件
Path.Replace(".doc", "docx"); //替換后綴
doc.SaveToFile(Path, FileFormat.Docx); //保存為.doc
return Path;
}
主函數(shù)中調(diào)用如下:(若不是.doc則無(wú)需轉(zhuǎn)換以節(jié)約開銷)
if (Path.Contains(".doc"))
{
string newPath = ChangeToDocx(Path);
result = GetDoc(newPath);
}
result = GetDoc(Path);
原文鏈接:https://blog.csdn.net/weixin_37878740/article/details/125230980
相關(guān)推薦
- 2022-12-03 設(shè)置界面開發(fā)Preference?Library數(shù)據(jù)重建機(jī)制詳解_Android
- 2022-04-25 turtle的基礎(chǔ)使用之python?turtle遞歸繪圖_python
- 2023-11-14 樹莓派上如何安裝anaconda/miniconda環(huán)境配置
- 2022-05-17 python的列表生成式,生成器和generator對(duì)象你了解嗎_python
- 2022-04-22 C#基于WinForm實(shí)現(xiàn)串口通訊_C#教程
- 2022-08-08 Android實(shí)現(xiàn)頁(yè)面跳轉(zhuǎn)_Android
- 2022-05-22 jQuery常用事件方法mouseenter+mouseleave+hover_jquery
- 2024-01-10 給idea添加右鍵打開功能
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運(yùn)行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲(chǔ)小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運(yùn)算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯(cuò)誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實(shí)現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡(jiǎn)單動(dòng)態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對(duì)象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊(duì)列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支