網(wǎng)站首頁(yè) 編程語(yǔ)言正文

C#讀取word中表格數(shù)據(jù)的方法實(shí)現(xiàn)_C#教程

作者：ViperL1 ? 更新時(shí)間： 2022-08-06 編程語(yǔ)言

前些日子有一個(gè)項(xiàng)目需要從word文件中取表格數(shù)據(jù)并進(jìn)行處理，網(wǎng)上大部分方案都是基于office的com組件實(shí)現(xiàn)，但是這樣有一個(gè)缺點(diǎn)，如果電腦里沒有安裝office將無(wú)法使用，因?yàn)橹安僮鱡xcel都是使用的NPOI，所以理所當(dāng)然的想用NPOI解決此問題。

于是找到了如下代碼

private List<string> GetDoc(string Path)
        {
            if (Path == "")
                return null;    //文件路徑為空
            List<string> Result = new List<string>();    //結(jié)果容器
 
            FileStream stream = new FileStream(Path, FileMode.Open);    //打開流
            XWPFDocument docx = new XWPFDocument(stream);
            var list = new List<XWPFTableCell>();
 
            //循環(huán)遍歷表格內(nèi)容
            foreach (var row in docx.Tables[0].Rows)
            {
                foreach (var cell in row.GetTableCells())
                {
                    if (!list.Contains(cell))
                    {
                        list.Add(cell);
                        Result.Add(cell.GetText());
                    }
                }
            }
            stream.Close();
            return Result;    //關(guān)閉文件流（很關(guān)鍵，否則會(huì)導(dǎo)致下一個(gè)文件無(wú)法大開）
 
        }

但是這樣做又有一個(gè)缺點(diǎn) ，NPOI僅支持.docx格式的文件，如果讀取.doc會(huì)直接報(bào)錯(cuò)！

于是后續(xù)又找到了另一開源組件freeSpire。有如下代碼

        private List<string> GetDocX(string Path)
        {
            if (Path == "")
                return null;    //文件路徑為空
            List<string> Result = new List<string>();
 
            Spire.Doc.Document doc = new Spire.Doc.Document();
            doc.LoadFromFile(Path);
 
            TextBox textbox = doc.TextBoxes[0];
            Spire.Doc.Table table = textbox.Body.Tables[0] as Spire.Doc.Table;
 
            foreach (TableRow row in table.Rows)
            {
                foreach (TableCell cell in row.Cells)
                {
                    foreach (Paragraph paragraph in cell.Paragraphs)
                    {
                        Result.Add(paragraph.Text);
                    }
                }
            }
            return Result;
        }

但是不知道什么原因，并不能抓取.doc文件中的表格。

隨后嘗試了其getText()函數(shù)確定可以直接抓取文字內(nèi)容，初步判斷可能是格式問題。

有考慮過自己寫匹配函數(shù)對(duì)文本內(nèi)容進(jìn)行分析，但由于格式過于復(fù)雜，很多通用性問題無(wú)法解決后放棄。如果格式不復(fù)雜的話，也不失為一種解決方法。

最后采用的方法是先利用Spire組件將.doc轉(zhuǎn)換為.docx后再利用NPOI進(jìn)行內(nèi)容處理，效果拔群！！！

        private string ChangeToDocx(string Path)
        {
            if (Path == "")
                return "";    //文件路徑為空
            List<string> Result = new List<string>();
 
            Spire.Doc.Document doc = new Spire.Doc.Document();
            doc.LoadFromFile(Path);    //打開文件
            Path.Replace(".doc", "docx");    //替換后綴
            doc.SaveToFile(Path, FileFormat.Docx);    //保存為.doc
            return Path;
        }

主函數(shù)中調(diào)用如下：（若不是.doc則無(wú)需轉(zhuǎn)換以節(jié)約開銷）

if (Path.Contains(".doc"))
{
    string newPath = ChangeToDocx(Path);
    result = GetDoc(newPath);
}
result = GetDoc(Path);

原文鏈接：https://blog.csdn.net/weixin_37878740/article/details/125230980

上一篇：python練習(xí)之循環(huán)控制語(yǔ)句?break?與?contin
下一篇：GIN的路由以及傳參問題_Golang

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁(yè) 編程語(yǔ)言正文

C#讀取word中表格數(shù)據(jù)的方法實(shí)現(xiàn)_C#教程

相關(guān)推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁(yè) 編程語(yǔ)言 正文

C#讀取word中表格數(shù)據(jù)的方法實(shí)現(xiàn)_C#教程

相關(guān)推薦

網(wǎng)站首頁(yè) 編程語(yǔ)言正文