2021-07-02

Java 读取Word表格中的文本和图片

本文通过Java程序来展示如何读取Word表格,包括读取表格中的文本和图片。下面是具体实现的步骤和方法。

1. 程序环境准备

  • 代码编译工具:IntelliJ IDEA
  • Jdk版本:1.8.0
  • 测试文档:Word .docx 2013
  • Jar包:free spire.doc.jar 3.9.0

用于测试的Word文档如下:

 

Jar导入步骤及方法:

方法1:手动导入。打开Project Structure(Shift+Ctrl+Alt+S)界面,选择【Modules】—【Dependencies】,点击"+",【JARs or directories…】,选择本地路径中的jar包,添加后,勾选,点击"OK"或者"Apply"导入jar。

方法2:Maven仓库导入。需在pom.

<repositories>  <repository>   <id>com.e-iceblue</id>   <url>http://repo.e-iceblue.cn/repository/maven-public/</url>  </repository> </repositories><dependencies> <dependency>  <groupId> e-iceblue </groupId>  <artifactId>free.spire.doc</artifactId>  <version>3.9.0</version> </dependency></dependencies>

 

2. Java代码

import com.spire.doc.*;import com.spire.doc.documents.Paragraph;import com.spire.doc.fields.DocPicture;import com.spire.doc.interfaces.ITable;import javax.imageio.ImageIO;import java.awt.image.RenderedImage;import java.io.BufferedWriter;import java.io.File;import java.io.FileWriter;import java.io.IOException;import java.util.ArrayList;import java.util.List;public class GetTable { public static void main(String[] args)throws IOException {  //加载Word测试文档  Document doc = new Document();  doc.loadFromFile("inputfile.docx");  //获取第一节  Section section = doc.getSections().get(0);  //获取第一个表格  ITable table = section.getTables().get(0);  //创建txt文件(用于写入表格中提取的文本)  String output = "ReadTextFromTable.txt";  File textfile = new File(output);  if (textfile.exists())  {   textfile.delete();  }  textfile.createNewFile();  FileWriter fw = new FileWriter(textfile, true);  BufferedWriter bw = new BufferedWriter(fw);  //创建List  List images = new ArrayList();  //遍历表格中的行  for (int i = 0; i < table.getRows().getCount(); i++)  {   TableRow row = table.getRows().get(i);   //遍历每行中的单元格   for (int j = 0; j < row.getCells().getCount(); j++)   {    TableCell cell = row.getCells().get(j);    //遍历单元格中的段落    for (int k = 0; k < cell.getParagraphs().getCount(); k++)    {     Paragraph paragraph = cell.getParagraphs().get(k);     bw.write(paragraph.getText() + "\t");//获取文本内容     //遍历段落中的所有子对象     for (int x = 0; x < paragraph.getChildObjects().getCount(); x++)     {      Object object = paragraph.getChildObjects().get(x);      //判定对象是否为图片      if (object instanceof DocPicture)      {       //获取图片       DocPicture picture = (DocPicture) object;       images.add(picture.getImage());      }     }    }   }   bw.write("\r\n");//写入内容到txt......

原文转载:http://www.shaoqun.com/a/842168.html

跨境电商:https://www.ikjzd.com/

自贸区跨境通网站:https://www.ikjzd.com/w/1329

兰亭集势:https://www.ikjzd.com/w/820

kkr:https://www.ikjzd.com/w/1340


本文通过Java程序来展示如何读取Word表格,包括读取表格中的文本和图片。下面是具体实现的步骤和方法。1.程序环境准备代码编译工具:IntelliJIDEAJdk版本:1.8.0测试文档:Word.docx2013Jar包:freespire.doc.jar3.9.0用于测试的Word文档如下:Jar导入步骤及方法:方法1:手动导入。打开ProjectStructure(Shift+Ctrl+A
垂直类目快速拓品的四大花式玩法:https://www.ikjzd.com/articles/113778
物流运费涨价?Wish 发补贴帮你应对:https://www.ikjzd.com/articles/113779
亚马逊卖家如何制作高转化率的图片?:https://www.ikjzd.com/articles/113782
为应对印尼进口商品课税事宜 Shopee正研拟相关措施:https://www.ikjzd.com/articles/113783
那一夜彻底要了她四次 那一夜我被弄得太舒服了:http://lady.shaoqun.com/a/247177.html
宝贝腿张开点我轻点两男一女 男同桌把舌头伸进我下面:http://lady.shaoqun.com/a/248327.html
男朋友公车猛烈的一进一出 又硬又粗又长爽死我了:http://lady.shaoqun.com/m/a/247283.html
在体育器材室被学长玩 坐在学长腰上动高H:http://lady.shaoqun.com/m/a/247425.html
亚马逊新手卖家:如何确定产品类目?:https://www.ikjzd.com/articles/146320
黄浦江游览(十六铺码头)在哪里,怎么走?:http://www.30bags.com/a/466644.html
黄浦江游览(十六铺码头)门票2021年7月价格:http://www.30bags.com/a/466645.html
全球税改 中国跨境电商如何"税"月静好?:https://www.ikjzd.com/articles/146317

No comments:

Post a Comment