成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Apache Tika 輕松實現各種文檔內容解析

開發 開發工具
Apache Tika可以解析和提取一千多種不同的文件類型(如PPT、XLS和PDF)的內容和格式,并且Apache Tika提供了多種使用方式,既可以使用圖形化操作頁面(tika-app),又可以獨立部署(tika-server)通過接口調用,還可以引入到項目中使用。

Apache tika是Apache開源的一個文檔解析工具。Apache Tika可以解析和提取一千多種不同的文件類型(如PPT、XLS和PDF)的內容和格式,并且Apache Tika提供了多種使用方式,既可以使用圖形化操作頁面(tika-app),又可以獨立部署(tika-server)通過接口調用,還可以引入到項目中使用。

本文演示在spring boot 中引入tika的方式解析文檔。如下:

引入依賴

在spring boot 項目中引入如下依賴:

<dependencyManagement>
    <dependencies>
      <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-bom</artifactId>
        <version>2.8.0</version>
        <type>pom</type>
        <scope>import</scope>
      </dependency>
    </dependencies>
  </dependencyManagement>

    <dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-core</artifactId>
    </dependency>
    <dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-parsers-standard-package</artifactId>
    </dependency>

創建配置

將tika-config.xml文件放在resources目錄下。tika-config.xml文件的內容如下:

<?xml version="1.0" encoding="UTF-8"?>
<properties>
    <encodingDetectors>
        <encodingDetector class="org.apache.tika.parser.html.HtmlEncodingDetector">
            <params>
                <param name="markLimit" type="int">64000</param>
            </params>
        </encodingDetector>
        <encodingDetector class="org.apache.tika.parser.txt.UniversalEncodingDetector">
            <params>
                <param name="markLimit" type="int">64001</param>
            </params>
        </encodingDetector>
        <encodingDetector class="org.apache.tika.parser.txt.Icu4jEncodingDetector">
            <params>
                <param name="markLimit" type="int">64002</param>
            </params>
        </encodingDetector>
    </encodingDetectors>
</properties>

創建配置類MyTikaConfig

import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.Tika;
import org.apache.tika.config.TikaConfig;
import org.apache.tika.detect.Detector;
import org.apache.tika.exception.TikaException;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.Parser;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.core.io.Resource;
import org.springframework.core.io.ResourceLoader;
import org.xml.sax.SAXException;

/**
 * tika配置類
 */
@Configuration
public class MyTikaConfig {

    @Autowired
    private ResourceLoader resourceLoader;

    @Bean
    public Tika tika() throws TikaException, IOException, SAXException {

        Resource resource = resourceLoader.getResource("classpath:tika-config.xml");
        InputStream inputStream = resource.getInputStream();

        TikaConfig config = new TikaConfig(inputStream);
        Detector detector = config.getDetector();
        Parser autoDetectParser = new AutoDetectParser(config);

        return new Tika(detector, autoDetectParser);
    }
}

Tika類中提供了文芳detect、translate和parse功能, 在項目中通過注入TIka, 就可以使用了

在項目使用

配置完成后在項目中可以通過注入TIka即可完成文檔的解析。如下圖所示:

圖片圖片

責任編輯:武曉燕 來源: 一安未來
相關推薦

2024-10-31 09:42:08

2011-06-28 10:00:53

Samba

2010-01-06 16:38:31

2025-03-31 08:43:34

SpringTika優化

2013-11-29 15:41:08

解析漏洞ApacheApache解析漏洞

2010-02-25 14:39:03

WCF術語

2010-01-06 17:11:51

Ubuntu Apac

2010-07-28 10:29:03

Flex開源

2012-04-16 17:00:58

金山快盤內容備份

2011-09-08 11:43:32

GTK Widget

2025-01-06 09:03:41

2009-12-28 14:51:59

WPF元素樹

2012-12-11 15:46:46

2009-12-25 16:58:23

WPF名稱范圍

2009-12-31 16:50:02

Silverlight

2010-06-29 09:17:15

UML類圖標識法

2010-07-16 10:31:02

Batch Telne

2022-02-16 08:21:11

JavaSwagger工具

2019-09-30 08:28:53

Delta LakeSpark數據原理
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品在线国产 | 成人网在线 | 91精品中文字幕一区二区三区 | 亚洲九九 | 夜夜操天天艹 | 欧美精品久久 | 四虎影视免费在线 | 日韩精品一区二区三区视频播放 | 一区二区免费 | 另类视频在线 | 欧美网站一区 | 欧美综合一区 | 午夜精品视频 | 精品福利在线视频 | 超碰天天 | 日韩一三区 | 成人午夜免费福利视频 | 国产精品久久国产精品久久 | 成人免费日韩 | 国产中文 | 午夜在线影院 | 天天干视频 | 国产一区中文字幕 | 国产精品美女久久久久久久久久久 | 亚洲成年在线 | 日本久久黄色 | 国产一区二区三区四区在线观看 | 亚洲欧美一区二区三区在线 | 成人免费观看男女羞羞视频 | 97影院在线午夜 | 国产精品久久久久久久久久久新郎 | 亚洲精品区 | 国产在线aa | 亚洲男人天堂网 | 久久精品国产99国产 | 国产免费一区二区 | 成人国产精品久久久 | 欧美一二区 | 国产精品久久久久aaaa九色 | 欧美一区二区三区精品免费 | 亚洲欧美中文字幕 |