成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

終于搞懂如何用Java去除HTML標簽了

開發 前端
在這篇文章中,我們學習了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。

大家好,我是指北君。

在我平時的工作中,偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標簽,只保留純文字內容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說,我們平時使用到的集中解析的方法。

使用正則表達式

通過爬蟲爬到的HTML內容,從程序角度來講,就是一個字符串。我們可以對其按照純文本處理的方式來處理。

我們在做文本處理的時候,第一個想到的就是正則表達式。從一個字符串中刪除HTML,對于正則來說,還是比較簡單的。畢竟還是有固定的格式,比如“<...>”。

我們常用的的正則就是 <[^>]>? 或者 <.*?> 。

我們在使用正則的時候,需要注意的是正則默認是貪婪匹配。也就是說,正則表達式 <.*> 能夠匹配到更多的HTML內容,而不是單個標簽。

現在,讓我們測試一下它是否能從HTML源中刪除標簽。

正則測試刪除標簽1

在我們測試刪除HTML標簽之前,首先讓我們創建一個HTML例子,例如example1.html。

<!DOCTYPE html>
<html>
<head>
<title>這是標題</title>
</head>
<body>
<p>
如果應用程序X沒有啟動,可能的原因是<br/>
1. <a href="https://maven.apache.org">Maven</a>沒有安裝<br/>
2. 磁盤空間不足<br/>
3. 內存不足
</p>
</body>
</html>

現在,讓我們寫一個測試,用String.replaceAll()來刪除HTML標簽。

String html = ... // load example1.html
String result = html.replaceAll("<[^>]`>", "");
System.out.println(result);

如果我們運行這個測試方法,我們會看到結果。

這是標題



如果應用程序X沒有啟動,可能的原因是
1.Maven沒有安裝
2.磁盤空間不足
3.沒有足夠的內存

輸出結果保留了剝離后的HTML的空白處。我們在處理提取的文本時,可以很容易地刪除或跳過這些空行或空白處。

正則測試刪除標簽2

我們剛才已經看到了,通過使用Regex來刪除HTML標簽是非常簡單。但是粗暴的使用這種方法會有很多問題,我們不能預測最終的結果會是怎么樣的。

例如,一個HTML文檔可能有<script>?或<style>標簽,而我們可能不希望在結果中出現它們的內容。

此外,<script>?、<style>?、甚至是<body>?標簽中的文本可能包含 <?或 >字符。如果是這種情況,我們的正則方法可能會出錯。

現在,讓我們看看另一個例子,比如example2.html。

<!DOCTYPE HTML>
<html>
<head>
<title>這是標題</title>
</head>
<script>
// some js function
</script>
<body>
<p>
如果應用程序X沒有啟動,可能的原因是<br/>
1. <a
id="link"
href="http://maven.apache.org/">
Maven
</a> 沒有安裝<br/>
2. 磁盤空間不足 (<1G) <br/>
3. 內存不足(<64MB)<br/>
</p>
</body>
</html>

現在我們有一個<script>?標簽和 <?字符在<body>標簽內。

如果我們對example2.html使用同樣的方法,我們會得到如下內容。

這是標題
// some js function
如果應用程序X沒有啟動,可能的原因是
1.
Maven
沒有安裝
2. 磁盤空間不足 (
3. 內存不足(

顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復雜的場景。

使用Jsoup

Jsoup 是一個流行的HTML解析庫,如果想要從一個HTML文檔中提取文本,我們可以簡單地調用??Jsoup.parse(htmlString).text()??。

在項目中使用的時候,我們首先需要添加 jsoup 的依賴庫,我們這里就通過maven的方式引入。

<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version>
</dependency>

我們用 example2.html來測試一下。

String html = ... // load example2.html
System.out.println(Jsoup.parse(html).text());

如果我們讓這個方法運行,它就會打印出來。

這是標題 如果應用程序X沒有啟動,可能的原因是 1.Maven沒有安裝 2.沒有足夠的(<1G)磁盤空間 3.沒有足夠的(<64MB)內存

從輸出結果可知,Jsoup已經成功地從HTML文檔中提取了文本。另外,??<script>??元素中的文本已經被忽略了。

此外,默認情況下,Jsoup會刪除所有的文本格式和空白處,比如換行符。

使用HTMLCleaner

HTMLCleaner 也是一個HTML解析庫。

首先,我們需要在pom.xml中添加HTMLCleaner 依賴。

<dependency>
<groupId>net.sourceforge.htmlcleaner</groupId>
<artifactId>htmlcleaner</artifactId>
<version>2.25</version>
</dependency>

我們可以設置[各種參數](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html?時跳過<script>元素。

String html = ... // load example2.html
CleanerProperties props = new CleanerProperties();
props.setPruneTags("script");
String result = new HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);

運行一下,HTMLCleaner將產生這樣的輸出。

這是標題



如果應用程序X沒有啟動,可能的原因是:
1.Maven沒有安裝
2.沒有足夠的(<1G)磁盤空間
3.內存不足(<64MB)

我們可以看到,??<script>???元素中的內容被忽略了, ??<br/>??標簽轉換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內容。

總結

在這篇文章中,我們學習了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。

責任編輯:武曉燕 來源: Java技術指北
相關推薦

2018-03-27 18:12:12

PythonHTML

2024-12-03 08:16:57

2024-10-16 07:58:48

2024-07-17 09:32:19

2024-09-23 09:12:20

2024-09-12 08:28:32

2024-10-17 13:05:35

神經網絡算法機器學習深度學習

2020-09-24 16:05:44

C語言sqlite3函數

2024-11-14 00:16:46

Seq2Seq算法RNN

2024-08-01 08:41:08

2024-10-05 23:00:35

2024-11-15 13:20:02

2024-10-28 00:38:10

2025-02-21 08:29:07

2024-09-20 07:36:12

2024-12-12 00:29:03

2025-02-17 13:09:59

深度學習模型壓縮量化

2024-09-18 16:42:58

機器學習評估指標模型

2024-08-23 09:06:35

機器學習混淆矩陣預測

2022-09-19 18:49:01

偵聽器異步組件
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91一区二区三区在线观看 | 欧美一区二区在线观看 | 国产免费一区二区 | 欧美日韩电影一区二区 | 国产极品车模吞精高潮呻吟 | 亚洲精品大全 | 嫩草伊人 | 中国xxxx性xxxx产国 | 亚洲精品www. | 欧美三级在线 | 欧美激情综合 | 亚洲视频精品在线 | 成人一级黄色毛片 | 亚洲精品天堂 | 蜜臀91视频 | 欧美国产日本一区 | 国产精品99久久久久久动医院 | 黄色日本视频 | 午夜视频免费网站 | 欧美久久一级特黄毛片 | 欧美日韩国产高清 | 狠狠干影院 | 久久精品久久精品 | 亚洲自拍偷拍免费视频 | 在线观看国产网站 | 先锋av资源在线 | 一区二区三区精品视频 | 国外成人在线视频网站 | 精品国产31久久久久久 | 国产精品免费在线 | 国产欧美日韩一区二区三区在线观看 | 99热精品在线 | 五月婷婷亚洲 | 国产成人免费视频 | 日韩av在线播 | 国产乱xxav| 一区二区三区视频 | 日韩成人一区二区 | 久久精品91| 精品久久香蕉国产线看观看亚洲 | 亚洲a在线观看 |