Scala講座:函數式編程處理樹結構數據
在學習完函數式編程的思考方法之后,嘗試一下更高級的例子吧。這次考慮一下處理類似于XML的樹結構數據的程序。既不使用循環也不使用變量如何來描述復雜的處理呢?
先出一個處理XML數據的題目。例如有如下的XML數據,有目錄和文件,目錄下有目錄和文件兩種元素。
- < xml>
- < dir name="com">
- < dir name="mamezou">
- < file name="aaa.txt">< /file>
- < file name="bbb.txt">< /file>
- < /dir>
- < file name="ccc.txt">< /file>
- < /dir>
- < file name="ddd.txt">< /file>
- < /xml>
題目的內容是從中取出文件的部分,并打印出文件名。程序的執行結果因該如下:
- file:aaa.txt
- file:bbb.txt
- file:ccc.txt
- file:ddd.txt
好,會變成怎樣的程序呢?另外,Scala有非常強大的XML處理功能,以上的功能實際上只要一兩行程序就可以完成了。但是這次為了說明函數式編程,特地不使用哪些功能,而使用簡單功能來從頭開始編碼。
Scala中XML語句可以作為語言文本(Literal)像數字和字符串一樣被處理。像下面這樣
- scala> val xml = < xml>
- | < dir name="com">
- | < dir name="mamezou">
- | < file name="aaa.txt">< /file>
- | < file name="bbb.txt">< /file>
- | < /dir>
- | < file name="ccc.txt">< /file>
- | < /dir>
- | < file name="ddd.txt">< /file>
- | < /xml>
- xml: scala.xml.Elem =
- < xml>
- < dir name="com">
- :(以下略)
沒有雙引號,一開始就寫XML文本,然后將其賦值給變量(這里是xml)。他的類型是scala.xml.Elem,父類型為scala.xml.Node,表示XML的標記。在這里包含在< xml>< /xml>標記對中的內容被綁定在變量xml上。該Node類型里有名為child的方法,返回該標記的所有子元素。例如,這里xml.child將返回以如下兩個標記為成員的類似于ArrayBuffer的數組對象。
- < dir name="com">
- :
- < /dir>
和
- < file name="ddd.txt"/>
這里可以認為ArrayBuffer是列表一樣的東西。進一步調用子元素的child方法則可以得到再下一層的元素。調用。< dir name="com">標簽對象的child方法將返回緊鄰該標簽的子元素(目錄標記)。
僅使用這個方法該如何寫取得文件名的程序呢?如果是面向對象方式,則可以首先定義Dir類和File類,然后定義Dir和File類的抽象父類Node,然后沿著樹結構定義showFiles方法,然后遞歸調用該方法來取得文件名。也就是所謂的組合模式(圖1)。
Scala講座 圖1:組合模式
如果放棄面向對象而考慮純粹的命令式方法的話就會很頭疼了。因為只用for語句的話,對于每一個Dir都要用一個for循環,層次一多將會將會變得很復雜,這里省略了命令式方法的實現。
接下來用函數式方法來考慮一下。函數式的情況下,因為考慮的是對于各個元素應用函數,先從***元素開始考慮應用什么函數。這個函數功能是“在某一時刻返回某一元素下的文件列表”。這樣就可以想到,那元素如果是file則可直接返回包含該file的列表,如果是Dir的話則返回包含所有子文件的列表。先來看看該函數的實例。
- def fileFinder(node:scala.xml.Node):List[scala.xml.Node] = node.label match {
- case "xml" => node.child.toList.flatMap(fileFinder)
- case "dir" => node.child.toList.flatMap(fileFinder)
- case "file" => List(node)
- case _ => List()
- }
其中toList()方法為將類列表對象(ArrayBuffer)轉換為列表對象。剛才用的是類似于ArrayBuffer類的對象,這里將其轉換為標準列表后再操作,而node.label則返回XML標記的名稱。
這里開始是正題了,除了file和無匹配處理(case _ => List())部分,xml和dir處理部分是問題的關鍵,也就是node.child.toList.flatMap(fileFinder)部分。如果這里關注的是Node對象,那處理過程因該是這樣的,首先用child方法取出Node的所有子元素,然后用前面說明過的類似于map的函數對每一個子元素應用fileFinder方法并遞歸重復這一過程。那為什么這樣編碼之后就能得到Node下的所有file元素了呢?
那么flatMap原本的功能又是什么呢?讓我們將其轉換成map函數,然后看一下執行過程。將XML的結構簡單化之后將如下所示
- < xml> ←這里
- < dir>
- < dir>
- < file name="aaa.txt"/>
- < file name="bbb.txt"/>
- < /dir>
- < file name="ccc.txt"/>
- < /dir>
- < file name="ddd.txt"/>
- < /xml>
假如現在的要素位置是xml標記,將其子元素轉換成列表后對其各個項目應用函數。
- List(fileFinder(< dir>~< /dir>), fileFinder(< file …/>))
file的話保持原樣,如果是dir則對其子元素應用函數。
- List(List(fileFinder(< dir>~< /dir>),fileFinder(< file name="ccc.txt"/>)),List(< file name="ddd.txt">))
接著對于***個Node元素應用函數。
- List(List(List(< file name="aaa.txt"/>,< file name="bbb.txt"/>), List(< file name="ccc.txt"/>)), List(< file name="ddd.txt">))
理解上述工作過程是比較困難的,重要的是在我的腦中考慮的并不是這樣復雜的邏輯,而僅僅是實現“從一個Node元素中取出file列表”的函數的邏輯。這需要一定程度的思路切換,考慮用命令式方法來實現時實際上花了我2-3小時,而想到這個函數式方法后不到10分鐘就想通了。
感覺上好像已經完成了,但是這還不夠。剛才用map來假想的過程完成后,得到的是List里面還有List的一個復合結構,光這樣還不能被使用。那么,flatMap函數就出場了。這個函數在Scala的機制上具有同map函數同等的重要層度,將map和flatMap說成Scala函數機制的核心都不為過分。
“flatMap “函數對每一個元素應用函數參數之后將其結果以列表形式返回,這時返回結果是列表類型是關鍵。接著看一下簡單的例子吧
首先是map函數的例子。對于內容為“1,2,3,4,5 “的列表,應用x*2函數。
- scala> List(1,2,3,4,5)
- res134: List[Int] = List(1, 2, 3, 4, 5)
- scala> res134.map(x => x * 2)
- res135: List[Int] = List(2, 4, 6, 8, 10)
結果是List(2, 4, 6, 8, 10),即將每一個元素乘以2。題外話,還有一個叫做filter的函數,他返回過濾結果。
- scala> res134.filter(x => x != 3)
- res136: List[Int] = List(1, 2, 4, 5)這里是返回3以外的元素。那么,接下來對于List(1, 2, 3, 4, 5)應用如下函數。
- x => x match {
- case 3 => List(3.1, 3.2, 3.3)
- case _ => List(x * 2)
- }
也就是,3以外的情況下使元素值翻倍,3的時候將元素分割為“3.1, 3.2, 3.3“。因此,表面上對于List(1,2,3,4,5)適用該函數后希望返回的是List(1, 2, 3.1, 3.2, 3.3, 4, 5),但用了map函數后實際上不是。
- scala> res134.map(x => x match {
- | case 3 => List(3.1, 3.2, 3.3)
- | case _ => x * 2
- | })
- res138: List[Any] = List(2, 4, List(3.1, 3.2, 3.3), 8, 10)
結果中的確包含了3.1, 3.2, 3.3,但是以List中包含List為形式的。這樣只完成了一半,同前面的XML處理一樣現象。那么,使用一下flatMap函數吧。
- scala> res134.flatMap(x => x match {
- | case 3 => List(3.1, 3.2, 3.3)
- | case _ => List(x * 2)
- | })
- res139: List[AnyVal] = List(2, 4, 3.1, 3.2, 3.3, 8, 10)
噢!就是想要的結果。不僅包含了希望的元素,還將所有元素平攤成了一個列表。
Scala講座 圖2:組合模式flatMap函數概念圖
回到XML的例子中,正因為用flatMap函數代替了map函數,所以對于< xml>和< dir>部分來說,原本在遞歸調用中返回的是List,但是flatMap函數將其互相合并,攤平為單一列表了。
- scala> def fileFinder(node:scala.xml.Node):List[scala.xml.Node] = node.label match {
- case "xml" => node.child.toList.flatMap(fileFinder)
- case "dir" => node.child.toList.flatMap(fileFinder)
- case "file" => List(node)
- case _ => List()}
- fileFinder: (scala.xml.Node)List[scala.xml.Node]
- scala> fileFinder(xml).foreach(x => println("file:" + x.attribute("name").getOrElse("")))
- file:aaa.txt
- file:bbb.txt
- file:ccc.txt
- file:ddd.txt
正如所愿的結果就一下子得到了,函數式編程真是恐怖呀!這次學的map和flatMap函數在Scala中有非常重要的意義。這可以說是函數式編程的一個高潮,理解了這個之后領悟的大門就可以說向你敞開了。這實際上還與單子(monado)這一思考方法有關,理解了map和flatMap函數之后可以說是踏出了完全掌握該思考方法的一大步。關于“單子”在本連載中還會著重說明。
【編輯推薦】