成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

學習Spark——那些讓你精疲力盡的坑

大數據 Spark
這篇就介紹下自己遇到的各種坑。我不知道各位是否遇到過并能輕松解決,反正我是被這些小問題搞得精疲力盡,故在此總結以備忘。

[[194582]]

這一個月我都干了些什么……

工作上,還是一如既往的寫bug并不亦樂乎的修bug。學習上,最近看了一些非專業書籍,寫點小感悟,我剛稍稍瞄了下,最近五篇居然都跟技術無關,看來我與本行業已經是漸行漸遠了。

所以,趁著這篇博客,重拾自己,認清自己,要時刻謹記我是一名碼農。不過,摸著良心說,最近的技術方面也是有所感悟和積累的,比如如何寫好設計文檔,如何使用延時隊列,如何使用防刷技術等等。當然了,今天我們還是沿著“學習Spark”這條路繼續走下去。

這篇就介紹下自己遇到的各種坑。我不知道各位是否遇到過并能輕松解決,反正我是被這些小問題搞得精疲力盡,故在此總結以備忘。

1.1 Scala與Intellij集成報錯

在Scala安裝成功后,準備到Intellij上寫Scala代碼,發現Scala都配好了(關于如何配置,網上資料很多),結果運行Scala程序時報錯。

錯誤:

  1. Error:scalac: Multiple 'scala-library*.jar' files (scala-library.jar, scala-library.jar, scala-library.jar) in Scala compiler classpath in Scala SDK scala-sdk-2.12.2 

解決方法:在OverStackflow上找到了思路。在Intellij中打開project structure,刪除已有的Scala的路徑(我的Scala是安裝在/usr/local/Cellar/scala/2.12.2路徑下的),重新添加/usr/local/Cellar/scala/2.12.2/idea/lib目錄即可。

改動前

改動后

1.2 Scala語法Intellij不認

在Intellij中寫了一個Scala的HelloWorld,代碼如下

  1. /** 
  2.  * Created by jackie on 17/5/7. 
  3.  */ 
  4. package com.jackie.scala.s510 
  5.  
  6. object HelloWorld { 
  7.   def main(args: Array[String]): Unit = { 
  8.     println("hello world"
  9.  
  10.     println(increaseAnother(5)); 
  11.  
  12.     println(Array(1,2,3,4).map{(x:Int)=>x+1}.mkString(",")); 
  13.  
  14.     println(Array(1,2,3,4) map{(x:Int)=>x+1} mkString(",")); 
  15.  
  16.     println(Array(1,2,3,4) map{(x:Int)=>x+1} mkString(",")); 
  17.  
  18.     // test object 
  19.     var person = new Person() 
  20.     person.name_=("john") // name_=()對應java中的setter方法 
  21.     println("Person name:" + person.name
  22.  
  23.     person.name = "Jackie" 
  24.     println("Person name:" + person.name
  25.  
  26.     var mp = new MyPerson() 
  27.     mp.name_("alihaha"
  28.     println("MyPerson name:" + person.name
  29.  
  30.     var pwp = new PersonWithParam("Jackie", 18) 
  31.     println("PersonWithParam:" + pwp.toString()) 
  32.  
  33.   } 
  34.  
  35.   def increaseAnother(x: Int): Int = x + 1 
  36.  
  37.  

運行的時候,報錯mkString無法識別。

錯誤:mkString can't be resolved

解決方法:需要交代下我各個環境的版本參數,Intellij-14.0, jdk-8, scala-2.12.2。但是在Intellij中能選擇的Scala***版本只有2.11,所有后來將Intellij升級到2017.1版本,這時候還報錯Error:scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException,然后在Intellij中打開project structure,將scala由2.12.2換成2.11.7,問題解決。

1.3 Spark與Intellij集成的問題

Spark環境都安裝好了,所以想在Intellij中運行Spark程序,但是在添加了Spark的相關依賴后,發現無法編譯通過。

錯誤:

  1. Exception NoSuchMethodError: com.google.common.collect.MapMaker.keyEquivalence 

解決方法:實現聲明,之前在maven中一直引用的都是spark-core2.10,這時候報錯,我定位問題出在Guava上,然后找到所有間接依賴了Guava的jar,都exclude,問題還是沒有解決。期間添加了Spark的很多依賴,試了都不行,***試了下Spark-core2.11,問題解決(有的時候版本的兼容性真的很坑)。

1.4 hadoop上傳本地文件到HDFS

如果想將本地文件上傳到HDFS,使用hadoop fs -put localDir hdfsDir,前提是保證hadoop啟動。

錯誤:

  1. jackie@jackies-MacBook-Pro:~|⇒  hadoop fs -put ~/Documents/doc/README.md / 
  2. 17/05/13 10:56:39 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  3. 17/05/13 10:56:40 WARN ipc.Client: Failed to connect to server: localhost/127.0.0.1:8020: try once and fail. 
  4. java.net.ConnectException: Connection refused 
  5.     at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) 
  6.     at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717) 
  7.     at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206) 
  8.     at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531) 
  9.     at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:495) 
  10.     at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:681) 
  11.     at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:777) 
  12.     at org.apache.hadoop.ipc.Client$Connection.access$3500(Client.java:409) 
  13.     at org.apache.hadoop.ipc.Client.getConnection(Client.java:1542) 
  14.     at org.apache.hadoop.ipc.Client.call(Client.java:1373) 
  15.     at org.apache.hadoop.ipc.Client.call(Client.java:1337) 
  16.     at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:227) 
  17.     at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:116) 
  18.     at com.sun.proxy.$Proxy10.getFileInfo(Unknown Source) 
  19.     at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getFileInfo(ClientNamenodeProtocolTranslatorPB.java:787) 
  20.     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
  21.     at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
  22.     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
  23.     at java.lang.reflect.Method.invoke(Method.java:498) 
  24.     at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:398) 
  25.     at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeMethod(RetryInvocationHandler.java:163) 
  26.     at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invoke(RetryInvocationHandler.java:155) 
  27.     at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeOnce(RetryInvocationHandler.java:95) 
  28.     at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:335) 
  29.     at com.sun.proxy.$Proxy11.getFileInfo(Unknown Source) 
  30.     at org.apache.hadoop.hdfs.DFSClient.getFileInfo(DFSClient.java:1700) 
  31.     at org.apache.hadoop.hdfs.DistributedFileSystem$27.doCall(DistributedFileSystem.java:1436) 
  32.     at org.apache.hadoop.hdfs.DistributedFileSystem$27.doCall(DistributedFileSystem.java:1433) 
  33.     at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81) 
  34.     at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1433) 
  35.     at org.apache.hadoop.fs.Globber.getFileStatus(Globber.java:64) 
  36.     at org.apache.hadoop.fs.Globber.doGlob(Globber.java:282) 
  37.     at org.apache.hadoop.fs.Globber.glob(Globber.java:148) 
  38.     at org.apache.hadoop.fs.FileSystem.globStatus(FileSystem.java:1685) 
  39.     at org.apache.hadoop.fs.shell.PathData.expandAsGlob(PathData.java:326) 
  40.     at org.apache.hadoop.fs.shell.CommandWithDestination.getRemoteDestination(CommandWithDestination.java:195) 
  41.     at org.apache.hadoop.fs.shell.CopyCommands$Put.processOptions(CopyCommands.java:256) 
  42.     at org.apache.hadoop.fs.shell.Command.run(Command.java:164) 
  43.     at org.apache.hadoop.fs.FsShell.run(FsShell.java:315) 
  44.     at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76) 
  45.     at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:90) 
  46.     at org.apache.hadoop.fs.FsShell.main(FsShell.java:378) 
  47. put: Call From jackies-macbook-pro.local/192.168.73.56 to localhost:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused 

解決方法:進入hadoop安裝目錄(我的是/usr/local/Cellar/hadoop)進入sbin下執行./start-all.sh啟動hadoop服務。

1.5 Spark啟動

上篇在配置Spark時沒有配置spark-defaults.conf文件,所以在Spark安裝目錄下(我的是/usr/local/Spark)啟動./start-all.sh出錯。

錯誤:

  1. spark-shell 
  2. Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
  3. Setting default log level to "WARN"
  4. To adjust logging level use sc.setLogLevel(newLevel). 
  5. 17/05/13 13:42:49 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  6. 17/05/13 13:42:51 WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master 192.168.73.56:7077 
  7. org.apache.spark.SparkException: Exception thrown in awaitResult 
  8.     at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:77) 
  9.     at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:75) 
  10.     at scala.runtime.AbstractPartialFunction.apply(AbstractPartialFunction.scala:36) 
  11.     at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59) 
  12.     at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59) 
  13.     at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167) 
  14.     at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83) 
  15.     at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:88) 
  16.     at org.apache.spark.rpc.RpcEnv.setupEndpointRef(RpcEnv.scala:96) 
  17.     at org.apache.spark.deploy.client.StandaloneAppClient$ClientEndpoint$$anonfun$tryRegisterAllMasters$1$$anon$1.run(StandaloneAppClient.scala:106) 
  18.     at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
  19.     at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
  20.     at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
  21.     at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
  22.     at java.lang.Thread.run(Thread.java:745) 
  23. Caused by: java.io.IOException: Failed to connect to /192.168.73.56:7077 

解決方法:將Spark安裝目錄下的conf中的spark-defaults.conf.template拷貝一份出來,重命名為spark-defaults.conf,按照https://sanwen8.cn/p/3bac5Bj.html配置好,再啟動Spark,發現還是報錯

  1. https://sanwen8.cn/p/3bac5Bj.html Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
  2. Setting default log level to "WARN"
  3. To adjust logging level use sc.setLogLevel(newLevel). 
  4. 17/05/13 14:19:12 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  5. 17/05/13 14:19:15 ERROR SparkContext: Error initializing SparkContext. 
  6. java.net.ConnectException: Call From jackies-MacBook-Pro.local/192.168.73.56 to 192.168.73.56:8021 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused 
  7.     at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) 

于是按照StackOverflow,將spark-defaults.conf中的spark.eventLog.enabled由true改為false,之后再啟動成功。

注意:這里我反復配置了localhost和自己的ip,來回切換,最終證明只要在/etc/hosts中配置好ip對應映射的名稱,可以直接用名稱即可,不用寫ip,而且要保持hadoop中的配置文件和spark中的配置文件要一致,否則針對會精疲力盡。

1.6 將運算任務交給Spark運行的報錯

運行下面的一個Demo程序

  1. package com.jackie.scala.s513; 
  2.  
  3. import org.apache.spark.SparkConf; 
  4. import org.apache.spark.api.java.JavaPairRDD; 
  5. import org.apache.spark.api.java.JavaRDD; 
  6. import org.apache.spark.api.java.JavaSparkContext; 
  7. import org.apache.spark.api.java.function.FlatMapFunction; 
  8. import org.apache.spark.api.java.function.Function2; 
  9. import org.apache.spark.api.java.function.PairFunction; 
  10. import scala.Tuple2; 
  11.  
  12. import java.util.Arrays; 
  13. import java.util.Iterator; 
  14. import java.util.List; 
  15. import java.util.regex.Pattern; 
  16.  
  17. /** 
  18.  * Created by jackie on 17/5/13. 
  19.  */ 
  20. public class Simple 
  21.     private static final Pattern SPACE = Pattern.compile(" "); 
  22.  
  23.     public static void main(String[] args) throws Exception { 
  24.  
  25.         //創建一個RDD對象 
  26.         SparkConf conf=new SparkConf().setAppName("Simple").setMaster("local"); 
  27.  
  28.         //創建spark上下文對象,是數據的入口 
  29.         JavaSparkContext spark=new JavaSparkContext(conf); 
  30.  
  31.         //獲取數據源 
  32.         JavaRDD<String> lines = spark.textFile("hdfs://jackie:8020/"); 
  33.  
  34.         /** 
  35.          * 對于從數據源得到的DStream,用戶可以在其基礎上進行各種操作, 
  36.          * 對于當前時間窗口內從數據源得到的數據首先進行分割, 
  37.          * 然后利用Map和ReduceByKey方法進行計算,當然***還有使用print()方法輸出結果; 
  38.          */ 
  39.         JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { 
  40.             @Override 
  41.             public Iterator<String> call(String s) { 
  42.                 return Arrays.asList(SPACE.split(s)).iterator(); 
  43.             } 
  44.         }); 
  45.  
  46.  
  47.         //使用RDD的map和reduce方法進行計算 
  48.         JavaPairRDD<String, Integer> ones = words.mapToPair( 
  49.                 new PairFunction<String, String, Integer>() { 
  50.                     @Override 
  51.                     public Tuple2<String, Integer> call(String s) { 
  52.                         return new Tuple2<String, Integer>(s, 1); 
  53.                     } 
  54.                 }); 
  55.  
  56.  
  57.         JavaPairRDD<String, Integer> counts = ones.reduceByKey( 
  58.                 new Function2<IntegerIntegerInteger>() { 
  59.                     @Override 
  60.                     public Integer call(Integer i1, Integer i2) { 
  61.                         return i1 + i2; 
  62.                     } 
  63.                 }); 
  64.  
  65.         List<Tuple2<String, Integer>> output = counts.collect(); 
  66.         for (Tuple2<?,?> tuple : output) { 
  67.             //輸出計算結果 
  68.             System.out.println(tuple._1() + ": " + tuple._2()); 
  69.         } 
  70.  
  71.  
  72.         spark.stop(); 
  73.     } 

這個程序需要讀取HDFS上根目錄下的README.md文件,但是在此之前我執行了"hadoop namenode -format"(注意,這個操作引起了后面的一系列問題)。所以就準備重新使用hadoop fs -put localDir hdfsDir上傳README.md,結果這時候報錯

錯誤:

  1. hadoop fs -put /Users/jackie/Documents/doc/README.md / 
  2. 17/05/13 15:47:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  3. 17/05/13 15:47:16 WARN hdfs.DataStreamer: DataStreamer Exception 
  4. org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /README.md._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1).  There are 0 datanode(s) running and no node(s) are excluded in this operation. 
  5.     at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:1733) 
  6.     at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.chooseTargetForNewBlock(FSDirWriteFileOp.java:265) 
  7.     at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:2496) 
  8.     at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:828) 

后來發現是datanode沒有啟動,然后開始找datanode沒有啟動的原因,在這里http://www.aboutyun.com/thread-7931-1-1.html

文中解釋:當我們執行文件系統格式化時,會在namenode數據文件夾(即配置文件中dfs.name.dir在本地系統的路徑)中保存一個current/VERSION文件,記錄namespaceID,標識了所格式化的 namenode的版本。如果我們頻繁的格式化namenode,那么datanode中保存(即配置文件中dfs.data.dir在本地系統的路徑)的current/VERSION文件只是你***次格式化時保存的namenode的ID,因此就會造成datanode與namenode之間的id不一致。

解決方法:采取的做法是根據執行hadoop namenode –format得到成功的提示。

這時候再執行jps命令,我們就可以看到datanode了

類似的,同樣是在執行hadoop fs -put /Users/jackie/Documents/doc/README.md /是報錯如下

  1. hadoop fs -put /Users/jackie/Documents/doc/README.md / 
  2. 17/05/15 09:51:04 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  3. 17/05/15 09:51:05 WARN ipc.Client: Failed to connect to server: jackie/192.168.73.56:8020: try once and fail. 
  4. java.net.ConnectException: Connection refused 
  5.     at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) 
  6.     at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717) 
  7.     at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206) 
  8.     at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531) 
  9.     at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:495) 
  10.     at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:681) 
  11.     at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:777) 
  12.     at org.apache.hadoop.ipc.Client$Connection.access$3500(Client.java:409) 

一開始以為是ip的配置問題,但是反復修改無果,后來發現使用jps時,沒有啟動namenode,于是在網上找http://blog.csdn.net/bychjzh/article/details/7830508

于是在/usr/local/Cellar/hadoop/hdfs下刪除原來在core-site.xml中配置的tmp目錄,然后新建了hadoop_tmp目錄,并在core-site.xml中修改成

  1. <property> 
  2.      <name>hadoop.tmp.dir</name
  3. <value>/usr/local/Cellar/hadoop/hdfs/hadoop_tmp</value> 
  4.     <description>A base for other temporary directories.</description> 
  5.   </property> 

并執行hadoop namenode –format,***在使用start-all.sh啟動所有的服務,執行上傳文件成功

責任編輯:武曉燕 來源: 博客園
相關推薦

2025-02-18 07:00:00

SpringBoot開發Java

2018-07-30 16:18:51

容災備份

2024-04-01 08:05:27

Go開發Java

2018-06-28 08:18:56

Ceph運維存儲

2018-08-13 17:41:13

機房

2017-07-19 14:26:01

前端JavaScriptDOM

2021-09-07 14:35:48

DevSecOps開源項目

2022-05-15 08:13:50

Mysql數據庫Mycat

2020-04-21 15:18:11

財務信息化

2015-03-12 09:51:09

CoreDataiCloud

2024-11-29 10:48:54

IDEA技巧Mac

2022-04-14 07:25:11

網絡攻擊安全人才

2015-04-02 09:39:39

移動開發開發工具APP

2021-02-24 19:03:00

開源技術 編程

2020-05-28 16:15:50

HTTP暗坑前端

2017-03-31 10:27:08

推送服務移動

2017-07-06 11:41:48

CIOIT技術

2013-04-12 15:59:33

2013-09-27 10:48:52

創業如何創業創業激情

2021-01-18 09:55:46

Spring代碼Java
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 97免费在线视频 | 欧美一级艳情片免费观看 | 激情国产视频 | 成人在线视频网 | 国产精品久久久久久亚洲调教 | 欧美久久一级特黄毛片 | 亚洲国产欧美一区二区三区久久 | 免费一级欧美在线观看视频 | 在线观看国产网站 | 日韩高清三区 | 99reav| 亚洲一页 | 国产免费播放视频 | 成人午夜看片 | 午夜av电影 | 91中文字幕在线 | 中文字幕一区二区三区精彩视频 | 国产精品久久久久久久久久久免费看 | 亚洲精品在线免费 | 777zyz色资源站在线观看 | 国产亚洲欧美在线 | 久久国产精品-国产精品 | 日日干干夜夜 | 91国产视频在线 | 一区二区三区在线免费观看 | 亚洲欧美一区二区三区在线 | 在线91 | 久久精品视频网站 | 国产精品1| 欧美高清dvd| 欧美久久久久久久 | 国产精品网址 | 国产又爽又黄的视频 | 日本精品一区二区三区视频 | 国产精品无码专区在线观看 | 国产亚洲精品美女久久久久久久久久 | 久久久久久久91 | 国产精品欧美一区二区 | 91资源在线 | 国产ts人妖系列高潮 | 99re6热在线精品视频播放 |