ComputerScience/스파크
-
[spark]Exception in thread "main" java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 에러ComputerScience/스파크 2020. 7. 20. 18:05
Exception in thread "main" java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 이렇게 뜨는데. conf에 .set("spark.driver.bindAddress","127.0.0.1"); 를 추가해주면 해결된다.
-
[Spark] RDD의 Action 연산ComputerScience/스파크 2020. 7. 20. 18:04
이 장은 Java 8 버전 이상의 언어로 작성되었으며 가끔 Scala 언어를 사용합니다. Action 연산 RDD의 연산은 RDD가 RDD를 반환하는 트랜스포메이션 연산과 그 결괏값이 정수나 리스트, 맵 등의 RDD가 아닌 다른 타입을 반환하는 액션 연산으로 나누어져 있다. 이 장에서는 액션 연산을 알아보자. first first 연산은 RDD 요소 가운데 첫 번째 요소 하나를 돌려줍니다. 스파크 셸에서 작업할 때 트랜스포메이션의 수행 결과 등을 빠르게 확인하는 용도로 확인할 수 있습니다. 다음은 스칼라 언어의 예제이고 다른 언어의 경우도 동일한 방법을 사용합니다. val rdd = sc.parallelize(List(5,4,1)) val result = rdd.first println(result) 결..
-
[Spark] IntelliJ에서 lambda not supported at this language level '5'ComputerScience/스파크 2020. 7. 13. 15:12
maven으로 스파크 개발 중 IntelliJ환경에서 람다함수를 사용할 때 lambda not supported at this language level 5 와 같은 오류가 뜬다. 이는 1.8 미만에선 람다함수를 지원하지 않기 때문이다. IntelliJ 설정에서 바꿔줘도 개발자체가 maven 종속이라 안되나보다. 해결방법 pom.xml에 다음을 추가하고 빌드해준다. 바로 하위단계에 넣어주어야 한다. org.apache.maven.plugins maven-compiler-plugin 3.3 1.8 1.8
-
[Spark] 스파크컨텍스트 , RDD 생성ComputerScience/스파크 2020. 7. 13. 13:54
모든 코드는 8버전 이상의 Java입니다. 1. 스파크컨텍스트 생성 스파크 애플리케이션과 클러스터의 연결을 관리하는 객체로서 모든 스파크 애플리케이션은 반드시 스파크 컨텍스트를 생성해야 합니다. RDD를 비롯하여 스파크에서 사용하는 주요 객체는 스파크컨텍스트를 이용해 생성할 수 있습니다. SparkConf conf = new SparkConf().setMaster("local[*]").setAppName("RDDCreateSample"); JavaSparkContext sc = new JavaSparkContext(conf); 스파크컨텍스트를 생성할 때는 스파크 동작에 필요한 여러 설정 정보들을 지정할 수 있습니다. 이 중 클러스터 마스터 정보와 애플리케이션 이름은 반드시 지정해야하는 필수 정보이다. l..
-
[Spark] RDD란?ComputerScience/스파크 2020. 7. 10. 15:46
"RDD란 스파크가 사용하는 핵심 데이터 모델로서 다수의 서버에 걸쳐 분산 방식으로 저장된 데이터 요소들의 집합을 의미하며, 병렬처리가 가능하고 장애가 발생한 경우에도 스스로 복구될 수 있는 내성(tolerance)를 가지고 있다" "Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel." https://spark.apache.org