스파크
-
[Spark] RDD의 Action 연산ComputerScience/스파크 2020. 7. 20. 18:04
이 장은 Java 8 버전 이상의 언어로 작성되었으며 가끔 Scala 언어를 사용합니다. Action 연산 RDD의 연산은 RDD가 RDD를 반환하는 트랜스포메이션 연산과 그 결괏값이 정수나 리스트, 맵 등의 RDD가 아닌 다른 타입을 반환하는 액션 연산으로 나누어져 있다. 이 장에서는 액션 연산을 알아보자. first first 연산은 RDD 요소 가운데 첫 번째 요소 하나를 돌려줍니다. 스파크 셸에서 작업할 때 트랜스포메이션의 수행 결과 등을 빠르게 확인하는 용도로 확인할 수 있습니다. 다음은 스칼라 언어의 예제이고 다른 언어의 경우도 동일한 방법을 사용합니다. val rdd = sc.parallelize(List(5,4,1)) val result = rdd.first println(result) 결..
-
[Spark] RDD란?ComputerScience/스파크 2020. 7. 10. 15:46
"RDD란 스파크가 사용하는 핵심 데이터 모델로서 다수의 서버에 걸쳐 분산 방식으로 저장된 데이터 요소들의 집합을 의미하며, 병렬처리가 가능하고 장애가 발생한 경우에도 스스로 복구될 수 있는 내성(tolerance)를 가지고 있다" "Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel." https://spark.apache.org