-
[Spark] RDD란?ComputerScience/스파크 2020. 7. 10. 15:46
"RDD란 스파크가 사용하는 핵심 데이터 모델로서 다수의 서버에 걸쳐 분산 방식으로 저장된 데이터 요소들의 집합을 의미하며, 병렬처리가 가능하고 장애가 발생한 경우에도 스스로 복구될 수 있는 내성(tolerance)를 가지고 있다"
"Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel."
'ComputerScience > 스파크' 카테고리의 다른 글
[spark]Exception in thread "main" java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 에러 (0) 2020.07.20 [Spark] RDD의 Action 연산 (0) 2020.07.20 [Spark] IntelliJ에서 lambda not supported at this language level '5' (0) 2020.07.13 [Spark] 스파크컨텍스트 , RDD 생성 (0) 2020.07.13