Big Data

Processing Big Data involves techniques that can scale horizontally across distributed systems. Key methods include batch processing, streaming, and iterative algorithms.

Batch Processing: Processing large volumes of data collected over time. Example: ETL workflows using Hadoop MapReduce.

Streaming Processing: Real-time data analysis as data flows into systems. Tools: Apache Kafka coupled with Spark Streaming.

Iterative Processing: Used in machine learning tasks requiring multiple passes over data. Spark's in-memory processing accelerates these workflows.

Sample Code (Spark Streaming):

from pyspark.streaming import StreamingContext
ssc = StreamingContext(sc, 10)  # 10-second batch interval
lines = ssc.socketTextStream('localhost', 9999)
words = lines.flatMap(lambda line: line.split())
words.pairMap(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b).pprint()
ssc.start()
ssc.awaitTermination()

Table of Contents