You are on page 1of 1

Họ và tên: Nguyễn Quốc Lưu

MSSV: 19521816

Liệt kê và mô tả ngắn gọn các cách tương tác với Spark

Spark là một framework xử lý phân tán dữ liệu mạnh mẽ và đa năng. Dưới đây là
các cách tương tác phổ biến với Spark:

- Giao diện dòng lệnh Spark: Spark cung cấp một giao diện dòng lệnh (CLI)
để tương tác với nó thông qua cửa sổ dòng lệnh. Người dùng có thể tạo và
quản lý các ứng dụng Spark và thực hiện các tác vụ tính toán.
- Apache Zeppelin: Zeppelin là một công cụ cho phép người dùng tương tác
với Spark thông qua giao diện người dùng web. Nó cung cấp cho người
dùng một trình soạn thảo lập trình, kết nối đến các ngôn ngữ lập trình như
Python và Scala và cho phép người dùng thực hiện các tác vụ Spark thông
qua giao diện web.
- Spark Shell: Spark cung cấp một phiên bản REPL (Read-Eval-Print Loop)
cho Scala và Python để tương tác với Spark. Spark Shell cho phép người
dùng tạo các RDD (Resilient Distributed Datasets) và thực hiện các tác vụ
tính toán.
- Spark SQL: Spark SQL là một công cụ cho phép người dùng truy vấn dữ
liệu từ các nguồn khác nhau bằng SQL thông qua Spark. Nó cung cấp một
API để truy vấn dữ liệu trong các RDD và DataFrame và cho phép thực hiện
các tác vụ tính toán trên chúng.
- Spark Streaming: Spark Streaming cho phép người dùng xử lý dữ liệu phát
trực tiếp và đồng bộ trên nhiều khung thời gian. Người dùng có thể áp dụng
các hoạt động tính toán trên các dữ liệu đóng gói trong các luồng và lưu trữ
chúng trong bộ nhớ đệm hoặc lưu trữ tạm thời.
- MLlib: MLlib là một thư viện học máy được tích hợp sẵn trong Spark. Nó
cung cấp các thuật toán học máy phổ biến như phân loại, hồi quy và gom
nhóm và cho phép người dùng thực hiện các tác vụ xử lý dữ liệu phức tạp.

You might also like