You are on page 1of 8

+ cache: cache trong memory

+ persist: 1 phần trong memory, 1 phần trong disk


+ sử dụng reduceByKey thay vì. groupByKey => sử dụng byKey thì nên partition hợp lý
+ Generally, in an ideal situation we should keep our garbage collection memory
less than 10% of heap memory.
+ Repartition and Coalesce

👉Câu hỏi 1 (3 điểm): Tập làm phân tích realtime với Flink - 10 phút
Lấy mẫu clickstream avro từ divolte từ một website có click có text input
Truyền mẫu clickstream đó qua kafka sang flink. Phân tích realtime với windows tại
Fink, tìm xem nếu trong 2 phút có 2 lần click "Rau", hoặc "Thịt"; thì message log
ra "Sữa"
Truyền mẫu clickstream sang hdfs và ở Spark để load các file avro lên
Tạo cluster flink và spark để làm các tác vụ trên
.
.
👉Câu hỏi 2 (2 điểm): Tập làm phân tích batch với Python/Spark - 10 phút
Lấy mẫu data … load lên Spark để cleanse: tìm ra row thiếu, tìm ra giá trị col
null; loai bỏ null, thêm cột mới, chuyển data…
Trên Spark/Python tạo hàm xử lý cột…. Group và tính tổng các Note.
Thêm hàm, bóc tách trên …
Sử dụng thuật toán phù hợp tìm yếu tố…
.
.
👉Câu hỏi 3 (2 điểm): Tạo data warehouse với Scylla database với thiết kế như sau -
10 phút
Tạo bảng fact, và dimension xuất Báo cáo bán hàng, với mẫu database trong một doanh
nghiệp bán lẻ
Thêm dữ liệu mẫu và các bảng
Truy vấn và hiện dữ liệu vừa nhập
.
.
👉Câu hỏi 4 (3 điểm): Tạo ứng dụng web, theo dõi tiến trình phân tích dữ liệu bất
kỳ - 10 phút
Tạo theo mẫu web đã cho website kèm chức năng Đăng nhập theo Firebase
Tạo theo mẫu web đã cho: theo dõi dữ liệu di chuyển trên kafka
Tạo theo mẫu web đã cho: đưa ra ảnh kết quả phân tích trên python/spark qua image
tu plot; hoặc visualize từ một query database tạo từ canvas.js
.

###########################################
Reg_LiveStream_DathocNET
#koolj_dataengineering

Team,
Tiếp tục đăng ký khoá học, LIVESTREAM 1h15 phut mỗi buổi tối, từ 8/6 với mức
donation 1tr500k vnd/ bạn.

Mở đăng ký mới Xây dựng ứng dụng AI Stock Trading, LIVESTREAM 1h15 phut mỗi buổi
tối, từ 11/6 với mức donation 4tr vnd/ bạn.

.
.
.
Current classes: dathoc.net/botcl

👉Đầu vào, chuẩn bị:


- Máy tính mic internet chỗ yên lặng
- Bạn nhiệt tình chịu khó học hỏi. Ko cần biết code ko cần tiếng Anh

👉Chi tiết học phần BigData fullstack toàn năng - livestream 1 thang
Tìm hiểu thông tin về thị trường nghề nghiệp của Nghề phát triển ứng dụng BigData.
Trao đổi tài liệu toàn khoá học
Các khái niệm cơ bản: Quy trình làm/xây dựng ứng dụng BigData. Các nguyên lý cơ bản
cho việc xây dựng ứng dụng BigData. Các công cụ hỗ trợ. Hiểu phương pháp luận phân
tích yêu cầu khách hàng ra yêu cầu ứng dụng dữ liệu lớn.
Phân tích yêu cầu khách hàng ra yêu cầu bài toán dữ liệu lớn
Dự trù nguồn lực và chi phí cho việc triển khai xây dựng bài toán dữ liệu lớn
Setup hadoop, hive, presto, spark
Tập thực hành: thiết kế một ứng dụng bigdata với script có sẵn trên hdfs, scala
hive, presto, parquet…
Tập thực hành: các câu lệnh và cài cắm phần mềm cơ bản trên bigdata hdfs
Tập thực hành: lập trình cơ bản Scala
Tập thực hành: lập trình Scala, transform, map và moving dữ liệu
Tập thực hành: lập trình cơ bản Java với webdriver
Tập thực hành: phương pháp luận chung về data mining, thực hành mining data,
crawling data cơ bản. Streaming data với Kafka, Nifi
Tập thực hành: lập trình ứng dựng crawling dữ liệu trên Java và webdriver
Tập thực hành: lập trình + sử dụng mã nguồn mở Java ứng dụng xử lý ngôn ngữ tự
nhiên NLP
Tập thực hành: tìm hiểu và thực hành phân tích thống kê: random forest, logistic
regression. Zeppelin, JS về visualize dữ liệu
Apply to project + coding from the source
Sizing/Scale Up hệ thống
Secure hệ thống

👉Chi tiết học phần AI STOCK TRADING - BotTrade - livestream 1 thang


Thực hành python basic, thực hành web html js css basic, hosting website
Apply nodejs api + CouchDB
Giới thiệu Exchanges - Môi trường giao dịch gồm: realtime và giả lập
Giới thiệu Feature Pipelines - Luồng quy chế cho giao dịch: luồng bình ổn giá,
luồng biến đổi trị trung bình, luồng reset, luồng khởi tạo...
Giới thiệu Action Strategies - Tạo chiến lược thực thi giao dịch
Giới thiệu Reward Strategies - Tạo chiến lược hoa hồng
Giới thiệu Learning Agents - Huấn luyện tự học sâu giao dịch
Giới thiệu Stable Baselines - Các chuẩn học sâu: Tensorforce, Ray’s RLLib, OpenAI’s
Baselines, Intel’s Coach... cho giao dịch
Giới thiệu Tensorforce - Hiểu về Tensorforce
Giới thiệu Trading Strategies - Tạo thành phần giao dịch
Giới thiệu Defining the Agent - Tạo các trung gian đầu tư
Giới thiệu Training a Strategy - Chiến lược huấn luyện học sâu đầu tư
Giới thiệu Saving and Restoring - Tạo các quy chế lưu và khôi phục dữ liệu
Giới thiệu Tuning Your Strategy - Làm mịn chiến lược giao dịch
Giới thiệu Strategy Evaluation - Tạo các quy đánh giá giao dịch
Giới thiệu Live Trading - Tạo chuẩn giao dịch realtime
Apply to project + coding from the source
Sizing/Scale Up hệ thống
Secure hệ thống
.
.
.
👉Chi tiết học phần BOT CRAWL- livestream 5 days
https://docs.google.com/presentation/d/
1pWxxxgeC0iYGfVZMuHNG3YUyUdoJmk15UMRrpvJR4F4/edit?usp=sharing
- Khoá học dành cho dân kinh tế, tài chính, bán hàng, sale... chuyên
gia điều hành bán hàng, trưởng marketing..dân làm data, thu thập dữ liệu
- Bạn muốn biết bí kíp 1 phút lấy, sưu tập, thu thập.....có 10k+ ảnh và
profile user facebook, insta, zalo...vưọt qua các AI phát hiện của các ông lớn mạng
xã hội
- Bạn muốn biết cách lấy qua JSON những site web, forum như webtretho,
otofun, voz.... một cách có hệ thống
- Bạn muốn lấy qua JSON clip của idol nổi tiếng từ Tiktok để phục vụ
công việc clone tài khoản của các bạn
- Bạn muốn biết cách lấy những nơi đang comment text ảnh, í ới trên
mạng ngày ....hôm nay
- Bạn muốn biết cách lấy những đơn hàng qua mạng mà hàng ngàn các bạn
LIVESTREAM đang yêu cầu khách comment text
- Bạn muốn biết cách lấy những đơn hàng bằng cách chuyển voice âm thanh
(từ lời rao qua bán hàng livestream) tiếng Việt qua text Việt, đôi khi livestream
họ chỉ voice, ko yêu cầu khách comment
- Bạn muốn biết bí kíp lấy dữ liệu geolocation map, live vị trí địa
danh, địa điểm trên một bản đồ một vùng, ví dụ Hà Nội..... trong 10 phút
- Bạn muốn crawl 20-100-200 sessions kèm browsers cache cùng lúc
- Bạn muốn xắp xếp lưu ngay DB cho việc phân tích làm sạch sắp tới
- Bạn muốn có công cụ, cách làm ngay sử dụng ngay - khuyến main 1 tháng
dùng (không kèm source code, mã nguồn dịch)
- Nếu bạn muốn mã nguồn, phí không kèm bản quyền là 8k USD/bản, mã
nguồn viết bằng Java
.
.
.
👉Chi tiết học phần BOT DATA- livestream 5 days
https://docs.google.com/presentation/d/
1JPkqOuZ3Dl9OUYyjaMt1vw_JauBt39MRLtbDpQTxGsU/edit?usp=sharing
- Khoá học dành cho dân kinh tế, tài chính, bán hàng, sale... chuyên
gia điều hành bán hàng, trưởng marketing..dân làm data, transform dữ liệu
- Bạn muốn biết bí kíp transform/clean data
- Bạn muốn biết transform qua BOT NLP (supervised data)
- Bạn muốn biết transform qua api nlp (unsupervised data)
- Bạn muốn biết cách query + nlp search 1tr-200tr record per 0.01-4
miliseconds
- Bạn muốn biết bí kíp transform/clean data qua Spark + Scala
- Bạn muốn biết bí kíp transform/clean data qua api HTTP
- Bạn muốn biết bí kíp speed transform/clean data qua Presto, Impala
compare to Spark
- Bạn muốn biết bí kíp store data qua parquet, csv, avro, hbase...
- Bạn muốn biết bí kíp map/reduce basic via Spark
- Bạn muốn biết bí kíp setup & transform Hadoop HDFS
- Bạn muốn biết bí kíp setup & transform Presto, Hive...
.
.
.
👉Chi tiết học phần BOT Seg- livestream 5 days
https://docs.google.com/presentation/d/1LhSpkNRX2eArvDniwe4rYcaueFadkPuXNZ4Ud7-
k9bc/edit?usp=sharing
- Khoá học dành cho dân kinh tế, tài chính, bán hàng, sale... chuyên
gia điều hành bán hàng, trưởng marketing..dân define customer segmentation dữ liệu
- Bạn muốn biết bí kíp tạo bot crawler tự động tìm kiếm khách hàng, tự
động phân vùng thu thập khách hàng tiềm năng theo tiêu chí bạn đưa ra
- Bạn muốn định nghĩa khách hàng tiềm năng theo ý bạn, hoặc theo kết
quả phân tích
- Bạn muốn tạo Bot AutoReply tự động với tới nhóm khách hàng đang có
nhu cầu về sp của bạn
- Bạn muốn biết transform qua BOT NLP (supervised data)
- Bạn muốn biết transform qua api nlp (unsupervised data)
- Bạn muốn biết cách query + nlp search 1tr-200tr record per 0.01-4
miliseconds
- Bạn muốn biết bí kíp transform/clean data qua api HTTP Spark
- Bạn muốn biết bí kíp store data qua parquet, csv, avro, hbase...
- Bạn muốn biết bí kíp map/reduce basic via Spark
.
.
.
👉Chi tiết học phần BOT Vision- livestream 5 days
https://docs.google.com/presentation/d/14TnXxT-
A_4cqHQkbBlTynkeckK2a_JDzMtMuuuTz91Y/edit?usp=sharing
- Khoá học dành cho dân làm nhận diện hình ảnh, dân làm data, vision...
dân kinh tế, tài chính, bán hàng, sale... chuyên gia điều hành bán hàng, trưởng
marketing.. trưởng phòng thu thập phân tích hình ảnh
- Chuẩn bị VGA card GTX, RTX ... hoặc một thiết bị Jetson Nano là cần
thiết.
- Bạn muốn biết bí kíp tạo bot nhằm nhận diện hình ảnh sang nội dung
text, chuẩn đoán hình ảnh theo mẫu định nghĩa trước
- Bạn muốn định nghĩa phân lớp phân mảng hình ảnh phục vụ nhận diện
- Bạn muốn tạo ứng dụng nhận diện khách hàng, tìm hiểu profile qua các
mạng xã hội từ hình ảnh khách hàng
- Bạn muốn từ hình ảnh khách hàng, tập thu thập dữ liệu mạng xã hội
phân tích hành vi khách hàng
- Bạn muốn biết transform qua BOT NLP (supervised data)
.
.
.
👉Chi tiết học phần BOT GeoMap- livestream 5 days
https://docs.google.com/presentation/d/1I-
x39lo1o9DhkAsp05dHcFB3xOSiXjSgzSUvEmEhwfQ/edit?usp=sharing
- Khoá học dành cho dân làm data dữ liệu bản đồ hành chính, transform
dữ liệu
- Bạn muốn biết bí kíp tạo bot crawler tự động tìm kiếm địa chỉ,
latlong.... theo tiêu chí bạn đưa ra
- Bạn muốn định nghĩa chất liệu bản đồ có sẵn từ nơi khác, ghép vào sp
của bạn
- Bạn muốn tạo chất liệu bản đồ từ công cụ xây dựng editor
- Bạn muốn biết transform qua BOT NLP tra/search street, num,
substreet…. (supervised data)
- Bạn muốn biết tìm kiếm địa chỉ 1/2triệu qua 2-4 mili giây, tìm kiếm
đường đi ngắn nhất
.
.
.
👉Tổ chức:
- 1 lớp từ 5-8 bạn, buổi tối từ 7h, 9h. Mỗi buổi 1h 15 phút
- Học 5 buổi. Bắt đầu từ 22/5/2020
- Học qua livestream, bạn cần chuẩn bị máy tính, tai nghe, mic, internet và một nơi
yên lặng. Chỉ gửi link học trước giờ học 5 phút.
- Không cần bạn biết coding hay tiếng Anh. Chỉ cần kỹ năng Excel, xem nhận biết tin
tức, tập hợp phán đoán kết quả
- Free tham khảo tài nguyên, sách mềm, tools crawl, projects
- Bạn hoàn toàn tự ghi hình lại clip qua Loom.com, bên Dathoc.net không hỗ trợ ghi
hình lại buổi livestream
- Donation: dathoc.net/donation, 1tr500k vnd/ bạn. Ghi kem ten Khoa hoc

👉Đăng ký: dathoc.net/botreg

👉Demo: https://www.youtube.com/watch?
v=lLDrUuw1RHc&list=PL0ANjPcxElLh0wVySS_pJO2mvz8-19U3f
https://www.youtube.com/watch?
v=baa4iU97XSk&list=PL751V5I3RIDF3p62okHvxPC7lUBuLgx5Z&fbclid=IwAR1ejX0kdp38Xh70g-
9F_MiRp3boBTfwr8XKWdTRuCvA3r7Nw1rrjHkJxnU

👉Mọi ng setup Discord (search và cài) tool chat và share tài liệu Discord để dễ
liên lạc: https://discord.gg/Mcdwcra
.
.
.
👉Vì khoá học dạy bạn những chiêu thức lấy data qua internet, và chúng tôi dựa trên
tôn chỉ:
- Chỉ lấy những thông tin share public, được phép xem và công khai, theo quy định
public share của WWW, IEEE, những thông tin không vi phạm Luật An Ninh Mạng.
- Không truyền bá dạy học những chiêu thức lấy, lưu trữ những thông tin cá nhân,
thông tin vi phạm Pháp luật Nhà nước.

Welcome fans tham gia!


Welcome mong muốn các lớp các fans chia sẻ thêm những bí kíp kinh nghiệm các bạn đã
từng làm để trau dồi thêm kinh nghệm các fan khác.
.
.
.
Thank you all!!!
Hosted by dathoc.net/cv
nguyendinhlam.291tp@gmail.com Chuyển đổi tài khoản

*Bắt buộc
Email *
Họ tên bạn *
Số điện thoại liên lạc khi cần *
Bạn làm nghề gì? *
Khoá học bạn muốn tham gia? *
BotData
BotCrawl
BotSeg
BotVision
BetGeoMap
BotTrade - AI Stock Trading
Bigdata fullstack
Khoá học là 5 - 12 buổi, LIVESTREAM 1h15 phut mỗi buổi tối, vậy time nào là ok cho
bạn? *
19h
21h
20h
Cảm ơn bạn đã đăng ký tham gia Khoá học tại Dathoc.NET
Không bao giờ gửi mật khẩu thông qua Google Biểu mẫu.
Biểu mẫu này đã được tạo ra bên trong dathoc.net. Báo cáo Lạm dụng
Google Biểu mẫu
##########################################
[REMOTE JOB] SENIOR DATA ENGINEER
US-UK crypto/blockchain project with ATTRACTIVE TOKEN BONUS
Salary: 3000~3500$ NET
■ Qualifications:
● Good English
● At least 3+ years of relevant experience in developing scalable secured fault-
tolerant, resilient & mission-critical Big Data platforms.
● Able to maintain and monitor the ecosystem with high availability.
● Must have a sound understanding of all Big Data components & Administration
Fundamentals. Hands-on in building a complete data platform using various open
source technologies.
● Must have good fundamental hands-on knowledge of Linux and building big data
stacks on top of AWS infrastructure.
● Understanding of big data principles and related technologies like HDFS, Spark,
Presto, Airflow, Kafka, Apache Atlas, etc.
● Good knowledge of Complex Event Processing systems like Spark Streaming, Kafka,
Apache Flink, Beam, etc.
● Able to drive DevOps best practices like CI/CD, containerization, blue-green
deployments, secrets management, etc in the Data ecosystem.
● Able to develop an agile platform with auto-scale capability up & down as well
vertically and horizontally.
● Able to develop an observability and monitoring ecosystem for all the components
in use in the data ecosystem.
● Proficiency in at least one of the programming languages Java, Scala, Python or
Go.
● Proficient understanding of distributed computing principles.
● Familiar or prone to adopt design thinking methods.
● Openness to experimenting with new techniques and new ways of working.
● Ability to build internal clients relationships, and work effectively across
functions and geographies.
● Ability to design solutions independently based on high-level architecture.
● You are a thought leader and are responsible for delivering complex projects
successfully.
● Mentor and guide junior members and contribute to global department expertise,
deliverables quality, and skills development.
● Excellent written and verbal communication skills for coordinating across teams.
■Working time : Monday-Friday (Flexible)
■Benefits & Perks:
- Work off on Saturday and Sunday by weekly, public holidays according to Vietnam
labor Law.
- Team building & party
- Annual leave
- 100% remote
- Probation time : 100% salary
- Competitive Salaries
- Token Bonus
-------------------------------------------------------------------
Contact me for further information
📷Email: Duyennguyen.viecoi@gmail.com (Ms. Duyen)
📷Phone: (+84) 287 3030 707 - Ext: 1024
📷Zalo: 085 69 38 576
📷Skype: live:.cid.a7f8289a10e2fbf0
##################################################################
[FUNiX FPT] KHÓA HỌC DATA ENGINEER
Chương trình Data Engineer của FUNiX - FPT gồm 5 môn học giúp trang bị cho học viên
những kiến thức cơ bản về thiết kế và xây dựng hệ quản trị cơ sở dữ liệu quan hệ và
phi quan hệ, thu thập dữ liệu trên mạng Internet, tự động hóa các quy trình làm
việc với dữ liệu (data pipelines) thông qua kho dữ liệu (data warehouse) và hồ dữ
liệu (data lake), làm việc với bộ dữ liệu lớn (big data) và ứng dụng học máy
(machine learning) vào các bài toán cần sử dụng dữ liệu lớn, triển khai một hệ
thống databricks trên nền tảng Azure hoặc AWS. Vào cuối chương trình, các bạn có
thể chọn một trong hai lựa chọn sau: Kết hợp các kỹ năng của mình để hoàn thành một
dự án capstone hoặc đi thực tập tại danh nghiệp.

🔴Chương trình học:


✔️Môn 1: Các hệ cơ sở dữ liệu
https://courses.funix.edu.vn/courses/course-v1:FUNiX+DBI202x_02-
A_VN+2020_T8/about
✔️Môn 2: Giới thiệu về kỹ thuật dữ liệu
https://courses.funix.edu.vn/courses/course-v1:FUNiX+DEP302x_01-
A_VN+2021_T8/about
✔️Môn 3: Dữ liệu lớn với Spark
https://courses.funix.edu.vn/courses/course-v1:FUNiX+DEP303x_01-
A_VN+2021_T9/about
✔️Môn 4: Kỹ thuật dữ liệu trên AWS
https://courses.funix.edu.vn/courses/course-v1:FUNiX+DEP304x_01-
A_VN+2021_T11/about
✔️Môn 5: Đồ án cuối khóa – Kỹ thuật Dữ liệu/Thực tập tại doanh nghiệp
https://courses.funix.edu.vn/courses/course-v1:FUNiX+DEP305x_01-
A_VN+2021_T12/about

🔻 Mục tiêu:
- Xây dựng được các mô hình cơ sở dữ liệu quan hệ và phi quan hệ.
- Tạo ra được các kho dữ liệu (data warehouse) hiệu quả và có thể mở rộng
- Có đầy đủ các kỹ năng làm việc hiệu quả với Big Data trên Pyspark và Python.
- Thao tác và làm việc tốt với các tác vụ về kỹ thuật dữ liệu trên nền tảng điện
toán đám mây AWS.
- Sử dụng thành thạo SQL cho truy vấn dữ liệu.
- Biết cách sử dụng Python 3 (Scrapy, Splash, Selenium) để thu thập dữ liệu web.
- Thiết lập được các quy trình giám sát và tự động hóa trên các đường ống dữ liệu
lớn (data pipelines) với Apache Airflow
💥 Thời gian học: 6 tháng, học online.

🔴 Yêu cầu đầu vào và đối tượng phù hợp


- Biết lập trình Python cơ bản.
- Biết sử dụng hệ điều hành Unix/Linux.
- Có kiến thức về cấu trúc dữ liệu và giải thuật.

=>> Trong trường hợp chưa có đầy đủ các kiến thức điều kiện, người học cần học thêm
các môn học sau trong chứng chỉ điều kiện của chương trình Data Engineer:
✔️Lập trình Python cơ bản
https://courses.funix.edu.vn/courses/course-v1:FUNiX+PYB101x_01-
A_VN+2020_T6/about
✔️Hệ điều hành
https://courses.funix.edu.vn/courses/course-v1:FUNiX+OSM201x_2.1-
A_VN+2020_T6/about
✔️Cấu trúc dữ liệu và giải thuật với Python
https://courses.funix.edu.vn/courses/course-v1:FUNiX+CSD203x_01-
A_VN+2020_T11/about

nguyendinhlam.291tp@gmail.com (chưa chia sẻ) Chuyển đổi tài khoản

*Bắt buộc
Cam kết đầu ra
🔴 Cam kết sau chương trình:
- Đảm bảo 100% việc làm cho tất cả các học viên theo học chương trình Data Engineer
- Mức lương tối thiểu 12 triệu đồng (mức lương trung bình là 16 triệu đồng)
- Địa điểm làm việc: Hà Nội, Đà Nẵng và TP. HCM (Danh sách đang tiếp tục update)
- Điều kiện: Học viên kết thúc được khóa học, sẽ có lộ trình việc làm khi các bạn
kết thúc 4 môn đầu và bắt đầu với môn thứ 5.

🔴 Vị trí công việc:


- Tham gia các vị trí trong dự án phát triển hệ thống AI cho các doanh nghiệp lớn.
- Học viên có thể làm vị trí Kĩ sư dữ liệu tại các công ty cần thu thập, lưu trữ và
xử lý dữ liệu.
Cách học
🔷 Học online: Người học được cấp tài khoản học với thời gian học linh hoạt theo
lịch của cá nhân
🔷 Hỏi đáp 1-1 với chuyên gia CNTT (MENTORS): Khi có khúc mắc cần giải đáp, học
viên được kết nối ngay lập tức với chuyên gia trong lĩnh vực liên quan đang làm
việc tại những tập đoàn, công ty công nghệ hàng đầu trong nước và quốc tế.
🔷 Được đồng hành và hỗ trợ trong suốt quá trình: Mỗi học viên có một cán bộ hỗ trợ
(Hannah) chăm sóc. Hannah nắm được tâm lý và trở ngại của người học tại từng thời
điểm và có hành động thúc đẩy phù hợp.
Họ và tên *
Ngày tháng năm sinh *
DD
/
MM
/
YYYY
Số điện thoại *
Email *
Đối tượng *
Sinh viên
Người đi làm
Đang tìm việc
Mục khác:
Tỉnh, thành phố bạn muốn làm việc *
Câu hỏi dành cho FUNiX-FPT (nếu có)
Không bao giờ gửi mật khẩu thông qua Google Biểu mẫu.
Biểu mẫu này đã được tạo ra bên trong FUNiX. Báo cáo Lạm dụng
Google Biểu mẫu
##############################################################

You might also like