27/05/2026
[📩 Mở lớp] MasterClass AI Document Understanding for Banking
Mỗi ngày, ngân hàng và doanh nghiệp xử lý khối lượng rất lớn các tài liệu như hợp đồng, invoice, eKYC, claim, banking forms…
Và OCR thường là “điểm khởi đầu” của toàn bộ pipeline xử lý tài liệu đó. Nhưng bài toán hiện tại không còn chỉ là đọc chữ từ document.
Hệ thống AI giờ phải hiểu layout, visual structure, context, extract đúng thông tin và tối ưu serving ngoài production.
MasterClass này được thiết kế để giúp học viên tiếp cận tư duy xây dựng hệ thống Document AI production thực tế: từ OCR pipeline → LayoutLM → Qwen/VLM → ONNX/Triton → vLLM → FastAPI serving
🎯 Kết quả sau khóa học:
- Hiểu toàn bộ pipeline Document AI hiện đại: Layout Analysis → Text Detection → OCR → Key Information Extraction → API Serving.
- Fine-tune OCR/KIE model thực tế: MixNet, PARSeq, LayoutLMv3, Qwen2.5-3B trên dataset SROIE.
- Làm chủ Document Understanding hiện đại: Spatial-aware Transformer, Vision-Language Model, OCR-free pipeline, instruction tuning cho KIE.
- Triển khai production-ready AI serving: Export ONNX, deploy Triton Inference Server, serve Qwen bằng vLLM, build FastAPI async API.
- Đánh giá & tối ưu hệ thống AI thực tế: CER/WER/F1, latency, throughput, benchmarking và failure analysis.
- Hoàn thiện Capstone Production MVP: Xây hệ thống end-to-end từ ảnh hóa đơn/PDF → structured JSON/API có serving architecture hoàn chỉnh.
👨🏫 Mentor – Ths. Nguyễn Việt Hoài
- Senior AI Engineer tại Vinsmart Future
- Machine Learning Team Lead @ GMO-Z.com RUNSYSTEM
- 5+ năm kinh nghiệm trong lĩnh vực AI xử lí số hoá giấy tờ
- Từng làm việc tại FPT Smart Cloud, Sun Asterisk
- Thành thạo: Triton, FastAPI, Onnx, LangChain, LangGraph, vLLM
- Tác giả nhiều mô hình OCR, Smart Agent
🏆 Best Paper Award tại MAPR 2023
🔗 LinkedIn: Nguyễn Việt Hoài
📌 THÔNG TIN CHI TIẾT:
• Khai giảng: Thứ 2 — 01.06.2026
• Thời gian: 20:00 – 22:00 (Thứ 2 & Thứ 5 hàng tuần)
• Hình thức: Online qua Zoom (có record)
• Nội dung: 10 buổi chuyên sâu + Final Production Project
• Dataset xuyên suốt: SROIE (receipt understanding benchmark)
• Quyền lợi: Notebook, source code, checkpoint model, deployment template, recording & certificate cuối khóa
• Học bổng: Hoàn 50% học phí cho Top 3 Final Project
27/05/2026
📍Final Project – Xây dựng hệ thống Document Understanding end-to-end cho Banking
Trong lĩnh vực ngân hàng, Document AI không chỉ là bài toán OCR hay Information Extraction. Hệ thống còn phải đảm bảo đồng thời độ chính xác cao, latency thấp, khả năng chịu tải lớn và tính bảo mật dữ liệu khi deploy production.
Đó cũng là lý do Final Project trong chương trình MasterClass AI Document Understanding được thiết kế xoay quanh bài toán xây dựng hệ thống Document AI end-to-end cho Banking — một use case rất phổ biến trong enterprise nhưng cũng đủ phức tạp để học viên hiểu cách một hệ thống AI production thực tế vận hành.
📌 Bài toán thực tế cần giải quyết:
• OCR & trích xuất thông tin từ hóa đơn/chứng từ/tài liệu nghiệp vụ.
• Xây dựng pipeline nhiều stage từ Layout Analysis → OCR → KIE → Validation.
• Giảm ảnh hưởng cascading error trong pipeline OCR/KIE.
• Tối ưu serving latency và khả năng scale hệ thống khi deploy production.
• Validation output và giảm thiểu hallucination trong LLM extraction.
⚙️ Kiến trúc triển khai:
• OCR pipeline kết hợp Layout Analysis + KIE/VLM Extraction.
• Serving bằng Triton Ensemble & vLLM.
• API orchestration bằng FastAPI.
• Validation & business rules layer cho output quality.
• Triển khai toàn bộ hệ thống bằng Docker.
💡 Kiến thức & Kỹ năng chuyên môn đạt được:
• Xây dựng pipeline Document AI end-to-end theo production mindset.
• Triển khai OCR, KIE và VLM serving thực tế.
• Tối ưu batching, latency, GPU utilization và concurrent requests.
• Validation output, schema constraints và monitoring quality.
• Deploy và orchestration hệ thống AI production nhiều model.
Giá trị lớn nhất của Final Project không chỉ nằm ở việc fine-tune model, mà là giúp học viên hiểu cách xây dựng một hệ thống Document AI có thể vận hành thực tế trong enterprise.
✍️Master Class AI for Document Understanding khai giảng duy nhất 01 lần vào 01/06 tới đây, đăng ký tham gia tại: https://forms.gle/YHyRn84QSCmBdb448
21/05/2026
Hiểu lầm phổ biến khi học Machine Learning: “cứ train model, accuracy cao là ổn”.
Thực tế, một mô hình ML chỉ đáng tin khi toàn bộ quy trình đánh giá đúng bản chất. Train/test split không phải thủ tục cho có. Nó là cách mô phỏng câu hỏi: nếu gặp dữ liệu mới ngoài đời, model còn hoạt động không?
Ví dụ: bạn dự đoán khách hàng có rời bỏ dịch vụ hay không. Nếu feature engineering vô tình dùng thông tin xuất hiện sau thời điểm dự đoán — như “ngày hủy gói” hoặc “số lần gọi chăm sóc sau khi hủy” — model có thể đạt điểm rất cao trên notebook. Nhưng đó là leakage: model đang nhìn trộm đáp án.
Một workflow đúng nên bắt đầu từ baseline đơn giản. Trước khi dùng XGBoost hay neural network, hãy có một mốc so sánh: rule-based, logistic regression, hoặc mô hình rất đơn giản. Sau đó mới hỏi: model mới có thật sự tốt hơn baseline không, tốt hơn ở metric nào, và tốt hơn cho nhóm dữ liệu nào?
Lỗi cần tránh:
- Split ngẫu nhiên trong bài toán có yếu tố thời gian.
- Tạo feature bằng cả train và test trước khi chia dữ liệu.
- Chỉ nhìn accuracy khi dữ liệu lệch lớp.
- Tối ưu metric nhưng không đọc lại các case model dự đoán sai.
- Quên theo dõi data drift sau khi triển khai.
Checklist áp dụng nhanh:
1. Xác định thời điểm dự đoán.
2. Chia train/test theo logic thực tế.
3. Tạo feature chỉ từ dữ liệu được phép biết tại thời điểm đó.
4. Chọn metric gắn với chi phí sai lầm.
5. So với baseline.
6. Kiểm tra overfitting và lỗi theo từng segment.
Theo bạn, lỗi nào làm dự án ML “ảo tưởng hiệu quả” nhiều nhất: leakage, metric sai, hay data drift?
20/05/2026
MaterClass AI for Document Understanding: From OCR to LLM
📍 Link đăng ký: https://forms.gle/YHyRn84QSCmBdb448
OCR đang ở khắp mọi nơi. Nhưng từ một notebook detect text → đến hệ thống Document AI production-ready là một khoảng cách rất xa: layout analysis, OCR accuracy, KIE, multimodal reasoning, serving latency, Triton deployment, vLLM, FastAPI, throughput benchmarking…
MasterClass AI for Document Understanding được thiết kế để lấp đầy khoảng trống đó — đưa bạn đi trọn hành trình từ OCR pipeline → LayoutLM → LLM/VLM → ONNX/Triton → FastAPI → Production Document AI System.
🎯 Kết quả sau khóa học:
- Hiểu toàn bộ pipeline Document AI hiện đại: Layout Analysis → Text Detection → OCR → Key Information Extraction → API Serving.
- Fine-tune OCR/KIE model thực tế: MixNet, PARSeq, LayoutLMv3, Qwen2.5-3B trên dataset SROIE.
- Làm chủ Document Understanding hiện đại: Spatial-aware Transformer, Vision-Language Model, OCR-free pipeline, instruction tuning cho KIE.
- Triển khai production-ready AI serving: Export ONNX, deploy Triton Inference Server, serve Qwen bằng vLLM, build FastAPI async API.
- Đánh giá & tối ưu hệ thống AI thực tế: CER/WER/F1, latency, throughput, benchmarking và failure analysis.
- Hoàn thiện Capstone Production MVP: Xây hệ thống end-to-end từ ảnh hóa đơn/PDF → structured JSON/API có serving architecture hoàn chỉnh.
👨🏫 Mentor – Ths. Nguyễn Việt Hoài
- Senior AI Engineer tại Vinsmart Future
- Machine Learning Team Lead @ GMO-Z.com RUNSYSTEM
- 5+ năm kinh nghiệm trong lĩnh vực AI xử lí số hoá giấy tờ
- Từng làm việc tại FPT Smart Cloud, Sun Asterisk
- Thành thạo: Triton, FastAPI, Onnx, LangChain, LangGraph, vLLM
- Tác giả nhiều mô hình OCR, Smart Agent
🏆 Best Paper Award tại MAPR 2023
🔗 LinkedIn: Nguyễn Việt Hoài
📌 THÔNG TIN CHI TIẾT:
• Khai giảng: Thứ 2 — 01.06.2026
• Thời gian: 20:00 – 22:00 (Thứ 2 & Thứ 5 hàng tuần)
• Hình thức: Online qua Zoom (có record)
• Nội dung: 10 buổi chuyên sâu + Final Production Project
• Dataset xuyên suốt: SROIE (receipt understanding benchmark)
• Quyền lợi: Notebook, source code, checkpoint model, deployment template, recording & certificate cuối khóa
• Học bổng: Hoàn 50% học phí cho Top 3 Final Project
19/05/2026
Nhiều bạn học Data Science bị kẹt ở đoạn: làm Kaggle khá nhiều, notebook chạy được, nhưng đưa vào CV hoặc đi phỏng vấn lại không chứng minh được “mình biết làm DS thật”.
Kaggle đúng cách không phải là săn điểm bằng mọi trick. Hãy biến mỗi bài thành một case portfolio có cấu trúc.
Checklist nên có:
- Problem statement: bài toán kinh doanh là gì, ai dùng kết quả?
- Baseline rõ ràng: model đơn giản đầu tiên, metric ban đầu.
- EDA có mục tiêu: insight nào ảnh hưởng tới feature/model?
- Split dữ liệu đúng: tránh leakage, tách train/validation/test hợp lý.
- Error analysis: model sai ở nhóm nào, vì sao?
- README ngắn: cách chạy, kết quả, trade-off, hướng cải tiến.
- Demo nhỏ: dashboard, API inference, hoặc notebook trình bày sạch.
Ví dụ project tốt hơn “Titanic accuracy 0.82”:
“Dự đoán churn khách hàng subscription, so sánh Logistic Regression và XGBoost, ưu tiên Recall cho nhóm rủi ro cao, phân tích false positive để giảm chi phí retention.”
Một câu hỏi phỏng vấn hay gặp:
“Nếu model AUC cao nhưng business team nói dùng không hiệu quả, bạn kiểm tra gì?”
Câu trả lời nên chạm tới threshold, segment performance, data drift, cost of false positive/false negative, và cách đo lift sau triển khai.
Lỗi cần tránh trong CV:
- Liệt kê quá nhiều project giống bài tập, không có impact.
- Chỉ ghi tên thuật toán, không nói quyết định kỹ thuật.
- Không có link GitHub/README rõ ràng.
- Dùng leaderboard để khoe, nhưng không giải thích được leakage hoặc metric.
Nếu bạn đang từ Data Analyst lên Data Scientist, hãy đi theo lộ trình: SQL/Python tốt → statistics/EDA chắc → ML baseline → evaluation → deployment mini → portfolio story.
Bạn đang vướng nhất ở phần Kaggle, portfolio, CV hay phỏng vấn DS?
18/05/2026
Một mô hình Machine Learning tốt không bắt đầu từ dòng `model.fit()`.
Nó bắt đầu từ câu hỏi: “Dữ liệu này đang đại diện cho bài toán gì, và mình sẽ đo đúng/sai bằng metric nào?”
Workflow modeling thực chiến thường đi theo nhịp này:
1. Data
Xác định target, nguồn dữ liệu, thời điểm dữ liệu được sinh ra. Nếu làm churn prediction, đừng để dữ liệu “sau khi khách đã rời đi” lọt vào feature train.
2. Feature
Làm sạch missing values, encode category, scale nếu cần, tạo feature theo ngữ cảnh: số lần mua 30 ngày gần nhất, thời gian từ lần tương tác cuối, trung bình giá trị đơn hàng...
3. Model
Chọn model theo bài toán:
- Regression: dự đoán doanh thu, giá, nhu cầu.
- Classification: churn, fraud, lead scoring.
- Clustering: phân nhóm khách hàng.
- Time series: forecast doanh số theo ngày/tuần.
- Recommender: gợi ý sản phẩm/nội dung.
- NLP căn bản: phân loại feedback, sentiment, topic.
Ví dụ pseudo-code:
```python
X_train, X_test, y_train, y_test = split_by_time(data)
pipe = Pipeline([
("features", feature_steps),
("model", RandomForestClassifier())
])
pipe.fit(X_train, y_train)
pred = pipe.predict(X_test)
score = f1_score(y_test, pred)
errors = inspect_errors(X_test, y_test, pred)
```
4. Metric
Đừng chỉ nhìn accuracy. Với dữ liệu lệch lớp, F1/Recall/AUC có thể quan trọng hơn. Với dự báo số, MAE/RMSE giúp hiểu sai số theo đơn vị kinh doanh.
5. Error analysis
Xem model sai ở nhóm nào: khách mới hay khách cũ, đơn hàng nhỏ hay lớn, vùng miền nào, sản phẩm nào. Đây là bước biến “model chạy được” thành “model đáng tin để dùng”.
Nếu bạn đang học Data Science, hãy tập tư duy theo pipeline này trước khi đổi model phức tạp hơn.
18/05/2026
Nhiều người nghĩ làm Machine Learning là “ném dữ liệu vào model, accuracy cao là xong”. Nhưng trong lab thật, câu hỏi quan trọng hơn là: model có đang đo đúng thứ cần đo không?
Một ví dụ rất phổ biến: bạn chia train/test split sau khi đã xử lý toàn bộ dữ liệu. Nghe vô hại, nhưng nếu bước feature engineering đã “nhìn thấy” thông tin từ tập test, model sẽ được gợi ý trước đáp án. Kết quả test đẹp, nhưng khi đem ra dữ liệu mới thì tụt hiệu quả — đó là leakage.
Cách hiểu đúng:
- Train set dùng để học pattern.
- Test set dùng để mô phỏng dữ liệu chưa từng gặp.
- Baseline là mốc tối thiểu để biết model phức tạp có thật sự đáng dùng không.
- Metrics phải gắn với bài toán: dự báo churn không thể chỉ nhìn accuracy nếu dữ liệu mất cân bằng.
Ví dụ: bài toán dự đoán khách hàng rời bỏ. Nếu 95% khách không rời bỏ, model luôn đoán “không rời bỏ” vẫn có accuracy 95%. Nhưng nó gần như vô dụng. Lúc này precision, recall, F1, ROC-AUC hoặc cost-based metric mới nói được model có giúp kinh doanh hay không.
Lỗi cần tránh:
1. Split dữ liệu sai thời điểm hoặc sai logic thời gian.
2. Feature chứa thông tin tương lai.
3. Không có baseline để so sánh.
4. Tối ưu metric cho đẹp nhưng lệch mục tiêu thật.
5. Quên theo dõi overfitting và data drift sau khi triển khai.
Checklist nhanh trước khi tin một model:
✅ Train/test split phản ánh tình huống thực tế chưa?
✅ Có kiểm tra leakage chưa?
✅ Feature có giải thích được không?
✅ Metric có gắn với quyết định kinh doanh không?
✅ Model có vượt baseline một cách đáng kể không?
✅ Dữ liệu production có đang drift không?
Theo bạn, trong dự án ML thực tế, lỗi nào nguy hiểm nhất: leakage, chọn sai metric, hay data drift?
17/05/2026
Bạn từng làm vài notebook Kaggle, thêm vào CV dòng “Machine Learning project”, nhưng đến lúc phỏng vấn Data Scientist lại bị hỏi xoáy và… bí?
Vấn đề không phải là Kaggle “không có giá trị”. Vấn đề là nhiều bạn dùng Kaggle sai cách: copy notebook top score, chạy lại model, rồi không giải thích được tại sao chọn metric, xử lý leakage thế nào, hay insight kinh doanh nằm ở đâu.
Checklist để biến Kaggle/project thành portfolio thật:
✅ Chọn bài toán có ngữ cảnh rõ: churn, fraud, demand forecasting, recommendation, NLP phân loại phản hồi khách hàng.
✅ Viết problem statement như đi làm: mục tiêu kinh doanh, dữ liệu đầu vào, output, metric, ràng buộc triển khai.
✅ Có baseline trước: logistic regression/random forest đơn giản, rồi mới nâng cấp XGBoost, LightGBM, embedding hoặc deep learning nếu cần.
✅ Giải thích feature engineering: feature nào có ý nghĩa, feature nào dễ gây data leakage.
✅ Đưa kết quả thành decision: nếu model dự đoán churn, team sales/chăm sóc khách hàng sẽ làm gì tiếp?
✅ README rõ ràng: cấu trúc repo, cách chạy, kết quả, hạn chế, hướng cải thiện.
Ví dụ project portfolio tốt: “Dự đoán khách hàng rời bỏ dịch vụ” không chỉ khoe AUC 0.89, mà phải trả lời được: chọn threshold theo chi phí giữ chân ra sao? precision/recall trade-off thế nào? feature nào giúp business hành động?
Một câu phỏng vấn rất hay gặp:
“Nếu accuracy cao nhưng model dự đoán sai nhóm khách hàng quan trọng nhất, bạn xử lý thế nào?”
Lỗi cần tránh: nhồi quá nhiều project na ná nhau, CV ghi “thành thạo ML” nhưng không có GitHub sạch, không biết kể quy trình từ dữ liệu thô → model → đánh giá → ứng dụng.
Nếu bạn đang là Data Analyst muốn lên Data Scientist, hãy bắt đầu bằng 1 project end-to-end thật chắc, hơn là 5 notebook rời rạc.
Bạn đang mắc kẹt ở bước chọn project, viết CV hay chuẩn bị phỏng vấn DS?
Tìm hiểu khóa Data Scientist & Machine Learning chuyên sâu tại Cole.vn: https://cole.vn/danh-sach-khoa-hoc
14/05/2026
📘 Chia sẻ bài tập tự ôn luyện: Hàm và Module trong Python
Khi bắt đầu học lập trình hay theo đuổi lộ trình AI Engineer, “Hàm” (Function) và “Module” là hai khái niệm nền tảng gần như bắt buộc phải nắm vững 🚀
🔹 Hàm (Function) là cách giúp chúng ta đóng gói một nhóm câu lệnh để tái sử dụng nhiều lần.
Thay vì viết lặp đi lặp lại cùng một đoạn code, chúng ta có thể đưa logic vào hàm để chương trình gọn gàng, dễ đọc và dễ bảo trì hơn.
🔹 Module là cách tổ chức code thành từng tệp riêng biệt theo chức năng.
Ví dụ:
* module xử lý toán học
* module xử lý dữ liệu
* module AI
* module database
Đây cũng chính là cách các hệ thống phần mềm và AI thực tế được xây dựng.
Ở giai đoạn đầu, điều quan trọng không phải học thuật toán quá khó, mà là:
✔ Biết chia bài toán thành các hàm nhỏ
✔ Biết tổ chức logic rõ ràng
✔ Làm quen với tư duy xử lý dữ liệu
✔ Viết code có cấu trúc và dễ mở rộng
Một vài bài tập tự ôn luyện rất tốt cho người mới:
📌 Viết hàm tính giai thừa
📌 Viết hàm giải phương trình bậc 2
📌 Tìm số Fibonacci thứ n
📌 Sử dụng lambda + filter để lọc dữ liệu
📌 Sắp xếp list bằng sorted
📌 Tạo module Python riêng và import vào chương trình
Những bài tập nhỏ này giúp luyện rất nhiều kỹ năng quan trọng tư duy logic, khả năng phân tích bài toán, cách tổ chức chương trình và mindset viết code thực chiến
Sau này khi học lên Data Processing, Machine Learning, AI Automation, AI Agent, Computer Vision… thì các kiến thức về hàm và module sẽ xuất hiện liên tục 😄
AI Engineer không bắt đầu bằng train model ngay lập tức, mà bắt đầu từ việc xây nền tảng lập trình đủ chắc để giải quyết bài toán thực tế.