4 tháng trước, team đặt mục tiêu xử lý 1 triệu PDF.
Hôm nay nhìn lại, bài toán không còn nằm ở OCR nữa.
Với tốc độ 1s/trang:
- 1 triệu PDF = 30 triệu trang
- Nếu chạy tuần tự: gần 1 năm
- Chạy song song 10 worker: 1 tháng
Điều thú vị là: model không phải bottleneck.
Thứ quyết định mọi thứ lại là: batching, queue, parallelism, cách scale hạ tầng
OCR giờ không còn là “đọc được hay không” mà là “đọc nhanh đến mức nào ở production scale”
Và khi đi đến đây, bài toán bắt đầu giống distributed systems hơn là AI.
ProtonX
Chúng tôi xây dựng mô hình AI chất lượng cho Tiếng Việt và nền tảng học AI tiên tiến.
19/03/2026
Team ProtonX vừa nâng cấp hệ thống OCR — tốc độ hiện tại: khoảng 1 giây / 1 trang.
Đội ngũ đã bắt đầu gửi email mời trải nghiệm tới các cá nhân và doanh nghiệp đã đăng ký trước đó.
Đặc điểm:
- Xử lý nhanh hơn
- Chi phí tối ưu hơn
- Sẵn sàng scale cho bài toán thực tế
18/03/2026
Cùng bàn luận về những công nghệ OCR mới nhất và thực hành tại sự kiện cuối tuần này nhé mọi người
GIỚI THIỆU DIỄN GIẢ: ANH NGUYỄN BÁ NGỌC - FOUNDER/CEO PROTONX
------------------------
📌 Thời gian: Sáng 8h30 - Thứ Bảy, ngày 21/03/2026
📌 Hình thức: Techtalk & Codelab
📍 Địa điểm: Giảng đường B1, Đại học Bách khoa Hà Nội
------------------------
👨💻 Về diễn giả:
- Founder/CEO của ProtonX, đồng thời là founder VietAI Hà Nội và là chuyên gia học máy đầu tiên của Việt Nam được Google công nhận năm 2019.
- Anh đã đào tạo hơn 120 lập trình viên đạt chứng chỉ TensorFlow của Google, góp phần đưa Việt Nam vào top 4 quốc gia có số lượng người đạt chứng chỉ nhiều nhất thế giới.
- Với ProtonX, anh phát triển nhiều sản phẩm và nền tảng AI nổi bật như Studio, Coursemind và thư viện ProtonX AI nhằm ứng dụng trí tuệ nhân tạo vào các vấn đề thực tiễn của xã hội.
🔥 Tham gia cùng anh Bá Ngọc trong Code Lab - Trích xuất và cấu trúc hóa dữ liệu với Gemini để:
➤ Khám phá cách AI xử lý dữ liệu thực tế.
➤ Tìm hiểu cách ứng dụng mô hình Google Gemini để trích xuất và xử lý các luồng dữ liệu phi cấu trúc phức tạp từ tài liệu PDF như hóa đơn và biểu mẫu.
➤ Thực hành kỹ thuật chuẩn hóa dữ liệu đầu ra (structured outputs) - bước quan trọng giúp các hệ thống AI Agent tiếp nhận và xử lý thông tin chính xác.
------------------------
[HUST] - Build With AI: The Agentic Evolution
📌Thời gian: Sáng 8h - Thứ Bảy, ngày 21/03/2026
📌Địa điểm: Đại học Bách khoa Hà Nội.
📩Email: [email protected]
📑Fanpage: Google Developer Group on Campus - Hanoi University of Science and Technology.
17/03/2026
Chúng tôi không chỉ build hệ thống OCR – chúng tôi build khả năng kiểm soát OCR ở scale lớn.
Giải pháp cung cấp cơ chế orchestration cho toàn bộ OCR pipeline:
Task-level control: dừng / resume / cancel từng job theo nhu cầu vận hành
Concurrency management: kiểm soát số lượng request đồng thời, tránh overload
Resource-aware scheduling: phân phối tài nguyên thông minh theo tải hệ thống
Đảm bảo hệ thống OCR vận hành ổn định, có thể mở rộng và không bị “sập” khi traffic tăng đột biến
Team ProtonX làm chủ công nghệ OCR tốc độ cao với kết quả 2s/trang, giải pháp này team phục vụ các doanh nghiệp có lượng văn bản lớn cần số hóa. 😍
Team demo luồng AI tư vấn bán hàng và lên đơn hàng cho workshop thứ 4 tuần sau, flow rất mượt mà nhé mọi người 😊😊
Click here to claim your Sponsored Listing.
ProtonX - Sứ mệnh thay đổi thế giới
Sứ mệnh của ProtonX là định hình lại tiêu chuẩn của một kỹ sư AI thực thụ. Kỹ sư AI thực thụ là một người có nền tảng toán học vững chắc cùng khả năng lập trình tối ưu.
Trong năm nay 2020, chúng tôi xây dựng khóa học Deep Learning cho mọi người với mục tiêu đào tạo được nhiều kỹ sư có thể lấy được chứng chỉ AI của các công ty lớn như Google.
Website: https://protonx.app/
Kênh Youtube của ProtonX: https://www.youtube.com/channel/UCrZIaMmLGsq_J-4Z1Qww0cw
Location
Category
Contact the school
Website
Address
Hanoi