Exciting news from MLLab!
Tin cực vui nhân dịp nghỉ lễ.
We are thrilled to announce that four papers from our lab have been accepted at ICML 2026 — with two of them earning Spotlight designation! 🎉
To put this in perspective: ICML 2026 received 23,918 submissions this year (double last year's intake), of which 6,352 were accepted (26.6% acceptance rate). Only 536 papers — the top 2.2% — were selected as Spotlights, representing the submissions most highly recommended by the program committee.
🌟 Spotlight Papers (top 2.2%):
📄 "Conservation Laws for Modern Neural Architectures"
Viet-Hoang Tran, Vinh Khanh Bui, Tan Lai Ngoc, Nam Nguyen, Tuan Quang Dam, Tan Minh Nguyen
📄 "Second-Order Smooth Planning with Optimal-Transport Bellman Smoothing"
Tuan Quang Dam.
📌 Regular Posters:
📄 "Variance Driven Exploration: A Provable and Efficient Methodology for Pure Exploration in Highly Stochastic Environments"
Khang Luong, Nam Nguyen, Hoang Ta, Hung The Tran, Tuan Quang Dam.
📄 "HieRD: Hierarchical Relational Distillation for Vision-Language Embedding Models"
Vinh Le, Nguyen Hong Dang, Tu Vu, Linh Ngo Van, Duc Anh Nguyen, Trung Le.
Huge congratulations to all the authors — this is an outstanding achievement for MLLab! 🚀
Chúc mừng các thầy, đặc biệt là 2 bạn sinh viên Lương Thái Khang và Nguyễn Nam. Lần đầu tiên gửi bài đã có bài được accept. Các bạn cố gắng ở Neurips 2026 submission sắp tới nhé!
Machine Learning Lab at SOICT - HUST
Lab được dẫn dắt bởi các thầy cô có nhiều kinh nghiệm:
1. PGS.TS. Thân Quang Khoát (https://users.soict.hust.edu.vn/khoattq/)
2. TS.
MLLab có 3 mục tiêu chính:
- Tạo ra các nghiên cứu chất lượng cao, thúc đẩy các tiến bộ trên thế giới về Học máy (và AI).
- Đào tạo các sinh viên xuất sắc, có tiềm năng phát triển lớn trong tương lai.
- Vận dụng AI để giải quyết các bài toán thực tế. TS. Đàm Quang Tuấn (tuandam.net)
3. TS. Đoàn Phong Tùng (https://soict.hust.edu.vn/ts-doan-phong-tung.html)
4. Nguyễn Đức Anh (https://anhndbk.git
21/04/2026
Sẽ ra sao nếu ChatGPT và những LLM khác tạm thời biến mất?
Nghiên cứu sau đây cho thấy trong thời gian rất ngắn, LLM đã chuyển từ một công cụ hỗ trợ thành hạ tầng ngầm của công việc tri thức, và chỉ khi bị rút đi thì mức độ phụ thuộc mới lộ rõ. Thông qua "diary study" trong 4 ngày với 10 người dùng LLM thường xuyên, nhóm tác giả quan sát rằng khi không còn LLM, quy trình làm việc xuất hiện nhiều “khoảng trống” mà trước đó người dùng không nhận ra. Các tác vụ trở nên nặng nề hơn, từ việc tìm kiếm thông tin đến diễn đạt ý tưởng, trong khi việc hỏi người khác lại bị xem là tốn “chi phí xã hội”. Người tham gia cũng có xu hướng chấp nhận chất lượng đầu ra thấp hơn thay vì đầu tư thêm công sức. Đồng thời, việc mất hỗ trợ tức thời dẫn đến trì hoãn, né tránh công việc và đánh giá sai thời gian hoàn thành, gây ra cảm giác bực bội, lo lắng và phải điều chỉnh lịch làm việc. Tuy nhiên, việc không sử dụng LLM cũng giúp khôi phục một số giá trị nghề nghiệp quan trọng như tư duy rõ ràng hơn, cảm giác sở hữu kết quả và nhận thức tốt hơn về ưu tiên công việc. Ở cấp độ rộng hơn, nghiên cứu chỉ ra rằng sự phụ thuộc vào LLM đã trở thành chuẩn mực xã hội, ảnh hưởng đến cách phát triển kỹ năng và tạo ra áp lực cạnh tranh khiến việc không dùng LLM trở thành bất lợi. Từ đó, LLM được khái niệm hóa như một dạng hạ tầng thay vì chỉ là công cụ, và vấn đề cốt lõi chuyển sang cách sử dụng có chủ đích. Bài báo đề xuất hướng tiếp cận “value-driven appropriation”, nhấn mạnh việc chủ động sử dụng LLM theo các giá trị nghề nghiệp cần bảo vệ. Cuối cùng, nghiên cứu cảnh báo rằng doanh nghiệp nếu chỉ tập trung vào năng suất ngắn hạn có thể bỏ qua các hệ quả dài hạn như suy giảm tư duy độc lập, giảm tương tác con người và lệch cân bằng giữa hiệu quả và năng lực nghề nghiệp.
Link: https://arxiv.org/pdf/2603.26099
Dạy AI cách học “liên tục” 😃
Các mô hình ngôn ngữ lớn (Large Language Model, LLM) hiện nay chủ yếu vận hành theo một quy trình quen thuộc: huấn luyện trước trên lượng dữ liệu rất lớn, rồi triển khai với các tham số gần như cố định. Cách làm này tạo ra những hệ thống mạnh, nhưng cũng có một giới hạn rõ ràng: mô hình có thể đọc thêm thông tin trong ngữ cảnh (context), nhưng không thật sự tự cập nhật chính mình trong lúc suy luận. Vì vậy, bài báo "In-Place Test-Time Training" đặt ra một hướng đi đáng chú ý: cho phép mô hình thích nghi ngay tại thời điểm sử dụng, thay vì chỉ dựa vào những gì đã học từ trước.
Điểm quan trọng của bài báo là tác giả không đề xuất thay toàn bộ kiến trúc Transformer bằng một cơ chế mới. Thay vào đó, họ tận dụng chính khối MLP (Multi-Layer Perceptron) vốn đã có sẵn trong mô hình. Cụ thể, ma trận chiếu cuối của MLP được xem như phần trọng số thích nghi nhanh (fast weights), trong khi các tham số còn lại vẫn đóng vai trò trọng số chậm (slow weights). Nhờ cách thiết kế này, mô hình có thể cập nhật một phần nhỏ tham số ngay tại thời điểm kiểm thử (Test-Time Training, TTT) mà không cần huấn luyện lại từ đầu hay thêm mô-đun lạ vào kiến trúc.
Một điểm mới quan trọng khác là bài báo không xem việc thích nghi này đơn thuần là ghi nhớ lại thông tin vừa đọc. Trong nhiều hướng tiếp cận trước đây, mục tiêu thường là tái tạo (reconstruction) biểu diễn hiện tại. Tuy nhiên, với mô hình ngôn ngữ tự hồi quy (autoregressive language model), nhiệm vụ cốt lõi không phải là sao chép hiện tại mà là dự đoán token tiếp theo (Next-Token Prediction, NTP). Vì vậy, tác giả đề xuất một mục tiêu huấn luyện được căn chỉnh trực tiếp với NTP, để phần fast weights không chỉ lưu thông tin, mà lưu đúng loại thông tin hữu ích cho bước sinh tiếp theo.
Bên cạnh đó, bài báo cũng giải quyết khá thực tế bài toán hiệu năng. Thay vì cập nhật theo từng token, vốn rất khó mở rộng trên phần cứng hiện đại, tác giả dùng cơ chế cập nhật theo khối (chunk-wise update), tức xử lý nhiều token cùng lúc nhưng vẫn giữ được tính nhân quả cần thiết cho sinh tự hồi quy. Nhờ vậy, phương pháp này vừa có khả năng thích nghi động, vừa giữ được khả năng song song hóa (parallelism) để chạy hiệu quả trên GPU và TPU.
Các kết quả thực nghiệm cho thấy cách tiếp cận này đặc biệt hữu ích trong các bài toán ngữ cảnh dài, nơi các LLM thông thường thường bắt đầu bộc lộ giới hạn. Nói cách khác, đóng góp chính của bài báo không chỉ nằm ở việc tăng điểm benchmark, mà ở chỗ nó chỉ ra một khả năng mới: mô hình ngôn ngữ không nhất thiết phải là một hệ thống hoàn toàn tĩnh sau khi huấn luyện, mà có thể được thiết kế để thích nghi ngắn hạn ngay trong quá trình suy luận. Theo nghĩa đó, In-Place Test-Time Training là một bước tiến đáng chú ý theo hướng xây dựng các LLM linh hoạt hơn và gần hơn với ý tưởng học liên tục (continual learning).
Reference: Feng, Guhao, Shengjie Luo, Kai Hua, Ge Zhang, Wenhao Huang, Di He, and Tianle Cai. “In-Place Test-Time Training.” ICLR 2026. https://openreview.net/forum?id=dTWfCLSoyl
QJL: Nén 1 bit cho KV cache Transformer mà vẫn giữ được attention
Trong nghiên cứu của Zandieh và các cộng sự [1], một câu hỏi tưởng như vô lý được đặt ra: liệu có thể nén KV cache của Transformer xuống chỉ còn 1 bit mỗi chiều mà vẫn giữ được chất lượng suy luận? KV cache là nơi lưu toàn bộ key–value của các token trước đó, và chính nó là nút thắt bộ nhớ lớn nhất khi xử lý chuỗi dài. Các phương pháp trước đây chỉ dám giảm xuống vài bit, còn 1 bit gần như bị xem là “mất hết thông tin”.
Điểm đặc biệt của QJL là họ không nén trực tiếp vector key. Thay vào đó, họ áp dụng một phép chiếu ngẫu nhiên để “trộn” toàn bộ thông tin của vector vào nhiều chiều mới. Sau bước này, mỗi chiều không còn mang ý nghĩa riêng lẻ, mà là sự tổng hợp của toàn bộ vector ban đầu. Và chính lúc này, họ mới thực hiện bước nén cực đoan: chỉ giữ lại dấu của mỗi chiều.
Điều nghe có vẻ nghịch lý là: dù chỉ giữ lại dấu, thông tin quan trọng vẫn không mất đi. Bởi vì sau phép chiếu, thứ quan trọng không còn là giá trị chính xác của từng phần tử, mà là cấu trúc tương đối giữa các vector trong không gian. Nói cách khác, QJL không cố giữ “giá trị”, mà giữ “hình học” của vector.
Khi Transformer tính attention, điều nó thực sự cần không phải là vector key chính xác, mà là mức độ tương đồng giữa query và key. QJL khai thác đúng điểm này: thay vì phục hồi lại vector gốc, nó ước lượng trực tiếp độ tương đồng từ các bit dấu đã nén. Kết quả cho thấy phép ước lượng này gần như không sai lệch về trung bình và đủ ổn định để giữ nguyên hành vi của attention.
Một điểm rất quan trọng là QJL không cần bất kỳ tham số phụ nào như scale hay zero-point, vốn là thứ gây overhead trong quantization truyền thống. Điều này khiến việc nén thực sự “sạch”: mỗi chiều đúng nghĩa chỉ còn 1 bit, không có chi phí ẩn. Đồng thời, phương pháp này không phụ thuộc vào dữ liệu và không cần fine-tuning, nên có thể áp dụng trực tiếp vào các mô hình lớn.
Một bài toán tưởng như chỉ là tối ưu bộ nhớ lại dẫn đến một insight sâu hơn: Transformer không cần biểu diễn chính xác từng vector, mà chỉ cần bảo toàn quan hệ giữa chúng. QJL tận dụng điều này một cách triệt để, biến bài toán nén thành bài toán bảo toàn cấu trúc. Đây không chỉ là một kỹ thuật nén, mà còn là một góc nhìn mới về cách Transformer thực sự “hiểu” dữ liệu bên trong nó.
Tham khảo: [1] Zandieh, Amir, Majid Daliri, and Insu Han. "Qjl: 1-bit quantized jl transform for kv cache quantization with zero overhead." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 39, no. 24, pp. 25805-25813. 2025.
TurboQuant - Nén KV cache của LLM gần tối ưu, không cần huấn luyện lại.
Khi LLM sinh text, nó lưu các vector key-value tại mỗi layer/head vào KV cache để không phải tính lại. Cache này tăng tuyến tính theo độ dài ngữ cảnh và trở thành nút cổ chai bộ nhớ chính khi inference. Các phương pháp lượng tử hóa vector (VQ) truyền thống giảm được kích thước cache, nhưng phải lưu thêm hằng số chuẩn hóa (scale, zero-point) cho mỗi block - phần overhead 1-2 bit/giá trị này triệt tiêu đáng kể lợi ích nén.
TurboQuant là phương pháp VQ online, data-oblivious - không cần dữ liệu hiệu chuẩn, không cần fine-tune, mỗi vector được nén ngay khi sinh ra. Thuật toán gồm hai giai đoạn:
Giai đoạn 1 (MSE): Nhân vector KV với ma trận quay ngẫu nhiên (tạo bằng QR decomposition trên ma trận Gaussian). Sau phép quay, mỗi tọa độ tuân theo phân phối Beta tập trung, và trong không gian chiều cao, các tọa độ trở nên gần như độc lập nhờ hiện tượng concentration of measure. Điều này cho phép áp dụng bộ lượng tử hóa vô hướng Lloyd-Max tối ưu cho từng tọa độ riêng lẻ. Bảng codebook được tính trước theo chiều d và bit-width b, loại bỏ hoàn toàn overhead từ hằng số chuẩn hóa.
Giai đoạn 2 (QJL): Bộ lượng tử hóa MSE ở giai đoạn 1 tạo ra bias có hệ thống trong ước lượng tích vô hướng - phép tính cốt lõi của attention. TurboQuant dành 1 bit trên mỗi tọa độ cho phần residual bằng phép chiếu Quantized Johnson-Lindenstrauss, tạo ra ước lượng inner product không chệch.
Tổng thể, thuật toán đạt distortion rate chỉ cách giới hạn lý thuyết thông tin khoảng 2.7×.
Đánh giá trên Llama-3.1-8B-Instruct và Ministral-7B-Instruct: trên LongBench, cấu hình 3.5-bit đạt 50.06 - bằng đúng full-cache baseline; trên Needle-in-a-Haystack (4K–104K token), TurboQuant đạt 0.997, bằng baseline ở mức nén 4×.
TurboQuant là ví dụ tốt nhất về cách toán học cơ bản - concentration of measure, tính gần độc lập trong không gian chiều cao, lượng tử hóa tối ưu Shannon - giải quyết một bài toán kỹ thuật thực tiễn đang rất cấp bách: giảm chi phí inference cho LLM mà không hy sinh chất lượng, không cần can thiệp vào quá trình huấn luyện mô hình.
Reference: "TurboQuant: Online Vector Quantization with Near-Optimal Distortion Rate", Amir Zandieh, Majid Daliri, Majid Hadian, Vahab Mirrokni (Google Research, NYU, Google DeepMind). arXiv 04/2025, ICLR 2026
23/03/2026
Những khoảnh khắc tưởng chừng đơn giản, nhưng lại là nơi bắt đầu của những khát vọng và ý tưởng lớn 😎😎😎
Giao lưu và học hỏi từ các anh/chị tiền bối đến từ những ĐH hàng đầu thế giới. Đó chắc chắn sẽ là những trải nghiệm vô cùng quý giá và đáng nhớ đối với các sinh viên trong Lab. Rất nhiều kinh nghiệm thực tiễn và góc nhìn sâu sắc đã được chia sẻ bởi:
- Nguyễn Ngọc Huyền, từ ĐH Harvard (Mỹ)
- Trương Tấn Sang, từ ĐH Stanford (Mỹ)
- Phan Việt Hoàng, từ ĐH New York (Mỹ)
- Nguyễn Bá Việt, từ ĐH Toronto (Canada)
- Phạm Vũ Huyền Trang, từ ĐH Texas at Austin (Mỹ)
Xin chân thành cảm ơn các khách mời đã dành thời gian tham gia và truyền cảm hứng.
16/03/2026
Khoảnh khắc "cháy" ngoài phòng lab, tiếp thêm rất nhiều năng lượng cho những ý tưởng lớn 😍😍😍
Mô hình có học được ngay cả trong lúc test hay không?
Bài báo "End-to-End Test-Time Training for Long Context" (TTT-E2E) đề xuất một cách tiếp cận mới cho vấn đề ngữ cảnh dài và học liên tục của các mô hình ngôn ngữ lớn (LLM). Thay vì giữ nguyên mô hình sau khi huấn luyện như các LLM truyền thống dựa trên kiến trúc Transformer, TTT-E2E cho phép mô hình tiếp tục học ngay trong lúc suy diễn. Khi xử lý một ngữ cảnh dài (ví dụ một tài liệu hàng trăm trang), mô hình dùng next-token prediction để chạy các bước gradient descent nhanh và cập nhật một phần weights (thường là các MLP block cuối). Nhờ đó, nội dung ngữ cảnh được nén (một cách có tổn hao) trực tiếp vào weights thay vì phải lưu toàn bộ trong KV cache (một kỹ thuật tối ưu bộ nhớ) như cơ chế attention truyền thống.
Cách tiếp cận này giải quyết một vấn đề cốt lõi của full attention trong Transformer: độ phức tạp O(N²) khiến chi phí bộ nhớ và latency (độ trễ) tăng mạnh khi ngữ cảnh dài. Trong khi các hướng kiến trúc tuyến tính như Mamba 2 state space model, RWKV language model hay Gated DeltaNet architecture giảm độ phức tạp xuống O(N) nhưng thường mất thông tin theo thời gian, TTT-E2E vẫn giữ nền tảng Transformer nhưng biến context thành dữ liệu huấn luyện tạm thời, giúp tốc độ suy luận gần như O(1) ở bước decode. Trong thực nghiệm, model 3B parameters có thể mở rộng từ 8K lên 128K tokens, đạt loss tương đương full attention nhưng nhanh hơn xấp xỉ 2.7 lần.
Trade-off của phương pháp này là nén có tổn hao, nên kém hơn Transformer full attention trong các bài test như “Needle-in-a-Haystack” (tìm chi tiết nhỏ trong văn bản dài). Tuy nhiên, điểm mạnh lại nằm ở khả năng nắm ý chính và reasoning trên ngữ cảnh dài, phù hợp với các tác vụ phân tích, tổng hợp, hoặc agent hoạt động lâu dài.
Ở góc nhìn hệ thống và AGI (Trí tuệ nhân tạo tổng quát), TTT-E2E mở ra một "paradigm shift": từ Static AI (train xong rồi dùng) sang Adaptive AI (vừa chạy vừa học). Nó biến bài toán bộ nhớ của LLM từ vấn đề phần cứng (VRAM cho context window và KV cache) thành vấn đề thuật toán – nén trải nghiệm vào weights. Điều này gợi ý một kiến trúc hierarchical memory: sliding-window attention cho short-term memory, còn weights được cập nhật đóng vai trò long-term memory.
Dù vậy, chi phí huấn luyện cao hơn đáng kể vì cần meta-learning và higher-order gradients, khiến việc huấn luyện chậm và yêu cầu tối ưu hạ tầng phức tạp. Nếu được phát triển thêm và kết hợp với học tăng cường tại thời gian test, hướng tiếp cận này có thể giúp các AI agent và robot học liên tục từ trải nghiệm thực tế, tiến gần hơn đến khả năng học liên tục giống con người.
Link bài báo:
Dạy mô hình “quên” bằng cách học cách suy luận
Làm thế nào để xóa một phần kiến thức khỏi mô hình mà không phá hỏng các khả năng khác của nó? Các mô hình ngôn ngữ được huấn luyện trên dữ liệu web rất lớn nên đôi khi chúng ghi nhớ những thông tin không mong muốn, chẳng hạn dữ liệu cá nhân, nội dung vi phạm bản quyền hoặc các nội dung nguy hiểm. Vì vậy, một hướng nghiên cứu mới gọi là LLM unlearning được đề xuất để loại bỏ những kiến thức này khỏi mô hình mà vẫn giữ lại các kiến thức hữu ích khác. Gần đây Liao và cộng sự trong bài báo công bố ở ICLR 2026 [1] đã đề xuất một giải pháp hiệu quả thông qua việc dạy mô hình “quên” bằng cách học cách suy luận.
Trong nhiều phương pháp hiện nay, việc unlearning thường được thực hiện bằng cách giảm xác suất sinh ra các chuỗi liên quan đến dữ liệu cần xóa, ví dụ bằng kỹ thuật gradient ascent. Tuy nhiên các phương pháp này có một số hạn chế: chúng có thể làm giảm năng lực chung của mô hình, không xóa hết kiến thức cần loại bỏ, hoặc khiến mô hình tạo ra những câu trả lời không tự nhiên và thiếu logic. Theo các tác giả, nguyên nhân của các vấn đề này là do các phương pháp hiện tại không chỉ rõ ràng mô hình cần phải “quên cái gì” và phải phản hồi như thế nào sau khi quên.
Để giải quyết vấn đề đó, bài báo đề xuất một ý tưởng mới: thay vì chỉ cung cấp dữ liệu cần xóa, họ xây dựng “reasoning-based unlearning targets”, tức là các mục tiêu huấn luyện bao gồm cả chuỗi suy luận (reasoning trace) và phản hồi mong muốn của mô hình. Mỗi ví dụ unlearning không chỉ nói rằng nội dung đó cần bị loại bỏ, mà còn cung cấp một chuỗi lập luận giải thích tại sao mô hình nên từ chối hoặc tránh trả lời câu hỏi đó. Các reasoning targets này được tạo ra bằng cách sử dụng các mô hình LLM có khả năng suy luận mạnh để sinh ra lời giải thích và phản hồi phù hợp.
Dựa trên ý tưởng này, các tác giả đề xuất phương pháp Targeted Reasoning Unlearning (TRU). Phương pháp này huấn luyện mô hình với hai thành phần: một hàm mất mát cross-entropy để học các reasoning targets và một thành phần loss dựa trên gradient ascent nhằm tăng cường việc xóa bỏ kiến thức đã ghi nhớ. Nhờ có reasoning targets, mô hình không chỉ học cách tránh sinh ra nội dung cần xóa mà còn học cách nhận ra khi nào một câu hỏi thuộc phạm vi cần unlearn và tạo ra phản hồi hợp lý để từ chối nó.
Các thí nghiệm được thực hiện trên nhiều benchmark phổ biến cho LLM unlearning. Kết quả cho thấy TRU có thể loại bỏ kiến thức cần xóa một cách hiệu quả hơn trong khi vẫn giữ được hiệu năng trên các nhiệm vụ khác. Ngoài ra, các mô hình được huấn luyện bằng TRU còn cho thấy khả năng chống lại các dạng tấn công nhằm khôi phục lại thông tin đã bị xóa, nhờ việc mô hình đã học được các mẫu suy luận để xác định và từ chối những truy vấn thuộc phạm vi unlearning.
Tóm lại, đóng góp chính của bài báo là chỉ ra rằng unlearning trong LLM không nên chỉ tập trung vào việc giảm xác suất của dữ liệu cần xóa, mà cần hướng dẫn rõ ràng cách mô hình nên suy luận và phản hồi sau khi kiến thức đó bị loại bỏ. Bằng cách đưa reasoning vào mục tiêu huấn luyện, phương pháp TRU cho phép thực hiện unlearning có kiểm soát, dễ giải thích hơn và ít ảnh hưởng đến năng lực chung của mô hình.
Tham khảo: [1] Liao, Junfeng, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, and Zhen Fang. "Explainable LLM Unlearning through Reasoning." In The Fourteenth International Conference on Learning Representations.
Explainable LLM Unlearning through Reasoning LLM unlearning is essential for mitigating safety, copyright, and privacy concerns in pre-trained Large Language Models (LLMs). Compared to preference alignment, it offers a more explicit way by...
Classroom Final Exam (CFE-Bench): Khi AI phải làm “đề thi cuối kỳ” thật sự
Trong vài năm qua, AI (đặc biệt là các mô hình ngôn ngữ lớn) liên tục đạt được nhiều kết quả cao tai nhiều bộ đánh giá quen thuộc và một câu hỏi đươc đặt ra là: AI giỏi vì hiểu thật, hay giỏi vì đã quen bộ đề? Nếu đặt AI vào đúng bối cảnh mà sinh viên STEM phải đối mặt - bài tập, bài thi cuối kỳ, có hình vẽ, có suy luận nhiều bước - thì liệu kết quả có còn ổn không?
Bài báo sau đây trả lời đúng nỗi băn khoăn đó xuất phát từ ý tưởng: tạo một kỳ thi cuối kỳ cho AI.
Nhóm tác giả giới thiệu CFE-Bench (Classroom Final Exam), một benchmark đa dạng (có cả câu hỏi thuần chữ và câu hỏi có hình/đồ thị) được lấy từ tài liệu giảng dạy thật là những bài tập và đề thi đã được giảng viên sử dụng lặp lại, chỉnh sửa qua nhiều lần dạy, và có lời giải tham chiếu do giảng viên cung cấp. (arXiv)
Điểm mấu chốt của CFE-Bench nằm ở chỗ nó cố gắng giống lớp học thật nhất có thể, không giống “đề luyện tủ”:
• Bộ dữ liệu gồm 449 bài toán chất lượng cao, chia thành 305 câu thuần văn bản và 144 câu đa phương thức (có hình/biểu đồ/ký hiệu…). (arXiv)
• Phủ hơn 20 môn/miền STEM (nặng vật lý và toán, nhưng có cả nhiều ngành kỹ thuật và các mảng dài đuôi như khoa học máy tính, hoá, sinh, thống kê…). (arXiv)
• Có tiêu chí lọc để tránh “bẫy” thường gặp: câu hỏi phải rõ ràng, kiểm chứng được, tránh dạng yes/no hoặc trắc nghiệm quá dễ, và không đòi thí nghiệm vật lý ngoài đời. (arXiv)
Chấm bài giống “giảng viên” chấm nhất có thể: tập trung vào biến đáp án, không bị đánh lừa bởi lời giải dài dòng.
Một vấn đề chúng ta vẫn thường gặp khi chấm lời giải dài của AI là… AI rất giỏi viết cho hay, đưa ra câu trả lời la lá, hợp lý: Lời giải nghe hợp lý nhưng sai ở một chỗ nhỏ nào đó.
Vì vậy, bài báo đề xuất variable-based verification: thay vì chấm “toàn văn”, họ gắn nhãn các biến đáp án mục tiêu (ví dụ: giá trị (x), một công thức, hay một đại lượng cụ thể), rồi trích các biến đó từ câu trả lời của mô hình và đối chiếu với “đáp án chuẩn” cho từng biến. Cách này giống như giáo viên chấm bài: có thể không đọc hết phần diễn giải, nhưng kiểm tra đúng các đại lượng cần ra. (arXiv)
Kết quả: ngay cả mô hình mạnh nhất cũng chỉ đạt được khoảng 60% tức là “thi rớt” là chuyện thường
Và đây là phần hấp dẫn nhất: khi “đưa AI đi thi”, kết quả không hề tốt. Theo báo cáo, Gemini-3.1-pro-preview đạt 59,69% độ chính xác tổng thể; mô hình đứng thứ hai (Gemini-3-flash-preview) đạt 55,46%. Nghĩa là vẫn còn một khoảng lớn để cải thiện nếu muốn AI “qua môn” đều đặn ở bậc đại học. (arXiv)
Nhóm tác giả cũng ghi nhận mô hình mã nguồn mở tốt nhất trong thiết lập của họ chỉ quanh ~47% (nêu cụ thể là Qwen 3.5 ở mức 47,44% trong phần giới thiệu). (arXiv)
Không phải vì AI “không biết làm”, mà vì… bị sai ở giữa bài
Bài báo không dừng ở việc lập bảng xếp hạng. Họ làm thêm một việc rất hay: mổ xẻ lời giải thành “dòng suy luận” (reasoning flow), chia thành các đơn vị bước nhỏ để xem AI sai ở đâu.
Ba kết luận chính được rút ra là:
1. AI thường làm tốt ở từng bước đơn lẻ
Khi bài toán được bẻ thành một “tiểu câu hỏi” cụ thể (ví dụ: tính một đại lượng trung gian), mô hình thường làm khá tốt. Điều này gợi ý rằng nhiều lỗi end-to-end không phải do thiếu kiến thức rời rạc hoặc không làm được một phép biến đổi đơn. (arXiv)
2. Giữ đúng “trạng thái trung gian” mới là nút thắt
Vấn đề lớn là AI dễ bị nhầm lẫn trong chuỗi nhiều bước: có thể trả lời đúng vài đoạn, nhưng sau đó không duy trì được các giá trị trung gian chính xác cho đến cuối bài. Đáng chú ý: chỉ cần “cho” một đáp án trung gian đúng vào giữa lời giải, kết quả cuối có thể tăng mạnh - thậm chí gần hiệu quả như cung cấp cả một đoạn hướng dẫn dài. Tức là đôi khi cái thiếu không phải “suy luận sai”, mà là có đúng một mắt xích then chốt bị sai. (arXiv)
3. AI hay “giải dài dòng” hơn con người, và càng dài càng dễ sai
So với lời giải của giảng viên, mô hình thường tạo ra dòng suy luận dài hơn (nhiều bước hơn). Điều này khiến xác suất sai tăng vì mỗi bước thừa là thêm cơ hội trượt. Nói cách khác: AI không chỉ cần đúng - mà còn cần ngắn gọn và tiết kiệm bước như người có kinh nghiệm. (arXiv)
Thông điệp: muốn AI “qua môn”, phải dạy nó biết giữ mạch suy luận (và biết dùng công cụ đúng lúc)
Từ các kết quả đó, bài báo gợi ý hướng cải thiện khá thực tế:
• Tăng giám sát/kiểm chứng trạng thái trung gian (step-verified targets, constraint checking…).
• Khuyến khích: dùng công cụ đáng tin (máy tính kiểm chứng, solver ký hiệu, truy xuất có cấu trúc…) để tạo “mốc trung gian đúng”, rồi cho mô hình suy luận tiếp dựa trên mốc đó.
• Thiết kế mục tiêu huấn luyện/đánh giá để phạt suy luận thừa và thưởng lời giải gọn. (arXiv)
Tài liệu tham khảo
[1] Classroom Final Exam: An Instructor-Tested Reasoning Benchmark, Chongyang Gao, Diji Yang, Shuyan Zhou, Xichen Yan, Luchuan Song, Shuo Li, Kezhen Chen, arXiv:2602.19517v1 (Submitted 23 Feb 2026). (arXiv)
22/02/2026
🎉Quà đầu xuân từ và cựu SV🎉
Click here to claim your Sponsored Listing.
Location
Category
Website
Address
706, Building B1, Hanoi University Of Science And Technology
Hanoi
Opening Hours
| Monday | 09:15 - 17:00 |
| Tuesday | 09:15 - 17:00 |
| Friday | 09:15 - 17:00 |