Data Science and Knowledge Technology Laboratory - DS&KTLab

17/05/2026

🇻🇳 Các nhà khoa học DS&KTLab, trường Đại học Công nghệ, ĐHQGHN kết hợp TiniX AI release dự án cộng đồng Hệ thống tìm kiếm ngữ nghĩa văn bản cho lĩnh vực Y tế Tinix-MedKB (phiên bản thử nghiệm đầu tiên 0.1, link demo trong comment)

Nhóm tập trung vào giải quyết việc xây dựng một kho tri thức mở (dự kiến sẽ có 100 triệu tài liệu trong năm 2026, hiện có 30 triệu dữ liệu từ 3 nhóm ngôn ngữ Anh-Việt-Trung) để mọi người khai thác dễ dàng và hoàn toàn miễn phí bằng tiếng Việt.
Nhóm cũng xác định đây là dự án nhiều năm, trong giai đoạn đầu hệ thống cũng còn rất nhiều vấn đề cần sự đóng góp, phản hồi của cộng đồng. Nhóm cũng đã cố gắng lựa chọn các nguồn thu thập tin cậy như PubMed, Pubtator, Bioportal, Y văn, sách chuyên ngành,… (các nguồn này được thu thập tự động và nhóm sẽ cố gắng dịch, tóm tắt, tổng hợp tạo đồ thị tri thức, ontology,…), tất nhiên còn một số vấn đề về bản quyền xin mọi người bỏ qua 🙏)

Hệ thống tập trung vào:
• Tra cứu kiến thức y khoa tiếng Việt
• Hỗ trợ phân tích triệu chứng
• Tóm tắt bệnh án & xét nghiệm
• OCR tài liệu y tế
• Hỗ trợ bác sĩ và nhân viên y tế tra cứu nhanh thông tin bằng tiếng Việt
• RAG trên dữ liệu y khoa đáng tin cậy
• Xây dựng mô hình ngôn ngữ cho tiếng Việt

⚡ Những gì MedKB đang hướng tới:
• Giảm hallucination trong AI y tế
• Hỗ trợ tiếng Việt & bệnh lý phổ biến tại Việt Nam
• Tích hợp multimodal: text + PDF + hình ảnh y khoa
• Bảo mật dữ liệu theo hướng on-device/hybrid
• Có thể triển khai cho bệnh viện/phòng khám

🧠 Tech stack nổi bật:
• Medical RAG + Vector Database: Qdrant
• OCR/Document Parsing cho PDF y khoa: HunyuanOCR
• LLM tiếng Việt: model chuyên dụng y tế tự finetuning
• Multilingual Embedding: model embedding chuyên cho y tế tiếng Việt phát triển từ bge
• Hybrid deployment: linh hoạt cloud/on-premise, phù hợp với bài toán dữ liệu y tế nhạy cảm

📊 Số liệu đáng chú ý:
• 3 ngôn ngữ: Việt, Anh và Trung
• Các thực thể tập trung chính để xây Knowledge Graph/Base: bệnh, thuốc, dược liệu, gene, hoá chất, triệu chứng/dấu hiệu,…
• Bộ dữ liệu tổng hợp từ hơn 100 nguồn y văn, ontology, cơ sở dữ liệu, bài thuốc, tin tức, blog và sách,…
• Quy mô khoảng 43.11B tokens với 31M văn bản
• Dữ liệu bao phủ giai đoạn từ năm 2000 đến 2026
• Các nguồn tiếng Việt/địa phương giúp bổ sung ngữ cảnh bệnh lý và thông tin sức khỏe phù hợp với người Việt

🔥 Use cases thực tế:
• AI assistant cho bác sĩ
• Chatbot tư vấn sức khỏe ban đầu
• OCR & phân tích bệnh án PDF
• Hỗ trợ sinh viên y khoa học tập
• Medical RAG cho bệnh viện
• Trợ lý tra cứu thuốc & phác đồ
• Theo dõi bệnh mãn tính
• Knowledge base nội bộ ngành y

Nếu các bạn có các nguồn dữ liệu, bài thuốc, sách,… hoặc các ý tưởng phát triển cho cộng đồng, nhóm sẽ luôn luôn sẵn sàng và đón nhận.

Các tính năng tiếp tục phát triển
• AI assistant cho tìm kiếm
• Knowledge Graph các thực thể tiếng Việt phân tích trên các tài liệu
• Đánh giá chất lượng nguồn dữ liệu
• Bổ sung và số hoá thêm các nguồn dữ liệu mới

07/05/2026

🎉 Xin chúc mừng sinh viên Phạm Ngọc Mai, Nguyễn Trang Linh và TS. Vương Thị Hải Yến với bài báo "Walk-In Multi-Stage Patient Flow Scheduling: An ASP Model with DES-Based Evaluation" vừa được chấp nhận đăng tại ICLP'26 - The 42nd International Conference on Logic Programming, một trong những hội nghị uy tín hàng đầu thế giới trong lĩnh vực Symbolic AI.
🔬 Tóm tắt công trình: Bài báo đề xuất một mô hình lập lịch khám phản ứng cho bệnh nhân tại bệnh viện đa khoa, sử dụng Answer Set Programming (ASP) để tính toán lộ trình khám tối ưu cho từng bệnh nhân ngay khi họ đến - cân bằng giữa thời gian di chuyển giữa các phòng và thời gian chờ trong hàng đợi. Nhóm tác giả còn xây dựng thêm tầng mô phỏng sự kiện rời rạc (DES) để đánh giá tính bền vững của lịch trong điều kiện thời gian khám mang tính ngẫu nhiên. Kết quả thực nghiệm cho thấy phương pháp ASP giúp giảm thời gian lưu trú và tăng tỉ lệ bệnh nhân không phải chờ so với các baseline, đặc biệt hiệu quả trong các kịch bản bệnh viện quá tải.
Một lần nữa, xin chúc mừng cô và các bạn sinh viên! 👏 Chúc nhóm sẽ tiếp tục gặt hái thêm nhiều thành công và có thêm các công bố chất lượng cao trong thời gian tới.

📢 Bên cạnh đó, nhóm nghiên cứu Legal Reasoning and Argumentation do TS. Vương Thị Hải Yến phụ trách cũng đang tuyển thêm thành viên mới. Các bạn sinh viên quan tâm có thể tham khảo thông tin dưới đây:
🔍 Hướng nghiên cứu: Nhóm tập trung vào việc mô hình hóa và tự động hóa lập luận pháp lý, bao gồm xây dựng, đánh giá và so sánh các lập luận dựa trên luật, chứng cứ và tiền lệ. Mục tiêu dài hạn là phát triển các hệ thống có khả năng hiểu ngữ cảnh pháp lý, giải thích quyết định và hỗ trợ dự đoán phán quyết trong những môi trường pháp lý phức tạp.
🎯 Yêu cầu ứng viên:
- Sinh viên năm 1–2, có nền tảng tốt về Toán (ưu tiên nữ và các bạn có giải quốc gia toán/tin).
- GPA từ loại Giỏi trở lên.
- Các môn Toán và Lập trình đạt A/A+; có khả năng đọc hiểu tài liệu tiếng Anh.
- Kiên trì, nghiêm túc và định hướng theo đuổi nghiên cứu lâu dài.

📩 Cách ứng tuyển: Gửi email tới cô Yến qua địa chỉ [email protected] trước ngày 15/05, bao gồm: giới thiệu bản thân, định hướng cá nhân và mong muốn khi tham gia nhóm, bảng điểm, cùng các thông tin liên quan khác (nếu có).

05/05/2026

DS&KTLab xin chúc mừng các nhóm sinh viên đã đạt thành tích xuất sắc tại hội nghị SV NCKH trường Đại học Công nghệ!

🥇Giải nhất: Nhóm sinh viên 💖Phạm Anh Tiến và 💖Nguyễn Phương Anh với đề tài "Robust Multimodal Learning under Imperfect Sentiment Data" do ThS. Nguyễn Thị Cẩm Vân và TS. Lê Đức Trọng hướng dẫn.

🥈🥈🥈🥈🥈🥈Sáu giải nhì:
🩷 Nhóm sinh viên Lê Phan Trí Đức và Nguyễn Hoàng Hà Anh với đề tài "Counterfactual Understanding via Retrieval-aware Multimodal Modeling for Time-to-Event Survival Prediction" do TS. Lê Hoàng Quỳnh và TS. Lê Đức Trọng hướng dẫn.
💚Nhóm sinh viên Hoàng Đức Dương và Lê Ngọc Quang với đề tài "CareerPathKG: Knowledge Graph Integrated Framework for Career Intelligence" do TS. Trần Mai Vũ và TS. Vương Thị Hải Yến hướng dẫn.
🧡Nhóm sinh viên Nguyễn Đình Đạt và Mai Đức Duy với đề tài "Statistical Memory Head for Class-Incremental Vision– Language Learning with CLIP" do PSG.TS. Đặng Thanh Hải và ThS. Phạm Thị Quỳnh Trang hướng dẫn.
💜Nhóm sinh viên Phạm Đức Hoàng và Nguyễn Quang Huy với đề tài "Semantic-Aware Bundle Construction via LLM-Enhanced Summarization and Multi-Graph Modeling" do TS. Lê Đức Trọng và TS. Lê Hoàng Quỳnh hướng dẫn.
💛Nhóm sinh viên Vũ Thị Minh Thư, Trần Đình Quang Minh và Nguyễn Bích Đạt với đề tài "Chain-of-Evidence Reasoning for Biomedical Question Answering with Selective Decomposition and Multi Source Retrieval" do TS. Lê Hoàng Quỳnh và ThS. Nguyễn Quốc An hướng dẫn.
💙Nhóm sinh viên Trần Hữu Huy Hoàng, Dương Gia Bảo và Trần Quốc Việt Anh với đề tài "Adaptive Context Selection and Knowledge-guided Learning for Substance Use Named Entity Recognition" do TS. Vương Thị Hải Yến và TS. Lê Hoàng Quỳnh hướng dẫn.

Chúc mừng tất cả các em 🥳🥳🥳.

28/04/2026

🚀 Dữ liệu nguồn mở tiếng Việt lớn nhất về tuyển dụng và bài báo tại hội nghị hàng đầu EACL 2026 – bước tiến lớn cho AI tuyển dụng tiếng Việt

Nhóm nghiên cứu tại phòng thí nghiệm DS&KTLab (Khoa Công nghệ thông tin, Đại học Công nghệ, ĐHQGHN) và TiniX AI vừa công bố một trong những dataset tuyển dụng tiếng Việt lớn nhất hiện nay với hơn 606.000 tin tuyển dụng thực tế.

Dataset gồm:
• job title, company, salary, location
• experience level, education level
• job description, requirements, benefits
• trải dài nhiều ngành như IT, Sales, Marketing, Kế toán…
• dữ liệu từ 2022–2026, định dạng Parquet, dễ xử lý cho NLP pipeline

Điểm đặc biệt là dataset này đã trở thành nền tảng dữ liệu thực tế cho bài báo khoa học CareerPathKG: Knowledge Graph Integrated Framework for Career Intelligence, được công bố tại EACL 2026 Industry Track, trang 813–822.

Nhóm nghiên cứu đã sử dụng:
• Job Descriptions thuộc 13 nhóm nghề công nghệ
• 13.129 CV đã ẩn danh
• chuẩn hóa còn 71 job titles
• xây dựng Knowledge Graph với 355 nodes và 6.254 edges

Từ đó tạo ra hệ thống hỗ trợ:
• CV Assessment
• CV–JD Matching
• Career Guidance
• phân tích skill gap và gợi ý lộ trình nghề nghiệp

Thay vì chỉ dùng LLM “hỏi–đáp”, CareerPathKG dùng Knowledge Graph + LLM để tạo hệ thống tuyển dụng vừa chính xác hơn, vừa giải thích được, vừa phù hợp với thị trường lao động Việt Nam.

Một số use case rất thực tế:
• Doanh nghiệp tự động sàng lọc CV hàng loạt, ưu tiên đúng ứng viên phù hợp thay vì đọc thủ công
• HR phân tích skill gap của ứng viên và đề xuất lộ trình đào tạo nội bộ
• Nền tảng tuyển dụng xây dựng job recommendation chính xác hơn cho ứng viên
• Trường đại học tư vấn nghề nghiệp cho sinh viên dựa trên xu hướng tuyển dụng thật từ doanh nghiệp
• EdTech xây dựng roadmap học tập theo từng vị trí như Data Analyst, Backend Developer, Product Manager
• Chính phủ và tổ chức nghiên cứu phân tích xu hướng lao động theo ngành, khu vực và mức lương
• Headhunter đánh giá mức độ chuyển đổi nghề nghiệp giữa các vị trí và seniority level
• AI Career Coach cá nhân hóa tư vấn nghề nghiệp thay vì chỉ chatbot hỏi đáp chung chung

Đây là ví dụ rất rõ cho giá trị của open dataset:
không chỉ phục vụ nghiên cứu, mà còn tạo ra sản phẩm AI tuyển dụng thực chiến cho doanh nghiệp.

Một hướng đi rất đáng chú ý cho HRTech Việt Nam:
Dataset lớn + Knowledge Graph + LLM = AI tuyển dụng thực sự hữu ích.

09/04/2026

💥MỞ HÀNG MÙA SĂN HỌC BỔNG 2026 VỚI ERASMUS MUNDUS SCHOLARSHIP💥

DS&KTLab xin chúc mừng sinh viên Lê Xuân Hùng vừa xuất sắc giành được học bổng toàn phần Erasmus Mundus cho chương trình Thạc sĩ Data Engineering & Artificial Intelligence (DEAI) 🎓.

Erasmus Mundus là một trong những học bổng danh giá hàng đầu, ước mơ của hầu hết sinh viên. Theo thông tin từ hội đồng tuyển chọn, chương trình nhận khoảng ~3,000 hồ sơ đều rất xuất sắc, nhưng chỉ chọn 25 ứng viên cho kỳ mùa thu 2026. Một tỉ lệ cạnh tranh cực kỳ khốc liệt, nhưng Hùng đã làm được! 🚀

Gia nhập Lab từ kỳ 2 năm 2 đại học, sau 2 năm “lăn lộn” nghiên cứu hết mình, Hùng đã tích lũy được 3 công bố quốc tế tại các hội nghị hàng đầu (EMNLP, WWW, SIGIR) và giải nhì sinh viên NCKH. Thành tích này quá xứng đáng để bước ra sân chơi quốc tế và chinh phục học bổng đỉnh cao ngay khi mới "chuẩn bị" tốt nghiệp Đại học trong tháng 6 tới đây.

❤️ Các thầy cô, anh chị em, bạn bè ở Lab xin gửi lời chúc mừng đến Hùng, chúc em sẽ tiếp tục thành công rực rỡ trong hành trình 2 năm tới chinh phục 3 nước châu Âu, cũng như chặng đường sau này!
👏 Cũng xin chúc mừng cô Quỳnh và thầy An đã góp phần đào tạo nên một sinh viên xuất sắc như vậy!
💥 Các bạn sinh viên ơi, vào xin vía may mắn và sự “cày cuốc” đỉnh cao của anh Hùng ngay thôi nào! Biết đâu học bổng tiếp theo sẽ gọi tên bạn 😉

08/04/2026

🎉✨ MÙA BỘI THU CỦA LAB NHÀ MÌNH! ✨🎉

Hội nghị Sinh viên Nghiên cứu Khoa học cấp khoa năm nay, các bạn sinh viên của lab đã xuất sắc gặt hái được tận 18 giải thưởng, không phải dạng vừa đâu nhé!!! 🏆

🥇 5 Giải Nhất — ra tay là chuẩn, hội đồng gật đầu cái rụp
🥈 6 Giải Nhì — chỉ thiếu một bước nữa thôi, năm sau lấy nốt!
🥉 3 Giải Ba — top 3 cũng là top, không phải bàn!
⭐ 4 Giải Khuyến Khích — chưa xong đâu, đây mới là khởi động!

Cảm ơn các bạn sinh viên đã cày ngày cày đêm, debug không biết mệt, và cuối cùng đã mang về kết quả xứng đáng 💪

Cảm ơn các thầy cô hướng dẫn đã kiên nhẫn đồng hành cùng các bạn trên hành trình này 🙏❤️

07/04/2026

🔥 DS&KT LAB @ ACL 2026 (MAIN CONFERENCE) 🔥

Tiếp tục chuỗi kết quả tại các hội nghị flagship, các học viên, sinh viên và giảng viên của DS&KT Lab tiếp tục ghi dấu tại ACL conference 2026 (main conference). Đây là hội nghị đứng đầu trong lĩnh vực Computational Linguistics và Natural Language Processing, với mức độ cạnh tranh rất cao (acceptance rate hàng năm chỉ ~20%).

🎉💯 HOPE: Hybrid Optimized Parallel Encoding with Supervised and Unsupervised Semantic Fusion for Depression Symptom Detection
DS&KTLab xin chúc mừng nhóm các bạn HV-SV Mai Tú Phương, Lê Hoàng Minh Hà, Trần Đức Lương, Chu Phương Anh, dưới sự hướng dẫn của thầy Cát và cô Quỳnh, được chấp nhận với mức đánh giá clear accept (Top 50% trong số các accepted papers).
💡 Công trình đề xuất HOPE - một kiến trúc hybrid kết hợp thông tin có giám sát và không giám sát trong thiết kế mã hóa song song, cùng cơ chế hợp nhất tối ưu. Mô hình cho phép phát hiện sớm các triệu chứng trầm cảm từ dữ liệu mạng xã hội, đạt hiệu năng vượt trội trên nhiều benchmark trong bối cảnh dữ liệu hạn chế nhãn.

🎉💯. QuDAR: Query-Wise Dual-Perspective Adaptive Retrieval
DS&KT Lab cũng xin chúc mừng bạn Lê Xuân Bách, trong thời gian thực tập hè 2025 tại Data Mining Lab, School of Computing, Korea Advanced Institute of Science and Technology (KAIST), đã tham gia và có đóng góp trong công trình QuDAR. Đây là minh chứng cho khả năng nghiên cứu, cộng tác và thích ứng nhanh nhạy trong môi trường mới của các các bạn sinh viên được đào tạo từ cái nôi DS&KTLab.
💡 QuDAR đề xuất một framework adaptive retrieval gọn nhẹ, training-free cho các hệ RAG, cho phép tự động điều chỉnh trọng số giữa các mô hình (sparse/dense) và dạng truy vấn (gốc/mở rộng) theo từng query. Cách tiếp cận dual-perspective giúp giảm nhiễu và cải thiện đáng kể hiệu năng (tới ~30% so với các phương pháp kết hợp tĩnh), đồng thời tăng tính ổn định mà không cần chi phí huấn luyện bổ sung.

05/04/2026

DS&KTLab tuyển thành viên nghiên cứu mới!

Tiếp đà accept báo và mở rộng các hướng nghiên cứu, lab đang tìm thêm những bạn cùng đam mê, mà thực sự muốn gắn bó lâu dài với nghiên cứu.
Nếu bạn đang tìm một môi trường để học hỏi, thử sức với các bài toán thực tế và định hướng học thuật nghiêm túc, vui lòng điền form để tham gia ứng tuyển. Các thầy cô sẽ chủ động liên hệ lại trong thời gian sớm nhất: https://forms.gle/LFc5CP39f4A5QpXp8

Các hướng nghiên cứu tuyển thành viên:

📌 Chủ đề: Multimodal Learning (ThS. Nguyễn Thị Cẩm Vân)
🔍 Các hướng nghiên cứu:
- Robust Multimodal Learning: imbalanced modality, incomplete/missing modality
- Multimodal Affective Computing: multimodal emotion recognition, multimodal sentiment analysis
- Multimodal Conversational AI: multimodal empathetic response generation, multimodal conversational recommendation
- Informatic-Theoretical Multimodal Learning: explainable multimodal modeling and interaction
🎯 Yêu cầu:
- Sinh viên năm 2–3, GPA từ 3.4 trở lên
- Tiếng Anh tốt, Toán tốt
- Ưu tiên đã quen thuộc với các deep learning framework: PyTorch, TensorFlow

📌 Chủ đề: Explainable và Multimodal Recommender Systems (TS. Lê Đức Trọng, TS. Lê Hoàng Quỳnh)
🎯 Yêu cầu:
- Phù hợp với các bạn sinh viên có định hướng nghiên cứu lâu dài. Ưu tiên sinh viên năm 2, hoặc sinh viên năm nhất có giải quốc gia Toán/Tin.
- Điểm các môn Đại số, Giải tích và Xác suất thống kê đạt A/A+.
- Có khả năng lập trình, quen thuộc với PyTorch hoặc TensorFlow và khả năng đọc hiểu tiếng Anh.

📌 Chủ đề: Legal Natural Language Processing (HVCH. Nguyễn Tấn Minh, TS. Vương Thị Hải Yến)
🔍 Nghiên cứu và phát triển các phương pháp xử lý ngôn ngữ tự nhiên cho văn bản pháp lý (luật, án lệ, hợp đồng), bao gồm phân loại, trích xuất thông tin, truy hồi và tóm tắt văn bản pháp luật.
🎯 Yêu cầu:
- Sinh viên năm 1–2 (ưu tiên nữ và các bạn đạt giải quốc gia Toán/Tin)
- GPA Giỏi trở lên
- Có khả năng lập trình, triển khai bài toán tốt và đọc hiểu tiếng Anh
- Kiên trì, nghiêm túc, định hướng theo đuổi nghiên cứu lâu dài

📌 Chủ đề: Logical and Symbolic AI (TS. Vương Thị Hải Yến)
🔍 Nghiên cứu các phương pháp trí tuệ nhân tạo dựa trên logic và symbolic, bao gồm biểu diễn tri thức, suy luận logic, lập lịch, hệ luật và các mô hình suy diễn nhằm giải quyết các bài toán suy luận và ra quyết định có tính hình thức cao.
🎯 Yêu cầu:
- Sinh viên năm 1–2 (ưu tiên nữ và các bạn đạt giải quốc gia Toán/Tin)
- GPA Giỏi trở lên
- Có khả năng lập trình, triển khai bài toán tốt và đọc hiểu tiếng Anh
- Kiên trì, nghiêm túc, định hướng theo đuổi nghiên cứu lâu dài

Hạn cuối nộp đăng ký: 23h59, 15/04/2026

docs.google.com

03/04/2026

🎉🎉🎉 Tháng tư là lời accept của em 🎉🎉🎉
Những ngày đầu tháng 4, các thành viên DS&KTLab được nhận không phải 1 mà tận 3️⃣ “lá thư” thật đặc biệt - email chấp nhận đăng từ hội nghị hàng đầu thế giới về Information Retrieval "The 49th International ACM Conference on Research and Development in Information Retrieval (SIGIR, rank A*).
DS&KTLab chúc mừng các nhóm sinh viên, học viên cùng các thầy cô hướng dẫn đã vô cùng nhiệt huyết:
👏Các bạn SV Nguyễn Quang Huy, Phạm Đức Hoàng, Nguyễn Thanh Hải và Thái Khắc Mạnh với bài báo 🛒"From Top-1 to Top-K: A Reproducibility Study and Benchmarking of Counterfactual Explanations for Recommender Systems".
👏 SV Lê Xuân Hùng với bài báo 📕"Graph-Enhanced Sentence Retrieval for Multi-Document Summarization in Low-Resource Languages".
👏 HVCH Nguyễn Minh Hiển, SV Nguyễn Khánh Huyền và HVCH Nguyễn Tấn Minh với bài báo ⚖️"ViCSR: A Large-scale Benchmark and Lightweight Two-Stage Framework for Vietnamese Case-to-Statute Retrieval".
DS&KT Lab cũng xin gửi lời chúc mừng và tri ân đến ❤️‍🔥cô Quỳnh, ❤️‍🔥thầy Trọng, ❤️‍🔥cô Yến, ❤️‍🔥cô Vân, ❤️‍🔥thầy An, ❤️‍🔥thầy Sơn và các cộng sự khác trong và ngoài nước của DS&KTLab đã luôn tận tâm hết mình vì khoa học.

✍️✍️✍️Sơ lược về các bài báo:
🛒From Top-1 to Top-K: A Reproducibility Study and Benchmarking of Counterfactual Explanations for Recommender Systems:
Counterfactual explanations (CEs) provide an intuitive way to understand recommender systems by identifying minimal modifications to user–item interactions that alter recommendation outcomes. Existing CE methods have been evaluated under heterogeneous protocols, hindering reproducibility and fair comparison. This paper systematically reproduces and re-evaluates eleven state-of-the-art CE methods and proposes a unified benchmarking framework across explanation formats, evaluation levels, and perturbation scopes. Extensive experiments show that no single method dominates across all settings, highlight effectiveness–sparsity trade-offs, and reveal scalability challenges of graph-based explainers.

📕Graph-Enhanced Sentence Retrieval for Multi-Document Summarization in Low-Resource Languages:
We address the trade-off in low-resource summarization between large but costly models and smaller models prone to hallucination. Our approach uses extractive sentence retrieval combined with language-adaptive mixture-of-experts embeddings and graph neural networks. With only 3.2M parameters, the model reduces training time by 28× compared to transformer-based methods, making it practical for single-GPU settings, and demonstrates effectiveness across multiple Southeast Asian languages.

⚖️ViCSR: A Large-scale Benchmark and Lightweight Two-Stage Framework for Vietnamese Case-to-Statute Retrieval:
We introduce ViCSR, a benchmark of 10,000 Vietnamese criminal cases and 1,122 statutory articles with citation-based relevance labels. We also propose a lightweight two-stage framework combining a fine-tuned Vietnamese bi-encoder for retrieval and a heterogeneous GNN for reranking. Results show clear improvements over strong baselines, emphasizing the importance of domain adaptation and structure-aware modeling in legal IR.

17/03/2026

🎉🎉🎉Xin chúc mừng cô Phạm Thị Quỳnh Trang, thầy Lê Đức Trọng cùng các sinh viên Mạc Quang Đạt và Nguyễn Thanh Hà với bài báo “SO-LoRA: Sparse Orthogonal LoRA for Parameter-Efficient Continual Learning” được chấp nhận đăng tại IEEE International Conference on Multimedia and Expo 2026 (ICME 2026), hội nghị rank A uy tín trong lĩnh vực Computer Vision và Multimedia Computation.

🌟 Điểm nổi bật của công trình:
Bài báo đề xuất một hướng tiếp cận mới cho bài toán continual learning với LoRA, với nhiều thách thức như bùng nổ tham số khi dùng adapter riêng cho từng tác vụ và quên thảm họa khi chia sẻ adapter. Giải pháp SO-LoRA đề xuất biểu diễn tri thức dưới dạng tổ hợp thưa (sparse compositions) trên một không gian trực giao chung (orthogonal basis). Ngoài ra, nghiên cứu còn sử dụng group sparsity regularization để giảm nhiễu giữa các tác vụ và đề xuất kết hợp gradient-aware soft mask nhằm bảo vệ tri thức đã học.
SO-LoRA giới hạn rõ ràng sự giao thoa gradient giữa các tác vụ qua và đem lại kết quả vượt trội so với các phương pháp hiện tại trên nhiều benchmark mà không làm tăng độ phức tạp tham số, kể cả trong các bài toán chuỗi dài.
Bài báo là một đóng góp khoa học trong giao điểm của nhiều lĩnh vực được cộng đồng nghiên cứu quan tâm như parameter-efficient learning, continual learning và multimodal / multimedia systems.
Công trình không chỉ có giá trị học thuật cao mà còn mở ra hướng tiếp cận thực tiễn cho các hệ thống AI cần học liên tục trong điều kiện tài nguyên hạn chế.

👏 Một lần nữa xin chúc mừng cô, thầy và các bạn sinh viên!
Chúc nhóm sẽ tiếp tục gặt hái thêm nhiều thành công và có thêm các công bố chất lượng cao trong tương lai!

15/03/2026

🎉 Chúc mừng PGS.TS. Trần Trọng Hiếu – “đầu tàu” mới của DS&KTLab! 🎉

Trong tháng 3 này, DS&KTLab rất vui mừng khi PGS.TS. Trần Trọng Hiếu chính thức được bổ nhiệm giữ cương vị Trưởng phòng thí nghiệm DS&KTLab. Đây không chỉ là sự ghi nhận xứng đáng cho những đóng góp chuyên môn và tâm huyết của thầy trong suốt thời gian qua, mà còn là sự tin tưởng của lãnh đạo đối với năng lực và tầm nhìn của thầy trong việc dẫn dắt phòng thí nghiệm.
Đối với anh chị em trong lab, thầy Hiếu từ lâu đã là một người đồng nghiệp, người anh gần gũi, luôn sẵn sàng chia sẻ, hỗ trợ và truyền cảm hứng cho mọi người trong học tập, nghiên cứu và công việc. Vì vậy, việc thầy đảm nhận vai trò mới càng khiến mọi thành viên thêm yên tâm và tin tưởng vào chặng đường phát triển tiếp theo của DS&KTLab.

Chúc thầy thật nhiều sức khỏe, nhiệt huyết và thành công trên cương vị mới. DS&KTLab tin rằng dưới sự dẫn dắt của thầy, chúng ta sẽ cùng nhau viết tiếp những chặng đường rực rỡ phía trước! 🚀

✍️📘Sơ lược về thầy Trần Trọng Hiếu:
PGS.TS. Trần Trọng Hiếu là nhà nghiên cứu và giảng viên trong lĩnh vực Khoa học máy tính và Hệ thống thông tin, với trọng tâm nghiên cứu về trí tuệ nhân tạo, biểu diễn tri thức và suy luận, đồ thị tri thức và các hệ thống dữ liệu thông minh. Thầy nhận bằng Tiến sĩ Công nghệ thông tin tại Đại học Wrocław University of Science and Technology (Ba Lan) và Đại học Swinburne University of Technology (Úc).
Hướng nghiên cứu của thầy tập trung vào các nền tảng lý thuyết của quản lý và tích hợp tri thức, đặc biệt trong các chủ đề như belief revision, belief merging, xử lý không nhất quán và suy luận trên đồ thị tri thức. Các công trình của thầy hướng tới việc phát triển các mô hình và framework lý thuyết cho việc tích hợp, cập nhật và suy luận tri thức trong các hệ thống thông tin phức tạp. Trong những năm gần đây, thầy quan tâm đến việc mở rộng các phương pháp logic-based AI sang các hệ thống dữ liệu quy mô lớn và các kiến trúc AI hiện đại, bao gồm AI dựa trên đồ thị tri thức, tích hợp đồ thị tri thức với các mô hình ngôn ngữ lớn và các kiến trúc GraphRAG cho các hệ thống AI dựa trên tri thức. Mục tiêu của các nghiên cứu này là xây dựng các hệ thống AI có khả năng suy luận, giải thích và tích hợp tri thức một cách đáng tin cậy trong các môi trường dữ liệu đa nguồn. Thầy đã chủ trì 02 đề tài nghiên cứu cấp ĐHQGHN, tham gia 02 đề tài của NAFOSTED, là tác giả của 23 công trình công bố quốc tế và là đồng tác giả của một quyển sách chuyên khảo.
Bên cạnh hoạt động nghiên cứu, thầy rất tích cực tham gia giảng dạy và phát triển chương trình đào tạo trong các lĩnh vực như hệ thống thông tin, thương mại điện tử, kiến trúc hệ thống phần mềm và các công nghệ trí tuệ nhân tạo. Thầy đã đồng hướng dẫn 02 NCS bảo vệ thành công luận án tiến sĩ, hơn 10 học viên bảo vệ luận văn thạc sĩ và rất nhiều KLTN/ĐATN của sinh viên.
Ngoài ra, thầy cũng tham gia thiết kế và phát triển các nền tảng phần mềm cho doanh nghiệp, bao gồm hệ thống ERP, kiến trúc microservices, nền tảng dữ liệu và các ứng dụng AI cho phân tích và tự động hóa quy trình. Thầy đặc biệt quan tâm đến việc đưa các phương pháp AI hiện đại như GraphRAG, Knowledge-driven AI và Large-scale data systems vào các hệ thống thực tế.

Claim ownership or report listing

Want your school to be the top-listed School/college in Hanoi?

Click here to claim your Sponsored Listing.