07/06/2026
🌟 𝐑𝐄𝐂𝐀𝐏 𝐁𝐔Ổ𝐈 𝐂𝐇𝐈𝐀 𝐒Ẻ 𝐕Ề 𝐏𝐇Á𝐓 𝐇𝐈Ệ𝐍 𝐗Â𝐌 𝐍𝐇Ậ𝐏 𝐌Ạ𝐍𝐆 𝐁Ằ𝐍𝐆 𝐌Ạ𝐍𝐆 𝐍Ơ-𝐑𝐎𝐍 ĐỒ 𝐓𝐇Ị 𝐊𝐇Ô𝐍𝐆 𝐆𝐈𝐀𝐍 - 𝐓𝐇Ờ𝐈 𝐆𝐈𝐀𝐍 (𝐒𝐓-𝐆𝐍𝐍) 🌟
Chủ nhật ngày 07/06/2026, IST Lab đã tổ chức buổi seminar sinh hoạt hàng tuần với chủ đề thảo luận về nghiên cứu tổng quan (survey) ứng dụng 𝐌ạ𝐧𝐠 𝐧ơ-𝐫𝐨𝐧 đồ 𝐭𝐡ị 𝐤𝐡ô𝐧𝐠 𝐠𝐢𝐚𝐧 - 𝐭𝐡ờ𝐢 𝐠𝐢𝐚𝐧 (𝐒𝐩𝐚𝐭𝐢𝐨-𝐓𝐞𝐦𝐩𝐨𝐫𝐚𝐥 𝐆𝐫𝐚𝐩𝐡 𝐍𝐞𝐮𝐫𝐚𝐥 𝐍𝐞𝐭𝐰𝐨𝐫𝐤𝐬 - 𝐒𝐓-𝐆𝐍𝐍) trong các 𝐇ệ 𝐭𝐡ố𝐧𝐠 𝐩𝐡á𝐭 𝐡𝐢ệ𝐧 𝐱â𝐦 𝐧𝐡ậ𝐩 (𝐈𝐧𝐭𝐫𝐮𝐬𝐢𝐨𝐧 𝐃𝐞𝐭𝐞𝐜𝐭𝐢𝐨𝐧 𝐒𝐲𝐬𝐭𝐞𝐦𝐬 - 𝐈𝐃𝐒).
Dưới đây là nội dung chi tiết và phân tích từ buổi seminar:
🎯 𝟏. 𝐓ó𝐦 𝐭ắ𝐭 𝐧ộ𝐢 𝐝𝐮𝐧𝐠 𝐯à 𝐩𝐡ươ𝐧𝐠 𝐩𝐡á𝐩 𝐧𝐠𝐡𝐢ê𝐧 𝐜ứ𝐮
* 𝐌ụ𝐜 𝐭𝐢ê𝐮: Đánh giá các nghiên cứu hiện tại, phân loại kiến trúc và vạch ra định hướng tương lai cho hệ thống phát hiện xâm nhập dựa trên đồ thị (graph-based intrusion detection).
* 𝐓𝐫ọ𝐧𝐠 𝐭â𝐦: Hệ thống hóa các phương pháp hiện có và phân tích các bài toán cốt lõi.
* 𝐂ô𝐧𝐠 𝐧𝐠𝐡ệ 𝐜ố𝐭 𝐥õ𝐢: ST-GNN - phương pháp kết hợp phân tích cấu trúc kết nối mạng (không gian) và chuỗi biến động lưu lượng (thời gian).
✅ 𝟐. Ư𝐮 đ𝐢ể𝐦 𝐜ủ𝐚 𝐡ướ𝐧𝐠 𝐭𝐢ế𝐩 𝐜ậ𝐧
* 𝐍ắ𝐦 𝐛ắ𝐭 𝐧𝐠ữ 𝐜ả𝐧𝐡: Việc chuyển đổi chuỗi gói tin/luồng dữ liệu thô (raw packet/flow strings) thành đồ thị không gian-thời gian giúp mô hình xác định mối quan hệ giữa các máy chủ (hosts) và các đặc trưng cấu trúc (structural features) tốt hơn so với nhật ký dạng vector phẳng (flat vector logs) truyền thống.
* 𝐏𝐡á𝐭 𝐡𝐢ệ𝐧 𝐭ấ𝐧 𝐜ô𝐧𝐠 𝐥é𝐧 𝐥ú𝐭 (𝐒𝐭𝐞𝐚𝐥𝐭𝐡𝐲 𝐚𝐭𝐭𝐚𝐜𝐤𝐬): Bằng cách xử lý đồng thời không gian và thời gian, các lớp ST-GNN duy trì được thông tin lịch sử, mang lại hiệu năng nhận diện cao hơn so với các mô hình GNN tĩnh (static GNNs).
⚠️ 𝟑. 𝐓𝐡á𝐜𝐡 𝐭𝐡ứ𝐜 𝐯à 𝐍𝐡ượ𝐜 đ𝐢ể𝐦
* 𝐍ú𝐭 𝐭𝐡ắ𝐭 𝐭í𝐧𝐡 𝐭𝐨á𝐧 (𝐂𝐨𝐦𝐩𝐮𝐭𝐚𝐭𝐢𝐨𝐧𝐚𝐥 𝐛𝐨𝐭𝐭𝐥𝐞𝐧𝐞𝐜𝐤𝐬): Quá trình truyền thông điệp (message passing) không gian-thời gian tạo ra khối lượng tính toán lớn. Việc theo dõi các nút/cạnh (nodes/edges) thay đổi liên tục tiêu tốn nhiều bộ nhớ và gây độ trễ. Đây là một bài toán cần giải quyết, đặc biệt đối với việc tối ưu hóa hiệu năng xử lý ở mức thanh ghi (registers) hay kiến trúc phần cứng.
* 𝐐𝐮𝐲 𝐦ô 𝐝ữ 𝐥𝐢ệ𝐮: Khi triển khai thực tế (live deployments), hệ thống đối mặt với sự gia tăng kích thước đồ thị trong các mạng dày đặc (dense networks), mức độ lệch dữ liệu (data skewness) cao và cửa sổ xử lý (processing windows) hẹp đối với luồng lưu lượng trực tiếp (live traffic streams).
* 𝐓𝐡𝐢ế𝐮 𝐡ụ𝐭 𝐜𝐡𝐮ẩ𝐧 𝐡ó𝐚 (𝐋𝐚𝐜𝐤 𝐨𝐟 𝐬𝐭𝐚𝐧𝐝𝐚𝐫𝐝𝐢𝐳𝐚𝐭𝐢𝐨𝐧): Hiện tại vẫn thiếu các bộ dữ liệu đồ thị an ninh mạng nguyên bản (native cyber-graph datasets). Quá trình biến đổi từ PCAP thô sang đồ thị chưa có quy tắc chuẩn, thường phụ thuộc vào các thiết lập cửa sổ trượt (sliding windows) tùy chỉnh.
* 𝐊𝐡ả 𝐧ă𝐧𝐠 𝐠𝐢ả𝐢 𝐭𝐡í𝐜𝐡 (𝐄𝐱𝐩𝐥𝐚𝐢𝐧𝐚𝐛𝐢𝐥𝐢𝐭𝐲): Việc đánh giá đối chuẩn (benchmarking) hiện khá phân mảnh, khó tái tạo mã nguồn (code reproducibility) do sử dụng các tập lệnh (scripts) độc quyền. Các nhúng đồ thị (graph embeddings) vẫn mang tính "hộp đen" (black boxes) đối với chuyên gia phân tích.
📌 𝐓ổ𝐧𝐠 𝐤ế𝐭
Buổi chia sẻ đã cung cấp góc nhìn thực tế về tiềm năng và giới hạn của ST-GNN trong lĩnh vực IDS. Hướng đi này mở ra các không gian nghiên cứu mới, đòi hỏi cộng đồng giải quyết bài toán tối ưu hóa tài nguyên tính toán, xây dựng kiến trúc mạng tinh gọn (lightweight architectures) và phát triển các khung đánh giá (testing frameworks) chuẩn mực để đưa mô hình vào ứng dụng thực tế.
📞 𝐋𝐢ê𝐧 𝐡ệ
🏢 IST Lab - PTIT Information Security Technology Laboratory
☎️ SĐT: +84 90 989 9791
📧 Email: [email protected]
31/05/2026
𝐁Á𝐎 𝐂Á𝐎 𝐓Ổ𝐍𝐆 𝐊Ế𝐓 𝐒𝐄𝐌𝐈𝐍𝐀𝐑 𝐊𝐇𝐎𝐀 𝐇Ọ𝐂: 𝐇Ợ𝐏 𝐓Á𝐂 𝐆𝐈Ữ𝐀 𝐇Ọ𝐂 𝐕𝐈Ệ𝐍 𝐂Ô𝐍𝐆 𝐍𝐆𝐇Ệ 𝐁Ư𝐔 𝐂𝐇Í𝐍𝐇 𝐕𝐈Ễ𝐍 𝐓𝐇Ô𝐍𝐆 𝐕À 𝐇Ọ𝐂 𝐕𝐈Ệ𝐍 𝐊Ỹ 𝐓𝐇𝐔Ậ𝐓 𝐌Ậ𝐓 𝐌Ã
Buổi seminar khoa học là sự kiện hợp tác chuyên môn giữa Học viện Công nghệ Bưu chính Viễn thông và Học viện Kỹ thuật Mật mã, nhằm tạo diễn đàn giao lưu và trao đổi học thuật chất lượng cao. Chương trình hân hạnh có sự tham gia trình bày của các khách mời là chuyên gia trong lĩnh vực an toàn thông tin và thuật toán: Thạc sĩ Lê Ngọc Hiếu và Kỹ sư Bùi Phi Hùng.
---
📑 𝐍Ộ𝐈 𝐃𝐔𝐍𝐆 𝐂𝐇Í𝐍𝐇 𝐂Ủ𝐀 𝐁𝐔Ổ𝐈 𝐒𝐄𝐌𝐈𝐍𝐀𝐑
Xuyên suốt chương trình, các chuyên gia và khách mời đã trình bày về 3 nội dung trọng tâm:
1. Tổng quan tình hình an ninh mạng hiện nay trong bối cảnh trí tuệ nhân tạo.
2. Chia sẻ kết quả nghiên cứu và định hướng ứng dụng AI trong an toàn thông tin.
3. Trao đổi học thuật, thảo luận và phần hỏi đáp (Q&A).
Trong khuôn khổ phần 2 về chia sẻ kết quả nghiên cứu, hai báo cáo đã được các khách mời trình bày chi tiết:
🛡️ 𝐂𝐡ủ đề 1: 𝐂𝐨𝐧𝐭𝐞𝐱𝐭-𝐀𝐰𝐚𝐫𝐞 𝐌𝐇𝐒𝐀 𝐟𝐨𝐫 𝐈𝐧𝐭𝐞𝐫𝐩𝐫𝐞𝐭𝐚𝐛𝐥𝐞 𝐄𝐧𝐝𝐩𝐨𝐢𝐧𝐭 𝐓𝐡𝐫𝐞𝐚𝐭 𝐂𝐥𝐚𝐬𝐬𝐢𝐟𝐢𝐜𝐚𝐭𝐢𝐨𝐧 𝐢𝐧 𝐄𝐧𝐭𝐞𝐫𝐩𝐫𝐢𝐬𝐞 𝐒𝐲𝐬𝐭𝐞𝐦𝐬 𝐒𝐮𝐩𝐩𝐨𝐫𝐭𝐢𝐧𝐠 5𝐆/6𝐆
Báo cáo tập trung vào bài toán bảo mật trên hạ tầng mạng 5G/6G với các vấn đề cốt lõi sau:
• Phân tích bề mặt tấn công tại các hệ thống IT của doanh nghiệp sử dụng hệ điều hành Windows.
• Chỉ ra thách thức lớn trong việc phân tích mã độc là phải xử lý các báo cáo sandbox CAPEv2 có cấu trúc JSON lồng ghép sâu.
• Nêu rõ nhược điểm của các mô hình chuỗi phẳng truyền thống là thường cắt xén dữ liệu, làm mất cấu trúc phân nhánh và các manh mối đồng xuất hiện của API.
• Đề xuất giải pháp HMIL-MHSA (Hierarchical Multiple Instance Learning kết hợp Multi-Head Self-Attention) để thay thế cơ chế SegmentedMeanMax.
• Khối MHSA cho phép các phiên bản API tương tác với nhau trước khi tổng hợp.
• Quá trình này giúp bảo toàn bối cảnh khi mã độc thực thi các chuỗi lệnh cấp thấp (ví dụ: quá trình cấp phát và can thiệp bộ nhớ hệ thống từ hàm OpenProcess chuyển sang VirtualAllocEx).
📊 𝐂𝐡ủ đề 2: 𝐋𝐢ệ𝐭 𝐤ê 𝐭ậ𝐩 𝐭ố𝐢 𝐭𝐡𝐢ể𝐮 𝐭𝐫𝐨𝐧𝐠 𝐛à𝐢 𝐭𝐨á𝐧 𝐌𝐞𝐭𝐫𝐢𝐜 𝐆𝐫𝐚𝐩𝐡 (𝐂𝐨𝐫𝐞 𝐑𝐞𝐬𝐞𝐚𝐫𝐜𝐡 𝐏𝐫𝐨𝐛𝐥𝐞𝐦)
Báo cáo thứ hai đi sâu vào thuật toán đồ thị metric với các hướng tiếp cận sau:
• Giải quyết vấn đề liệt kê các giải pháp tối thiểu bao hàm (inclusion-minimal solutions).
• Hướng tới mục tiêu tránh các kết quả dư thừa, thay vì chỉ tìm kiếm một giải pháp nhỏ nhất duy nhất.
• Phân tích ba đối tượng chính cấu thành nên cấu trúc đồ thị bao gồm: tập giải quyết (resolving sets), tập trắc địa (geodetic sets) và tập giải quyết mạnh (strong resolving sets).
• Phân tích vấn đề trọng tâm nhằm đánh giá mức độ tương quan của các bài toán này so với Trans-Enum (bài toán đối ngẫu siêu đồ thị).
• Đưa ra kết luận chỉ ra rằng cốt lõi của một số ràng buộc đồ thị dựa trên khoảng cách về bản chất chính là các ràng buộc chạm (hitting constraints).
---
🤝 𝐊Ế𝐓 𝐋𝐔Ậ𝐍 & 𝐓𝐑𝐀𝐎 ĐỔ𝐈 𝐇Ọ𝐂 𝐓𝐇𝐔Ậ𝐓
Buổi seminar đã cung cấp một bức tranh toàn cảnh về tình hình an ninh mạng hiện nay thông qua các ý chính:
• Nhấn mạnh vào những cơ hội và thách thức trong bối cảnh trí tuệ nhân tạo (AI) phát triển mạnh mẽ.
• Vạch ra những định hướng rõ ràng cho việc ứng dụng AI vào an toàn thông tin qua việc chia sẻ các kết quả nghiên cứu cụ thể.
• Khai thác các khía cạnh đa dạng từ phân loại mã độc trên hạ tầng viễn thông đến việc giải quyết các bài toán tối ưu đồ thị.
Phần trao đổi học thuật và hỏi đáp (Q&A) cuối chương trình đã mang lại nhiều giá trị thiết thực:
• Diễn ra sôi nổi và giúp làm rõ thêm tính ứng dụng của các giải pháp được đề xuất.
• Tạo tiền đề quan trọng để tiếp tục mở rộng các hướng nghiên cứu mới.
📌 liên hệ
🏢 IST Lab - PTIT Information Security Technology Laboratory
📞 SĐT: +84 90 989 9791
📧 Email: [email protected]
24/05/2026
🚀 TÍCH HỢP TRANSFORMER MHSA VÀ XAI: GIẢI MÃ "HỘP ĐEN" TRONG PHÂN LOẠI MÃ ĐỘC
Chào các bạn! Tiếp nối chuỗi chủ đề về phát hiện mã độc, tuần này IST Lab sẽ đi sâu vào phân tích hướng đề xuất số 1: Tích hợp mô hình Transformer MHSA (Multi-Head Self-Attention) kết hợp với XAI (Explainable AI). Hãy cùng khám phá xem sự kết hợp này, đặc biệt là những đóng góp của XAI, giúp định hình lại cách chúng ta phân tích mã độc như thế nào nhé! 👇
🌟 Phần 1: Nền tảng từ cơ chế Transformer MHSA
Để XAI có thể hoạt động hiệu quả, Transformer MHSA đóng vai trò là lớp nền tảng vững chắc. Thay vì xử lý dữ liệu một cách tuyến tính, cơ chế Multi-Head Self-Attention liên tục đánh giá mức độ liên kết và tầm quan trọng của từng hành vi (như các lời gọi API, thay đổi registry) trong toàn bộ chuỗi thực thi. Quá trình tính toán ma trận trọng số (Attention weights) này chính là "chìa khóa" cung cấp nguồn dữ liệu phong phú để giải thích sau này.
🌟 Phần 2: Đóng góp cốt lõi của XAI - Phá vỡ rào cản "Hộp đen"
Điểm nhấn lớn nhất của hướng nghiên cứu này nằm ở việc ứng dụng XAI (Trí tuệ nhân tạo có khả năng giải thích) để "bạch hóa" các mô hình học sâu. Cụ thể, XAI mang lại những giá trị đột phá sau:
Trực quan hóa sự "chú ý" của mô hình: Các công cụ XAI trực tiếp khai thác ma trận trọng số từ lớp MHSA để "chỉ điểm" chính xác mô hình đang tập trung vào đâu. Thay vì chỉ trả về một nhãn "Malware" khô khan, XAI sẽ vạch trần chuỗi API hoặc thao tác hệ thống cụ thể nào (ví dụ: hành vi lén tạo dịch vụ, tiêm mã vào process khác) đã kích hoạt cảnh báo.
Củng cố niềm tin (Trust in AI): Một hệ thống bảo mật không thể hoạt động hiệu quả nếu con người không tin tưởng nó. Bằng cách giải thích rõ ràng lý do phân loại, XAI giúp các nhà phân tích bảo mật xác minh xem AI đang học đúng bản chất của mã độc hay chỉ đang "học vẹt" các đặc trưng nhiễu, từ đó loại bỏ các cảnh báo nhầm (false positives).
Định hướng xây dựng luật phòng thủ (Rule Generation): Những lời giải thích từ XAI không chỉ để "xem cho biết". Các chuyên gia tại trung tâm điều hành an toàn thông tin (SOC) có thể chuyển hóa trực tiếp những chuỗi hành vi bất thường do XAI chỉ ra thành các bộ luật phòng thủ thực tiễn (như YARA hay Suricata rules) để ngăn chặn mã độc lây lan nhanh chóng.
💡 Tóm lại
Hướng đề xuất số 1 không chỉ tạo ra một cỗ máy phân loại chính xác, mà quan trọng hơn là mang AI và con người lại gần nhau. XAI biến mô hình Transformer từ một "hộp đen" bí ẩn thành một trợ lý minh bạch, cung cấp những bằng chứng (evidence) sắc bén để chuyên gia bảo mật tự tin đưa ra quyết định ứng phó.
Việc ứng dụng AI sâu vào an toàn thông tin vẫn luôn là một hành trình thú vị. Đừng quên theo dõi fanpage để cập nhật những chia sẻ và nghiên cứu mới nhất từ IST Lab nhé! 😉
📌 liên hệ
🏢 IST Lab - PTIT Information Security Technology Laboratory
📞 SĐT: +84 90 989 9791
📧 Email: [email protected]
17/05/2026
🚨 𝐊𝐇Á𝐌 𝐏𝐇Á 𝐁Ộ 𝐃Ữ 𝐋𝐈Ệ𝐔 𝐀𝐕𝐀𝐒𝐓-𝐂𝐓𝐔 𝐕À 𝐁Ứ𝐂 𝐓𝐑𝐀𝐍𝐇 𝐓𝐎À𝐍 𝐂Ả𝐍𝐇 𝐕Ề 𝐏𝐇Á𝐓 𝐇𝐈Ệ𝐍 𝐌Ã ĐỘ𝐂 𝐁Ằ𝐍𝐆 𝐀𝐈 🚨
Chào các bạn! Tuần này IST Lab đã tổ chức buổi Seminar về tập dữ liệu phân loại mã độc Avast-CTU Public CAPE. Cùng xem bộ dữ liệu này có gì đặc biệt và các phương pháp AI hiện tại đang "giải" bài toán này như thế nào nhé! 🔍
📦 𝐏𝐡ầ𝐧 𝟏: 𝐂ó 𝐠ì 𝐛ê𝐧 𝐭𝐫𝐨𝐧𝐠 𝐛ộ 𝐝ữ 𝐥𝐢ệ𝐮 𝐀𝐯𝐚𝐬𝐭-𝐂𝐓𝐔?
Được thu thập từ một hệ thống sandbox thực tế, bộ dữ liệu này cung cấp một cái nhìn cực kỳ chi tiết về hành vi của mã độc:
* 𝐐𝐮𝐲 𝐦ô ấ𝐧 𝐭ượ𝐧𝐠: Bộ dữ liệu chứa 48.976 mẫu mã độc, được phân loại thành 10 họ (families) và 6 loại (types) khác nhau.
* 𝐂ấ𝐮 𝐭𝐫ú𝐜 𝐝ữ 𝐥𝐢ệ𝐮: Khác với các bộ dữ liệu dùng vector đặc trưng độ dài cố định, mỗi mẫu ở đây là một báo cáo định dạng JSON có cấu trúc cây phức tạp. Báo cáo này bao gồm cả siêu dữ liệu tĩnh (static PE metadata) và đặc biệt là tóm tắt hành vi động (behavior summary) có thể chứa tới hơn 3.000 mục ghi lại các thao tác hệ thống như tạo dịch vụ, ghi file, hay gọi API.
* 𝐓𝐡á𝐜𝐡 𝐭𝐡ứ𝐜- Mất cân bằng dữ liệu: Sự phân bổ các họ mã độc chênh lệch cực kỳ nghiêm trọng. Họ Emotet chiếm ưu thế với khoảng 29.5% (14.429 mẫu), trong khi họ thiểu số như HarHar chỉ chiếm khoảng 1.3% (655 mẫu) – một khoảng cách lên đến 22 lần. Đây là bài toán hóc búa làm giảm sút chỉ số Macro F1-score của hầu hết các mô hình phân loại.
🤖 𝐏𝐡ầ𝐧 𝟐: 𝐂á𝐜 𝐡ướ𝐧𝐠 𝐭𝐢ế𝐩 𝐜ậ𝐧 𝐡𝐢ệ𝐧 𝐭ạ𝐢 - 𝐓ừ 𝐭𝐫𝐮𝐲ề𝐧 𝐭𝐡ố𝐧𝐠 đế𝐧 𝐃𝐞𝐞𝐩 𝐋𝐞𝐚𝐫𝐧𝐢𝐧𝐠
Sự phát triển của các phương pháp phát hiện mã độc đã trải qua nhiều giai đoạn:
* 𝐏𝐡ươ𝐧𝐠 𝐩𝐡á𝐩 𝐓𝐫𝐮𝐲ề𝐧 𝐭𝐡ố𝐧𝐠: Các kỹ thuật dựa trên chữ ký (Signature-based) tuy nhanh và chính xác với mã độc đã biết nhưng lại "mù" hoàn toàn trước các biến thể mới. Phương pháp Heuristic có thể bắt được mã độc mới nhưng lại đi kèm tỷ lệ báo động nhầm (false positives) cao.
* 𝐌𝐚𝐜𝐡𝐢𝐧𝐞 𝐋𝐞𝐚𝐫𝐧𝐢𝐧𝐠 & 𝐃𝐞𝐞𝐩 𝐋𝐞𝐚𝐫𝐧𝐢𝐧𝐠: Học máy truyền thống đòi hỏi trích xuất đặc trưng thủ công, trong khi các mạng học sâu (CNN, RNN, Transformers) giúp tự động hóa quá trình này và đạt độ chính xác xuất sắc (>99%).
* Ứ𝐧𝐠 𝐝ụ𝐧𝐠 𝐋𝐋𝐌 & 𝐍𝐋𝐏: Một số nghiên cứu mới nhất (năm 2025) trên chính bộ dữ liệu Avast-CTU đã biến log hành vi thành văn bản ngôn ngữ tự nhiên để huấn luyện mô hình BERT, hoặc sử dụng LLM để trích xuất các vector ngữ nghĩa (embeddings) từ file JSON.
⚠️ 𝐍𝐡ữ𝐧𝐠 "𝐥ỗ 𝐡ổ𝐧𝐠" 𝐧𝐠𝐡𝐢ê𝐧 𝐜ứ𝐮 𝐜ò𝐧 𝐭ồ𝐧 đọ𝐧𝐠
Dù đạt kết quả cao, các mô hình Deep Learning hay LLM hiện tại vẫn bộc lộ nhiều điểm yếu chí mạng:
* Yêu cầu chi phí tính toán và phần cứng lớn.
* Bỏ qua vấn đề mất cân bằng dữ liệu, khiến các họ mã độc nhỏ dễ bị nhận diện sai.
* Tính chất "hộp đen" (Black-box): Các mô hình chưa được tích hợp AI có khả năng giải thích (XAI), khiến các chuyên gia phân tích không thể biết chính xác chuỗi API nào đã kích hoạt cảnh báo mã độc.
Việc khai thác bộ dữ liệu Avast-CTU vẫn còn là một vùng đất đầy tiềm năng cho các nhà nghiên cứu. Đừng quên theo dõi fanpage để cập nhật những chia sẻ mới nhất từ IST Lab nhé! 😉
📌 liên hệ
🏢 IST Lab - PTIT Information Security Technology Laboratory
📞 SĐT: +84 90 989 9791
📧 Email: [email protected]
10/05/2026
📢 RECAP buổi chia sẻ về PHÁT HIỆN HÀNH VI ĐỘC HẠI TRONG MẠNG IOT BẰNG BIỂU DIỄN ĐỒ THỊ ĐỘNG 📢
Chủ nhật ngày 10/5/2026, IST Lab đã tổ chức buổi seminar sinh hoạt hàng tuần với chủ đề nghiên cứu chuyên sâu về An toàn thông tin: Ứng dụng biểu diễn đồ thị động (Dynamic Graph Representation) và mạng nơ-ron đồ thị (GNN) trong việc phát hiện hành vi độc hại trên mạng IoT.
Dưới đây là nội dung chi tiết và những phân tích chuyên sâu từ buổi seminar:
📍 1. Tóm tắt nội dung và phương pháp nghiên cứu
🔹 Mục tiêu: Phát hiện sớm các hành vi độc hại trong môi trường IoT.
🔹 Trọng tâm: Đi sâu vào nhóm "Bất thường hành vi" (Anomaly/Behavioral) thông qua phân tích luồng mạng (network flow) với 4 loại chính:
* Traffic Anomaly: Lưu lượng bất thường (DDoS, Port scanning).
* Data Exfiltration: Đánh cắp dữ liệu.
* C&C Communication: Điều khiển từ xa (Botnet, HTTP/HTTPS ngụy trang).
* Cryptojacking: Đào tiền điện tử trái phép.
🔹 Công nghệ cốt lõi: Kết hợp Biểu diễn đồ thị động (Dynamic Graph) để theo dõi kết nối mạng theo thời gian thực và Mạng nơ-ron đồ thị (GNN) để phân tích các đặc trưng (sload, duration, spkts/dpkts).
🔹 Điểm nhấn: Phân tích hoàn toàn dựa trên thống kê luồng mạng mà không cần giải mã payload, được kiểm thử trên các bộ dữ liệu chuẩn như UNSW-NB15, CICIDS2017, CICIoT2023.
📈 2. Ưu điểm
✔️ Hoạt động tốt với lưu lượng mã hóa: Hướng tiếp cận flow-based không cần kiểm tra sâu gói tin (DPI), cực kỳ phù hợp khi giao thức HTTPS/TLS ngày càng phổ biến trong IoT.
✔️ Nắm bắt ngữ cảnh phức tạp: GNN biểu diễn thiết bị là "node", kết nối là "edge", giúp phát hiện các cuộc tấn công có tổ chức, phối hợp nhiều thiết bị (như Botnet, DDoS phân tán).
✔️ Phù hợp đặc thù IoT: Thiết bị IoT có chu kỳ giao tiếp cố định. Đồ thị động phát hiện rất tốt sự phá vỡ các chu kỳ này.
✔️ Phát hiện tấn công Zero-day: Học hành vi "bình thường" để bắt "dị thường", không cần phụ thuộc vào tập luật (signature) có sẵn như các IDS/IPS truyền thống.
⚠️ 3. Nhược điểm
▪️ Chi phí tính toán & độ trễ: Xây dựng đồ thị liên tục và chạy GNN tốn nhiều tài nguyên. Rất khó triển khai trực tiếp trên các thiết bị Edge/Gateway cấu hình yếu, dễ gây trễ trong phát hiện real-time.
▪️ Rủi ro false positives (dương tính giả): Khi mạng có cập nhật firmware đồng loạt hoặc hiện tượng "flash crowd", cấu trúc đồ thị thay đổi mạnh, dễ khiến hệ thống báo động nhầm.
▪️ Tiền xử lý phức tạp: Pipeline biến đổi từ gói tin thô (PCAP) -> Flows -> Ma trận đồ thị tốn thời gian, dễ tạo nút thắt cổ chai cho toàn hệ thống.
▪️ Phụ thuộc dataset: Dữ liệu huấn luyện thường từ môi trường mô phỏng, có thể lệch pha với các kỹ thuật tấn công IoT thực tế hiện nay (concept drift).
💡 Tổng kết
Buổi chia sẻ đã mang lại nhiều góc nhìn học thuật giá trị. Phương pháp dựa trên đồ thị mở ra tiềm năng to lớn trong bảo mật IoT, nhưng đồng thời cũng đặt ra bài toán tối ưu hóa kiến trúc và tài nguyên tính toán để có thể áp dụng rộng rãi vào thực tế.
📌 liên hệ
🏢 IST Lab - PTIT Information Security Technology Laboratory
📞 SĐT: +84 90 989 9791
📧 Email: [email protected]
28/04/2026
🚩 [TIN CHÚC MỪNG] 03 ĐỘI TUYỂN SINH VIÊN PTITHCM XUẤT SẮC LỌT VÀO CHUNG KẾT CUỘC THI AN TOÀN THÔNG TIN QUỐC TẾ HACKTHEON SEJONG 2026
📅 Ngày 25/04/2026 vừa qua, vòng Sơ khảo cuộc thi An toàn thông tin (ATTT) quốc tế HackTheon Sejong 2026 đã diễn ra với sự tranh tài quyết liệt của hàng trăm đội tuyển sinh viên trên toàn thế giới. IST Lab xin chúc mừng CLB An toàn thông tin P*S và Học viện Công nghệ Bưu chính Viễn thông (Cơ sở TP.HCM) khi có đến 03 đội tuyển xuất sắc giành tấm vé bước vào vòng Chung kết tại Hàn Quốc.
🛡️ Trải qua 07 giờ thi đấu liên tục theo hình thức CTF Jeopardy, các đội tuyển đã phải giải quyết những bài toán hóc búa thuộc nhiều mảng chuyên sâu như Pwnable, Reverse Engineering, Cryptography, Web Exploitation và Forensics. Đây không chỉ là cuộc đua về điểm số mà còn là bài kiểm tra về bản lĩnh, tư duy phân tích lỗ hổng và khả năng triển khai mã khai thác dưới áp lực thời gian thực.
🏆 Vượt qua sự cạnh tranh gay gắt từ các đối thủ quốc tế, 03 đại diện của PTITHCM đã ghi tên mình vào danh sách 40 đội tuyển mạnh nhất toàn cầu để góp mặt tại vòng chung kết:
Bảng Advanced: Đội f4n_n3r0
Bảng Beginner B: Đội 666Kyochon
Bảng Beginner B: Đội N33d_GP7
✨ Sự hiện diện đồng thời ở cả hai bảng đấu không chỉ khẳng định năng lực chuyên môn vững vàng mà còn cho thấy sự phát triển bền vững của lực lượng kế thừa tại Học viện. Vòng Chung kết sẽ được tổ chức trực tiếp vào ngày 09/07/2026 tại Trung tâm Hội nghị Sejong (SCC), Hàn Quốc. Đây là cơ hội lớn để các bạn giao lưu và khẳng định vị thế của sinh viên ATTT Việt Nam trong kỷ nguyên chuyển đổi AI tại một sân chơi quy mô quốc tế do Thành phố Sejong và Cơ quan Tình báo Quốc gia Hàn Quốc (NIS) phối hợp tổ chức.
🗓️ Lịch trình sự kiện tại Hàn Quốc:
Vòng Chung kết: 09/07/2026 (10:00 – 16:00 KST)
Lễ trao giải: 10/07/2026 (10:00 – 11:00 KST)
🤝 IST Lab xin gửi lời chúc mừng nồng nhiệt nhất đến các thành viên của 03 đội tuyển. Chúc các bạn tiếp tục giữ vững phong độ, trau dồi kỹ năng và đạt được kết quả cao nhất tại chặng đường sắp tới ở xứ sở Kim Chi!
*S
22/04/2026
📢 [Hỗ trợ truyền thông]
🚀 [TMA Solutions – Tuyển Thực Tập Sinh Khóa 52 | 04/2026]
Cơ hội thực tập dành cho sinh viên CNTT tại TMA Solutions – môi trường doanh nghiệp thực tế giúp tích lũy kinh nghiệm, rèn luyện kỹ năng và chuẩn bị cho sự nghiệp sau tốt nghiệp.
📌 Hồ sơ: CV tiếng Anh + bảng điểm & giấy giới thiệu + chứng chỉ tiếng Anh (nếu có)
📩 Nộp về: [email protected]
⏰ Deadline: 19/06/2026
👉 Đừng bỏ lỡ cơ hội trải nghiệm và phát triển bản thân tại doanh nghiệp công nghệ hàng đầu!
📮 Liên hệ
🏢 IST Lab - PTIT Information Security Technology Laboratory
📞 SĐT: +84 90 989 9791
📧 Email: [email protected]
[TMA SOLUTIONS – TUYỂN THỰC TẬP SINH KHÓA 52 | THÁNG 04/2026]
CƠ HỘI THỰC TẬP DÀNH CHO SINH VIÊN CNTT
Khoa Công nghệ Thông tin 2 – PTITHCM trân trọng thông tin đến các bạn sinh viên về chương trình tuyển thực tập sinh Khóa 52 của Công ty TMA Solutions, bắt đầu từ tháng 04/2026.
Đây là cơ hội để các bạn sinh viên tiếp cận môi trường làm việc thực tế tại doanh nghiệp công nghệ, tích lũy kinh nghiệm chuyên môn, rèn luyện kỹ năng nghề nghiệp và chuẩn bị hành trang cho chặng đường phát triển sau khi tốt nghiệp.
📌 Hồ sơ ứng tuyển bao gồm:
• CV bằng tiếng Anh
• Giấy giới thiệu và bảng điểm mới nhất có xác nhận của Nhà trường
• Chứng chỉ TOEIC/IELTS (nếu có)
📩 Hình thức nộp hồ sơ:
Sinh viên quan tâm vui lòng gửi hồ sơ bản mềm về địa chỉ email: [email protected]
⏰ Thời hạn nộp hồ sơ: Trước ngày 19/06/2026
🏢 Thông tin đơn vị tuyển dụng: TMA Solutions
📧 Email: [email protected]
🌐 Website: www.tmasolutions.com
☎️ Tel: +84 (28) 3997 8000 | Ext: 5676 - 5524 - 5236
📘 Facebook: https://www.facebook.com/internshiptma #
Khoa Công nghệ Thông tin 2 khuyến khích các bạn sinh viên quan tâm chủ động chuẩn bị hồ sơ và đăng ký đúng thời hạn để nắm bắt cơ hội thực tập tại doanh nghiệp.
Chúc các bạn sẽ có thêm một cơ hội tốt để học hỏi, trải nghiệm và phát triển bản thân trong môi trường chuyên nghiệp.
______________________
THÔNG TIN LIÊN HỆ: KHOA CNTT 2 - PTIT HCM
📞Hotline: +84 28 3730 5316
🌐Website: fit.ptithcm.edu.vn
📍Địa chỉ:
🔸Cơ sở 1: 97 Man Thiện, P. Tăng Nhơn Phú, TP. HCM
🔸Cơ sở 2: 11 Nguyễn Đình Chiểu, P. Sài Gòn, TP.HCM
19/04/2026
[GÓC CHIA SẺ NGHIÊN CỨU] RAYFIT: KHI XỬ LÝ ẢNH TRUYỀN THỐNG LÊN NGÔI VÀ BÀI TOÁN KHÔNG CẦN DEEP LEARNING
Deep Learning có phải lúc nào cũng là giải pháp duy nhất và tốt nhất trong Computer Vision? 🤔
Hôm nay, chúng ta cùng điểm qua một bài nghiên cứu cực kỳ thú vị về đề tài Định vị Mống mắt (Iris Localization) mang tên RayFit.
Điểm đặc biệt? Mô hình này hoàn toàn Training-Free (Không cần huấn luyện) và giải quyết gọn gàng những nhược điểm mà các mạng Neural lớn (như U-Net hay Mask R-CNN) đang gặp phải!
🎯 1. BÀI TOÁN & THÁCH THỨC
Việc xác định vị trí mống mắt và đồng tử (cx, cy, r) trên ảnh hồng ngoại gần (NIR) thường bị cản trở bởi lông mi, mí mắt hoặc ánh sáng phản chiếu.
- Deep Learning: Rất chính xác nhưng lại mang tính "hộp đen", ngốn tài nguyên GPU, cần dữ liệu gán nhãn khổng lồ và cực khó tích hợp lên các thiết bị biên (edge devices) như kính VR/AR hay máy chấm công.
- Thuật toán tìm kiếm cổ điển: Dễ bị nhiễu đánh lừa và tính toán khá nặng nề.
👉 Giải pháp từ RayFit: Một pipeline xử lý 100% trên CPU thông thường, dựa trên toán học và hình học thuần túy, không cần bất kỳ nhãn dữ liệu nào!
⚙️ 2. RAYFIT HOẠT ĐỘNG NHƯ THẾ NÀO?
Hệ thống xử lý qua 3 bước (Stages) kế thừa nhau:
- 📍 Stage A - Tìm tâm đồng tử: Áp dụng triết lý "Không tin một bộ dò duy nhất". RayFit dung hợp (fusion) kết quả từ vùng tối nhất (Dark Blob) và biến đổi hình học (Hough Transform), sau đó kiểm tra chéo để lọc bỏ các "tâm giả" do nhiễu bóng bẩy.
- 📏 Stage B - Ước lượng bán kính: Từ tâm đã có, thuật toán dò dải gradient theo dạng vòng tròn để chốt chính xác bán kính đồng tử.
- 👁️ Stage C - Định vị viền mống mắt: Đây là bước "ăn tiền". Hệ thống phóng các tia thưa (sparse rays) từ tâm ra ngoài, kết hợp với thuật toán Weighted RANSAC. RANSAC đóng vai trò như một màng lọc tuyệt vời, bỏ qua toàn bộ nhiễu từ lông mi hay mí mắt cắt ngang, giữ cho đường tròn mô phỏng bám sát biên hình học thực tế.
💡 3. NHỮNG THIẾT KẾ ĐỘT PHÁ (KEY HEURISTICS)
Sức mạnh của RayFit đến từ những tinh chỉnh kỹ thuật rất khôn khéo:
- Soft Eyelid Suppression: Giảm trọng số vùng mí mắt để triệt tiêu nhiễu.
- Post-Fit Clamp: Khóa tham số, không cho vòng tròn mống mắt "nở" lẹm ra ngoài giới hạn mí mắt vật lý.
- Asymmetric Search Band: Bù trừ sai số bằng dải tìm kiếm bất đối xứng, giúp kết quả chuẩn xác hơn.
📌 TAKEAWAY CHO NGƯỜI LÀM NGHIÊN CỨU
RayFit là minh chứng sắc bén cho triết lý: Khi bài toán có các ràng buộc hình học rõ ràng (như hình tròn của mắt), sự kết hợp khéo léo giữa các phép biến đổi hình thái học và thuật toán đồng thuận (RANSAC) hoàn toàn có thể tạo ra một hệ thống nhẹ, tin cậy và minh bạch toán học mà không cần viện đến các cấu trúc mạng Nơ-ron cồng kềnh.
Mọi người cùng để lại bình luận và trao đổi thêm về tính ứng dụng của các thuật toán truyền thống trong thời đại ngày nay nhé!
📮 Liên hệ
🏢 IST Lab - PTIT Information Security Technology Laboratory
📞 SĐT: +84 90 989 9791
📧 Email: [email protected]
19/04/2026
🚀 [SEMINAR RECAP] BÀI TOÁN KIỂM CHỨNG TIN GIẢ TIẾNG VIỆT & GIẢI PHÁP TỪ KIẾN TRÚC X-ALIGNFACT
Trong bối cảnh bùng nổ thông tin hiện nay, việc tự động kiểm chứng sự thật (Fact Verification) là một bài toán AI vô cùng cấp thiết. Tuy nhiên, chúng ta đang đối mặt với một rào cản lớn: Sự bất bình đẳng về dữ liệu.
Trong khi các mô hình AI có thể học từ kho dữ liệu khổng lồ của tiếng Anh (như tập FEVER với hơn 91.000 mẫu), thì tiếng Việt lại gặp khó khăn vì nguồn dữ liệu gán nhãn rất hạn chế (tập ViFactCheck chỉ có khoảng 5.000 mẫu). Việc lấy một mô hình đã học tiếng Anh và áp dụng "chay" sang tiếng Việt thường mang lại kết quả rất tệ (F1 score chỉ quanh mức 0.35).
Vậy làm sao để AI có thể "học lây" (transfer learning) sự thông minh từ tiếng Anh sang tiếng Việt một cách mượt mà?
Trong buổi seminar mới nhất của IST Lab, chúng ta đã cùng mổ xẻ bài báo từ IEEE Access: "X-AlignFact: A Cross-Lingual Alignment Framework for Bilingual Fact Verification in English and Vietnamese".
💡 ĐIỂM MẠNH CỦA KIẾN TRÚC X-ALIGNFACT:
Thay vì huấn luyện hai mô hình ngôn ngữ riêng biệt, X-AlignFact thiết kế một kiến trúc Xuyên ngôn ngữ (Cross-Lingual)
🔹 Bộ não dùng chung (Shared Encoder): Sử dụng XLM-RoBERTa làm lõi trung tâm. Cả văn bản tiếng Anh và tiếng Việt đều đi qua cùng một bộ lọc này để AI tìm ra "mẫu số chung" về mặt ngữ nghĩa.
🔹 Ép sự "Nhất quán" (Alignment Losses): Đây là vũ khí bí mật! Mô hình sử dụng các hàm loss đặc biệt (Consistency Loss & Prototypical Contrastive Loss) để ép AI: Dù câu hỏi là tiếng Anh hay tiếng Việt, phán quyết đưa ra (Đúng/Sai/Thiếu thông tin) phải giống hệt nhau.
🔹 Học theo lộ trình (Curriculum Learning): Mô hình được tinh chỉnh tỷ lệ dữ liệu Anh/Việt một cách linh hoạt theo từng giai đoạn, giúp AI thích nghi từ từ mà không bị "ngợp".
🔹 AI có thể giải thích (Explainable AI - XAI): Tích hợp module Counterfactual XAI để giúp giải thích các quyết định của mô hình, đảm bảo tính minh bạch khi triển khai thực tế.
📊 KẾT QUẢ
🏆 Mô hình đánh bại các phương pháp đơn ngữ (như PhoBERT) với F1 score tiếng Việt đạt 0.8190.
🏆 Điểm nhất quán xuyên ngôn ngữ (CLCS) lên tới 86.8% - nghĩa là gần 87% trường hợp, AI tư duy đồng nhất giữa hai ngôn ngữ!
📌 Bài nghiên cứu đã chứng minh rằng, đối với các ngôn ngữ thiếu tài nguyên như tiếng Việt, việc khéo léo thiết kế các hàm mất mát (loss functions) trong không gian vector để "bắt cầu" kiến thức từ tiếng Anh là hướng đi hiệu quả hơn nhiều so với việc chỉ lo cày cuốc xây dựng dữ liệu mới.
Mọi người có suy nghĩ gì về hướng tiếp cận của IST Lab về vấn đề tin giả? Hãy để lại bình luận để cùng thảo luận nhé! 👇
📮 Liên hệ
🏢 IST Lab - PTIT Information Security Technology Laboratory
📞 SĐT: +84 90 989 9791
📧 Email: [email protected]
12/04/2026
[RECAP] TỐI ƯU HÓA QUYẾT ĐỊNH DỰA TRÊN DỮ LIỆU TỐI THIỂU (MIT PAPER FRAMEWORK)
🏫 Vừa qua, IST Lab đã tổ chức buổi seminar chia sẻ về khung nghiên cứu của MIT tập trung vào chiến lược ra quyết định tối ưu trong môi trường bất định và đầy nhiễu. Thay vì xu hướng thu thập Big Data truyền thống, nghiên cứu tập trung vào việc định vị chính xác "ranh giới" cần đo lườn để đạt được hiệu quả cao nhất với nguồn lực tối thiểu.
📖 Nội dung thảo luận trọng tâm của buổi chia sẻ bao gồm:
📌 Nền tảng Lý thuyết & Góc nhìn Hình học:Phân tích cấu trúc bài toán quyết định gồm Tập Bất định (C), Tập Quyết định (X) và Hàm Mục tiêu (c) . Giới thiệu khái niệm "Nón Tối Ưu" (Optimality Cones) giúp chuyển đổi từ phương pháp thống kê thuần túy sang không gian hình học để tìm kiếm quyết định tối ưu tuyệt đối.
📌 Triết lý "Dữ liệu Đủ" (Sufficiency): Xác định tập dữ liệu tối thiểu đóng vai trò như "lăng kính hội tụ", cho phép hệ thống đưa ra quyết định chính xác mà không cần biết giá trị tuyệt đối của mọi tham số đầu vào.
📌 Động cơ Tuyến tính (The Bilevel MILP Engine): Khám phá kiến trúc thuật toán gắn chặt với các cấu trúc ràng buộc của bài toán, vận hành qua vòng lặp 3 bước nhằm trích xuất bộ dữ liệu cơ sở (D) tối giản .
📌 Nghịch lý về Ràng buộc (Constraint Paradox): Phân tích phát hiện quan trọng khi việc ít tùy chọn hơn (nhiều ràng buộc hơn) đôi khi lại yêu cầu lượng dữ liệu đo lường lớn hơn để giải quyết các tương tác hình học phức tạp.
⚙️ Seminar cũng trình bày ứng dụng thực tế qua "Bài toán Tuyển dụng" (Hiring Problem). Hệ thống triển khai cơ chế phân nhóm tự động (Triage) ứng viên thành 3 tập hợp dựa trên cấu trúc hình học:
Nhóm Điểm Thấp: Loại bỏ trực tiếp khi sai số tích cực vẫn không đạt ngưỡng.
Nhóm Điểm Cao: Tiếp nhận trực tiếp khi sai số tiêu cực vẫn đảm bảo tính tối ưu.
Nhóm Trung Bình: Vùng ranh giới bắt buộc phải phỏng vấn để thu thập thêm dữ liệu xác thực.
💡 Kết quả nghiên cứu khẳng định giá trị của dữ liệu không nằm ở thuộc tính độc lập, mà là hệ quả của sự giao thoa hình học giữa không gian quyết định và sự bất định của môi trường. Việc thấu hiểu triết lý này giúp các tổ chức phân bổ nguồn lực chính xác tại các "điểm mù hình học", giúp ra quyết định thông minh với chi phí vận hành thấp nhất.
🚀 Buổi chia sẻ đã mở ra tư duy mới về "Dữ liệu đích đáng", thay thế cho cách tiếp cận thu thập dữ liệu diện rộng lãng phí, đồng thời gợi mở những hướng ứng dụng tiềm năng trong quản trị và AI hiện đại.
📮 Liên hệ
🏢 IST Lab - PTIT Information Security Technology Laboratory
📞 SĐT: +84 90 989 9791
📧 Email: [email protected]