19/05/2026
Sao dạo này thấy mấy sếp lớn ai cũng join Anthropic, Andrej còn là Co-founder của OpenAI
Lộ trình toàn diện để trở thành Full Stack Data Scientist từ newbie với đủ 4 yếu tố: Modeling, Analytics, Domain Knowledge và Engineering.
Giáo trình kết hợp kinh nghiệm đi làm thực tế và nội dung đào tạo MSc AI & Data Engineering từ Đại học UCL
19/05/2026
Sao dạo này thấy mấy sếp lớn ai cũng join Anthropic, Andrej còn là Co-founder của OpenAI
19/05/2026
Design schema mẫu cho anh em làm mini-coursework khoá EDAI để review kiến thức module 1. Design này follow kimball star schema, kết hợp obt để giúp query nhanh hơn. Data pipeline follow medallion architecture đi từ bronze -> silver và gold.
Còn thiếu bảng feature làm offline feature store nữa, nhưng tương tự. Khoá sắp tới (K10) sẽ khai giảng cuối tháng 5 này, đừng bỏ lỡ nhé cả nhà.
19/05/2026
MODEL TABPFN-3 CHO DỮ LIỆU DẠNG BẢNG
Model TabPFN từ priorlabs là một model đáng để mọi người experiment khi làm thực tế cũng như các tác vụ research, do có khả năng thay thế AutoML Pipeline, có tính giải thích cao, đồng thời cho kết quả dự đoán rất tốt (cả nhà coi dưới ảnh sẽ thấy cái smooth curve nó tạo ra so với các model khác).
Đồng thời TabPFN cũng đã được cải thiện nhiều ở khả năng scale, có khả năng lên tới 1 tỷ dữ liệu training với version 3. Về kiến trúc thì bên trong TabPFN version 3 có luôn module: một cái xử lý feature;một module in-context learning để hiểu về relationship with-in training set và in-between training & test set; và một cái để module để output ra multi-class prediction nhưng thay MLP = attention-based decoder.
Cả nhà tham khảo paper này dưới comment nha. Nội dung về các model dạng bảng được đề cập trong khoá Data Science & AI (DSAI) thuộc lộ trình Full Stack Data Science bên bọn mình (khai giảng vào cuối tháng 5 tới).
18/05/2026
Nếu một ngày mọi người nhận ra đống Dockerfile của đồng đội viết như một bãi rác, hãy ốp linting cho Dockerfile với hadolint, và tích hợp vào luồng CI/CD để code đó mãi mãi không bao giờ được build.
Nếu muốn biết nhiều kỹ thuật, tip và trick lỏ hay ho hơn về engineering, đừng quên lớp Engineering và Data Science sẽ khai giảng cuối tháng này nhé cả nhà.
18/05/2026
Nhiều anh em cứ nghĩ Databricks là cái gì đó cao siêu lắm, nhưng chung quy lại vẫn là những kiến thức quen thuộc trong Engineering như Spark, Delta Lake, MLFlow thôi chứ có gì đâu nhỉ :v.
Có sếp còn hỏi có dạy Databricks không, chả lẽ tôi lại dạy mọi người cách ấn mấy button bên thanh tác vụ bên trái... Hay là tôi đã bỏ lỡ tính năng đặc biệt nào nhỉ? 🥲
18/05/2026
GETYOURGUIDE KHẮC PHỤC COLD START NHƯ THẾ NÀO?
Cold start là một vấn đề muôn thuở trong bài toán RecSys, mỗi domain/business sẽ có những cách giải quyết khác nhau. Hôm nay mình chia sẻ với mọi người tài liệu được chia sẻ gần đây của GETYOURGUIDE nói về cách họ giải quyết cold start, đây cũng là một trong những hướng mình thấy khá hay trong quá trình research các tài liệu/công nghệ mới để improve giáo trình FSDS.
Ý tưởng là sẽ có các reserved slots (đầu tiên là fixed dùng rules gì đó) trên màn hình điện thoại để user tương tác nên chọn đi bộ ở trên hồ Gươm hay hồ Tây, trong quá trình user tương tác, hệ thống bắt đầu collect signal để đếu đủ signal rồi thì bắt đầu hiển thị các slots được ranked bằng model. Sau đó vấn đề lại phát sinh khi có nhiều activity quá, thì tạm ném vào queue, cộng thêm một prioritision model để biết được nên chọn activity nào để ném vào rules. Sau đó là quá trình improve prioritision model với nhiều feature khác, và thêm ranking vào model assessment luôn.
Cả nhà tham khảo tài liệu ở các ảnh đính kèm nhé. RecSys cũng được dạy ở trong khoá DSAI (lớp tới khai giảng vào cuối tháng 5 này), và sẽ cho mọi người nhiều idea để giải quyết các bài toán RecSys trong thực tế, và ở nhiều giai đoạn khác nhau trong customer journey.
17/05/2026
TỪ VIRTUAL MACHINE, CONTAINER CHO TỚI UNIKERNELS
Unikernel là một cách đóng gói application bằng cách compile trực tiếp ứng dụng cùng với các thành phần hệ điều hành cần thiết như thư viện kernel, network stack hoặc driver thành một machine image duy nhất. Image này có thể boot trực tiếp trên hypervisor mà không cần một hệ điều hành Linux đầy đủ ở bên dưới, nên nó tự chứa toàn bộ những gì cần thiết để chạy application.
Khác với Docker container hay virtual machine, unikernel không cung cấp môi trường tương tác như shell, SSH hay các user-space tools khác. Điều này giúp giảm đáng kể attack surface vì không có các dịch vụ dư thừa để bị khai thác, nhưng đổi lại việc debug và vận hành trở nên khó khăn hơn so với hệ thống truyền thống.
Do chỉ bao gồm những thành phần tối thiểu, kích thước của unikernel thường rất nhỏ và thời gian khởi động rất nhanh, có thể chỉ ở mức milliseconds.
Điểm đặc biệt nhất của unikernel là kiến trúc single address space, trong đó code của application và các thành phần OS chạy chung trong cùng một vùng nhớ, không còn sự tách biệt giữa user space và kernel space. Khi chạy, application không cần thực hiện system call theo kiểu truyền thống mà có thể gọi trực tiếp các chức năng của OS như network driver thông qua function call thông thường. Điều này loại bỏ overhead do chuyển đổi giữa user mode và kernel mode, đồng thời giảm nhu cầu copy dữ liệu giữa hai vùng nhớ, từ đó có thể cải thiện hiệu năng trong nhiều trường hợp. Tuy nhiên cần lưu ý rằng điều này không có nghĩa là loại bỏ hoàn toàn mọi context switch, vì nếu có đa luồng thì việc chuyển đổi giữa các thread vẫn tồn tại.
Về mặt hiệu năng, unikernel thường nhanh và nhẹ hơn so với container hoặc VM do loại bỏ nhiều lớp abstraction không cần thiết, nhưng mức độ cải thiện còn phụ thuộc vào workload cụ thể và tài nguyên hệ thống.
Về bảo mật, việc giảm số lượng code giúp hạn chế điểm tấn công, nhưng vì application và kernel chạy chung nên nếu xảy ra lỗi hoặc bị exploit thì attacker có thể chiếm toàn bộ hệ thống ngay lập tức, do không có cơ chế cách ly nội bộ như trong hệ điều hành truyền thống.
Tóm lại, unikernel mang lại lợi ích về hiệu năng, kích thước và bảo mật bề mặt tấn công, nhưng đánh đổi bằng độ phức tạp khi build, vận hành và thiếu cơ chế cô lập bên trong hệ thống.
Nguồn đọc thêm mình để ở bên dưới comment nhé cả nhà.
16/05/2026
Ethical AI đang ngày càng trở nên quan trọng, vậy nên Responsible Software Engineering là một khoá bắt buộc trong chương trình đào tạo MSc AI & Data Engineering của ĐH UCL.
Có nên cập nhật cho anh em học viên FSDS không nhỉ?
16/05/2026
Nhiều anh em tò mò buổi thi ở UCL như thế nào thì nó đây, cứ 10 ông thì có một giám thị đứng đầu và một giám thị đứng cuối hàng, kiểu như này: 👺😞😞😞😞😞👺
16/05/2026
Marimo = Notebook + LLM, anh em nào làm platform cho công ty thì upgrade cho công ty dùng thôi nào
Fun fact: Đã có 1 PR cho marimo vào Kubeflow, thế nên anh em dùng Kubeflow cũng nhẹ đầu hơn rồi nhỉ. Nếu muốn biết cách thiết kế, triển khai và vận hành AI platform hiệu quả cho công ty mình thì đừng quên tham gia lớp Engineering for Data & AI khai giảng vào 25/05 nhé cả nhà!