Phân tích dữ liệu cùng DaiHub - Stata & R

Phân tích dữ liệu cùng DaiHub  - Stata & R

Share

Dịch vụ Kinh doanh

20/05/2026

Phân tích tương quan 📈

Phân tích tương quan là một phương pháp thống kê được sử dụng để đo lường mức độ mạnh và chiều hướng của mối quan hệ giữa hai hoặc nhiều biến.

📌 Các loại tương quan

1. Tương quan Pearson

Đo lường mối quan hệ tuyến tính giữa các biến liên tục.

Khoảng giá trị: -1 đến +1

* +1 = tương quan dương hoàn hảo
* -1 = tương quan âm hoàn hảo
* 0 = không có mối quan hệ tuyến tính

2. Tương quan xếp hạng Spearman

Đo lường mối quan hệ đơn điệu và hữu ích khi dữ liệu không phân phối chuẩn.

3. Tương quan Kendall Tau

Hữu ích với bộ dữ liệu nhỏ và các biến thứ bậc.

03/05/2026

Nắm vững Phân tích hồi quy tuyến tính đơn giản với infographic rõ ràng và chuyên nghiệp 📊
Hồi quy là một trong những công cụ mạnh mẽ nhất trong thống kê, được sử dụng để mô hình hóa các mối quan hệ và dự đoán kết quả tương lai bằng cách sử dụng dữ liệu

29/04/2026

💻 Phân tích dữ liệu cơ bản với R - Khoá 6 (29/4/26)
Buổi 6 - Mô tả biến định lượng và biến định tính
Tất cả mọi người đều được thực hành và sửa lỗi cùng người hướng dẫn nha

28/04/2026

🚀 Nguồn học NotebookLM “chuẩn chỉnh” – tất cả trong một nơi

Bạn đã từng:
▪️ Có quá nhiều tài liệu nhưng không biết bắt đầu từ đâu?
▪️ Đọc xong nhưng khó hệ thống lại kiến thức?
▪️ Cần trích dẫn rõ ràng nhưng mất thời gian kiểm chứng nguồn?

👉 NotebookLM là giải pháp được thiết kế cho đúng những vấn đề đó.

Đây là một trợ lý nghiên cứu AI giúp:

* Tổ chức và hệ thống hóa thông tin từ chính tài liệu của bạn (PDF, web, YouTube)
* Trả lời câu hỏi kèm trích dẫn rõ ràng
* Biến kiến thức thành báo cáo, bản đồ tư duy một cách có cấu trúc

💡 Điểm nổi bật:

* Deep Research: tự động tổng hợp thông tin thành báo cáo chi tiết
* Mọi câu trả lời đều có nguồn → dễ kiểm chứng
* Có thể chuyển nội dung thành Audio/Video Overviews để học linh hoạt

28/04/2026

Kiểm định Kruskal–Wallis là một phương pháp phi tham số được sử dụng để xác định liệu có sự khác biệt có ý nghĩa thống kê giữa phân phối của ba hoặc nhiều nhóm độc lập dựa trên thứ hạng hay không. Khác với ANOVA, phương pháp này không giả định rằng phần dư tuân theo phân phối chuẩn, do đó linh hoạt hơn khi phân tích các bộ dữ liệu không đáp ứng giả định này.

Ưu điểm khi sử dụng đúng cách:
✔️ Phù hợp với dữ liệu thứ bậc hoặc các bộ dữ liệu không thỏa mãn giả định phân phối chuẩn của phần dư.
✔️ Không yêu cầu giả định về tính đồng nhất phương sai, mang lại tính linh hoạt cao hơn.
✔️ Có thể áp dụng với cỡ mẫu nhỏ, làm tăng khả năng sử dụng trong nhiều bối cảnh nghiên cứu khác nhau.

Thách thức nếu không được xử lý đúng cách:
❌ Việc diễn giải có thể phức tạp, đặc biệt khi kiểm định bị hiểu nhầm là so sánh trực tiếp trung vị trong khi các điều kiện cụ thể chưa được đáp ứng (ví dụ: mẫu độc lập, phân phối đối xứng).
❌ Có công suất thấp hơn so với ANOVA khi phần dư tuân theo phân phối chuẩn và phương sai bằng nhau.
❌ Có thể cần thực hiện các kiểm định hậu nghiệm để xác định sự khác biệt giữa các nhóm cụ thể, làm tăng độ phức tạp của phân tích

Photos from Phân tích dữ liệu cùng DaiHub  - Stata & R's post 26/04/2026

💥 𝐕𝐢̀ 𝐬𝐚𝐨 𝐥𝐚̀ 𝐏𝐡𝐚̂𝐧 𝐭𝐢́𝐜𝐡 𝐝𝐮̛̃ 𝐥𝐢𝐞̣̂𝐮 𝐯𝐨̛́𝐢 𝐑, 𝐦𝐚̀ 𝐤𝐡𝐨̂𝐧𝐠 𝐩𝐡𝐚̉𝐢 𝐄𝐱𝐜𝐞𝐥 𝐡𝐚𝐲 𝐒𝐏𝐒𝐒?

Nhiều người ngại học R vì nghĩ:

🔹 R khó
🔹 R chỉ học cho biết
🔹 R không dùng được trong công việc hằng ngày

👉 Nhưng thực tế thì ngược lại. R không phải để “biết thêm một công cụ”

👉 Phân tích dữ liệu với R giúp bạn làm việc với dữ liệu một cách bài bản, có hệ thống và có thể lặp lại
---------------------------------------------------------------
🚀 𝐕𝐚̣̂𝐲 𝐑 𝐠𝐢𝐮́𝐩 𝐛𝐚̣𝐧 𝐥𝐚̀𝐦 đ𝐮̛𝐨̛̣𝐜 𝐠𝐢̀?

🔹 Tạo bảng mô tả rõ ràng, nhất quán
Không còn chỉnh tay từng bảng
→ Dữ liệu thay đổi, bảng tự cập nhật
→ Sẵn sàng cho báo cáo, luận văn, bài báo

🔹 Trực quan hóa dữ liệu chuẩn mực
Biểu đồ không chỉ đẹp
→ mà thể hiện đúng thông tin
→ dùng được cho báo cáo chuyên môn & công bố

🔹 Làm việc với dataset lớn, phức tạp
Nhiều biến – nhiều dòng – nhiều năm
→ vẫn xử lý mượt, logic, dễ kiểm soát
→ không còn phụ thuộc vào thao tác thủ công

🎯 Vấn đề chưa bao giờ là R khó
👉 Mà là bạn chưa học R theo cách để làm việc với dữ liệu

---------------------------------------------------------------
🎯 𝐊𝐡𝐨́𝐚 𝐡𝐨̣𝐜 𝐑 𝐜𝐨̛ 𝐛𝐚̉𝐧 𝐝𝐚̀𝐧𝐡 𝐜𝐡𝐨 𝐧𝐠𝐮̛𝐨̛̀𝐢 𝐦𝐨̛́𝐢 𝐡𝐨𝐚̀𝐧 𝐭𝐨𝐚̀𝐧:
✔️ Không cần nền tảng lập trình
✔️ Học từ tư duy xử lý dữ liệu → đến phân tích thực tế
✔️ Code gọn, dễ hiểu, áp dụng ngay vào công việc & nghiên cứu
---------------------------------------------------------------
👉 𝐊𝐡𝐨𝐚́ 𝐑 𝐜𝐨̛ 𝐛𝐚̉𝐧 𝐝𝐚̀𝐧𝐡 𝐜𝐡𝐨 𝐧𝐠𝐮̛𝐨̛̀𝐢 đ𝐢 𝐥𝐚̀𝐦 𝐯𝐚̀ 𝐥𝐚̀𝐦 𝐧𝐠𝐡𝐢𝐞̂𝐧 𝐜𝐮̛́𝐮

⏰ Thời gian: Thứ 3 - Thứ 6 hoặc Thứ 4 – T7 hàng tuần
💻 Hình thức học: Online qua Teams
🔗 Đăng ký: https://forms.gle/11ySdrfNHXkjtgzU7
🎁 INBOX để nhận thông tin và ƯU ĐÃI dành cho học viên đăng ký sớm hoặc theo nhóm

22/04/2026

📊 Trực quan hóa kết quả Two-Way ANOVA trong R một cách đơn giản

Bạn muốn trình bày dữ liệu thực nghiệm một cách rõ ràng và chuyên nghiệp? Dưới đây là cách trực quan hóa kết quả Two-Way ANOVA bằng biểu đồ hộp (boxplot) trong R.

📌 Tổng quan

🔍 Để trực quan hóa kết quả như hình minh họa (boxplot + điểm dữ liệu), cần sử dụng ggplot2. Biểu đồ thể hiện:

▪️ Một yếu tố trên trục x (ví dụ: genotype)
▪️ Một yếu tố thứ hai qua màu sắc/nhóm (ví dụ: location)
▪️ Biến phản hồi trên trục y (ví dụ: height)
▪️ Boxplot kết hợp điểm dữ liệu riêng lẻ

📌 Bước 1: Định dạng dữ liệu

📝 Dữ liệu có dạng:

data

21/04/2026

📊 Hồi quy tuyến tính đơn và Hồi quy K-NN (Simple Linear Regression & K-NN Regression)

Trong phân tích dữ liệu và học máy, các phương pháp hồi quy được sử dụng nhằm dự đoán các biến liên tục (ví dụ: giá nhà, năng suất cây trồng hoặc nhiệt độ). Hai phương pháp phổ biến là Hồi quy tuyến tính đơn và Hồi quy K-NN. Mặc dù cùng mục tiêu dự đoán giá trị, hai phương pháp này hoạt động theo các nguyên lý hoàn toàn khác nhau.

📌 1️⃣ Hồi quy tuyến tính đơn là gì?

🔍 Hồi quy tuyến tính đơn (Simple Linear Regression) là phương pháp thống kê mô hình hóa mối quan hệ giữa:
▪️ Một biến độc lập (ví dụ: diện tích nhà)
▪️ Một biến phụ thuộc (ví dụ: giá nhà)

📖 Phương pháp này giả định mối quan hệ tuyến tính giữa các biến và ước lượng thông qua một đường thẳng:

y=a+bx

💡 Đặc điểm:
▪️ Dễ diễn giải và tính toán nhanh
▪️ Mô hình hóa xu hướng tăng/giảm theo dạng tuyến tính

📊 Ví dụ:
▪️ Khi diện tích nhà tăng, giá nhà tăng theo mối quan hệ tuyến tính

🔹 Ưu điểm:
▪️ Đơn giản, dễ hiểu
▪️ Hoạt động tốt khi dữ liệu có quan hệ tuyến tính
▪️ Yêu cầu ít dữ liệu

⚠️ Hạn chế:
▪️ Không mô hình hóa được quan hệ phi tuyến phức tạp
▪️ Nhạy cảm với giá trị ngoại lai (outliers)

📌 2️⃣ Hồi quy K-NN là gì?

🔍 Hồi quy K-NN (K-NN Regression) là phương pháp phi tham số (non-parametric), trong đó giá trị dự đoán được tính dựa trên trung bình của k điểm dữ liệu gần nhất.

📖 Đặc điểm:
▪️ Không giả định dạng mối quan hệ (tuyến tính hay phi tuyến)
▪️ Sử dụng khoảng cách (ví dụ: khoảng cách Euclid) để xác định các điểm lân cận
▪️ Dự đoán dựa trên các quan sát gần nhất

📊 Ví dụ:
▪️ Để dự đoán giá nhà, mô hình sẽ tìm các căn nhà có diện tích tương tự và lấy trung bình giá của chúng

🔹 Ưu điểm:
▪️ Mô hình hóa được quan hệ phi tuyến
▪️ Linh hoạt và trực quan
▪️ Không cần xác định trước phương trình mô hình

⚠️ Hạn chế:
▪️ Chi phí tính toán cao với dữ liệu lớn
▪️ Nhạy cảm với việc lựa chọn tham số k
▪️ Kết quả có thể nhiễu và kém mượt

📌 3️⃣ Sự khác biệt chính

📊 So sánh hai phương pháp:

▪️ Loại mô hình:

Hồi quy tuyến tính: Tham số (Parametric)
K-NN: Phi tham số (Non-parametric)

▪️ Giả định:

Hồi quy tuyến tính: Quan hệ tuyến tính
K-NN: Không giả định

▪️ Độ phức tạp:

Hồi quy tuyến tính: Đơn giản
K-NN: Phức tạp hơn

▪️ Khả năng diễn giải:

Hồi quy tuyến tính: Cao
K-NN: Thấp

▪️ Hiệu suất:

Hồi quy tuyến tính: Phù hợp với dữ liệu tuyến tính
K-NN: Phù hợp với dữ liệu phi tuyến

📌 4️⃣ Khi nào nên sử dụng từng phương pháp?

💡 Sử dụng Hồi quy tuyến tính khi:
▪️ Dữ liệu có mối quan hệ gần tuyến tính
▪️ Cần diễn giải mô hình rõ ràng
▪️ Bộ dữ liệu nhỏ hoặc sạch

💡 Sử dụng Hồi quy K-NN khi:
▪️ Dữ liệu có quan hệ phi tuyến
▪️ Cần dự đoán linh hoạt
▪️ Có đủ dữ liệu để hỗ trợ tính toán dựa trên lân cận

🎓 Kết luận

Hai phương pháp hồi quy trên đại diện cho hai cách tiếp cận khác nhau trong phân tích dữ liệu: mô hình hóa tham số với giả định rõ ràng (Hồi quy tuyến tính) và phương pháp dựa trên dữ liệu thực nghiệm mà không cần giả định trước (K-NN). Việc lựa chọn phương pháp phù hợp cần dựa trên đặc điểm dữ liệu và mục tiêu phân tích, nhằm đảm bảo kết quả dự đoán có độ tin cậy và ý nghĩa thực tiễn.

25/03/2026

🚀 𝐇𝐨̂̀𝐢 𝐪𝐮𝐲 𝐥𝐨𝐠𝐢𝐬𝐭𝐢𝐜 & 𝐱𝐮𝐚̂́𝐭 𝐛𝐚̉𝐧𝐠 “𝐱𝐢̣𝐧 𝐬𝐨̀” 𝐜𝐡𝐢̉ 𝐭𝐫𝐨𝐧𝐠 𝟑𝟎 𝐠𝐢𝐚̂𝐲? 𝐂𝐨́ 𝐭𝐡𝐚̣̂𝐭 𝐤𝐡𝐨̂𝐧𝐠?

Bạn đã bao giờ:
❌ Chạy xong phân tích nhưng phải copy từng con số sang Word?
❌ Loay hoay chỉnh odds ratio, khoảng tin cậy, p-value cho đúng format bài báo?
❌ Sửa một chỗ là vỡ cả bảng?

𝑁𝑒̂́𝑢 𝑏𝑎̣𝑛 đ𝑎𝑛𝑔 𝑑𝑢̀𝑛𝑔 𝑐𝑎́𝑐 𝑝ℎ𝑎̂̀𝑛 𝑚𝑒̂̀𝑚 𝑘𝑖𝑒̂̉𝑢 𝑘𝑒́𝑜-𝑡ℎ𝑎̉ 𝑛ℎ𝑢̛ 𝑆𝑃𝑆𝑆 𝑡ℎ𝑖̀ 𝑐𝑎̉𝑚 𝑔𝑖𝑎́𝑐 𝑛𝑎̀𝑦… 𝑞𝑢𝑎́ 𝑞𝑢𝑒𝑛 𝑟𝑜̂̀𝑖 😅

💡 Nhưng khi dùng R, mọi thứ đơn giản hơn rất nhiều.
Chỉ cần thêm một “trợ thủ”: 👉 gtsummary

———————————————————————-
✨ Đ𝐢𝐞̂̀𝐮 𝐠𝐢̀ 𝐤𝐡𝐢𝐞̂́𝐧 𝐠𝐭𝐬𝐮𝐦𝐦𝐚𝐫𝐲 “đ𝐚́𝐧𝐠 𝐭𝐢𝐞̂̀𝐧” đ𝐞̂́𝐧 𝐯𝐚̣̂𝐲?

✔ Tạo bảng hồi quy logistic/tuyến tính chỉ trong vài dòng code
✔ Tự động hiển thị: OR, CI, p-value – đúng chuẩn bài báo
✔ Format bảng gọn – đẹp – chuyên nghiệp, không cần chỉnh tay
✔ Dễ dàng thêm nhãn biến, chỉnh ngôn ngữ
✔ Xuất thẳng sang Word / Excel / HTML chỉ với 1 lệnh

👉 𝐓𝐚̂́𝐭 𝐜𝐚̉ 𝐠𝐨́𝐢 𝐠𝐨̣𝐧 𝐭𝐫𝐨𝐧𝐠 < 𝟑𝟎 𝐠𝐢𝐚̂𝐲

———————————————————————-
🎯 𝐍𝐞̂́𝐮 𝐛𝐚̣𝐧 đ𝐚𝐧𝐠:
– Viết luận văn
– Làm nghiên cứu khoa học
– Chuẩn bị công bố quốc tế

𝐓𝐡𝐢̀ 𝐠𝐭𝐬𝐮𝐦𝐦𝐚𝐫𝐲 𝐜𝐡𝐢́𝐧𝐡 𝐥𝐚̀ “𝐯𝐮̃ 𝐤𝐡𝐢́ 𝐛𝐢́ 𝐦𝐚̣̂𝐭” 𝐠𝐢𝐮́𝐩 𝐛𝐚̣𝐧:
🔥 Tiết kiệm thời gian
🔥 Tăng độ chính xác
🔥 Nâng tầm sự chuyên nghiệp

———————————————————————-
👉 𝐊𝐡𝐨𝐚́ 𝐩𝐡𝐚̂𝐧 𝐭𝐢́𝐜𝐡 𝐝𝐮̛̃ 𝐥𝐢𝐞̣̂𝐮 với R 𝐜𝐨̛ 𝐛𝐚̉𝐧 𝐭𝐚̣𝐢 𝐃𝐚𝐢𝐇𝐮𝐛
💻 Hình thức học: Online qua Teams
🔗 Đăng ký: https://forms.gle/11ySdrfNHXkjtgzU7
🎁 NHẮN TIN để nhận thông tin và ƯU ĐÃI dành cho học viên đăng ký sớm

23/03/2026

📊 𝐏𝐡𝐚̂𝐧 𝐭𝐢́𝐜𝐡 𝐡𝐨̂̀𝐢 𝐪𝐮𝐲 𝐥𝐚̀ 𝐠𝐢̀?

Phân tích hồi quy là một phương pháp thống kê được sử dụng để khảo sát mối quan hệ giữa một biến phụ thuộc (kết quả cần dự đoán) và một hoặc nhiều biến độc lập (các yếu tố có thể ảnh hưởng). Phương pháp này giúp làm rõ cách sự thay đổi của các biến dự báo liên quan đến sự thay đổi của biến đáp ứng.

Dạng cơ bản nhất là hồi quy tuyến tính, trong đó mối quan hệ giữa các biến được mô hình hóa dưới dạng một đường thẳng. Các dạng mở rộng bao gồm hồi quy đa biến (với nhiều biến dự báo) và hồi quy phi tuyến (khi mối quan hệ không còn là tuyến tính).



📌 Khi nào nên sử dụng phân tích hồi quy?

Phân tích hồi quy hữu ích trong các trường hợp sau:

Dự đoán kết quả
Ví dụ: dự đoán chiều cao cây dựa trên mức phân bón, tưới nước hoặc giá thể trồng.

Hiểu mối quan hệ giữa các biến
Giúp xác định mức độ liên quan giữa các biến và xác định mối quan hệ là dương hay âm.

Kiểm soát nhiều yếu tố đồng thời
Trong các nghiên cứu thực nghiệm (như nghiên cứu nông nghiệp), hồi quy cho phép đánh giá ảnh hưởng của một biến trong khi giữ các biến khác không đổi.

Phân tích xu hướng theo thời gian
Ví dụ: nghiên cứu sự thay đổi năng suất cây trồng qua các mùa vụ hoặc các năm.



📌 Mục đích của phân tích hồi quy

Các mục tiêu chính của phân tích hồi quy bao gồm:

1. Dự đoán
Mô hình hồi quy cho phép ước lượng các giá trị trong tương lai hoặc chưa biết, ví dụ dự đoán năng suất cây trồng dựa trên điều kiện môi trường.

2. Giải thích
Giúp làm rõ cách các biến độc lập ảnh hưởng đến biến phụ thuộc, cung cấp hiểu biết về mối quan hệ nhân quả.

3. Định lượng mối quan hệ
Hồi quy cung cấp các hệ số giúp định lượng mức độ thay đổi của biến phụ thuộc khi biến độc lập thay đổi một đơn vị.

4. Hỗ trợ ra quyết định
Cung cấp cơ sở cho các quyết định dựa trên dữ liệu, chẳng hạn như lựa chọn tổ hợp xử lý tối ưu trong các thí nghiệm nông nghiệp.

———————————————————————-
👉 𝐊𝐡𝐨𝐚́ 𝐩𝐡𝐚̂𝐧 𝐭𝐢́𝐜𝐡 𝐝𝐮̛̃ 𝐥𝐢𝐞̣̂𝐮 với STATA, R 𝐜𝐨̛ 𝐛𝐚̉𝐧 𝐭𝐚̣𝐢 𝐃𝐚𝐢𝐇𝐮𝐛
💻 Hình thức học: Online qua Teams
🔗 Đăng ký: https://forms.gle/11ySdrfNHXkjtgzU7
🎁 NHẮN TIN để nhận thông tin và ƯU ĐÃI dành cho học viên đăng ký sớm

21/03/2026

🚀 𝐇𝐨̣𝐜 𝐩𝐡𝐚̂𝐧 𝐭𝐢́𝐜𝐡 𝐝𝐮̛̃ 𝐥𝐢𝐞̣̂𝐮 𝐯𝐨̛́𝐢 𝐑 - 𝐋𝐚̀ 𝐜𝐚́𝐜𝐡 𝐧𝐚̂𝐧𝐠 𝐜𝐚̂́𝐩 𝐤𝐲̃ 𝐧𝐚̆𝐧𝐠 𝐧𝐠𝐡𝐢𝐞̂𝐧 𝐜𝐮̛́𝐮 𝐥𝐞̂𝐧 𝐦𝐨̣̂𝐭 𝐥𝐞𝐯𝐞𝐥 𝐦𝐨̛́𝐢

Bạn có đang gặp những vấn đề này không?
– Có dữ liệu nhưng không biết bắt đầu phân tích như thế nào
– Làm nghiên cứu nhưng vẫn phải phụ thuộc vào người khác xử lý số liệu
– Tốn rất nhiều thời gian làm thủ công nhưng kết quả chưa thực sự tối ưu

Thực ra, vấn đề không nằm ở việc bạn chưa đủ giỏi
Mà là bạn chưa có công cụ và phương pháp phù hợp để làm chủ dữ liệu

Khi bạn biết R, bạn sẽ:
✅ Xử lý và làm sạch dữ liệu nhanh, khoa học
✅ Chủ động chạy các phân tích thống kê phổ biến
✅ Trực quan hóa dữ liệu rõ ràng, chuyên nghiệp
✅ Tái lập toàn bộ quy trình phân tích một cách chuẩn chỉnh
✅ Làm việc theo chuẩn nghiên cứu hiện đại, dễ mở rộng

Khi tham gia khóa học R, bạn sẽ nhận được:
✅ Học từ cơ bản, phù hợp cả với người chưa biết gì
✅ Cầm tay chỉ việc từng bước, dễ hiểu, dễ áp dụng
✅ Thực hành trên dữ liệu thực tế, không học lý thuyết suông
✅ Có tài liệu và file thực hành để dùng lại sau khóa học
✅ Có hỗ trợ trong và sau khóa học khi gặp khó khăn

Học R không chỉ là học thêm một công cụ
Mà là nâng cấp tư duy phân tích và giá trị của bạn trong nghiên cứu

———————————————————————-
📚 𝐓𝐡𝐨̂𝐧𝐠 𝐭𝐢𝐧 𝐤𝐡𝐨́𝐚 𝐡𝐨̣𝐜 𝐑 𝐜𝐨̛ 𝐛𝐚̉𝐧:
– Thời gian: Thứ 4 – Thứ 7 hàng tuần
– Hình thức: Online qua Microsoft Teams
🔗 Đăng ký: https://forms.gle/11ySdrfNHXkjtgzU7
🎁 NHẮN TIN để nhận thông tin và ƯU ĐÃI dành cho học viên đăng ký sớm

Want your school to be the top-listed School/college in Hanoi?

Click here to claim your Sponsored Listing.

Location

Category

Telephone

Website

Address


Hanoi
10000