Data Science and Quantitative Analysis
Diễn dàn dành cho các bạn yêu thích khoa học dữ liệu (Data Science) và học máy (M
Bài chuẩn bị cho buổi học ngày 11/01/2017
MACHINE LEARNING: MÔ HÌNH KNN K Nearest Neighbor)
Dữ liệu các bạn lấy ở đây:
http://www.mediafire.com/file/iqh5dvn7v4et12b/fracture%282%29.txt
http://www.mediafire.com/file/78z20fag94ye29q/obesity+data.csv
R code cho bài học:
http://rpubs.com/chidungkt/235234
Ngoài ra, các bạn có thể tham khảo thêm ở:
fracture(2).txt MediaFire is a simple to use free service that lets you put all your photos, documents, music, and video in a single place so you can access them anywhere and share them everywhere.
Thân gửi các bạn học viên của khóa học Khoa Học Dữ Liệu.
Việc làm sạch dữ liệu, biến đổi dữ liệu, chiết xuất (trích dữ liệu) .. trong khoa học dữ liệu được gọi là Data Manipulation hoặc Data Wrangling. Có lẽ nói không phóng đại khi nói rằng từ 50 đến 80% thời gian được tiêu tốn cho việc này và đương nhiên nó là một khâu không thể thiếu và luôn xuất hiện ngay ở đầu bất cứ dự án nào.
Với 36000 quan sát đến từ 5 quốc gia làm thế nào các bạn tính ra được, ví dụ, những thống kê đơn giản như trung bình? sai số chuẩn cho điểm toán theo từng quốc gia?
Để thành thạo các kĩ năng này, trước hết các bạn theo dõi loạt bài sau (theo thứ tự):
1. Cơ bản về data manipulation với hệ sinh thái (hay gói) tidyverse:
http://rpubs.com/chidungkt/234283
2. Về sử dụng toán tử hút thuốc:
http://rpubs.com/chidungkt/234438
3. Về thực hành với bộ số liệu PISA:
http://rpubs.com/chidungkt/236088
http://rpubs.com/chidungkt/239958
4. Về sử dụng gói DT trình bày bảng biểu:
http://rpubs.com/chidungkt/233830
Gửi các bạn tài liệu nhằm chuẩn bị cho buổi học ngày 10/01/2017.
Tài liệu của thầy Tuấn:http://www.mediafire.com/file/vchimfu957eqdyy/Lecture_24b._CV_LOOCV_.pdf
R code của buổi học: http://rpubs.com/chidungkt/240620
Chú ý: Thầy sử dụng bộ dữ liệu pima-indiansdiabetes.csv. Thực tế, bộ data này được tích hợp trong nhiều gói của R nên các bạn có thể sử dụng bộ dữ liệu này, chẳng hạn, từ gói mlbench (như trong bài soạn này).
Lecture 24b. CV LOOCV .pdf MediaFire is a simple to use free service that lets you put all your photos, documents, music, and video in a single place so you can access them anywhere and share them everywhere.
09/01/2017
R code cho Artificial Neural Network (khóa học khoa học dữ liệu và Machine Learning).
Thân gửi các bạn học viên tham dự lớp học về khoa học dữ liệu và Machine Learning.
Machine Learning (ML) vốn là môn học được tạo ra do sự kết hôn của thống kê và khoa học máy tính. Với người chưa từng biết về ML trước đó, thì sẽ gặp nhiều khái niệm mới và có thể sẽ có chút lúng túng. Nhất là những thứ như lập trình.
Một trong những rắc rối của ML là chi tiết sau (chỉ đơn thuần là mặt kĩ thuật thôi): các code thường rất dài (và gõ cần phải chính xác). Do vậy, mình gửi trước các bạn code để các bạn chuẩn bị.
http://rpubs.com/chidungkt/240558
Data Manipulation với bộ dữ liệu PISA của Việt Nam:
http://rpubs.com/chidungkt/239958
RPubs - Data Transformation/Cleaning with PISA data set (Part 2)
Bài giảng số 9 (hồi quy tuyến tính, chiều ngày 05/01/2017) - khóa học về khoa học dữ liệu ở TDT:
http://rpubs.com/chidungkt/239819
A. Cài đặt gói car cần qua hai bước:
Bước 1 (mất chừng 10 đến 20 phút):
update.packages()
Bước 2:
install.packages("car", dependencies = T)
B. Cài đặt gói caret qua ba bước:
Bước 1:
install.packages("devtools ", dependencies = T)
Bước 2:
library(devtools)
Bước 3:
install_version("caret", version = "6.0-71", repos = "http://cran.us.r-project.org")
Data wrangling với bộ dữ liệu PISA:
http://rpubs.com/chidungkt/238185
20/12/2016
About R:
https://mran.microsoft.com/documents/what-is-r/
What is R? · MRAN The MRAN website offers info about R and its packages as well as archives of past R package versions and downloads of Microsoft R Open.
18/12/2016
Bộ số liệu PISA (có thể lấy ở đây: http://www.mediafire.com/file/i0lexh0gyclp4pv/PISA+DATA+%28INTERNATIONAL%29.CSV) khảo sát năng lực về Toán, Khoa học, và đọc của gần 36000 học sinh đến từ 5 nước cho thấy HS Việt Nam có điểm cao hơn cả những nước giàu như Mĩ, Úc và khác biệt này có ý nghĩa thống kê:
http://rpubs.com/chidungkt/236071
Tất nhiên, kết quả này gây ra một số ý kiến phản biện. Chẳng hạn, mẫu ở VN không đại diện cho Hà Giang - một trong những tỉnh nghèo nhất nước. Hoặc một số chỉ trích khác: http://vietnamnet.vn/vn/giao-duc/khoa-hoc/giam-doc-pisa-viet-nam-ngheo-khong-co-nghia-la-khong-the-gioi-347047.html
Về chọn mẫu, phản biện rằng mẫu ở VN chỉ đại diện cho HN và SG có thể là đúng. Nhưng cũng cần chú ý rằng Singapore là một nhà nước thành phố (City State) nên mẫu ở Sing chắc chắn 100% là dân đô thị. Ngoài ra, các nước khác (trừ Thái Lan) đều là những quốc gia có mức độ đô thị hóa trên 80% và thu nhập của nông dân được xếp vào nhóm cao. Nông dân ở Úc, Mĩ sở hữu các trang trại khổng lồ và gieo hạt phải bằng máy bay.
Click here to claim your Sponsored Listing.
Location
Category
Contact the school
Telephone
Website
Address
Hanoi
100000