Data Science and Quantitative Analysis

Data Science and Quantitative Analysis

Share

Diễn dàn dành cho các bạn yêu thích khoa học dữ liệu (Data Science) và học máy (M

10/01/2017

Bài chuẩn bị cho buổi học ngày 11/01/2017

MACHINE LEARNING: MÔ HÌNH KNN K Nearest Neighbor)

Dữ liệu các bạn lấy ở đây:

http://www.mediafire.com/file/iqh5dvn7v4et12b/fracture%282%29.txt

http://www.mediafire.com/file/78z20fag94ye29q/obesity+data.csv

R code cho bài học:

http://rpubs.com/chidungkt/235234

Ngoài ra, các bạn có thể tham khảo thêm ở:

fracture(2).txt MediaFire is a simple to use free service that lets you put all your photos, documents, music, and video in a single place so you can access them anywhere and share them everywhere.

10/01/2017

Thân gửi các bạn học viên của khóa học Khoa Học Dữ Liệu.

Việc làm sạch dữ liệu, biến đổi dữ liệu, chiết xuất (trích dữ liệu) .. trong khoa học dữ liệu được gọi là Data Manipulation hoặc Data Wrangling. Có lẽ nói không phóng đại khi nói rằng từ 50 đến 80% thời gian được tiêu tốn cho việc này và đương nhiên nó là một khâu không thể thiếu và luôn xuất hiện ngay ở đầu bất cứ dự án nào.

Với 36000 quan sát đến từ 5 quốc gia làm thế nào các bạn tính ra được, ví dụ, những thống kê đơn giản như trung bình? sai số chuẩn cho điểm toán theo từng quốc gia?

Để thành thạo các kĩ năng này, trước hết các bạn theo dõi loạt bài sau (theo thứ tự):

1. Cơ bản về data manipulation với hệ sinh thái (hay gói) tidyverse:

http://rpubs.com/chidungkt/234283

2. Về sử dụng toán tử hút thuốc:

http://rpubs.com/chidungkt/234438

3. Về thực hành với bộ số liệu PISA:

http://rpubs.com/chidungkt/236088

http://rpubs.com/chidungkt/239958

4. Về sử dụng gói DT trình bày bảng biểu:

http://rpubs.com/chidungkt/233830

RPubs - dplyr package for data transformation

09/01/2017

Gửi các bạn tài liệu nhằm chuẩn bị cho buổi học ngày 10/01/2017.

Tài liệu của thầy Tuấn:http://www.mediafire.com/file/vchimfu957eqdyy/Lecture_24b._CV_LOOCV_.pdf

R code của buổi học: http://rpubs.com/chidungkt/240620

Chú ý: Thầy sử dụng bộ dữ liệu pima-indiansdiabetes.csv. Thực tế, bộ data này được tích hợp trong nhiều gói của R nên các bạn có thể sử dụng bộ dữ liệu này, chẳng hạn, từ gói mlbench (như trong bài soạn này).

Lecture 24b. CV LOOCV .pdf MediaFire is a simple to use free service that lets you put all your photos, documents, music, and video in a single place so you can access them anywhere and share them everywhere.

Photos 09/01/2017

R code cho Artificial Neural Network (khóa học khoa học dữ liệu và Machine Learning).

Thân gửi các bạn học viên tham dự lớp học về khoa học dữ liệu và Machine Learning.

Machine Learning (ML) vốn là môn học được tạo ra do sự kết hôn của thống kê và khoa học máy tính. Với người chưa từng biết về ML trước đó, thì sẽ gặp nhiều khái niệm mới và có thể sẽ có chút lúng túng. Nhất là những thứ như lập trình.

Một trong những rắc rối của ML là chi tiết sau (chỉ đơn thuần là mặt kĩ thuật thôi): các code thường rất dài (và gõ cần phải chính xác). Do vậy, mình gửi trước các bạn code để các bạn chuẩn bị.

http://rpubs.com/chidungkt/240558

04/01/2017

A. Cài đặt gói car cần qua hai bước:

Bước 1 (mất chừng 10 đến 20 phút):
update.packages()
Bước 2:
install.packages("car", dependencies = T)

B. Cài đặt gói caret qua ba bước:

Bước 1:
install.packages("devtools ", dependencies = T)
Bước 2:
library(devtools)
Bước 3:
install_version("caret", version = "6.0-71", repos = "http://cran.us.r-project.org")

The Comprehensive R Archive Network

Photos 18/12/2016

Bộ số liệu PISA (có thể lấy ở đây: http://www.mediafire.com/file/i0lexh0gyclp4pv/PISA+DATA+%28INTERNATIONAL%29.CSV) khảo sát năng lực về Toán, Khoa học, và đọc của gần 36000 học sinh đến từ 5 nước cho thấy HS Việt Nam có điểm cao hơn cả những nước giàu như Mĩ, Úc và khác biệt này có ý nghĩa thống kê:

http://rpubs.com/chidungkt/236071

Tất nhiên, kết quả này gây ra một số ý kiến phản biện. Chẳng hạn, mẫu ở VN không đại diện cho Hà Giang - một trong những tỉnh nghèo nhất nước. Hoặc một số chỉ trích khác: http://vietnamnet.vn/vn/giao-duc/khoa-hoc/giam-doc-pisa-viet-nam-ngheo-khong-co-nghia-la-khong-the-gioi-347047.html

Về chọn mẫu, phản biện rằng mẫu ở VN chỉ đại diện cho HN và SG có thể là đúng. Nhưng cũng cần chú ý rằng Singapore là một nhà nước thành phố (City State) nên mẫu ở Sing chắc chắn 100% là dân đô thị. Ngoài ra, các nước khác (trừ Thái Lan) đều là những quốc gia có mức độ đô thị hóa trên 80% và thu nhập của nông dân được xếp vào nhóm cao. Nông dân ở Úc, Mĩ sở hữu các trang trại khổng lồ và gieo hạt phải bằng máy bay.

Want your school to be the top-listed School/college in Hanoi?

Click here to claim your Sponsored Listing.

Location

Category

Telephone

Website

Address

Trần Đại Nghĩa
Hanoi
100000