Upload 14 files

Browse files

Uploaded Full Course Data Science!

Files changed (14) hide show

Clean_data.py +32 -0
Dataframe.py +23 -0
Linear-Regression-Case.py +97 -0
Linear-Regression.py +187 -0
Linear_Functions.py +36 -0
Plotting_Linear_Functions.py +55 -0
Prepare_data.py +19 -0
Regression-Table-Coefficients.py +25 -0
Regression-Table-P-Values.py +53 -0
Regression-Table-R-Squared.py +57 -0
Regression-Table.py +53 -0
Slope_and_Intercept.py +123 -0
Statistics-data-science.py +258 -0
data.csv +164 -0

Clean_data.py ADDED Viewed

	@@ -0,0 +1,32 @@

+# Remove Blank Rows
+ # - We can use  .dropna()  to remove blank depending on axis=0(rows), axis=1(columns)
+import pandas as pd
+health_data = pd.read_csv('data.csv', header=0, sep=',')
+health_data.dropna(axis=0, inplace=True) # Chú thích: inplace=True => Xóa các ô lỗi theo hàng ; inplace=False => giữ nguyên các ô lỗi theo hàng
+print(health_data)
+# Data Types
+ # - We can use the  info()  function to list the data types within our dataset:
+import pandas as pd
+health_data = pd.read_csv("data.csv", header=0, sep=",")
+print(health_data.info())
+ # - We can use the astype() function to convert the data into float64.
+import pandas as pd
+health_data = pd.read_csv('data.csv', header=0, sep=',')
+health_data['Hours_Work'] = health_data['Hours_Work'].astype(float)
+health_data['Hours_Sleep'] = health_data['Hours_Sleep'].astype(float)
+print(health_data.info())
+# Analyze the data
+ # - We can use the  describe()  function in Python to summarize data:
+import pandas as pd
+health_data = pd.read_csv('data.csv',header=0, sep=',')
+pd.set_option('display.max_columns', None) # Có thể dùng thêm  pd.set_option('display.max_rows', None)
+print(health_data.describe())
+    # Count - Counts the number of observations
+    # Mean - The average value
+    # Std - Standard deviation (explained in the statistics chapter)
+    # Max - The highest value
+    # Min - The lowest value
+    # 25%, 50% and 75% are percentiles (explained in the statistics chapter)

Dataframe.py ADDED Viewed

	@@ -0,0 +1,23 @@

+import pandas as pd
+d = {'col1': [1,2,3,4,7], 'col2':[4,5,6,9,8], 'col3':[11,14,16,15,10]}
+df = pd.DataFrame(data=d)
+count_column = df.shape[1] # Chú thích: 0 là số hàng, 1 là số cột
+print('Number of columns: ')
+print(df)
+print(count_column)
+# Tìm giá trị lớn nhất
+Average_pulse_max = max(80, 85, 90, 95, 100, 105, 110, 115, 120, 125)
+print(Average_pulse_max)
+# Tìm giá trị nhỏ nhất
+Average_pulse_min = min(80, 85, 90, 95, 100, 105, 110, 115, 120, 125)
+print(Average_pulse_min)
+# Tìm giá trị trung bình
+import numpy as np
+Calorie_burnage = [240, 250, 260, 270, 280, 290, 300, 310, 320, 330]
+Average_calorie_burnage = np.mean(Calorie_burnage)
+print(Average_calorie_burnage)

Linear-Regression-Case.py ADDED Viewed

	@@ -0,0 +1,97 @@

+# Trường hợp: Sử dụng Thời lượng + Nhịp tim trung bình để Dự đoán Lượng calo bị đốt cháy
+ # - Tạo bảng hồi quy tuyến tính với Average_Pulse và Duration làm biến giải thích.
+ # Ví dụ:
+import pandas as pd
+import statsmodels.formula.api as smf
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+model = smf.ols('Calorie_Burnage ~ Average_Pulse + Duration', data=full_health_data) # Giải thích: dấu ~ nghĩa là dấu bằng(=)
+'''
+Giải thích: ols là Ordinary Least Squares(phương pháp bình phương tối thiểu)
+👉Nghĩa là ta muốn tìm đường thẳng tốt nhất: Calorie_Burnage = a + b * Average_Pulse
+trong đó:
+a: hằng số (intercept)
+b: hệ số góc (slope)
+'''
+results = model.fit()
+print(results.summary())
+'''
+In ra bảng thống kê kết quả hồi quy tuyến tính, gồm:
+ coef: hệ số của từng biến.
+ std err: sai số chuẩn.
+ t, P>|t|: giá trị kiểm định thống kê.
+ R-squared: độ phù hợp của mô hình (giá trị càng gần 1 càng tốt).
+ F-statistic, Prob(F-statistic): độ tin cậy chung của mô hình.
+ Intercept: hệ số chặn 𝑎.
+ Average_Pulse: hệ số góc b.
+'''
+'''
+Giải thích ví dụ:
+Nhập thư viện statsmodels.formula.api dưới dạng smf. Statsmodels là một thư viện thống kê trong Python.
+Sử dụng bộ dữ liệu full_health_data.
+Tạo mô hình dựa trên phương pháp Bình phương tối thiểu thông thường với smf.ols(). Lưu ý rằng biến giải thích phải được viết trước trong dấu ngoặc đơn. Sử dụng tập dữ liệu full_health_data.
+Bằng cách gọi .fit(), bạn sẽ nhận được biến results. Biến này chứa rất nhiều thông tin về mô hình hồi quy.
+Gọi summary() để lấy bảng kết quả hồi quy tuyến tính.
+'''
+'''
++) Hàm hồi quy tuyến tính có thể được viết lại theo phương pháp toán học như sau:
+Calorie_Burnage = Average_Pulse * 3.1695 + Duration * 5.8424 - 334.5194
++) Làm tròn đến hai chữ số thập phân:
+Calorie_Burnage = Average_Pulse * 3.17 + Duration * 5.84 - 334.52
+'''
+# Định nghĩa hàm hồi quy tuyến tính trong Python
+'''
+Xác định hàm hồi quy tuyến tính trong Python để thực hiện dự đoán.
+Calorie_Burnage là gì nếu:
+Nhịp tim trung bình là 110 và thời gian tập luyện là 60 phút?
+Nhịp tim trung bình là 140 và thời gian tập luyện là 45 phút?
+Nhịp tim trung bình là 175 và thời gian tập luyện là 20 phút?
+'''
+ # Ví dụ:
+def Predict_Calorie_Burnage(Average_Pulse, Duration):
+    return(Average_Pulse * 3.165 + Duration * 5.8424 - 334.5194) # Công thức y = w1x1 + w2x2 + ...+ wnxn - b
+print(Predict_Calorie_Burnage(110, 60))
+print(Predict_Calorie_Burnage(140, 45))
+print(Predict_Calorie_Burnage(175, 20))
+'''
+Câu trả lời:
+ Nhịp tim trung bình là 110 và thời lượng luyện tập là 60 phút = 364 Calo
+ Nhịp tim trung bình là 140 và thời lượng luyện tập là 45 phút = 371 Calo
+ Nhịp tim trung bình là 175 và thời lượng luyện tập là 20 phút = 336 Calo
+'''
+# Truy cập các hệ số
+'''
+Hãy xem các hệ số:
+Calorie_Burnage tăng lên 3,17 nếu Average_Pulse tăng thêm một.
+Calorie_Burnage tăng 5,84 nếu Duration tăng thêm một.
+'''
+# Truy cập Giá trị P (P-Valued)
+'''
+Hãy xem giá trị P cho từng hệ số.
+Giá trị P là 0,00 đối với Average_Pulse, Duration và Intercept.
+Giá trị P có ý nghĩa thống kê đối với tất cả các biến vì nó nhỏ hơn 0,05.
+Vì vậy, ở đây chúng ta có thể kết luận rằng Average_Pulse và Duration có mối quan hệ với Calorie_Burnage.
+'''
+# R-Squared đã điều chỉnh
+'''
+Sẽ có vấn đề với R bình phương nếu chúng ta có nhiều hơn một biến giải thích.
+R bình phương gần như luôn tăng nếu chúng ta thêm nhiều biến hơn và sẽ không bao giờ giảm.
+Điều này là do chúng ta đang thêm nhiều điểm dữ liệu hơn xung quanh hàm hồi quy tuyến tính.
+Nếu chúng ta thêm các biến ngẫu nhiên không ảnh hưởng đến lượng Calorie_Burnage, chúng ta có nguy cơ kết luận sai rằng hàm hồi quy tuyến tính là phù hợp. R-bình phương hiệu chỉnh sẽ điều chỉnh cho vấn đề này.
+Do đó, tốt hơn là nên xem xét giá trị R bình phương đã điều chỉnh nếu chúng ta có nhiều hơn một biến giải thích.
+R bình phương đã điều chỉnh là 0,814.
+Giá trị của R-Squared luôn nằm trong khoảng từ 0 đến 1 (0% đến 100%).
+Giá trị R-Squared cao có nghĩa là nhiều điểm dữ liệu gần với đường hồi quy tuyến tính.
+Giá trị R-Squared thấp có nghĩa là đường hồi quy tuyến tính không phù hợp với dữ liệu.
+🗸 Kết luận: Mô hình phù hợp với điểm dữ liệu!✅
+✅Xin chúc mừng! Bạn đã hoàn thành mô-đun cuối cùng của thư viện khoa học dữ liệu!🎉🎉🎉
+'''

Linear-Regression.py ADDED Viewed

	@@ -0,0 +1,187 @@

+# Hồi quy tuyến tính
+ # - Thuật ngữ hồi quy được sử dụng khi bạn cố gắng tìm mối quan hệ giữa các biến.
+ # - Trong Học máy và mô hình thống kê, mối quan hệ đó được sử dụng để dự đoán kết quả của các sự kiện.
+'''
+Trong mô-đun này, chúng ta sẽ giải quyết các câu hỏi sau:
+Chúng ta có thể kết luận rằng Average_Pulse và Duration có liên quan đến Calorie_Burnage không?
+Chúng ta có thể sử dụng Average_Pulse và Duration để dự đoán Calorie_Burnage không?
+'''
+# Phương pháp bình phương nhỏ nhất(Least Square Method)
+ # - Hồi quy tuyến tính sử dụng phương pháp bình phương nhỏ nhất.
+ # - Khái niệm này là vẽ một đường thẳng đi qua tất cả các điểm dữ liệu đã được biểu diễn. Đường thẳng này được định vị sao cho khoảng cách đến tất cả các điểm dữ liệu là nhỏ nhất.
+ # - Khoảng cách này được gọi là "giá trị còn lại" hoặc "lỗi".
+ # - Các đường nét đứt màu đỏ biểu thị khoảng cách từ các điểm dữ liệu đến hàm toán học được vẽ.
+# Hồi quy tuyến tính sử dụng một biến giải thích
+'''
+Trong ví dụ này, chúng ta sẽ thử dự đoán Calorie_Burnage với Average_Pulse bằng cách sử dụng Hồi quy tuyến tính:
+'''
+ # Ví dụ:
+  # Three lines to make our compiler able to draw:
+# import sys
+# import matplotlib
+# matplotlib.use('Agg')
+import pandas as pd
+import matplotlib.pyplot as plt
+import numpy as np
+from scipy import stats
+ # Load dữ liệu
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+ # Chọn cột
+x = full_health_data['Average_Pulse']
+y = full_health_data['Calorie_Burnage']
+ # Hồi quy tuyến tính
+slope, intercept, r_value, p_value, std_err = stats.linregress(x,y)
+ # Tạo dự đoán theo mô hình
+y_pred = slope * x + intercept
+ # Vẽ scatter plot + đường hồi quy tuyến tính
+plt.scatter(x,y, color='blue', label='Data Points')
+plt.plot(x,y_pred, color='red', label='Linear Regression Line')
+plt.xlabel('Average_Pulse')
+plt.ylabel('Calorie_Burnage')
+plt.title('Linear Regression of Calorie Burnage and Average Pulse ')
+plt.legend(loc='upper right')
+plt.show()
+  # Two lines to make our compiler able to draw:
+# plt.savefig(sys.stdout.buffer)
+# sys.stdout.flush()
+'''
+Giải thích ví dụ:
+Nhập các mô-đun bạn cần: Pandas, matplotlib và Scipy
+Cô lập Average_Pulse là x. Cô lập Calorie_burnage là y
+Lấy các giá trị khóa quan trọng với: slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
+Tạo một hàm sử dụng giá trị độ dốc và giá trị chặn để trả về một giá trị mới. Giá trị mới này biểu thị vị trí trên trục y của giá trị x tương ứng.
+Chạy từng giá trị của mảng x thông qua hàm. Điều này sẽ tạo ra một mảng mới với các giá trị mới cho trục y: mymodel = list(map(myfunc, x))
+Vẽ biểu đồ phân tán ban đầu: plt.scatter(x, y)
+Vẽ đường hồi quy tuyến tính: plt.plot(x, mymodel)
+Xác định giá trị lớn nhất và nhỏ nhất của trục
+Gắn nhãn trục: "Average_Pulse" và "Calorie_Burnage"
+'''
+# Vẽ Linear Regression + Confidence Interval +- 1 std_err
+import pandas as pd
+import matplotlib.pyplot as plt
+from scipy import stats
+import numpy as np
+# Load dữ liệu
+full_health_data = pd.read_csv('data.csv')
+# Chọn cột
+x = full_health_data['Average_Pulse']
+y = full_health_data['Calorie_Burnage']
+# Hồi quy tuyến tính
+slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
+# Dự đoán y theo mô hình
+y_pred = slope * x + intercept
+# Tạo vùng confidence interval (±1 std_err)
+y_upper = y_pred + std_err
+y_lower = y_pred - std_err
+# Vẽ scatter plot
+plt.figure(figsize=(8,6))
+plt.scatter(x, y, label='Data Points', color='blue')
+# Vẽ đường hồi quy
+plt.plot(x, y_pred, color='red', label='Regression Line')
+# Công thức std_err = s / căn n ; với s là độ lệch chuẩn của mẫu (sample standard deviation), n là kích thước mẫu (sample size)
+# Vẽ vùng ±1 std_err # Giá trị std_err càng nhỏ → trung bình mẫu càng đáng tin cậy (ít dao động khi lấy mẫu lặp lại).
+plt.fill_between(x, y_lower, y_upper, color='red', alpha=0.2, label='±1 Std. Err.')
+# Labels, title, legend
+plt.xlabel('Average_Pulse')
+plt.ylabel('Calorie_Burnage')
+plt.title('Linear Regression with ±1 Std. Error')
+plt.legend()
+plt.show()
+# TỔNG HỢP FULL LINEAR REGRESSION CƠ BẢN --> NÂNG CAO
+# =========================
+# 1️⃣ Import thư viện cần thiết
+# =========================
+import pandas as pd
+import matplotlib.pyplot as plt
+from scipy import stats
+import numpy as np
+# =========================
+# 2️⃣ Load dữ liệu từ CSV
+# =========================
+# CSV phải có cột: 'Average_Pulse', 'Calorie_Burnage'
+full_health_data = pd.read_csv('data.csv')
+# Kiểm tra số hàng và số cột
+rows = full_health_data.shape[0]
+columns = full_health_data.shape[1]
+print(f"Số hàng: {rows}, Số cột: {columns}")
+# =========================
+# 3️⃣ Chọn dữ liệu x, y
+# =========================
+x = full_health_data['Average_Pulse']
+y = full_health_data['Calorie_Burnage']
+# =========================
+# 4️⃣ Hồi quy tuyến tính
+# =========================
+slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
+# Dự đoán y theo mô hình
+y_pred = slope * x + intercept
+# =========================
+# 5️⃣ Metrics đánh giá mô hình
+# =========================
+from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
+mse = mean_squared_error(y, y_pred)
+rmse = np.sqrt(mse)
+mae = mean_absolute_error(y, y_pred)
+r2 = r2_score(y, y_pred)
+print(f"MSE: {mse:.2f}, RMSE: {rmse:.2f}, MAE: {mae:.2f}, R²: {r2:.3f}")
+# =========================
+# 6️⃣ Vẽ scatter plot + regression line + confidence interval
+# =========================
+y_upper = y_pred + std_err
+y_lower = y_pred - std_err
+plt.figure(figsize=(10,6))
+plt.scatter(x, y, label='Dữ liệu thực', color='blue')
+plt.plot(x, y_pred, color='red', label='Đường hồi quy')
+plt.fill_between(x, y_lower, y_upper, color='red', alpha=0.2, label='±1 Std. Err.')
+plt.xlabel('Average_Pulse')
+plt.ylabel('Calorie_Burnage')
+plt.title('Linear Regression: Calorie Burnage vs Average Pulse')
+plt.legend(title='Chú giải', fontsize=10, title_fontsize=12)
+plt.xlim([0, x.max()*1.1])
+plt.ylim([0, y.max()*1.1])
+plt.grid(True)
+plt.show()
+# =========================
+# 7️⃣ Dự đoán giá trị mới
+# =========================
+new_pulses = [80, 100, 120]
+predicted_calories = [slope*p + intercept for p in new_pulses]
+for p, c in zip(new_pulses, predicted_calories):
+    print(f"Average Pulse: {p} → Dự đoán Calorie Burnage: {c:.2f}")
+'''
+✅ Tính năng đầy đủ:
+Tự động load dữ liệu và kiểm tra số hàng/cột.
+Linear Regression + vector hóa dự đoán y_pred.
+Metrics: MSE, RMSE, MAE, R².
+Đồ thị: scatter, regression line, ±1 std_err, legend, title, grid.
+Tự động scale xlim/ylim dựa trên dữ liệu.
+Dự đoán giá trị mới với mô hình.
+'''

Linear_Functions.py ADDED Viewed

	@@ -0,0 +1,36 @@

+# Linear Functions
+'''
+A linear function has one independent variable (x) and one dependent variable (y), and has the following form:
+y = f(x) = ax + b
+This function is used to calculate a value for the dependent variable when we choose a value for the independent variable.
+Explanation:
+f(x) = the output (the dependant variable)
+x = the input (the independant variable)
+a = slope = is the coefficient of the independent variable. It gives the rate of change of the dependent variable
+b = intercept = is the value of the dependent variable when x = 0. It is also the point where the diagonal line crosses the vertical axis.
+'''
+# Linear Function With One Explanatory Variable
+ # - A function with one explanatory variable means that we use one variable for prediction.
+ # For example:
+  # Let us say we want to predict calorie burnage using average pulse. We have the following formula:
+  # f(x) = 2x + 80
+'''
+Here, the numbers and variables means:
+f(x) = The output. This number is where we get the predicted value of Calorie_Burnage
+x = The input, which is Average_Pulse
+2 = Slope = Specifies how much Calorie_Burnage increases if Average_Pulse increases by one. It tells us how "steep" the diagonal line is
+80 = Intercept = A fixed value. It is the value of the dependent variable when x = 0
+'''
+# Plotting a Linear Function
+'''
+Graph Explanations:
+- The horizontal axis is generally called the x-axis. Here, it represents Average_Pulse.
+- The vertical axis is generally called the y-axis. Here, it represents Calorie_Burnage.
+- Calorie_Burnage is a function of Average_Pulse, because Calorie_Burnage is assumed to be dependent on Average_Pulse.
+- In other words, we use Average_Pulse to predict Calorie_Burnage.
+- The blue (diagonal) line represents the structure of the mathematical function that predicts calorie burnage.
+'''

Plotting_Linear_Functions.py ADDED Viewed

	@@ -0,0 +1,55 @@

+# Plot the Existing Data in Python
+'''
+Now, we can first plot the values of Average_Pulse against Calorie_Burnage using the matplotlib library.
+The  plot()  function is used to make a 2D hexagonal binning plot of points x,y:
+'''
+#   # Three lines to make our compiler able to draw
+# import sys
+# import matplotlib
+# matplotlib.use('Agg') # Giá trị AGG viết tắt của "Anti-Grain Geometry", được thiết kế trong môi trường ko có giao diện đồ họa => ko chạy được ra hình
+  #Three lines to make our compiler able to draw:
+import pandas as pd
+import matplotlib.pyplot as plt
+# Đọc dữ liệu và làm sạch tên cột (xóa khoảng trắng dư)
+health_data = pd.read_csv('data-linear-functions.csv', header=0, sep=',')
+health_data.columns = health_data.columns.str.strip()
+# Vẽ biểu đồ Average_Pulse vs Calorie_Burnage
+health_data.plot(x='Average_Pulse', y='Calorie_Burnage', kind='line')
+# Giới hạn trục
+plt.xlim(xmin=0)
+plt.ylim(ymin=0)
+# Tiêu đề và nhãn trục
+plt.title('Average Pulse vs Calorie Burnage')
+plt.xlabel('Average Pulse')
+plt.ylabel('Calorie Burnage')
+# Hiển thị biểu đồ trong VS Code
+plt.show()
+#   # Two lines to make our compiler able to draw(in ra nhị phân trong VScode):
+# plt.savefig(sys.stdout.buffer)
+# sys.stdout.flush()
+'''
+Example Explained
+Import the pyplot module of the matplotlib library
+Plot the data from Average_Pulse against Calorie_Burnage
+kind='line' tells us which type of plot we want. Here, we want to have a straight line
+plt.ylim() and plt.xlim() tells us what value we want the axis to start on. Here, we want the axis to begin from zero
+plt.show() shows us the output
+Why is The Line Not Fully Drawn Down to The y-axis?
+==> The reason is that we do not have observations where Average_Pulse or Calorie_Burnage are equal to zero. 80 is the first observation of Average_Pulse and 240 is the first observation of Calorie_Burnage.
+We can use the diagonal line to find the mathematical function to predict calorie burnage.
+As it turns out:
+If the average pulse is 80, the calorie burnage is 240
+If the average pulse is 90, the calorie burnage is 260
+If the average pulse is 100, the calorie burnage is 280
+There is a pattern. If average pulse increases by 10, the calorie burnage increases by 20.
+'''

Prepare_data.py ADDED Viewed

	@@ -0,0 +1,19 @@

+# Chuẩn bị dữ liệu sử dụng thư viện Pandas
+ # Đọc dữ liệu vào: .read_csv('tên_file.csv', header=0, sep=',')
+import pandas as pd
+health_data = pd.read_csv('data.csv', header=0, sep=",")
+print(health_data) # ==> Nó sẽ hiển thị vài dòng rồi tự động cắt bớt và hiển thị chỉ vài dòng cuối
+# Hiển thị tất cả các hàng và cột trong file data.csv
+pd.set_option('display.max_rows', None) # Không giới hạn số hàng
+pd.set_option('display.max_columns',None) # không giới hạn số cột
+print(health_data)
+# Xem một phần dữ liệu
+print(health_data.head(10)) # xem 10 dòng đầu
+print(health_data.tail(10)) # xem 10 dòng cuối
+ # ==> nếu dùng .head() ; .tail() => mặc định in ra 5 dòng đầu ; 5 dòng cuối
+# Ghi ra file CSV để xem toàn bộ (đã sửa hoặc chưa sửa)
+health_data.to_csv('output-full-data.csv', index=False) # index=False nghĩa là không ghi cột index (chỉ số dòng) của DataFrame vào file CSV.

Regression-Table-Coefficients.py ADDED Viewed

	@@ -0,0 +1,25 @@

+# "Phần Hệ số" trong Bảng hồi quy
+'''
+- Coef là viết tắt của coefficient(hệ số). Đây là kết quả đầu ra của hàm hồi quy tuyến tính.
+Hàm hồi quy tuyến tính có thể được viết lại theo phương pháp toán học như sau:
+  Calorie_Burnage = 0.3296 * Average_Pulse + 346.8662
+Những con số này có nghĩa là:
+ Nếu Average_Pulse tăng thêm 1, Calorie_Burnage tăng thêm 0.3296(hoặc 0.3 làm tròn)
+ Nếu Average_Pulse = 0, Calorie_Burnage bằng 346.8662(hoặc 346.9 làm tròn)
+ Hãy nhớ rằng giá trị chặn(intercept) được sử dụng để điều chỉnh độ chính xác dự đoán của mô hình.
+'''
+# Định nghĩa hàm hồi quy tuyến tính trong Python
+'''
+Xác định hàm hồi quy tuyến tính trong Python để thực hiện dự đoán.
+Calorie_Burnage là gì nếu Average_Pulse là: 120, 130, 150, 180?
+'''
+ # Ví dụ:
+def Predict_Calorie_Burnage(Average_Pulse):
+     return(0.3296 * Average_Pulse + 346.8662)
+# Try some different Values: 120,130,150,180
+print(Predict_Calorie_Burnage(120))
+print(Predict_Calorie_Burnage(130))
+print(Predict_Calorie_Burnage(150))
+print(Predict_Calorie_Burnage(180))

Regression-Table-P-Values.py ADDED Viewed

	@@ -0,0 +1,53 @@

+# Bảng hồi quy: Giá trị P
+# "Thống kê của phần hệ số" trong bảng hồi quy
+'''
+Bây giờ, chúng ta muốn kiểm tra xem các hệ số từ hàm hồi quy tuyến tính có tác động đáng kể đến biến phụ thuộc (Calorie_Burnage) hay không.
+Điều này có nghĩa là chúng ta muốn chứng minh rằng tồn tại mối quan hệ giữa Average_Pulse và Calorie_Burnage, bằng cách sử dụng các bài kiểm tra thống kê.
+Có bốn thành phần giải thích số liệu thống kê của các hệ số:
+std err là viết tắt của Standard Error
+t là "giá trị t" của các hệ số
+P>|t| được gọi là "Giá trị P"
+ [0,025 0,975] biểu thị khoảng tin cậy của các hệ số
+Chúng ta sẽ tập trung vào việc hiểu "Giá trị P" trong mô-đun này.
+'''
+# Giá trị P
+'''
+Giá trị P là một con số thống kê để kết luận xem có mối quan hệ nào giữa Average_Pulse và Calorie_Burnage hay không.
+Chúng ta kiểm tra xem giá trị thực của hệ số có bằng 0 (không có mối quan hệ) hay không. Kiểm định thống kê cho trường hợp này được gọi là Kiểm định giả thuyết.
+Giá trị P thấp (< 0,05) có nghĩa là hệ số có khả năng không bằng 0.
+Giá trị P cao (> 0,05) có nghĩa là chúng ta không thể kết luận rằng biến giải thích ảnh hưởng đến biến phụ thuộc (ở đây: nếu Average_Pulse ảnh hưởng đến Calorie_Burnage).
+Giá trị P cao cũng được gọi là giá trị P không đáng kể.
+'''
+# Kiểm định giả thuyết(Hypothesis Testing)
+'''
+Kiểm định giả thuyết là một thủ tục thống kê để kiểm tra xem kết quả của bạn có hợp lệ hay không.
+Trong ví dụ của chúng tôi, chúng tôi đang kiểm tra xem hệ số thực của Average_Pulse và giá trị chặn có bằng 0 hay không.
+Kiểm định giả thuyết có hai phát biểu: Giả thuyết không và giả thuyết thay thế.
+Giả thuyết không có thể được viết ngắn gọn là H0
+Giả thuyết thay thế có thể được viết ngắn gọn là HA
+Viết theo dạng toán học:
+ H0: Average_Pulse = 0
+ HA: Average_Pulse ≠ 0
+ H0: Intercept = 0
+ HA: Intercept ≠ 0
+ Dấu ≠ có nghĩa là "không bằng"
+'''
+# Kiểm định giả thuyết và giá trị P
+'''
+Giả thuyết không có thể bị bác bỏ hoặc không.
+Nếu bác bỏ giả thuyết vô hiệu, chúng ta kết luận rằng tồn tại mối quan hệ giữa Nhịp tim trung bình và Lượng calo tiêu thụ. Giá trị P được sử dụng cho kết luận này.
+Ngưỡng chung của giá trị P là 0,05.
+Lưu ý: Giá trị P bằng 0,05 có nghĩa là 5% trường hợp, chúng ta sẽ bác bỏ giả thuyết vô hiệu một cách sai lầm. Điều này có nghĩa là chúng ta chấp nhận rằng 5% trường hợp, chúng ta có thể đã kết luận sai về một mối quan hệ.
+Nếu giá trị P thấp hơn 0,05, chúng ta có thể bác bỏ giả thuyết không và kết luận rằng tồn tại mối quan hệ giữa các biến.
+Tuy nhiên, giá trị P của Average_Pulse là 0,824. Vì vậy, chúng ta không thể kết luận mối quan hệ giữa Average_Pulse và Calorie_Burnage.
+Điều này có nghĩa là có 82,4% khả năng hệ số thực của Average_Pulse bằng 0.
+Giá trị cắt gốc được sử dụng để điều chỉnh khả năng dự đoán chính xác hơn của hàm hồi quy. Do đó, việc diễn giải giá trị P của giá trị cắt gốc là không phổ biến.
+'''

Regression-Table-R-Squared.py ADDED Viewed

	@@ -0,0 +1,57 @@

+# R - Bình phương
+ # - R-Squared và điều chỉnh R-Squared mô tả mức độ phù hợp của mô hình hồi quy tuyến tính với các điểm dữ liệu:
+'''
+Giá trị của R-Squared luôn nằm trong khoảng từ 0 đến 1 (0% đến 100%).
+Giá trị R-Squared cao có nghĩa là nhiều điểm dữ liệu gần với đường hồi quy tuyến tính.
+Giá trị R-Squared thấp có nghĩa là đường hồi quy tuyến tính không phù hợp với dữ liệu.
+'''
+# Ví dụ trực quan về giá trị R bình phương thấp (0,00)
+'''
+Mô hình hồi quy của chúng tôi cho thấy giá trị R-Squared bằng 0, điều này có nghĩa là đường hồi quy tuyến tính không phù hợp với dữ liệu.
+Điều này có thể được hình dung khi chúng ta vẽ đồ thị hàm hồi quy tuyến tính thông qua các điểm dữ liệu của Average_Pulse và Calorie_Burnage.
+'''
+# Ví dụ trực quan về giá trị R bình phương cao (0,79)
+ # - Tuy nhiên, nếu chúng ta vẽ đồ thị Duration và Calorie_Burnage , R-Squared sẽ tăng lên. Ở đây, chúng ta thấy các điểm dữ liệu gần với đường hồi quy tuyến tính:
+ # - Sau đây là mã bằng Python:
+ # Ví dụ:
+  # Three lines to make our compiler able to draw:
+# import sys
+# import matplotlib
+# matplotlib.use('Agg')
+import pandas as pd
+import matplotlib.pyplot as plt
+from scipy import stats
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+x = full_health_data['Duration']
+y = full_health_data['Calorie_Burnage']
+slope, intercept, r, p, std_err = stats.linregress(x,y)
+def my_function(x):
+    return slope * x + intercept
+mymodel = list(map(my_function,x))
+print(mymodel)
+plt.scatter(x,y)
+plt.plot(x,mymodel)
+plt.xlim(xmin=0, xmax=200)
+plt.ylim(ymin=0, ymax=2000)
+plt.xlabel('Duration')
+plt.ylabel('Calorie_Burnage')
+plt.title('Regression Table With R-Squared')
+plt.show()
+  # Two lines to make our compiler able to draw:
+# plt.savefig(sys.stdout.buffer)
+# sys.stdout.flush()
+# Tóm tắt - Dự đoán lượng calo bị đốt cháy bằng Average_Pulse
+'''
+Làm thế nào chúng ta có thể tóm tắt hàm hồi quy tuyến tính với Average_Pulse là biến giải thích?
+Hệ số 0,3296, nghĩa là Average_Pulse có tác động rất nhỏ đến Calorie_Burnage.
+Giá trị P cao (0,824), nghĩa là chúng ta không thể kết luận mối quan hệ giữa Nhịp tim trung bình và Lượng calo đốt cháy.
+Giá trị R-Squared bằng 0, nghĩa là đường hồi quy tuyến tính không phù hợp với dữ liệu.
+'''

Regression-Table.py ADDED Viewed

	@@ -0,0 +1,53 @@

+# Bảng hồi quy
+ # - Kết quả đầu ra từ hồi quy tuyến tính có thể được tóm tắt trong bảng hồi quy.
+'''
+Nội dung của bảng bao gồm:
+Thông tin về mô hình
+Hệ số của hàm hồi quy tuyến tính
+Thống kê hồi quy
+Thống kê các hệ số từ hàm hồi quy tuyến tính
+Những thông tin khác mà chúng tôi sẽ không đề cập trong mô-đun này
+'''
+# Bảng hồi quy với Average_Pulse là biến giải thích
+ # => Bây giờ bạn có thể bắt đầu hành trình phân tích đầu ra nâng cao!
+# Tạo bảng hồi quy tuyến tính trong Python
+ # - Sau đây là cách tạo bảng hồi quy tuyến tính trong Python:
+import pandas as pd
+import statsmodels.formula.api as smf
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+model = smf.ols('Calorie_Burnage ~ Average_Pulse', data=full_health_data)
+'''
+Giải thích: ols là Ordinary Least Squares(phương pháp bình phương tối thiểu)
+👉Nghĩa là ta muốn tìm đường thẳng tốt nhất: Calorie_Burnage = a + b * Average_Pulse
+trong đó:
+a: hằng số (intercept)
+b: hệ số góc (slope)
+'''
+results = model.fit() # Dòng này huấn luyện mô hình (fit model) trên dữ liệu. Tính toán giá trị a, b, sai số, R², p-value,...
+print(results.summary())
+'''
+In ra bảng thống kê kết quả hồi quy tuyến tính, gồm:
+ coef: hệ số của từng biến.
+ std err: sai số chuẩn.
+ t, P>|t|: giá trị kiểm định thống kê.
+ R-squared: độ phù hợp của mô hình (giá trị càng gần 1 càng tốt).
+ F-statistic, Prob(F-statistic): độ tin cậy chung của mô hình.
+ Intercept: hệ số chặn 𝑎.
+ Average_Pulse: hệ số góc b.
+'''
+'''
+Giải thích ví dụ:
+Nhập thư viện statsmodels.formula.api dưới dạng smf. Statsmodels là một thư viện thống kê trong Python.
+Sử dụng bộ dữ liệu full_health_data.
+Tạo mô hình dựa trên phương pháp Bình phương tối thiểu thông thường với smf.ols(). Lưu ý rằng biến giải thích phải được viết trước trong dấu ngoặc đơn. Sử dụng tập dữ liệu full_health_data.
+Bằng cách gọi .fit(), bạn sẽ nhận được biến results. Biến này chứa rất nhiều thông tin về mô hình hồi quy.
+Gọi summary() để lấy bảng kết quả hồi quy tuyến tính.
+'''
+'''
+Dep. Variable: is short for "Dependent Variable". Calorie_Burnage is here the dependent variable. The Dependent variable is here assumed to be explained by Average_Pulse.
+Model: OLS is short for Ordinary Least Squares. This is a type of model that uses the Least Square method.
+Date: and Time: shows the date and time the output was calculated in Python.
+'''

Slope_and_Intercept.py ADDED Viewed

	@@ -0,0 +1,123 @@

+# Slope and Intercept
+# Find The Slope
+'''
+The slope is defined as how much calorie burnage increases, if average pulse increases by one. It tells us how "steep" the diagonal line is.
+We can find the slope by using the proportional difference of two points from the graph.
+If the average pulse is 80, the calorie burnage is 240
+If the average pulse is 90, the calorie burnage is 260
+We see that if average pulse increases with 10, the calorie burnage increases by 20.
+'''
+  # slope = 20/10 = 2 ==> The slope is 2.
+  # Mathematically, Slope is Defined as: Slope = f(x2) - f(x1) / x2-x1
+'''
+    f(x2) = Second observation of Calorie_Burnage = 260
+    f(x1) = First observation of Calorie_Burnage = 240
+    x2 = Second observation of Average_Pulse = 90
+    x1 = First observation of Average_Pulse = 80
+'''
+  # Slope = (260-240) / (90-80) = 2 => Be consistent to define the observations in the correct order! If not, the prediction will not be correct!
+# Use Python to find the Slope
+ # - Calculate the slope with the following code:
+ # Ví dụ:
+def slope(x1,y1, x2,y2):
+    s = (y2-y1)/(x2-x1)
+    return s
+print(slope(80,240,90,260))
+# Find the Intercept
+ # - The intercept is used to fine tune the functions ability to predict Calorie_Burnage.
+ # - The intercept is where the diagonal line crosses the y-axis, if it were fully drawn.
+ # - The intercept is the value of y, when x = 0.
+'''
+Does it make sense that average pulse is zero?
+No, you would be dead and you certainly would not burn any calories.
+However, we need to include the intercept in order to complete the mathematical function's ability to predict Calorie_Burnage correctly.
+'''
+'''
+Other examples where the intercept of a mathematical function can have a practical meaning:
+Predicting next years revenue by using marketing expenditure (How much revenue will we have next year, if marketing expenditure is zero?). It is likely to assume that a company will still have some revenue even though if it does not spend money on marketing.
+Fuel usage with speed (How much fuel do we use if speed is equal to 0 mph?). A car that uses gasoline will still use fuel when it is idle.
+'''
+# Find the Slope and Intercept Using Python
+ # - The  np.polyfit()  function returns the slope and intercept.
+import pandas as pd
+import numpy as np
+health_data = pd.read_csv('data-calculate-slope-and-intercept.csv', header=0, sep=',')
+x = health_data['Average_Pulse']
+y = health_data['Calorie_Burnage']
+slope_intercept = np.polyfit(x,y,1) # 1 means the degree of the function
+print(slope_intercept)
+'''
+Example Explained:
+Isolate the variables Average_Pulse (x) and Calorie_Burnage (y) from health_data.
+Call the np.polyfit() function.
+The last parameter of the function specifies the degree of the function, which in this case is "1".
+'''
+'''
+Tip: linear functions = 1.degree function. In our example, the function is linear, which is in the 1.degree. That means that all coefficients (the numbers) are in the power of one.
+'''
+'''
+We have now calculated the slope (2) and the intercept (80). We can write the mathematical function as follow:
+Predict Calorie_Burnage by using a mathematical expression:
+'''
+ # f(x) = 2x + 80
+'''
+ Task:
+Now, we want to predict calorie burnage if average pulse is 135.
+Remember that the intercept is a constant. A constant is a number that does not change.
+We can now substitute the input x with 135:
+'''
+ # f(135) = 2 * 135 + 80 = 350 => If average pulse is 135, the calorie burnage is 350.
+# Define the Mathematical Function in Python
+ # Ví dụ:
+def my_function(x):
+    return 2 *x + 80
+print(my_function(135))
+ # Another Task: Try to replace x with 140 and 150.
+def my_function(x):
+    return 2*x + 80
+print(my_function(140))
+def my_function(x):
+    return 2*x + 80
+print(my_function(150))
+# Plot a New Graph in Python
+ # - Here, we plot the same graph as earlier, but formatted the axis a little bit.
+ # Max value of the y-axis is now 400 and for x-axis is 150:
+ # Ví dụ:
+  # Three lines to make our compiler able to draw
+# import sys
+# import matplotlib
+# matplotlib.use('Agg') # Giá trị AGG viết tắt của "Anti-Grain Geometry", được thiết kế trong môi trường ko có giao diện đồ họa => ko chạy được ra hình ảnh
+import pandas as pd
+import matplotlib.pyplot as plt
+health_data = pd.read_csv('data-linear-functions.csv', header=0, sep=',')
+health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='line')
+# Tiêu đề và nhãn trục
+plt.title('Average Pulse vs Calorie Burnage')
+plt.xlabel('Average Pulse')
+plt.ylabel('Calorie Burnage')
+plt.xlim(xmin=0)
+plt.ylim(ymin=0)
+plt.show()
+  # Two lines to make our compiler able to draw(In ra nhị phân trong VScode)
+  # plt.savefig(sys.stdout.buffer)
+  # sys.stdout.flush()
+'''
+Example Explained
+Import the pyplot module of the matplotlib library
+Plot the data from Average_Pulse against Calorie_Burnage
+kind='line' tells us which type of plot we want. Here, we want to have a straight line
+plt.ylim() and plt.xlim() tells us what value we want the axis to start and stop on.
+plt.show() shows us the output
+'''

Statistics-data-science.py ADDED Viewed

	@@ -0,0 +1,258 @@

+# Statistics
+ # - Thống kê là khoa học phân tích dữ liệu.
+ # - Khi tạo ra 1 mô hình dự đoán => phải đánh giá độ tin cậy của dự đoán đó.
+ # - Suy cho cùng, một dự đoán có giá trị nếu chúng ta không thể tin cậy vào nó.
+# Các phép tính quan trọng trong một data set:
+'''
+Count
+Sum
+Standard Deviation(std)
+Percentile
+Average
+Etc...
+(Đây là điểm khởi đầu quan trọng để làm quen với dữ liệu).
+'''
+# Sử dụng hàm  describe()  trong Python để tóm tắt dữ liệu:
+import pandas as pd
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+pd.set_option('display.max_columns', None)
+pd.set_option('display.max_rows', None)
+print(full_health_data.describe())
+# Thống kê phần trăm(Statistics Percentiles)
+ # - Có 3 loại phần trăm: 25%, 50%, 75%
+'''
+Chúng ta hãy thử giải thích bằng một số ví dụ, sử dụng Average_Pulse.
+ Phần trăm thứ 25 của Average_Pulse có nghĩa là 25% trong tổng số buổi tập có nhịp mạch trung bình là 100 nhịp mỗi phút hoặc thấp hơn.
+ Nếu đảo ngược câu lệnh, điều đó có nghĩa là 75% trong tổng số buổi tập có nhịp mạch trung bình là 100 nhịp mỗi phút hoặc cao hơn.
+'''
+# TASK: Tìm phần trăm thứ 10% cho Max_Pulse
+import pandas as pd
+import numpy as np
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+Max_Pulse = full_health_data['Max_Pulse']
+percentile10 = np.percentile(Max_Pulse, 10)
+print(percentile10)
+'''Giải thích:
+Max_Pulse = full_health_data["MaxPulse"] - Tách biến MaxPulse khỏi toàn bộ tập dữ liệu sức khỏe.
+np.percentile() được sử dụng để xác định rằng chúng ta muốn phần trăm thứ 10% từ Max_Pulse.
+Phần trăm thứ 10% của Max_Pulse là 119. Điều này có nghĩa là 10% trong số tất cả các buổi đào tạo có Max_Pulse là 119 hoặc thấp hơn.
+'''
+# Độ lệch chuẩn(Standard Deviation)
+ # - Độ lệch chuẩn là con số mô tả mức độ phân tán của các quan sát.
+'''
+Một hàm toán học sẽ gặp khó khăn trong việc dự đoán các giá trị chính xác nếu các quan sát "phân tán". Độ lệch chuẩn là thước đo mức độ không chắc chắn.
+Độ lệch chuẩn thấp có nghĩa là hầu hết các con số đều gần với giá trị trung bình (trung bình cộng).
+Độ lệch chuẩn cao có nghĩa là các giá trị được phân bổ trên một phạm vi rộng hơn.
+'''
+ # Mẹo: Độ lệch chuẩn thường được biểu thị bằng ký hiệu Sigma: σ
+# Chúng ta có thể sử dụng hàm  std()  từ Numpy để tìm độ lệch chuẩn của một biến
+ # Ví dụ:
+import pandas as pd
+import numpy as np
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+std = np.std(full_health_data)
+print(std)
+# Hệ số biến thiên(Coefficient of Variation)
+ # - Hệ số biến thiên được sử dụng để biết độ lệch chuẩn lớn đến mức nào.
+ # Về mặt toán học, hệ số biến thiên được định nghĩa như sau:
+ # Coefficient of Variation = Standard Deviation / Mean
+ # Ví dụ:
+import pandas as pd
+import numpy as np
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+coefficient_of_variation = np.std(full_health_data) / np.mean(full_health_data)
+print(coefficient_of_variation)
+'''
+Chúng ta thấy rằng các biến Duration, Calorie_Burnage và Hours_Work có Độ lệch chuẩn cao so với Max_Pulse, Average_Pulse và Hours_Sleep.
+'''
+# Phương sai thống kê(Statistics Variance)
+ # - Phương sai là một con số khác cho biết mức độ phân tán của các giá trị.
+'''
+Trên thực tế, nếu lấy căn bậc hai của phương sai, bạn sẽ có độ lệch chuẩn. Hoặc ngược lại, nếu nhân độ lệch chuẩn với chính nó, bạn sẽ có phương sai!
+'''
+ # Mẹo: Phương sai thường được biểu thị bằng ký hiệu Sigma Square: σ^2
+'''
+Bước 1 để tính phương sai: Tìm giá trị trung bình
+Bước 2: Đối với mỗi giá trị - Tìm sự khác biệt so với giá trị trung bình
+Bước 3: Đối với mỗi hiệu - Tìm giá trị bình phương
+ưu ý: Chúng ta phải bình phương các giá trị để có được tổng mức chênh lệch.
+Bước 4: Phương sai là số trung bình của các giá trị bình phương này
+'''
+# Sử dụng Python để tìm phương sai của health_data
+ # - Sử dụng hàm  var()  từ Numpy để tìm phương sai(hãy nhớ rằng bây giờ chúng ta sử dụng tập dữ liệu đầu tiên với 10 quan sát)
+import pandas as pd
+import numpy as np
+health_data = pd.read_csv('calculate-var-statistics.csv', header=0, sep=',')
+var = np.var(health_data)
+print(var)
+# Sử dụng Python để tìm phương sai của toàn bộ tập dữ liệu
+import pandas as pd
+import numpy as np
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+full_var = np.var(full_health_data)
+print(full_var)
+# Thống kê tương quan(Statistics Correlation)
+ # - Hệ số tương quan đo lường mối quan hệ giữa hai biến.
+ # - Hệ số tương quan không bao giờ được nhỏ hơn -1 hoặc lớn hơn 1.
+'''
+1 = có mối quan hệ tuyến tính hoàn hảo giữa các biến (như Average_Pulse so với Calorie_Burnage)
+0 = không có mối quan hệ tuyến tính giữa các biến
+-1 = có mối quan hệ tuyến tính âm hoàn hảo giữa các biến (ví dụ: Làm việc ít giờ hơn dẫn đến đốt cháy nhiều calo hơn trong một buổi tập luyện)
+'''
+# Ví dụ về mối quan hệ tuyến tính hoàn hảo (Hệ số tương quan = 1)
+  # Three lines to make our compiler able to draw:
+# import sys
+# import matplotlib
+# matplotlib.use('Agg')
+import pandas as pd
+import matplotlib.pyplot as plt
+health_data = pd.read_csv('data-correlation-coefficient.csv', header=0, sep=',')
+health_data.plot(x='Average_Pulse', y='Calorie_Burnage', title='Correlation Coefficient = 1', kind='scatter')
+plt.show()
+  # Two lines to make our compiler able to draw:
+# plt.savefig(sys.stdout.buffer) # buffer là bộ nhớ đệm
+# sys.stdout.flush() # Hàm này ép Python in ra màn hình ngay lập tức thay vì đợi
+# Ví dụ về mối quan hệ tuyến tính âm hoàn hảo (Hệ số tương quan = -1)
+  # Three lines to make our compilers able to draw:
+# import sys
+# import matplotlib
+# matplotlib.use('Agg')
+import pandas as pd
+import matplotlib.pyplot as plt
+negative_corr = {'Hours_Work_Before_Training':[10,9,8,7,6,5,4,3,2,1], 'Calorie_Burnage':[220,240,260,280,300,320,340,360,380,400]}
+negative_corr = pd.DataFrame(data=negative_corr)
+negative_corr.plot(x='Hours_Work_Before_Training', y='Calorie_Burnage', title='Correlation Coefficient = -1', kind='scatter')
+plt.show()
+  # Two lines to make our compiler able to draw:
+# plt.savefig(sys.stdout.buffer) # buffer là bộ nhớ đệm
+# sys.stdout.flush() # Hàm này ép Python in ra màn hình ngay lập tức thay vì đợi
+# Ví dụ về Không có mối quan hệ tuyến tính (Hệ số tương quan = 0)
+  # Three lines to make our compiler able to draw:
+# import sys
+# import matplotlib
+# matplotlib.use('Agg')
+import pandas as pd
+import matplotlib.pyplot as plt
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+full_health_data.plot(x='Duration', y='Max_Pulse', title='Correlation Coefficient = 0', kind='scatter')
+plt.show()
+  # Two lines to make our compiler able to draw:
+# plt.savefig(sys.stdout.buffer) # buffer là bộ nhớ đệm
+# sys.stdout.flush() # Hàm này ép Python in ra màn hình ngay lập tức thay vì đợi
+'''
+Có thể thêm các tham số khác trong .plot : figsize, color, style, legend, grid, xlabel, ylabel, xlim, ylim, marker, alpha, linewidth, fontsize, rot, subplots, colormap, sharex, sharey
+'''
+# Ma trận tương quan thống kê(Statistics Correlation Matrix)
+ # - Ma trận là một mảng số được sắp xếp theo hàng và cột.
+ # - Ma trận tương quan đơn giản là một bảng hiển thị hệ số tương quan giữa các biến.
+# Ma trận tương quan trong Python
+ # - Sử dụng hàm  .corr()  trong Python để tạo ma trận tương quan.
+ # - Sử dụng hàm  round()  để làm tròn kết quả đầu ra thành hai chữ số thập phân.
+ # Ví dụ:
+import pandas as pd
+full_health_data = pd.read_csv('data.csv', header=0, sep=',')
+Corr_matrix = round(full_health_data.corr(),2)
+print(Corr_matrix)
+# Sử dụng Bản đồ nhiệt
+ # - Chúng ta có thể sử dụng Bản đồ nhiệt để trực quan hóa mối tương quan giữa các biến:
+'''
+Hệ số tương quan càng gần 1 thì hình vuông càng xanh.
+Hệ số tương quan càng gần -1 thì hình vuông càng có màu nâu.
+'''
+ # - Sử dụng Seaborn để tạo bản đồ nhiệt
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+full_health_data = pd.read_csv("data.csv", header=0, sep=",")
+correlation_full_health = full_health_data.corr()
+axis_corr = sns.heatmap(correlation_full_health, vmin=-1, vmax=1, center=0, cmap=sns.diverging_palette(50, 500, n=500), square=True)
+plt.show()
+'''
+Giải thích ví dụ:
+Nhập thư viện seaborn dưới dạng sns.
+Sử dụng bộ dữ liệu full_health_data.
+Sử dụng sns.heatmap() để cho Python biết rằng chúng ta muốn có bản đồ nhiệt để trực quan hóa ma trận tương quan.
+Sử dụng ma trận tương quan. Xác định giá trị cực đại và cực tiểu của bản đồ nhiệt. Xác định 0 là tâm.
+Xác định màu sắc bằng sns.diverging_palette. n=500 nghĩa là chúng ta muốn có 500 loại màu trong cùng một bảng màu.
+square = True nghĩa là chúng ta muốn nhìn thấy hình vuông.
+'''
+# Thống kê tương quan so với nhân quả(Statistics Correlation vs Causality)
+ # - Hệ số tương quan đo lường mối quan hệ số giữa hai biến.
+ # - Hệ số tương quan cao (gần 1) không có nghĩa là chúng ta có thể chắc chắn kết luận được mối quan hệ thực sự giữa hai biến.
+'''
+Một ví dụ điển hình:
+Vào mùa hè, doanh số bán kem ở bãi biển tăng lên
+Đồng thời, tai nạn đuối nước cũng gia tăng
+Liệu điều này có nghĩa là việc tăng doanh số bán kem là nguyên nhân trực tiếp dẫn đến gia tăng số vụ tai nạn đuối nước không?
+'''
+# Ví dụ về Bãi biển trong Python
+ # - Ở đây, chúng tôi xây dựng một tập dữ liệu hư cấu để bạn thử:
+  # Three lines to make our compiler able to draw:
+# import sys
+# import matplotlib
+# matplotlib.use('Agg')
+import pandas as pd
+import matplotlib.pyplot as plt
+Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
+Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
+Drowning = {'Drowning_Accident': [20,40,60,80,100,120,140,160,180,200], "Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
+Drowning = pd.DataFrame(data = Drowning)
+Drowning.plot(x='Ice_Cream_Sale', y='Drowning_Accident', kind='scatter')
+plt.show()
+correlation_beach = Drowning.corr()
+print(correlation_beach)
+  # Two lines to make our compiler able to draw:
+# plt.savefig(sys.stdout.buffer)
+# sys.stdout.flush()
+# Tương quan so với nhân quả - Ví dụ về bãi biển
+'''
+Nói cách khác: chúng ta có thể sử dụng doanh số bán kem để dự đoán tai nạn đuối nước không?
+Câu trả lời là - Có lẽ là không.
+Có khả năng là hai biến này vô tình có mối tương quan với nhau.
+Vậy nguyên nhân nào gây ra chết đuối?
+Người bơi không có kỹ năng
+Sóng
+Chuột rút
+Rối loạn co giật
+Thiếu sự giám sát
+Lạm dụng rượu
+vân vân.
+'''
+'''
+Chúng ta hãy đảo ngược lập luận:
+Hệ số tương quan thấp (gần bằng 0) có nghĩa là sự thay đổi của x không ảnh hưởng đến y không?
+Quay lại câu hỏi:
+Chúng ta có thể kết luận rằng Average_Pulse không ảnh hưởng đến Calorie_Burnage vì hệ số tương quan thấp không?
+Câu trả lời là không.
+'''
+'''
+Có một sự khác biệt quan trọng giữa tương quan và quan hệ nhân quả:
+- Hệ số tương quan là một con số đo lường mức độ liên quan chặt chẽ của dữ liệu
+- Nguyên nhân là kết luận rằng x gây ra y.
+'''
+ # Mẹo: Luôn suy nghĩ nghiêm túc về khái niệm nhân quả khi đưa ra dự đoán!

data.csv ADDED Viewed

	@@ -0,0 +1,164 @@

+Duration,Average_Pulse,Max_Pulse,Calorie_Burnage,Hours_Work,Hours_Sleep
+60,110,130,409,0.0,8.0
+60,117,145,479,0.0,8.0
+60,103,135,340,8.0,7.5
+45,109,175,282,8.0,8.0
+45,117,148,406,0.0,6.5
+60,102,127,300,0.0,7.5
+60,110,136,374,0.0,7.5
+45,104,134,253,0.0,9.0
+30,109,133,195,8.0,8.0
+60,98,124,269,7.5,8.0
+60,103,147,329,8.0,7.0
+60,100,120,250,0.0,5.0
+60,106,128,345,8.5,7.5
+60,104,132,379,8.5,7.5
+60,98,123,275,9.0,7.0
+60,98,120,215,6.5,7.0
+60,100,120,300,9.0,8.0
+45,90,112,180,8.0,8.0
+60,103,123,323,8.0,8.0
+45,97,125,243,8.0,7.0
+60,108,131,364,8.0,7.0
+45,100,119,282,0.0,7.0
+60,130,101,300,8.0,7.0
+45,105,132,246,0.0,8.0
+60,102,126,334,8.0,8.0
+60,100,120,250,8.0,7.0
+60,92,118,241,7.0,6.0
+60,103,132,353,9.0,8.5
+60,100,132,280,3.0,8.0
+60,102,129,380,3.0,8.0
+60,92,115,243,7.5,8.0
+60,101,124,299,8.5,7.5
+60,93,113,223,8.0,7.0
+60,107,136,361,2.0,8.0
+60,114,140,415,9.0,8.5
+60,100,120,300,8.0,7.0
+60,100,120,300,7.0,6.0
+45,104,129,266,8.0,7.0
+60,98,126,286,7.5,7.0
+60,100,122,329,8.0,7.0
+60,111,138,400,8.0,8.0
+60,111,131,397,0.0,8.0
+60,99,119,273,8.0,7.0
+60,109,153,387,8.0,7.0
+45,111,136,300,11.0,7.0
+45,108,129,298,5.0,7.0
+60,111,139,397,0.0,8.0
+60,107,136,380,8.5,8.0
+80,123,146,643,8.5,8.0
+60,106,130,263,8.0,8.0
+60,118,151,486,7.0,7.0
+30,136,175,238,0.0,7.5
+60,121,146,450,5.0,8.0
+60,118,121,413,8.0,7.0
+45,115,144,305,5.0,7.0
+20,153,172,226,0.0,8.0
+45,123,152,321,5.0,8.0
+210,108,160,1376,8.0,8.0
+160,110,137,1034,8.0,8.0
+160,109,135,853,8.0,8.0
+45,118,141,341,8.0,8.0
+20,110,130,131,0.0,8.0
+180,90,130,800,0.0,8.0
+150,105,135,873,8.0,8.0
+150,107,130,816,3.0,8.0
+20,106,136,110,3.0,8.0
+300,108,143,1500,0.0,8.0
+150,97,129,1115,0.0,8.0
+90,100,127,700,0.0,8.0
+150,97,127,953,0.0,8.0
+45,114,146,304,0.0,8.0
+90,98,125,563,0.0,8.0
+45,105,134,251,0.0,8.0
+45,110,141,300,7.0,7.5
+120,100,130,500,7.0,7.5
+270,100,131,1729,0.0,7.0
+30,159,182,319,5.0,7.5
+45,149,169,344,0.0,8.0
+30,103,139,151,4.0,8.0
+120,100,130,500,0.0,8.0
+45,100,120,225,8.5,8.0
+30,151,170,300,0.0,7.0
+45,102,136,234,6.5,8.0
+120,100,157,1000,0.0,8.0
+45,129,103,242,5.0,8.0
+20,83,107,50,9.5,8.0
+180,101,127,600,0.0,7.5
+45,107,137,1200,8.0,8.0
+30,90,107,105,7.0,8.0
+15,80,100,50,9.0,8.0
+20,150,171,127,0.0,7.5
+20,151,168,229,0.0,7.0
+30,95,128,128,8.0,7.5
+25,152,168,244,0.0,8.0
+30,109,131,188,8.0,7.5
+90,93,124,604,8.0,8.0
+20,95,112,77,8.0,8.0
+90,90,110,500,8.0,8.0
+90,90,100,500,0.0,8.0
+90,90,100,500,5.0,8.0
+30,92,108,92,8.0,8.0
+30,93,128,124,8.0,8.0
+180,90,120,800,8.0,8.0
+30,90,120,86,7.0,8.0
+90,90,120,500,8.0,8.0
+210,137,184,1860,0.0,7.5
+60,102,124,325,0.0,8.0
+45,107,124,275,0.0,8.0
+15,124,139,124,5.0,6.0
+60,108,131,367,0.0,8.0
+60,108,151,351,0.0,8.0
+60,116,141,443,0.0,8.0
+60,97,122,277,0.0,8.0
+60,105,125,353,0.0,8.0
+60,103,124,332,0.0,8.0
+30,112,137,193,0.0,8.0
+45,100,120,100,0.0,7.5
+60,119,169,336,0.0,8.0
+60,107,127,344,0.0,8.0
+60,111,151,368,0.0,8.0
+60,98,122,271,0.0,8.0
+60,97,124,275,0.0,8.0
+60,109,127,382,0.0,6.0
+90,99,125,466,0.0,7.5
+60,114,151,384,0.0,12.0
+60,104,134,342,0.0,7.5
+60,107,138,357,0.0,7.5
+60,103,133,335,0.0,7.5
+60,106,132,327,0.0,7.5
+60,103,136,339,0.0,7.5
+20,136,156,189,8.5,7.5
+45,117,143,317,0.0,8.0
+45,115,137,318,0.0,7.5
+45,113,138,308,0.0,7.0
+20,141,162,222,0.0,7.5
+60,108,135,390,0.0,8.0
+60,97,127,288,0.0,8.0
+45,100,120,250,0.0,8.0
+45,122,149,335,0.0,7.5
+60,136,170,470,8.0,8.0
+45,106,126,270,8.0,8.0
+60,107,136,400,9.5,7.0
+60,112,146,361,9.0,7.5
+30,103,127,185,9.0,7.5
+60,110,150,409,8.0,7.0
+60,106,134,343,8.0,8.5
+60,109,129,353,8.0,8.0
+60,109,138,374,8.0,6.0
+30,150,167,275,0.0,9.0
+60,105,128,328,9.0,8.0
+60,97,131,270,9.0,8.0
+60,100,120,270,8.0,8.0
+60,114,150,382,0.0,8.0
+30,80,120,240,10.0,7.0
+30,85,120,250,10.0,7.0
+45,90,130,260,8.0,7.0
+45,95,130,270,8.0,7.0
+45,100,140,280,0.0,7.0
+60,105,140,290,7.0,8.0
+60,110,145,300,7.0,8.0
+60,115,145,310,8.0,8.0
+75,120,150,320,0.0,8.0
+75,125,150,330,8.0,8.0