26/07/2019, 10:18

Xác suất thống kê ứng dụng trong việc đổ công sức vào một mối quan hệ...

Forenote -- lời dạo đầu của tác giả. Tác giả bài này hiện đang vừa viết vừa tìm hiểu thêm về chủ đề này nên có thể diễn đạt không được quá khoa học. Các trích dẫn có thể sẽ từ các trang tiếng Anh vì tác giả hơi mất gốc, tuy nhiên bài viết này tác giả sẽ viết nhiều tiếng mẹ đẻ nhất có thể. Tại ...


Forenote -- lời dạo đầu của tác giả.

Tác giả bài này hiện đang vừa viết vừa tìm hiểu thêm về chủ đề này nên có thể diễn đạt không được quá khoa học. Các trích dẫn có thể sẽ từ các trang tiếng Anh vì tác giả hơi mất gốc, tuy nhiên bài viết này tác giả sẽ viết nhiều tiếng mẹ đẻ nhất có thể.


Tại sao bài này liên quan đến machine learning?

Machine learning, sâu xa nhất, là tìm một distribution ngầm trong các hiện tượng tự nhiên cần được giải thích, từ distribution về khả năng trả nợ của một người dựa trên các yếu tố của người đó, cho đến distribution nhiều chiều về các tín hiệu (bao gồm cả ảnh, phim, tiếng, etc.) dựa trên các yếu tố ngầm định hướng các tính chất của tín hiệu đó. Vì vậy, việc bài này đưa ra giả thiết về một distribution ngầm và sự tồn tại về mối liên quan giữa thời gian và độ bền hoàn toàn nằm trong phạm trù của machine learning.

Abstract

Bài viết này xin được đưa ra giả thiết về mối liên quan giữa khoảng thời gian cò cưa nhau và độ bền của một mối quan hề, dựa trên các thông tin tạm coi là hiển nhiên. Nếu các bạn có thể và ủng hộ việc xây dựng một dataset với các thông tin liên quan, bài này có thể trở thành một nghiên cứu thực sự -- mình đoán thế.

Introduction and Motivation

Chắc hẳn có khá nhiều bạn đang ở trong tình trạng giống như mình: hiện tại mình đang tán một bạn Tinder, và bạn ấy nói rằng muốn từ từ vì muốn bền lâu. Mình ủng hộ ý kiến đó, tuy nhiên mình cũng hơi vã, nên muốn tìm hiểu một cách (có vẻ) khoa học xem bao lâu đến với nhau là đẹp. Về cơ bản là cần toán học chống lưng để mình còn gáy.

Existing works

Ngay lập tức trong đầu mình xuất hiện một bài toán xác suất mà mình đã đọc được từ xưa về việc chọn vợ/chồng thế nào để khả năng tìm được "nửa của mình" là cao nhất -- các bạn có thể đọc thêm ở trang wiki này. Nếu ngại đọc vì cái trang đó cũng vừa dài vừa nhiều ý quá thì để mình tóm tắt: nếu bạn tính rằng trong đời này bạn sẽ đi date tìm hiểu bạn khác giới nnn lần, thì nếu bạn là con gái và đã date ⌊ne⌋lfloorfrac{n}{e} flooren người, thì hãy cho mình số điện thoại ( ͡° ͜ʖ ͡°) Tuy nhiên, bài toán đó, cho dù quan trọng và hơn hết là optimal, không thực sự áp dụng vào trường hợp mình đang gặp phải.

Model specification

Dựa theo law of large numbers, mình sẽ đặt một giả thiết khá hợp lý là khả năng (xác suất) của độ bền của một mối quan hệ (tính theo năm) dựa trên thời gian cò cưa nhau (tính theo năm) là một parameterized distribution. Cụ thể hơn, cái parameter đó là thời gian cò cưa, event của distribution đó là độ dài của mối quan hệ, và giá trị xác suất là về khả năng độ dài mối quan hệ đó sẽ xảy ra.

Cụ thể, nếu đặt thời gian tán nhau là t0t_0t0, thì xác suất ppp của độ dài của mối quan hệ ttt sẽ là

Pt0[t]=12πσ2e−(t−μ)22σ2,mathbb{P}_{t_0}[t]=frac{1}{sqrt{2pisigma^2}}e^{-frac{(t-mu)^2}{2sigma^2}}, Pt0[t]=2πσ21e2σ2(tμ)2,

với μ≡μ(t0)muequivmu(t_0)μμ(t0)σ≡σ(t0)sigmaequivsigma(t_0)σσ(t0) là các hàm theo thời gian trồng cây si. Để đơn giản hoá vấn đề mà không mất tính tổng quát, nếu độ dài của mối quan hệ là âm nghĩa là mối quan hệ đó còn không thể bắt đầu.

Sau đây là các "sự thật khá hiển nhiên" được sử dụng làm giả thiết:

  • Thời gian ở với nhau càng lâu thì tình cảm càng bền -- đây cũng thuộc về khái niệm "hết tình còn nghĩa," tuy nhiên bài này không liên quan đến tâm lý học nên sự thật này chỉ mang ý nghĩa rằng hàm μmuμ tỉ lệ thuận.
  • Có thể giả thiết rằng hàm μmuμ dốc hơn tuyến tính, và tương tự hàm σsigmaσ thoải hơn tuyến tính: một mối quan hệ đến càng nhanh tan càng chóng vánh (quen nhau một ngày đá nhau một tuần), và mối qua hệ nén càng lâu thì sẽ tồn tại càng dài (quen nhau 5 năm yêu nhau cả đời).
  • Độ dài của một mối quan hệ không thể chắc chắn tính được bằng khoảng thời gian cò cưa nhau, vì trên đời này chả có gì chắc kèo như vậy cả. Bạn có thể gặp may mắn tìm được nửa còn lại và nhận ra ngay lập tức như Lily và Marshall (hơi viễn tưởng), hoặc bạn có thể hẹn hò với Hari Won 10 năm rồi chỉ để nhìn em ấy ra đi và cưới một người khác... (đen.)
  • Dựa trên thông tin cá nhân (và các bạn khác), hiện đây là một số data biểu mẫu để chọn hàm:
t0t_0t0 t≈μ(t0)tapproxmu(t_0)tμ(t0)
1/365 (1 ngày) 4/365 (4 ngày)
1/52 (1 tuần) 1/4 (3 tháng)
0.5 0.75
1 0.9
1 2
2 5
5 60

và plot ra để ta tạm chọn hàm: μ(x)=(x+.1)2.5mu(x)=(x+.1)^{2.5}μ(x)=(x+.1)2.5. Chúng ta có thể xài MLP (multilayer perceptron) hoặc SVM (support vector machine) hoặc dăm ba các thuật toán "học máy" khác để chọn, nhưng vì đang tạo giả thiết nên mình chỉ chọn hàm đơn giản vậy thôi.

không overfit!

Dựa trên hàm đó, chúng ta sẽ tính được khoảng cách giữa data thật và trung bình của data đó để ước lượng 1 sigma:

t0t_0t0 μ(t0)mu(t_0)μ(t0) σ(t0)≈∣t−μ(t0)∣sigma(t_0)approxvert t-mu(t_0)vertσ(t0)tμ(t0)
1/365 3.383×10−33.383 imes 10^{-3}3.383×103 7.576×10−37.576 imes 10^{-3}7.576×103
1/52 4.909×10−34.909 imes 10^{-3}4.909×103 0.2450.2450.245
0.5 0.279 0.471
1 1.269 0.369
1 1.269 0.731
2 6.391 1.391
5 58.739 1.261

Tương tự chúng ta plot ra: có hơi chọn lựa tí cho nó đẹp đẹp

và chọn σ(x)=0.9ln⁡(x+1)sigma(x)=0.9ln(x+1)σ(x)=0.9ln(x+1). Lưu ý, khi chọn các hàm này cần để ý xem liệu hàm đó có tồn tại (được định nghĩa) ở tất cả các điểm x≥0xge 0x0; đó là lý do tại sao có những hàm log khác khớp hơn nhiều nhưng không được chọn.

Results

Để thuyết phục được bạn gái rằng từng này thời gian là đủ cho tương lai (lol), có sẵn độ dài mối quan hệ muốn có t′t't và hướng tới xác suất ppp, chúng ta cần tìm t0t_0t0 sao cho

Pt0(t≥t′)=1−Pt0(t′)≥p, hay Pt0(t′)≤1−p,mathbb{P}_{t_0}(tge t')=1-P_{t_0}(t')ge p, ext{ hay }P_{t_0}(t')le 1-p, Pt0(tt)=1Pt0(t)p, hay Pt0(t)1p,

với PPP là CDF của distribution đó. Để không quá lằng nhằng với công thức toán học, mình xin được giới thiệu một tail bound (lower bound for tail integral) cho normal distribution -- các bạn có thể đọc thêm tại đây nếu tò mò:

Φc(t)≥12πtt2+1e−t2/2.Phi^c(t)gefrac{1}{2pi}frac{t}{t^2+1}e^{-t^2/2}. Φc(t)2π1t2+1tet2/2.

Công thức trên là dành cho standard normal distribution N(0,1)mathcal{N}(0,1)N(0,1) nên chúng ta phải mổ xẻ nó chút: định nghĩa của vế trái đó là -- ghi chú, công thức sau được trích dẫn thẳng từ nguồn nên ttt hơi lẫn, chỉ trong công thức tiếp theo ttt ám chỉ một biến số chung chung chứ không liên quan cụ thể đến bài toán hiện tại:

Φc(t)≡1−Φ(t) and Φ(t)=P[X−μσ≤t].Phi^c(t) equiv 1-Phi(t) ext{ and } Phi(t)=mathbb{P}left[frac{X-mu}{sigma}le t ight]. Φc(t)1Φ(t) and Φ(t)=P[σXμt].

Trong trường hợp này, thay thế các số chúng ta cần -- tạm tính nếu chỉ cần mối quan hệ dài một năm t′=1t'=1t=1 (tớ xin lỗi             </div>
            
            <div class=

0