ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Nguyễn Thành Trung
MỘT SỐ DẠNG PHƯƠNG TRÌNH VI PHÂN NGẪU NHIÊN
TRONG BÀI TOÁN THỜI ĐIỂM DỪNG TỐI ƯU
Chuyên ngành: Lý thuyết xác suất và thống kê Toán học
Mã số: 62 46 01 06
(DỰ THẢO) TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội – 2019
Công trình được hoàn thành tại: Trường Đại học Khoa học Tự nhiên - ĐHQGHN
Người hướng dẫn khoa học: PGS. TS Phan Viết Thư
Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
33 trang |
Chia sẻ: huong20 | Lượt xem: 471 | Lượt tải: 0
Tóm tắt tài liệu Dự thảo tóm tắt Luận án - Một số dạng phương trình vi phân ngẫu nhiên trong bài toán thời điểm dừng tối ưu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
..............................
Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
..............................
Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
..............................
Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến
sĩ họp tại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vào hồi giờ ngày tháng năm 2019
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam
- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội
i
MỤC LỤC
MỤC LỤC .................................. i
MỞ ĐẦU ................................... 1
CHƯƠNG 1. KIẾN THỨC CHUẨN BỊ 4
1.1 Tích phân ngẫu nhiên ........................ 4
1.2 Phương trình vi phân ngẫu nhiên ................ 5
1.3 Bài toán thời điểm dừng tối ưu ................. 6
1.3.1 Khái niệm thời điểm dừng . . . . . . . . . . . . . . . . . . . 6
1.3.2 Bài toán thời điểm dừng tối ưu . . . . . . . . . . . . . . . . 8
1.4 Mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.1 Tổng quan về mạng nơ-ron . . . . . . . . . . . . . . . . 11
1.4.2 Huấn luyện mạng nơ-ron . . . . . . . . . . . . . . . . . 12
1.4.3 Phương pháp xây dựng mạng nơ-ron MLP . . . . . 12
1.5 Kết luận chương 1 .......................... 12
CHƯƠNG 2. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN
QUẢNG CÁO 14
2.1 Mô hình bài toán quảng cáo ................... 14
2.2 Giải phương trình vi phân ngẫu nhiên . . . . . . . . . . . . . 15
2.3 Xấp xỉ thời điểm dừng tối ưu bằng mạng nơ-ron . . . . . . 17
2.4 Giải thuật giải bài toán thời điểm dừng tối ưu . . . . . . . 17
2.5 Kết quả mô phỏng .......................... 19
2.6 Kết luận chương 2 .......................... 19
ii
CHƯƠNG 3. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN
BÁN TÀI SẢN 21
3.1 Bài toán bán tài sản tối ưu và lời giải . . . . . . . . . . . . . 21
3.2 Xấp xỉ thời điểm dừng tối ưu bằng mạng nơ-ron . . . . . . 23
3.3 Kết quả mô phỏng .......................... 25
3.4 Kết luận chương 3 .......................... 25
KẾT LUẬN 27
CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 28
1
MỞ ĐẦU
Trong các lĩnh vực mang tính xác suất ngẫu nhiên thì thời điểm dừng tối
ưu mang ý nghĩa rất quan trọng. Những người chơi trò chơi Poker thường nói
"thắng thua là việc hoàn toàn bình thường, không có gì lạ lẫm cả. Nếu bạn
không kiểm soát những rủi ro, bạn sẽ bị những rủi ro kiểm soát". Biết rằng rủi
ro là không thể kiểm soát, cũng không thể dự liệu trước, chi bằng ta hãy cố
gắng tránh nó, chứ không phải là kiểm soát nó. Việc xác lập được thời điểm
dừng tối ưu là việc làm cần thiết để chúng ta tránh được những thất bại nặng
nề bởi tình trạng mất kiểm soát khi ưu thế không nằm ở phía mình. Đặc biệt,
trong các "trò chơi kinh tế" như chứng khoán, cũng như trong điều hành kinh
tế thời điểm dừng tối ưu phải được tính toán cân nhắc thận trọng và ngay cả
khi đó cũng nên tiếp tục thực hiện các biện pháp dài hạn để thu về lợi nhuận
cao nhất, bền vững và lâu dài.
Những tiến bộ của máy tính đầu những năm 1950 giúp cho việc mô hình
hóa các nguyên lý của những lý thuyết liên quan tới cách thức con người suy
nghĩ đã trở thành hiện thực. Nathanial Rochester sau nhiều năm làm việc tại
các phòng thí nghiệm nghiên cứu của IBM đã có những nỗ lực đầu tiên để mô
phỏng một mạng nơ-ron. Trong thời kì này tính toán truyền thống đã đạt được
những thành công rực rỡ trong khi đó những nghiên cứu về nơ-ron còn ở giai
đoạn sơ khai. Mặc dù vậy những người ủng hộ triết lý “thinking machines” (các
máy biết suy nghĩ) vẫn tiếp tục bảo vệ cho lập trường của mình. Năm 1956 dự
án Dartmouth nghiên cứu về trí tuệ nhân tạo (Artificial Intelligence) đã mở ra
thời kỳ phát triển mới cả trong lĩnh vực trí tuệ nhân tạo lẫn mạng nơ-ron. Tác
động tích cực của nó là thúc đẩy hơn nữa sự quan tâm của các nhà khoa học về
trí tuệ nhân tạo và quá trình xử lý ở mức đơn giản của mạng nơ-ron trong bộ
não con người.
2
Bài toán thời điểm dừng tối ưu đã được nhiều tác giả xem xét chủ yếu trong
lĩnh vực tài chính và được giải thông qua việc giải các phương trình vi phân đạo
hàm riêng. Trong luận án này chúng tôi xem xét một cách tiếp cận khác cho bài
toán thời điểm dừng tối ưu đó là tiếp cận học máy. Mỗi một quyết định dừng
hay tiếp tục tại thời điểm t được biểu diễn bởi một hàm (gọi là hàm quyết định)
nhận giá trị trong tập {0, 1}, trong đó giá trị 0 là tiếp tục chiến dịch, giá trị 1 là
dừng lại. Chúng tôi tiếp tục xấp xỉ hàm quyết định bởi một mạng nơ-ron nhiều
lớp. Sau khi đã huấn luyện mạng nơ-ron, cho dữ liệu qua mạng ta sẽ nhận được
quyết định dừng hay tiếp tục.
Bố cục của luận án:
Ngoài phần mở đầu và phần kết luận, kiến nghị, Luận án được chia thành 3
chương với bố cục như sau:
Chương 1. KIẾN THỨC CHUẨN BỊ.
Chương này chúng tôi trình bày một cách tóm lược nhất một số kiến thức cơ
bản nhất của giải tích ngẫu nhiên bao gồm tích phân ngẫu nhiên, phương trình
vi phân ngẫu nhiên, bài toán thời điểm dừng tối ưu. Nội dung ở chương này chủ
yếu được trích dẫn từ các tài liệu [0], [0], [0], [0], [0].
Trong chương này cũng giới thiệu các vấn đề cơ bản về mạng nơ-ron, gồm các
khái niệm của mạng nơ-ron nhân tạo, lịch sử phát triển, các mô hình mạng và
phương pháp xây dựng cũng như huấn luyện mạng. Trong đó đi sâu vào việc
xây dựng một mạng nơ-ron truyền thẳng MLP và thuật toán huấn luyện lan
truyền ngược.
Chương 2. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN QUẢNG CÁO.
Trong chương này chúng tôi xem xét một bài toán thực tế đó là xác định thời
điểm dừng tối ưu cho một chiến dịch quảng cáo. Thị phần (tiềm năng) của công
ty đang xét về một sản phẩm A nào đó được mô tả bằng một phương trình
vi phân ngẫu nhiên dưới tác động của chiến dịch quảng cáo thông qua truyền
thông cũng như sự truyền miệng của các khách hàng đã có của công ty. Hàm
mục tiêu là một hàm liên tục xác định trên thời gian t và thị phần đạt được của
3
chiến dịch quảng cáo. Trong chương này ngoài việc giải mô hình chúng tôi xem
xét một cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận
học máy.
Chương 3. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN BÁN TÀI SẢN.
Trong chương này chúng tôi xem xét bài toán bài toán tìm thời điểm dừng tối
ưu cho quá trình bán tài sản với tốc độ tăng giá là quá trình Markov rời rạc
hai trạng thái (tăng giá và giảm giá). Kết quả tìm được các ngưỡng cố định cho
quá trình xác suất hậu nghiệm. Nếu quá trình xác suất hậu nghiệm vượt qua
ngưỡng này thì ta quyết định bán tài sản. Các kết quả thu được là khả quan và
được kiểm tra trên dữ liệu mô phỏng cho thấy tính đúng đắn của các kết quả
tìm được. Cũng như trong chương 2, chương này chúng tôi cũng xem xét một
cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy.
Xấp xỉ hàm quyết định bởi một mạng nơ-ron nhiều lớp, sau khi đã huấn luyện
mạng nơ-ron, cho dữ liệu qua mạng ta sẽ nhận được quyết định bán tài sản.
4
CHƯƠNG 1. KIẾN THỨC CHUẨN BỊ
Chương này chúng tôi sẽ trình bày một cách tóm lược nhất một số kiến thức
cơ bản nhất của giải tích ngẫu nhiên bao gồm tích phân ngẫu nhiên, phương
trình vi phân ngẫu nhiên, bài toán thời điểm dừng tối ưu. Nội dung ở chương
này chủ yếu được trích dẫn từ các tài liệu [0], [0], [0], [0], [0].
1.1. Tích phân ngẫu nhiên
1.1.1. Tích phân ngẫu nhiên Itô
1.1.2. Công thức Itô
Định lý 1.1 (Công thức Itô) Cho u(t, x) là một hàm xác định trên [0,T ] × R
có các đạo hàm riêng ut, ux, uxx liên tục. Cho Xt là một quá trình Itô với vi phân
ngẫu nhiên
dXt = f(t, ω)dt + g(t, ω)dWt
Khi đó quá trình Yt = u (t, Xt) cũng là một quá trình Itô với vi phân ngẫu nhiên
là
1
dY = du (t, X ) = u (t, X ) + u (t, X ) f(t) + u (t, X ) g2(t) dt
t t t t x t 2 xx t
+ux (t, Xt) g(t)dWt
Ta cũng có thể viết công thức Itô dưới dạng dễ nhớ hơn như sau
1
dY = u (t, X ) dt + u (t, X ) dX + u (t, X )(dX )2
t t t x t t 2 xx t t
2
trong đó khi tính (dXt) ta quy ước
2 2
(dt) = dtdWt = 0, (dWt) = dt
5
Ta có công thức Itô suy rộng sau đây
Định lý 1.2 (Công thức Itô mở rộng) Quá trình Yt = u (t, X1(t),X2(t),...,Xn(t))
là một quá trình Itô với vi phân ngẫu nhiên cho bởi
n n n
X 1 X X
dY = u dt + u dX + u dX dX
t t xi i 2 xixj i j
i=1 i=1 i=1
trong đó tích dXidXj được tính theo quy ước sau
2 2
(dt) = dW dt = dtdW = 0, (dWt) = dt
Như vậy dXidXj = gigjdt và
n n n ! n !
X 1 X X X
dY = u + u f + u g g dt + u g dW .
t t xi i 2 xixj i j xi i t
i=1 i=1 i=1 i=1
1.2. Phương trình vi phân ngẫu nhiên
Phương trình vi phân ngẫu nhiên đóng vai trò rất quan trọng trong kĩ thuật,
vật lý, kinh tế và một số ngành khoa học khác. Sự ra đời của nó xuất phát từ
nhu cầu xác định mối quan hệ giữa một bên là một đại lượng biến thiên liên tục
với một bên là độ biến thiên của đại lượng đó. Các mối quan hệ như thế xuất
hiện thường xuyên trong các ứng dụng thực tế.
Định lý 1.3 Giả sử các hàm b (t, x) và σ (t, x) thỏa mãn các điều kiện sau
|b(t, x)| + |σ(t, x)| ≤ C(1 + |x|), x ∈ R, t ∈ [0,T ]
với C là hằng số và
|b(t, x) − b(t, y)| + |σ(t, x) − σ(t, y)| ≤ D|x − y|
2
với D là hằng số. Gọi Z là đại lượng ngẫu nhiên độc lập với Wt, t > 0 và EZ < ∞.
6
Khi đó phương trình vi phân ngẫu nhiên
dXt = b (t, Xt) dt + σ (t, Xt) dWt; X0 = c (1.1)
có nghiệm duy nhất.
1.3. Bài toán thời điểm dừng tối ưu
1.3.1. Khái niệm thời điểm dừng
Lý thuyết Martingale bắt nguồn từ trò chơi cờ bạc nay trở thành một loại
quá trình ngẫu nhiên có rất nhiều ứng dụng về lý thuyết cũng như thực tiễn,
đặc biệt là một công cụ không thể thiếu trong tính toán ngẫu nhiên và toán
học trong tài chính. Một công cụ quan trọng trong lý thuyết Martingale và các
ứng dụng của chúng là các thời điểm dừng. Thí dụ, chúng ta muốn dừng một
Martingale trước khi nó nhận các giá trị quá lớn. Tuy nhiên, dừng nên được
thực hiện sao cho đối tượng dừng lại là một Martingale mới thực sự có ý nghĩa
quan trọng.
Cho không gian xác suất đầy đủ (Ω, F,P ), tức là F chứa tất cả các tập có
xác suất 0. (Tập N được gọi là tập có xác suất 0 nếu tồn tại A ∈ F sao cho
+
N ⊂ A). Một họ Ft, t ∈ R các σ - trường con của F được gọi là một lọc nếu
+ +
Fs ⊂ Ft nếu s < t. Lọc Ft, t ∈ R được gọi là liên tục phải nếu với mọi t ∈ R
\
Ft = Ft+ = Fs
s>t
+
Để cho gọn khi nói về lọc (Ft) ta hiểu là xét lọc Ft, t ∈ R .
Định nghĩa 1.1 Một hàm T :Ω → [0, ∞) được gọi là một thời điểm Markov đối
với lọc (Ft) nếu nó là F - đo được và với mỗi t ta có
{T ≤ t} ∈ Ft (1.2)
Nếu P (T < ∞) = 1 (T hữu hạn hầu chắc chắn) thì thời điểm Markov T được gọi
7
là thời điểm dừng.
Nếu lọc (Ft) liên tục phải thì điều kiện (1.2) tương đương với
+
{T < t} ∈ Ft, ∀t ∈ R
Ví dụ 1.1 Cho X = (Xt) là quá trình liên tục và F là một tập đóng trên đường
thẳng. Giả sử T là thời điểm lần đầu tiên (Xt) chạm vào tập F nghĩa là
inf {t : Xt(ω) ∈ F } nếu tồn tại t như thế
T (ω) =
+
∞ nếu Xt ∈/ F, ∀t ∈ R
Khi đó T là thời điểm Markov đối với lọc (Ft).
Thật vậy, đặt G = R\F . Khi đó G là tập mở do đó tồn tại dãy tập đóng (Kn)
sao cho G = ∪nKn và do X = (Xt) là quá trình liên tục nên
\ [ [
{T ≤ t} = {Xs ∈/ Kn} = {Xr ∈/ Kn} ∈ Ft.
n s<t r<t,r∈Q
Ví dụ 1.2 Cho X = (Xt) là quá trình liên tục phải và G là một tập mở trên
đường thẳng. Giả sử T là thời điểm lần đầu tiên (Xt) chạm vào tập G nghĩa là
inf {t : Xt(ω) ∈ G} nếu tồn tại t như thế
T (ω) =
+
∞ nếu Xt ∈/ G, ∀t ∈ R
Khi đó nếu lọc (Ft) liên tục phải thì T là thời điểm Markov đối với lọc (Ft).
Thật vậy, đặt F = R\G. Khi đó F là tập đóng và do X = (Xt) là quá trình liên
tục phải nên
\ \
{T ≥ t} = {Xs ∈ F } = {Xr ∈ F } ∈ Ft
s<t r<t,r∈Q
Suy ra {T < t} ∈ Ft và vì lọc (Ft) liên tục phải nên ta kết luận T là thời điểm
8
Markov.
1.3.2. Bài toán thời điểm dừng tối ưu
Giả sử Xt là nghiệm duy nhất của phương trình vi phân ngẫu nhiên (??) và cho
g (hàm giá) là hàm số trên Rn, thỏa mãn
a) g(ξ) ≥ 0 với mọi ξ ∈ Rn
b) g liên tục.
Hãy tìm thời điểm dừng τ ∗ = τ ∗(x, ω) (được gọi là thời điểm dừng tối ưu) của
{Xt} sao cho
x x n
E [g(Xτ ∗ )] = sup E [g(Xτ )] với mọi x ∈ R (1.3)
τ
sup được lấy trên tập tất cả các thời điểm dừng τ của {Xt}. Chúng ta cũng
muốn tìm
∗ x
g (x) = E [g(Xτ ∗ )] (1.4)
x
Ở đây g(Xτ ) được hiểu là bằng 0 tại ω ∈ Ω mà τ(ω) = ∞ và E là kỳ vọng với
x n
quy luật phân phối xác suất Q của quá trình Xt; t ≥ 0 với X0 = x ∈ R .
Định nghĩa 1.2 Một hàm đo được, nửa liên tục dưới f : Rn → [0, ∞) được gọi
là hàm siêu điều hòa nếu
x
f(x) ≥ E [f(Xτ )] (1.5)
với mọi thời điểm dừng τ và với mọi x ∈ Rn.
Định nghĩa 1.3 Cho h là hàm thực đo được trên Rn. Nếu f là hàm siêu điều
hòa và f ≥ h ta nói f là hàm trội siêu điều hòa của h. Hàm
bh(x) = inf f(x); x ∈ Rn (1.6)
f
9
inf được lấy trên tập tất cả các hàm trội siêu điều hòa f của h, được gọi là hàm
trội siêu điều hòa tối thiểu của h.
Định lý 1.4 (Xây dựng hàm siêu điều hòa tối thiểu) Cho g = g0 là hàm
không âm, nửa liên tục dưới trên Rn ta định nghĩa một cách quy nạp như sau
x
gn(x) = sup E [gn−1(Xt)] (1.7)
t∈Sn
−n n
trong đó Sn = {k · 2 ; 0 ≤ k ≤ 4 }, n = 1, 2,.... Khi đó gn ↑ bg và bg là hàm siêu
điều hòa tối thiểu của g.
Định lý 1.5 (Định lý về sự tồn tại thời điểm dừng tối ưu) Cho g∗ là hàm
giá tối ưu và bg là hàm siêu điều hòa tối thiểu của hàm giá liên tục g ≥ 0.
a) Khi đó
∗
g (x) = bg(x) (1.8)
b) Với > 0 đặt
D = {x; g(x) < bg(x) − } (1.9)
Giả sử g bị chặn. Khi đó thời điểm τ lần đầu tiên x rời khỏi tập D gần
như là tối ưu, theo nghĩa
∗ x
|g (x) − E [g (Xτe )]| ≤ 2 (1.10)
với mọi x.
c) Đặt
D = {x; g(x) < g∗(x)} (1.11)
Cho N = 1, 2,... định nghĩa gN = g ∧ N, DN = {x; gN (x) < bgN (x)} và σN =
−1 S
τDN . Khi đó DN ⊂ DN+1,DN ⊂ D ∩ g ([0,N)),D = N DN . Nếu σN < ∞
10
h.c.c với mọi N khi đó
∗ x
g (x) = lim E [g (XσN )] (1.12)
N→∞
d) Đặc biệt, nếu τD < ∞ h.c.c và dãy {g (XσN )}N khả tích, khi đó
∗ x
g (x) = E [g (XτD )]
∗
và τ = τD là thời điểm dừng tối ưu.
Định lý 1.6 (Định lý về tính duy nhất thời điểm dừng tối ưu) Như trước
đã định nghĩa
D = {x; g(x) < g∗(x)} ⊂ Rn
Giả sử tồn tại thời điểm dừng tối ưu τ ∗ = τ ∗(x, ω). Khi đó
∗
τ ≥ τD với mọi x ∈ D (1.13)
và
∗ x n
g (x) = E [g (XτD )] với mọi x ∈ R (1.14)
Do đó τD là thời điểm dừng tối ưu.
1.4. Mạng nơ-ron
Các nghiên cứu về bộ não con người đã được tiến hành từ hàng nghìn năm
nay. Cùng với sự phát triển của khoa học kĩ thuật đặc biệt là những tiến bộ
trong ngành điện tử hiện đại, việc con người bắt đầu nghiên cứu các nơ-ron nhân
tạo là hoàn toàn tự nhiên. Sự kiện đầu tiên đánh dấu sự ra đời của mạng nơ-ron
nhân tạo diễn ra vào năm 1943 khi nhà thần kinh học Warren McCulloch và
nhà toán học Walter Pitts viết bài báo mô tả cách thức các nơ-ron hoạt động.
Họ cũng đã tiến hành xây dựng một mạng nơ-ron đơn giản bằng các mạch điện.
Các nơ-ron của họ được xem như là các thiết bị nhị phân với ngưỡng cố định.
11
Kết quả của các mô hình này là các hàm logic đơn giản chẳng hạn như “ a OR
b” hay “a AND b”.
Nội dung của chương này được tham khảo trong [0].
1.4.1. Tổng quan về mạng nơ-ron
Nơ-ron sinh học và nơ-ron nhân tạo
a) Nơ-ron sinh học
Hình 1.1: Cấu trúc của một nơ-ron sinh học điển hình
b) Nơ-ron nhân tạo
Một nơ-ron là một đơn vị xử lý thông tin và là thành phần cơ bản của một
mạng nơ-ron. Cấu trúc của một nơ-ron được mô tả ở hình dưới.
Mô hình mạng nơ-ron
12
Hình 1.2: Nơ-ron nhân tạo
Hình 1.3: Mạng MLP tổng quát
1.4.2. Huấn luyện mạng nơ-ron
1.4.3. Phương pháp xây dựng mạng nơ-ron MLP
1.5. Kết luận chương 1
Chương này chúng tôi đã trình bày một số kiến thức cơ bản nhất của giải
tích ngẫu nhiên, trong đó thời điểm dừng tối ưu là khái niệm liên quan trực tiếp
tới các chương tiếp theo.
13
Trong chương này chúng tôi cũng trình bày các vấn đề cơ bản về mạng
nơ-ron, gồm các khái niệm của mạng nơ-ron nhân tạo, lịch sử phát triển, các mô
hình mạng và phương pháp xây dựng cũng như huấn luyện mạng. Trong đó đi
sâu vào việc xây dựng một mạng nơ-ron truyền thẳng MLP và thuật toán huấn
luyện lan truyền ngược.
Các vấn đề cần nghiên cứu triển khai là:
• Tìm hiểu về các thuật toán huấn luyện mạng nơ-ron khác, để có thể đưa ra
các so sánh, cũng như chọn mô hình thích hợp cho các bài toán cụ thể.
• Phát triển chương trình thực nghiệm có ý nghĩa thực tế như nhận dạng chữ
viết tay, nhận dạng ảnh, ...
14
CHƯƠNG 2. THỜI ĐIỂM DỪNG TỐI ƯU
CHO BÀI TOÁN QUẢNG CÁO
Trong chương này chúng tôi xem xét một bài toán thực tế đó là xác định
thời điểm dừng tối ưu cho một chiến dịch quảng cáo. Thị phần (tiềm năng) của
công ty đang xét về một sản phẩm A nào đó được mô tả bằng một phương trình
vi phân ngẫu nhiên dưới tác động của chiến dịch quảng cáo thông qua truyền
thông cũng như sự truyền miệng của các khách hàng đã có của công ty. Hàm
mục tiêu là một hàm liên tục xác định trên thời gian t và thị phần đạt được
của chiến dịch quảng cáo. Bài toán thời điểm dừng tối ưu đã được nhiều tác giả
xem xét chủ yếu trong lĩnh vực tài chính và được giải thông qua việc giải các
phương trình vi phân đạo hàm riêng. Trong chương này chúng tôi xem xét một
cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy.
Mỗi một quyết định dừng hay tiếp tục chiến dịch quảng cáo tại thời điểm t được
biểu diễn bởi một hàm (gọi là hàm quyết định) nhận giá trị trong tập {0, 1},
trong đó giá trị 0 là tiếp tục chiến dịch, giá trị 1 là dừng lại. Chúng tôi tiếp tục
xấp xỉ hàm quyết định bởi một mạng nơ-ron nhiều lớp. Sau khi đã huấn luyện
mạng nơ-ron, cho dữ liệu qua mạng ta sẽ nhận được quyết định dừng hay tiếp
tục.
Một số kiến thức liên quan được tham khảo trong các tài liệu [0], [0], [0],
[0].
2.1. Mô hình bài toán quảng cáo
Chiến dịch quảng cáo thông qua truyền thông sẽ thay tác động vào những
người chưa phải là khách hàng của công ty, còn sự lan tỏa sẽ do những khách
hàng đã có của công ty quyết định - bằng truyền miệng những khách hàng của
15
công ty sẽ giới thiệu hoặc khuyến cáo những người tiêu dùng chưa phải là khách
hàng nên hoặc không nên mua mặt hàng A, vì vậy sự biến động về khách hàng
của công ty được xác định bởi:
dn(t)
= E(N − n(t)) + Mn(t)(N − n(t)) (2.1)
dt
ở đây E đại diện cho hiệu quả của chiến dịch truyền thông và M đại diện cho
chất lượng của sản phẩm A.
n(t)
Đặt X(t) = N ∈ [0, 1], khi đó phương trình (2.1) trở thành
dX(t)
= E(1−X(t))+MNX(t)(1−X(t)) = E(1−x(t))+MNX(t)(1−X(t)) (2.2)
dt
Đặt b = MN và phân rã E thành hai thành phần, một thành phần tất định a
và một thành phần ngẫu nhiên tỉ lệ với a là σa. Khi đó phương trình (2.1) trở
thành
dX(t) = [a(1 − X(t)) + bX(t)(1 − X(t))]dt + σa(1 − X(t))dW (t) (2.3)
Giả sử X(t) là nghiệm của phương trình vi phân (2.3). Gọi F = (Ft)t∈[0,T ] là bộ
lọc sinh bởi X(t).
Xét hàm liên tục g : [0,T ] × R → R, g (t, Xt) là hàm của thời gian t và thị phần
Xt.
Bài toán đặt ra là cần xác định thời điểm τ ∗, là nghiệm của bài toán sau
∗
f (τ ,Xτ ∗ ) = sup E [g (τ, Xτ )]
τ
trong đó τ :Ω → [0,T ] là một F - thời điểm dừng.
2.2. Giải phương trình vi phân ngẫu nhiên
Xét phương trình vi phân ngẫu nhiên (2.3)
dX(t) = [a(1 − X(t)) + bX(t)(1 − X(t))]dt + σa(1 − X(t))dW (t)
16
Đặt 1 − X(t) = Z(t) ta có −dX(t) = dZ(t) và do đó
dZ(t) = −Z(t)[a + b(1 − Z(t))]dt + σaZ(t)dW (t)
hay
dZ(t) = bZ2(t) − (a + b)Z(t) dt − σaZ(t)dW (t) (2.4)
Để giải phương trình (2.4) ta sẽ đi giải phương trình sau
dZ(t) = αZ2(t) + βZ(t) dt + λZ(t)dW (t) (2.5)
trong đó α, β và λ là các tham số của quá trình ngẫu nhiên X(t).
Đặt
1
Y (t) = Z−1 (t) =
Z (t)
. Theo công thức Itô ([0]) ta có:
1 1 2
dY (t) = − dZ(t) + λ2Z2(t)dt
Z2(t) 2 Z3(t)
1 λ2
= − αZ2(t) + βZ(t) dt + λZ(t)dW (t) + dt
Z2(t) Z(t)
β λ λ2
= − α + dt − dW (t) + dt
Z(t) Z(t) Z(t)
λ2 − β λ
= − α dt − dW (t)
Z(t) Z(t)
Vì vậy quá trình ngẫu nhiên Y (t) thỏa mãn phương trình sau:
dY (t) = λ2 − β Y (t) − α dt − λY (t) dW (t) (2.6)
Phương trình cho bởi (2.6) là một phương trình vi phân ngẫu nhiên tuyến tính
và có thể giải được.
Định lý 2.1 Nghiệm của phương trình (2.4) có dạng:
−1
1 Z t ds
Z (t) = φ−1 (t) − b (2.7)
Z (0) 0 φ (s)
17
trong đó
σ2a2
φ (t) = exp + a + b t + σaW (t)
2
2.3. Xấp xỉ thời điểm dừng tối ưu bằng mạng nơ-ron
N k−1
P Q
Định lý 2.2 Đặt Vn = sup Eg (τ, Xτ ), với τn+1 = kαk (Xk) (1 − αj (Xj))
τ∈Tn k=n+1 j=n
cho trước, tồn tại hàm αn : R → {0, 1} sao cho với thời điểm dừng τn = nαn (Xn)+
τn+1 (1 − αn (Xn)) thì bất đẳng thức sau được thỏa mãn
Vn − Eg (τn,Xτn ) 6 Vn+1 − Eg (τn+1,Xτn+1 )
Định lý 2.3 Với n ∈ {0, 1, ··· ,N − 1} và thời điểm dừng τn+1 ∈ Tn+1 cho trước.
Khi đó với mọi hằng số ε > 0 cho trước, tồn tại hàm
θn θn θn θn
αn = I[0,∞) ◦ aI ◦ ϕqI−1 ◦ aI−1 ◦ · · · ◦ ϕq1 ◦ a1 (2.8)
sao cho
θn θn
sup E g (n, Xn) αn (Xn) + g (τn+1,Xτn+1 ) 1 − αn (Xn)
q
θn∈R
ε
> sup E [g (n, Xn) α (Xn) + g (τn+1,Xτn+1 ) (1 − α (Xn))] −
α∈M N
trong đó M là tập tất cả các hàm đo được α : R → {0, 1}, q là tổng số các tham
θn
số của hàm αn .
N k−1
P θk Q θj
Hệ quả 2.1 Thời điểm dừng τ1 ∈ T1 cho bởi τ1 = kαk (Xk) 1 − αj (Xj)
k=1 j=1
thỏa mãn
g (τ1,Xτ1 ) > sup E [g (τ, Xτ )] − ε.
τ∈T
2.4. Giải thuật giải bài toán thời điểm dừng tối ưu
18
Thuật toán 2.1 Xấp xỉ lời giải cho bài toán thời điểm dừng tối ưu
INPUT:
• Mô phỏng K thể hiện của quá trình X(t)
i i i i
Xtn+1 = Xtn + a 1 − Xtn + bXtn 1 − Xtn (tn+1 − tn)
i
+σa 1 − Xtn (wtn+1 − wtn )
với i = 1,K; n = 0,N − 1
N θN
• Khởi tạo θ được chọn sao cho αN ≡ 1
1 2 N−1 θ1 θ2 θN
OUTPUT: θ , θ , ..., θ và α1 , α2 , ..., αN .
1: for n = N − 1 to 1 do
n,1
2: Ln := 0; Khởi tạo θ ;
3: for j = 1 to Jm do
θn,j θn,j θn,j θn,j
4: Tạo lập mạng nơ-ron Φ = ψ ◦ aI ◦ ϕqI−1 ◦ aI−1 ◦ · · · ◦ ϕq1 ◦ a1 ;
5: for i = 1 to K do
i n,j i θn,j i i i θn,j i
6: Tính πn θ = g n, xn Φ xn + g τ , x i 1 − Φ xn ;
n+1 τn+1
i n,j
7: Ln := Ln + πn θ ;
8: end for
Ln
9: Lbn := K ;
n,j+1 n,j
10: θ := θ + η∇θLbn;
11: end for
12: θn := θn,Jm
θn θn θn θn
13: Đặt mạng nơ-ron mới αn (x) = I[0,∞) ◦ aI ◦ ϕqI−1 ◦ aI−1 ◦ · · · ◦ ϕq1 ◦ a1 (x);
14: end for
1 2 N−1 θ1 θ2 θN
15: Trả về θ , θ , ..., θ và α1 , α2 , ..., αN .
19
2.5. Kết quả mô phỏng
Hình 2.1: Thời điểm dừng thu được là τ ∗ = 137; X (τ ∗) = 0.321177633918076
2.6. Kết luận chương 2
Trong chương này chúng tôi đã tìm được lời giải của một dạng phương trình
vi phân ngẫu nhiên và xấp xỉ được các quyết định dừng tối ưu bằng các mạng
nơ-ron nhiều lớp thông qua quá trình huấn luyện mạng và thực hiện mô phỏng
Monte-Carlo. Chúng tôi cũng đã chứng minh được rằng các kết quả thu được
từ xấp xỉ bằng mạng nơ-ron sai khác một giá trị ε > 0 tùy ý so với giá trị tối ưu
lý thuyết. Chúng tôi đã tiến hành mô phỏng quá trình ngẫu nhiên thể hiện thị
phần về một sản phẩm nào đó của công ty và lấy mục tiêu cực đại thị phần cho
chiến dịch quảng cáo. Kết quả cho thấy các quyết định thu được tiệm cận tới
các thời điểm tối ưu. Tuy nhiên có một thực tế đặt ra là để có độ chính xác cao
thì phải rời rạc hóa quá trình ngẫu nhiên “mịn” hơn (N tăng) do vậy cần nhiều
mạng nơ-ron hơn (số lượng mạng nơ ron là N) và số tham số trong mỗi mạng
phải tăng lên (q tăng dần ra vô cùng), do đó việc xấp xỉ các quyết định bằng
20
nơ-ron nhân tạo cần phải có máy tính tốc độ cao và có hệ thống dữ liệu lớn để
huấn luyện mạng tốt hơn.
21
CHƯƠNG 3. THỜI ĐIỂM DỪNG TỐI ƯU
CHO BÀI TOÁN BÁN TÀI SẢN
Trong chương này chúng tôi xem xét bài toán thời điểm dừng tối ưu mô
tả bài toán thanh lý tài sản với độ dịch chuyển là biến ngẫu nhiên rời rạc và
kết quả tìm được chiến lược tối ưu để bán tài sản là lần đầu tiên giá tài sản rơi
vào một đường bao tất định phụ thuộc thời gian. Hơn nữa, đường bao này là
biểu diễn của một hàm đơn điệu tăng, liên tục và thỏa mãn phương trình tích
phân phi tuyến. Các kết quả thu được là khả quan và được kiểm tra trên dữ liệu
mô phỏng cho thấy tính đúng đắn của các kết quả tìm được. Cũng như trong
chương 2, chương này chúng tôi cũng xem xét một cách tiếp cận khác cho bài
toán thời điểm dừng tối ưu đó là tiếp cận học máy. Xấp xỉ hàm quyết định bởi
một mạng nơ-ron nhiều lớp, sau khi đã huấn luyện mạng nơ-ron, cho dữ liệu
qua mạng ta sẽ nhận được quyết định bán tài sản.
3.1. Bài toán bán tài sản tối ưu và lời giải
Giả sử giá bán của một tài sản là quá trình ngẫu nhiên Xt được mô hình hóa
bởi một chuyển động Brown hình học như phương trình dưới đây
dXt = µXtdt + σXtdWt, t ≥ 0 (3.1)
trong đó {Wt} là chuyển động Brown tiêu chuẩn và giả sử quá trình Xt độc lập
với µ trên không gian xác suất (Ω, F,P ). Chúng ta cũng giả sử độ trượt µ là biến
ngẫu nhiên nhận hai giá trị µ1 và µ2 thỏa mãn điều kiện µ1 < r < µ2, trong đó
r ≥ 0 là hệ số lãi suất và X0 là giá tài sản lúc ban đầu. Giả sử chủ tài sản muốn
bán tài sản của mình nhưng không biết tốc độ tăng trưởng của giá cả là µ1 hay
µ2 chỉ biết phân bố lúc ban đầu như trong Bảng 3.1.
22
Bảng 3.1: Phân bố ban đầu của độ trượt
µ µ1 µ2
Xác suất π 1-π
Mục đích của chủ sở hữu là muốn bán với giá có kỳ vọng cao nhất và mục đích
của bài toán này cũng là như vậy. Về mặt toán học ta ký hiệu F X là
t t∈[0;∞)
σ-trường sinh bởi X và chủ sở hữu chọn F X - thời điểm dừng τ với t ∈ [0; ∞)
−rτ
V = sup E e Xτ (3.2)
τ∈T
X
đạt được tại một thời điểm dừng xác định. Với t ≥ 0, đặt πt = P µ = µ1|Ft
là xác suất có điều kiện mà độ trượt nhận giá trị nhỏ tại thời điểm t, do đó
X
1 − πt = P µ = µ2|Ft .
Theo Định lý 7.12 và Định lý 9.1 trong [0], quá trình giá Xt được mô hình hóa
bởi phương trình vi phân ngẫu nhiên sau đây
dXt = [µ1πt + (1 − πt) µ2] Xtdt + σXtdW t
và quá trình niềm tin πt thỏa mãn phương trình
dπt = −ωπt (1 − πt) dW t
x
trong đó ω = (µ2 − µ1) /σ và W,F là P - chuyển động Brown được định nghĩa
bởi
µ(t) − (1 − π ) µ − π µ
dW = dW + t 2 t 1 dt (3.3)
t t σ
π
Hệ quả 3.1 Đặt φ = 1−π . Khi đó hàm giá trị V được cho bởi công thức
r r2
(1+B) (C1φ +C2φ )
x r r , 0 < φ < B
V = C1B +C2B 2 1+φ
x, φ ≥ B
B
Hơn nữa, thời điểm dừng τB := inf t ≥ 0 : πt ≥ 1+B là thời điểm dừng tối ưu
của bài toán (3.1).
23
3.2. Xấp xỉ thời điểm dừng tối ưu bằng mạng nơ-ron
Xét một xích Markov rời rạc X = {Xn : n ≥ 0} trên không gian trạng thái X.
Mục đích của chúng ta là xác định thời điểm dừng τ, để cực đại trung bình hàm
thu hoạch sau
"τ−1 #
X t τ
E β c(Xt) + β C(Xτ ) (3.4)
t=0
Trong đó c : X → R là thu hoạch của một thời kì trung gian, C : X → R thu
hoạch ở trạng thái cuối, và β ∈ (0, 1) là hệ số chiết khấu.
Kí hiệu {Fn : n ≥ 0} là bộ lọc sinh bởi X. Gọi P là một toán tử biến hàm J
thành hàm (PJ) được xác định bởi (PJ)(x) = R P (x, dy)J(y). Tính chất Markov
cho ta h : X → R
Z
E[h (Xt+1) |Ft,Xt = x] = P (x, dy)h(y) = (P h)(x)
Thời điểm dừng τ :Ω → [0, ∞) là một biến ngẫu nhiên nhận giá trị nguyên
không âm thỏa mãn tính chất {ω : τ(ω) ≤ t, ω ∈ Ω} ∈ Ft với mỗi n ≥ 0. Ta quy
ước C (Xτ ) = 0 nếu τ = ∞. Ta xây dựng hàm quyết định φ : X → {0, 1} và định
nghĩa thời điểm dừng
φ
τ = min {n ≥ 0 : φ (Xn) = 1} (3.5)
Giá trị tối ưu của kỳ vọng trong (3.4) trên các thời điểm dừng với mọi x ∈ X
được ký hiệu bởi
"z−1 # "z−1 #
∗ X t z X t z
h (x) = sup E β c (Xt) + β C (Xz) |X0 = x = E β c (Xt) + β C (Xz) |X0 = x
x
t=0 t=0
(3.6)
Ta định nghĩa toán tử T được xác định bởi
T h = max{C, c + βP h}
24
Định lý 3.1 Với các giả thiết thích hợp, những mệnh đề sau là đúng:
∗ ∗ ∗
1. Tồn tại hàm h ∈ L2(π) thỏa mãn h = T h .
∗ ∗ ∗
2. Thời điểm dừng τ được xác định bởi τ = min {t|C (xt) ≥ h (xt)} là thời
điểm dừng tối ưu.
∗
3. h∗ = hτ
Lập hàm
Qθ(x) := θT ψ(x), x ∈ X (3.7)
T
trong đó ψ := [ψ1, . . . , ψd] với ψi :X → R, ψi ∈ L2(π), 1 ≤ i ≤ d là các hàm cơ sở.
Thuật toán 3.1 Xấp xỉ lời giải cho bài toán thời điểm dừng tối ưu
d
INPUT: Khỏi tạo θ0 ∈ R
OUTPUT: θ = θN
1: repeat
2: Cập nhật vectơ
s s
θt+1 = θt + γt+1ψ (xt)[c (xt) + α max {Q (xt+1) ,C (xt+1)} − Q (xt)]
3: t := t + 1;
4: until t ≥ N
θ ∗
Sau khi có θ và τ˜ = min t ≥ 0|C (xt) ≥ Q (xt) sẽ xấp xỉ thời điểm dừng τ .
25
3.3. Kết quả mô phỏng
Hình 3.1: Thời điểm bán và giá bán tối ưu
τB = 1; X (τB) = 6.98267216610124
3.4. Kết luận chương 3
Trong chương này chúng tôi xem xét bài toán tìm thời điểm dừng tối ưu cho quá
trình bán tài sản với tốc độ tăng giá là quá trình Markov rời rạc hai trạng thái
(tăng giá và giảm giá). Kết quả tìm được các ngưỡng cố định cho quá trình xác
suất hậu nghiệm. Nếu quá trình xác suất hậu nghiệm vượt qua ngưỡng này thì
ta quyết định bán tài sản. Các kết quả thu được là khả quan và được kiểm tra
trên dữ liệu mô phỏng cho thấy tính đúng đắn của các kết quả tìm được. Cũng
như trong chương 2, chương này chúng tôi cũng xem xét một cách tiếp cận khác
cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy. Xấp xỉ hàm quyết
định bởi một mạng nơ-ron nhiều lớp, sau khi đã huấn luyện mạng nơ-ron, cho
26
dữ liệu qua mạng ta sẽ nhận được quyết định bán tài sản.
27
KẾT LUẬN
Những đóng góp mới của luận án:
Luận án đã xem xét hai bài toán thực tế đó là:
1. Bài toán xác định thời điểm dừng tối ưu cho một chiến dịch quảng cáo. Thị
phần (tiềm năng) của công ty đang xét về một sản phẩm A nào đó được
mô tả bằng một phương trình vi phân ngẫu nhiên dưới tác động của chiến
dịch quảng cáo thông qua truyền thông cũng như sự truyền miệng của các
khách hàng đã có của công ty. Hàm mục tiêu là một hàm liên tục xác định
trên thời gian t và thị phần đạt được của chiến dịch quảng cáo.
2. Bài toán tìm thời điểm dừng tối ưu cho quá trình bán tài sản với tốc độ
tăng giá là quá trình Markov rời rạc hai trạng thái (tăng giá và giảm giá).
Tiến hành giải mô hình và kiểm tra trên dữ liệu mô phỏng cho thấy tính đúng
đắn của các kết quả tìm được.
Xem xét một cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp
cận học máy.
28
CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
[CT1] Nguyen Khac
Các file đính kèm theo tài liệu này:
- du_thao_tom_tat_luan_an_mot_so_dang_phuong_trinh_vi_phan_nga.pdf