BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
-----²²²-----
TRẦN DIỄM ÁI
KHẢO SÁT MỐI LIÊN HỆ ĐỊNH LƯỢNG
GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA
CÁC DẪN XUẤT N-ACYLPIPERIDINE
LUẬN VĂN THẠC SĨ HĨA HỌC
Chuyên ngành: Hĩa lý thuyết và Hĩa lý
CẦN THƠ – 01/2010
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
TRẦN DIỄM ÁI
KHẢO SÁT MỐI LIÊN HỆ ĐỊNH LƯỢNG
GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA
CÁC DẪN XUẤT N-ACYLPIPERIDINE
LUẬN VĂN THẠC SĨ HĨA HỌC
Chuyên ngành: Hĩa lý thuyết và Hĩa lý
Mã Số: 60 44 31
N
96 trang |
Chia sẻ: huyen82 | Lượt xem: 2177 | Lượt tải: 0
Tóm tắt tài liệu KHẢO SÁT MỐI LIÊN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
gười hướng dẫn khoa học:
PGS.TS BÙI THỌ THANH
CẦN THƠ – 01/2010
LỜI CẢM ƠN
-----²²²-----
Cũng nhờ cĩ sự giúp đỡ và động viên của nhiều người mà tơi đã hồn thành luận văn thạc sĩ này trong thời gian qua. Tơi xin gởi lời cảm ơn sâu sắc đến:
PGS – TS Bùi Thọ Thanh đã dành nhiều thời gian và cơng sức hướng dẫn cho tơi trong suốt thời gian nghiên cứu.
Các thầy cơ và các bạn trong Phịng Thí nghiệm Hĩa tin – Khoa Hĩa của Trường Đại học Khoa Học Tự Nhiên – ĐHQG TPHCM đã nhiệt tình giúp đỡ trong quá trình thực hiện luận văn.
Các thầy cơ ở Trường Đại học Cần Thơ và Viện cơng nghệ hĩa học đã truyền đạt những kiến thức quí báu trong thời gian học tập
Sở GD & ĐT tỉnh An Giang và Ban chủ nhiệm khoa Khoa học Trường Đại học Cần Thơ đã tạo điều kiện thuận lợi trong suốt thời gian học tập.
Gia đình và bạn bè đã luơn giúp đỡ và động viên tơi trong khoảng thời gian học tập và làm việc.
Cuối cùng, xin cảm ơn quí thầy cơ trong Hội đồng chấm luận văn đã gĩp nhiều ý kiến để tơi hồn thiện luận văn này hơn.
Một lần nữa xin chân thành cảm ơn!
Cần Thơ, tháng 01 năm 2010
Trần Diễm Ái
MỤC LỤC
-----²²²-----
Trang
Danh mục các chữ viết tắt v
Danh mục các bảng vi
Danh mục các hình vii
Danh mục các phụ lục viii
A – LỜI MỞ ĐẦU 1
B – TỔNG QUAN
Chương 1: TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH
HOẠT TÍNH 3
Hoạt tính sinh học 4
Hoạt tính hĩa học 4
CÁC THAM SỐ CẤU TRÚC 4
CÁC MƠ HÌNH TỐN HỌC TRONG KHẢO SÁT QSAR 5
Chương 2: CƠ HỌC LƯỢNG TỬ, LÝ THUYẾT VỀ VÂN ĐẠO PHÂN TỬ
PHƯƠNG TRÌNH SĨNG SCHRƯDINGER, PHÉP GẦN ĐÚNG BORN – OPPENHEIMER 9
CÁC PHƯƠNG PHÁP BÁN KINH NGHIỆM 11
Giới thiệu 11
Phương pháp PM3 13
Chương 3: PHƯƠNG PHÁP XỬ LÝ SỐ LIỆU
PHƯƠNG PHÁP HỒI QUI ĐA BIẾN TUYẾN TÍNH 15
Tương quan và hồi qui 15
Phân tích hồi qui đa biến tuyến tính 18
Các thủ tục chọn biến 19
Đánh giá mơ hình 20
PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO 21
Nơron sinh học và nơron nhân tạo 22
Nơron sinh học 22
Nơron nhân tạo 23
Cấu trúc mạng nơron đa lớp 23
Luyện mạng: kỹ thuật lan truyền ngược 25
Ngừng tiến trình luyện 26
Các yếu tố ảnh hưởng đến tính tổng quát hĩa của mạng 27
Chương 4: CHẤT ĐUỔI MUỖI VÀ N-ACYLPIPERIDINE
BỆNH DO MUỖI GÂY RA VÀ CÁC HĨA CHẤT ĐUỖI MUỖI 29
N-ACYLPIPERIDINE – CHẤT ĐUỔI MUỖI MỚI 33
C – PHƯƠNG PHÁP
Chương 5: PHẦN MỀM SỬ DỤNG VÀ CÁC BƯỚC THỰC HIỆN
PHẦN MỀM 36
Hyperchem 8.03 36
Stagraphics Centurion XV 36
NeuroSolution 5.07 36
Microsoft Excel 36
CÁC BƯỚC THỰC HIỆN 37
Tính tốn hĩa lượng tử 37
Phân tích hồi qui đa biến tuyến tính 37
Tính tốn mạng nơron 38
D – KẾT QUẢ VÀ BÀN LUẬN
Chương 6: KHẢO SÁT MỐI QUAN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE
DỮ LIỆU 41
KẾT QUẢ VÀ BÀN LUẬN 43
Phương pháp hồi qui đa biến tuyến tính 43
Tính tốn với hoạt tính PT 25 44
Tính tốn với hoạt tính PT 2.5 46
Phương pháp mạng nơron 48
ĐÁNH GIÁ MỨC ĐỘ TÁC ĐỘNG CỦA CÁC THAM SỐ CẤU TRÚC LÊN HOẠT TÍNH 54
E – KẾT LUẬN 59
TÀI LIỆU THAM KHẢO
PHỤ LỤC
DANH MỤC CÁC CHỮ VIẾT TẮT
AM1 : Austin Model 1
ANN : Artificial Neural Network
HF : Hartree-Fock
MLR : Multiple Linear Regression
MNDO : Modified Neglect of Diatomic Overlap
MO : Molecular Orbital
MSE : Mean Square Error
PM3 : Parametric Method 3
PT : Protection Time
QSAR : Quantitative Structure-Activity Relationships
USDA : United States Department of Agricuture
US EPA : United States Environmental Protection Agency
VB : Valence Bond
ZDO : Zero Differential Overlap
DANH MỤC CÁC BẢNG
Trang
Bảng 6.1 – Cấu trúc và hoạt tính của dẫn xuất N-acylpiperidine 41
Bảng 6.2 – Kết quả phân tích hồi qui đa biến tuyến tính với 20 biến độc lập 43
Bảng 6.3 – Một số mơ hình tốt nhất trong 16.278 mơ hình khảo sát của PT 25 44
Bảng 6.4 – Kết quả phân tích hồi qui cho mơ hình 1.6, 1.7, 1.8 45
Bảng 6.5 – Giá trị dự đốn của tập dữ liệu kiểm tra với PT 25 45
Bảng 6.6 – Giá trị dự đốn của 7 bộ dữ liệu cịn lại 47
Bảng 6.7 – Kết quả phân tích hồi qui cho mơ hình 2.3, 2.4, 2.5 47
Bảng 6.8 – Giá trị dự đốn cho tập kiểm tra với PT 2.5 47
Bảng 6.9 – Hệ số R2, Q2 và R2test ứng với số nơ ron trên lớp ẩn 48
Bảng 6.10 – Giá trị dự đốn của 7 bộ dữ liệu cịn lại 49
Bảng 6.11 – Kết quả tính và dự đốn hoạt tính theo mơ hình (9 – 8 – 2) 51
Bảng 6.12 – Kết quả dự đốn hoạt tính cho tập dữ liệu mới 52
Bảng 6.13 – Bảng so sánh kết quả các mơ hình tốt nhất của 2 phương pháp 53
Bảng 6.14 – Giá trị trọng số và độ nhạy của các biến độc lập 55
DANH MỤC CÁC HÌNH
Trang
Hình 1 – Mơ hình chung dùng trong khảo sát QSAR 8
Hình 3.1 – Biểu đồ các mối liên hệ thường gặp của x và y 16
Hình 3.2 – Cấu tạo một nơron sinh học 22
Hình 3.3 – Cấu tạo một nơron nhân tạo 23
Hình 3.4 – Sơ đồ cấu tạo mạng nơron nhân tạo cĩ 3 lớp 24
Hình 3.5 – Sơ đồ kỹ thuật lan truyền ngược 26
Hình 4 – Thí nghiệm hoạt tính sinh học 34
Hình 5.1 – Các loại hàm truyền trong NeuroBuilder 39
Hình 5.2 – Bảng NeuralBuilder Supervised Learning 39
Hình 6.1 – Đồ thị giá trị dự đốn cho bộ dữ liệu kiểm tra với PT 25 46
Hình 6.2 – Đồ thị giá trị dự đốn cho bộ dữ liệu kiểm tra với PT 2.5 47
Hình 6.3 – Đồ thị R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ 49
Hình 6.4 – Đồ thị R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ 50
Hình 6.5 – Đồ thị giá trị tính tốn và dự đốn theo hoạt tính thực nghiệm
của hai nồng độ 52
Hình 6.6 – Đồ thị giá trị dự đốn và thực nghiệm của tập dữ liệu kiểm tra
ở hai nồng độ 54
Hình 6.7 – Biểu đồ giá trị trọng số 55
Hình 6.8 – Biểu đồ độ nhạy của hai hoạt tính 56
Hình 6.9 – Đồ thị biểu diễn giá trị của 9 tham số cấu trúc và hai hoạt tính 57
DANH MỤC CÁC PHỤ LỤC
Phụ lục 1 – Cấu trúc dẫn xuất N-acylpiperidine và hoạt tính.
Phụ lục 2 – Bảng số liệu các tham số cấu trúc và hoạt tính của dẫn xuất N-acylpiperidine.
Phụ lục 3 – Kết quả phân tích hồi qui cho 20 biến độc lập.
Phụ lục 4 – Ma trận hệ số tương quan Pearson của các tham số cấu trúc và hoạt tính.
Phụ lục 5 – Ma trận hệ số tương quan Speaman của các tham số cấu trúc và hoạt tính.
Phụ lục 6 – Biểu đồ phân tích độ nhạy của hoạt tính theo từng tham số cấu trúc.
Phụ lục 7 – Dữ liệu bộ trọng số.
MỞ ĐẦU
LỜI MỞ ĐẦU
-----²²²-----
Trong xã hội và trong tự nhiên nĩi chung hoặc trong nghiên cứu khoa học nĩi riêng, các nghiên cứu thống kê giúp tìm ra các mối quan hệ giữa các hiện tượng và đặc tính để cĩ thể tiên đốn đúng các hiện tượng sẽ xảy ra khi biết được một số dấu hiệu nào đĩ, người ta thường gặp khĩ khăn với các mơ hình thống kê cổ điển. Nhưng hiện nay, nhờ sự phát triển vượt bậc của cả cơng nghệ máy tính và trí tuệ con người, nên chúng ta cĩ một cơng cụ hết sức mạnh mẽ trong tay là trí tuệ nhân tạo. Cơng cụ này giải quyết phần lớn các khĩ khăn gặp phải trước đây khi thống kê, tiên đốn chính xác các hiện tượng phức tạp với lượng thơng tin ít ỏi, đặc biệt là khi ta kết hợp giữa các cơng cụ khác nhau của trí tuệ nhân tạo với nhau và cả các phương pháp cổ điển nữa. Ứng dụng của trí tuệ nhân tạo rất nhiều trong các lĩnh vực như nhận biết tiếng nĩi, nhận biết chữ viết, nhận biết hình ảnh, phân tích địa chấn, phân tích điện tâm đồ, chẩn đốn bệnh, phân tích thị trường chứng khốn, thương mại...
Cịn trong hố học, người ta cũng cần dự đốn trong rất nhiều trường hợp như tìm hố chất cĩ hoạt tính mong muốn, dự đốn hướng phản ứng, xác định hướng phản ứng của các phản ứng cạnh tranh... và cịn nhiều mục đích khác nữa. Các cơng cụ nĩi trên cĩ nhiều ứng dụng vào các nghiên cứu, nhất là nghiên cứu mối quan hệ định lượng giữa giữa hoạt tính và cấu trúc. Ngồi ra cũng phải kết hợp thêm các cơng cụ của hố học khác nữa để thực hiện các nghiên cứu.
Một sự hiểu biết đúng đắn về độc tính của một hố chất mang một ý nghĩa đĩng gĩp rất lớn đối với cuộc sống của nhân loại như làm giảm bệnh tật và tỉ lệ tử vong.…Tuy nhiên để đạt được điều đĩ lại là một quá trình rất phức tạp và khĩ khăn liên quan đến nhiều kỹ thuật khoa học để cĩ được nhiều loại thơng tin cần thiết. Đặc biệt, với sự phát triển cơng nghệ máy tính ngày càng cao và càng rẻ việc nghiên cứu thuốc bằng phương pháp mơ phỏng phân tử kết hợp với các phương pháp thống kê ngày càng được quan tâm và phát triển.
Trong luận văn này đã dùng phương pháp tính tốn Hố lượng tử kết hợp với phương pháp thống kê kinh điển và mạng nơron nhân tạo để nghiên cứu khảo sát mối liên hệ định lượng giữa hoạt tính và cấu trúc của các chất dẫn xuất N-acylpiperidine.
Tên đề tài:
"KHẢO SÁT MỐI LIÊN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC HỢP CHẤT N-ACYLPIPERIDINE".
Mục đích đề tài:
Sử dụng chương trình Hĩa lượng tử thích hợp để tính tốn tham số cấu trúc của các chất dẫn xuất N-acylpiperidine. Các số liệu này kết hợp với dữ liệu về thời gian đuổi muỗi của các hợp chất N-acylpiperidine tạo thành bộ dữ liệu cấu trúc – hoạt tính sử dụng cho việc nghiên cứu QSAR.
Dùng phương pháp tính tốn thống kê kinh điển (phương pháp hồi qui đa biến tuyến tính) và phương pháp sinh – tin hiện đại (mạng nơron nhân tạo) để tìm mơ hình QSAR cĩ tính tổng quát hĩa cao.
Từ các kết quả nhận được trong luận văn và các kết quả nghiên cứu QSAR tương tự, rút ra nhận xét về phương pháp luận nghiên cứu QSAR.
Đề tài gồm những phần chính sau:
Lời mở đầu
Tổng quan
Phương pháp
Kết quả và bàn luận
Kết luận
TỔNG QUAN
Chương 1
TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH
-----²²²-----
Mối liên hệ định lượng giữa cấu trúc và hoạt tính của các hố chất được viết tắt là QSAR (Quantitative Structure – Activity Relationships). QSAR thường được nghiên cứu trên một họ hợp chất, giống nhau ở khung cơ bản nhưng khác nhau ở các nhĩm thế trên khung chính và được căn cứ vào giả định rằng cĩ mối tương quan cơ sở giữa cấu trúc phân tử và hoạt tính sinh học. Trong giả định này, QSAR cố gắng thiết lập mối tương quan giữa những tính chất riêng của cấu trúc phân tử với hoạt tính thực nghiệm của nĩ.
Cĩ hai mục đích chính cho sự phát triển QSAR:
Xây dựng mơ hình QSAR để dự đốn hoạt tính của những phân tử chưa từng được kiểm tra.
Mơ hình QSAR cĩ vai trị như một cơng cụ cung cấp thơng tin bằng việc chọn ra một bộ tham số mơ tả liên quan đến hoạt tính được đo để cĩ thể hiểu được cơ chế của hoạt tính cho trước. Điều này cĩ thể giúp thiết kế ra phân tử mới vừa cĩ hoạt tính theo mong muốn hơn vừa tiết giảm được thời gian, cơng sức, tiền của.
Dạng phương trình tốn học phổ biến của QSAR là:
A (Activity) = f (tính chất hĩa lý hoặc cấu trúc riêng của phân tử)
Đối với một mơ hình QSAR cĩ giá trị và đáng tin cậy thì hoạt tính của chúng phải được vạch ra bởi các cơ chế chung. Chất lượng của mơ hình QSAR hồn tồn phụ thuộc vào chất lượng của bộ dữ liệu sử dụng để xây dựng mơ hình, vì vậy việc chọn ra bộ dữ liệu các tham số cấu trúc cĩ liên quan đến hoạt tính thực nghiệm là quan trọng.
Một vài loại hoạt tính và các tham số cấu trúc thường được nghiên cứu trong QSAR được giới thiệu dưới đây.
HOẠT TÍNH [3], [11], [31]
Hoạt tính được nghiên cứu trong QSAR cĩ thể là hoạt tính hố học hay hoạt tính sinh học được quan sát từ thực nghiệm dưới các hình thức khác nhau.
Hoạt tính sinh học
MIC (Minimum Inhibitory Concentration): nồng độ ức chế tối thiểu, hay nồng độ kiềm khuẩn tối thiểu (dùng trong vi sinh).
MBC (Minimum Bactericidal Concentration): nồng độ diệt khuẩn tối thiểu.
IC50 (Inhibitory Concentration): nồng độ ức chế 50% đối tượng thử, hay cịn gọi là hằng số Michaelis – Menten.
EC50 (Effective Concentration): nồng độ 50% tác dụng tối đa.
ED50 (Effective Dose): liều tác dụng tối đa trên 50% đối tượng thử.
SD50 (Supression Dose): liều tiêu diệt 50% đối tượng thử.
LD50 (Lethal Dose): liều gây chết 50% thú thử.
TI (Therapeutic Index) = LD50/ED50: chỉ số trị liệu (TI càng lớn độ an tồn sử dụng càng cao)…
Các hoạt tính sinh học cĩ thể được quan sát từ thực nghiệm với nhiều hình thức sau:
In vitro: quan sát hoạt tính trong ống nghiệm hay hộp petri cĩ nuơi cấy vi sinh vật (vi khuẩn, vi nấm) hay các bộ phận sinh vật (cơ quan, mơ, tế bào…) được phân lập.
In vivo: quan sát hoạt tính trên cơ thể sinh vật (chuột, thỏ, khỉ, người).
In situ: quan sát hoạt tính tại chỗ.
Hoạt tính hố học
k: hằng số tốc độ phản ứng của các hố chất trong một loại phản ứng.
K: hằng số phân ly của các axit (tính axit).
Độ chọn lọc.
Tính thân hạch, thân điện tử…
Các hoạt tính hố học được quan sát bằng thực nghiệm hố học.
CÁC THAM SỐ CẤU TRÚC [11], [16], [25], [29]
Một vấn đề chung trong QSAR là cách mơ tả phân tử và tính chất của các chất. Và các đại lượng được dùng để mơ tả những nét cấu trúc phân tử là một phần khơng thể thiếu trong nghiên cứu QSAR, cịn được gọi là tham số cấu trúc.
Đến nay đã cĩ hàng ngàn tham số khác nhau được ứng dụng trong các lĩnh vực nghiên cứu các mơ hình liên quan định lượng giữa cấu trúc với tác dụng. Các tham số cấu trúc của hố chất cĩ thể thu được bằng thực nghiệm hay tính tốn bằng lý thuyết bởi các phần mềm tính tốn như ADAPT, CODESSA, DRAGON, HYPERCHEM, MOE,… Các tham số thơng dụng cĩ thể kể đến như tham số điện tử, các tham số lập thể, các tham số hố lí,…
Các tham số điện tử (electronic parameters): hằng số Hammett (s, s+, s-,…), moment lưỡng cực, độ phân cực phân tử, điện tích nguyên tử (q+, q-), mật độ điện tử, thế tĩnh điện phân tử và trường tĩnh điện phân tử, năng lượng các vân đạo biên (EHOMO và ELUMO),…
Các tham số lập thể (steric parameters): hằng số lập thể Tafl (Es), thể tích phân tử (V), diện tích bề mặt phân tử (S), chỉ số khúc xạ (MR), tham số STERIMOL, độ dài liên kết, gĩc xoắn…
Các tham số hố lí (physicochemical parameters): hệ số phân bố giữa octanol và nước của hố chất (P) , hằng số kỵ nước P…
CÁC MƠ HÌNH TỐN HỌC TRONG KHẢO SÁT QSAR [ 5], [ 9], [ 21], [ 24], [25]
Vào năm 1868, Crum-Brown và Fraser đã nhận xét rằng tác dụng sinh học là hàm số của cấu trúc hĩa học:
(1.1)
Đến năm 1893, Richet đã cho rằng sự khác nhau về tác dụng sinh học là do sự thay đổi về tính chất hĩa học hay lí hĩa.
(1.2)
Đây là hai tư tưởng làm nền tảng cho việc thiết lập các mơ hình liên quan cấu trúc – tác dụng định lượng sau này.
Năm 1935, một phát minh quan trọng của Hammett cĩ thể xem là phương trình đầu tiên biểu diễn mối quan hệ giữa hoạt tính và cấu trúc:
(1.3)
Với K, Ko là hằng số axit. s là hằng số Hammett, là một thơng số hố lí đặc trưng cho khả năng rút hoặc đẩy điện tử của nhĩm thế.
Đối với axit benzoic, phương trình Hammett cĩ dạng như sau:
(1.4)
Như ta đã biết dựa vào phương trình Hammett ta cĩ thể dự đốn Ka của các dẫn xuất của axit benzoic khi ta biết hằng số s của các nhĩm thế. Tương tự, Hammett cịn cĩ các phương trình dành cho các phản ứng của các dẫn xuất benzen:
(1.5)
Trị số r tìm được cĩ thể gĩp phần quan trọng cho việc đề nghị cơ chế cho phản ứng đang khảo sát.
Mơ hình Hansch
QSAR thực sự bắt đầu được nghiên cứu bởi Corwin Hansch và các đồng sự từ những năm 60 của thế kỷ XX. Trong mơ hình QSAR của mình, Hansch thường dùng các hằng số thực nghiệm như: Es, s, P, logP… làm các tham số cấu trúc.
Một số phương trình ơng thu được như sau:
(1.6)
(1.7)
(1.8)
Trong đĩ C là nồng độ mol của hố chất, ở nồng độ này hố chất cĩ một tác dụng cụ thể nào đĩ, chẳng hạn nồng độ cần thiết của hố chất để cĩ tác dụng ức chế 50% độc chất.
Trong các mơ hình Hansch, ơng ta thường dùng phương pháp hồi qui tuyến tính (1.6) hoặc hồi qui đa thức (1.7, 1.8) để phân tích, xử lý dữ liệu.
Mơ hình Free – Wilson
Mơ hình QSAR Free – Wilson được Fujita và Ban cải tiến lại cĩ dạng tổng quát sau:
(1.9)
Trong đĩ : sự cộng hợp của các nhĩm thế xi tại vị trí j trên phân tử.
: vai trị của khung chính.
Thực tế thì mơ hình Hansch và mơ hình Free-Wilson cĩ liên quan với nhau, vì thế một số tác giả đã thành lập mơ hình kết hợp Free-Wilson & Hansch, cả hai dạng tuyến tính lẫn phi tuyến:
(1.10)
(1.11)
Trong đĩ: là tham số nhĩm thế.
là tham số hĩa lí j của các nhĩm thế xi.
và k là các hệ số hồi qui.
Vì hầu như chỉ dùng phương pháp hồi qui tuyến tính hay hồi qui đa thức bậc 2, 3 để xử lý và phân tích dữ liệu nên các mơ hình Hansch và Free – Wilson đã gặp phải các khĩ khăn nhất định. Chúng chỉ khảo sát QSAR thành cơng trên một số ít hợp chất. Nguyên nhân chủ yếu là do mối quan hệ giữa hoạt tính và cấu trúc thường khơng phải là tuyến tính mà rất phức tạp. Hơn nữa các tham số cấu trúc phải được xác định bằng thực nghiệm, đây là khĩ khăn lớn vì nĩ gây tốn kém thời gian và kinh phí mà lại hạn chế các thơng tin thật sự cĩ ảnh hưởng đến hoạt tính của hố chất… Vì vậy, việc tìm thêm các tham số mới về cấu trúc, giảm thời gian và chi phí nghiên cứu, cộng với dùng phương pháp xử lý số liệu mới cĩ khả năng mơ tả đúng mối quan hệ phức tạp của các tham số cấu trúc và hoạt tính là điều rất cần thiết.
Hiện nay, các kỹ thuật máy tính phát triển cực kỳ nhanh chĩng và nĩ đã cĩ những đĩng gĩp quan trọng trong các lĩnh vực nghiên cứu khoa học như khoa học vũ trụ, sinh học, tốn học, lý học, hố học… Trong hố học, đã cĩ nhiều chương trình máy tính cĩ thể thiết kế cấu trúc khơng gian của phân tử hố chất; chúng kết hợp với hố lượng tử cĩ thể tối ưu hố hình dạng của hố chất và cung cấp cho chúng ta rất nhiều tham số cấu trúc liên quan đến hoạt tính. Chúng ta đã cĩ các phần mềm tin học ứng dụng trong hố học hiện nay như: HyperChem, Gaussian, CS ChemOffice, Mopac …
Ngồi ra, về mặt xử lý số liệu, chúng ta khơng cịn đơn thuần dùng các phương pháp xử lý thống kê cổ điển để phân tích số liệu mà cĩ các lý thuyết mới cĩ thể áp dụng vào việc xử lý số liệu, tín hiệu… và ta cĩ thể dùng vào khảo sát QSAR. Các lý thuyết mới cĩ thể dùng trong các trường hợp mối quan hệ QSAR phức tạp như: Mạng nơron nhân tạo (ANN – Artificial Neural Network), Logic mờ (FL – Fuzzy Logic), Thuật giải di truyền (GA – Genetic Algorithm)…
Chuẩn bị bộ dữ liệu hoạt tính
Xây dựng mơ hình phân tử, dùng hố lượng tử tối ưu hố hình dạng
Từ mơ hình tối ưu, tính các tham số hố lý đặc trưng cho cấu trúc
Phân tích dữ liệu, tìm mơ hình QSAR phù hợp nhất
Dự đốn hoạt tính của hợp chất mới
Việc sử dụng các phương pháp xử lý số liệu mới này đồng thời kết hợp với dùng các thơng số tính tốn tỏ ra khá thành cơng trong việc mơ tả các QSAR. Hiện nay, đã cĩ rất nhiều nhĩm nghiên cứu QSAR trên thế giới. Họ nghiên cứu rất nhiều hợp chất khác nhau và ứng dụng các phương pháp thống kê mới vào khảo sát QSAR.
Hình 1 – Mơ hình chung dùng trong khảo sát QSAR
Chương 2
CƠ HỌC LƯỢNG TỬ,
LÝ THUYẾT VỀ VÂN ĐẠO PHÂN TỬ
-----²²²-----
PHƯƠNG TRÌNH SĨNG SCHRƯDINGER, PHÉP GẦN ĐÚNG BORN – OPPENHEIMER [9], [11]
Cho đến nay, chỉ cĩ cơ học lượng tử mới cĩ thể mơ tả được sự phân bố của điện tử một cách đầy đủ. Vì vậy, để xác định tính chất vật lý của phân tử (hình dạng cấu trúc bền nhất, mật độ điện tích, chiều dài liên kết…) người ta cố gắng giải phương trình sĩng Schrưdinger:
HY = EY (2.1)
Trong đĩ: E : năng lượng tổng cộng của hệ thống.
Y : phương trình sĩng tổng cộng đã được chuẩn hố.
H : tốn tử Hamilton tổng cộng.
Tốn tử Hamilton tổng cộng (H) tương ứng với năng lượng tổng cộng của phân tử bao gồm các động năng (T) và thế năng (V) của tất cả các hạt (các hạt nhân và các điện tử):
Htotal = T + V (2.2)
Phép gần đúng Born-Oppenheimer
Phép gần đúng này dựa trên cơ sở: khối lượng của hạt nhân lớn hơn khối lượng điện tử nhiều lần nên vận tốc của hạt nhân phải nhỏ hơn vận tốc của điện tử. Vì thế phương trình Schrưdinger được chia thành hai phần:
Phần một bao gồm tốn tử Hamilton điện tử đối với hạt nhân cố định (He).
Phần hai bao gồm tốn tử động năng hạt nhân trong đĩ năng lượng từ hàm sĩng điện tử đĩng vai trị thế năng (Tn).
Htotal = He +Tn (2.3)
He = Te + Vne + Vee + Vnn (2.4)
Trong đĩ: : Tốn tử động năng hạt nhân.
: Tốn tử động năng điện tử.
: Tốn tử hút điện tử - hạt nhân.
: Tốn tử đẩy điện tử - điện tử.
: Tốn tử đẩy hạt nhân – hạt nhân.
Với:
A, B: hạt nhân ZA : điện tích hạt nhân A
i, j : các electron RA : vector chỉ vị trí hạt nhân A
MA : Khối lượng hạt nhân A ri : vector chỉ vị trí electron i
Các tốn tử cĩ thể được tập hợp lại theo chỉ số điện tử.
(2.5)
(2.6)
(2.7)
Tốn tử một điện tử hi mơ tả sự di chuyển của điện tử i trong trường của tất cả các hạt nhân, và gij là tốn tử hai điện tử cho bởi lực đẩy điện tử – điện tử. Chú ý rằng điểm zero năng lượng tương ứng với các hạt tử được để yên (Te = 0) và được dời đi vơ tận khỏi nhau (Vne= Vee= Vnn=0).
Theo phép gần đúng này, hàm sĩng điện tử chỉ phụ thuộc vào vị trí của hạt nhân, khơng phụ thuộc vào động lượng của hạt nhân; và các hạt nhân di chuyển trên các mặt đẳng thế (Potential Energy Surfaces – PES), là nghiệm của các phương trình Schrưdinger điện tử. Do vậy khi ta giải được phương trình Schrưdinger điện tử thì ta cĩ thể dùng PES để giải phương trình Schrưdinger đối với hạt nhân.
Việc xây dựng hàm sĩng nhiều điện tử dựa trên tính gần đúng là các hạt ở trạng thái riêng rẽ. Trong vân đạo spin một điện tử gồm hai phần: vân đạo khơng gian và hàm spin. Phương trình Hartree – Fock (HF) được viết như sau:
(2.8)
Tốn tử Hamilton được viết lại dưới dạng tổng của những tốn tử một điện tử F (tốn tử Fock) như sau:
(2.9)
Ji và Kj là tốn tử Coulomb và tốn tử trao đổi.
CÁC PHƯƠNG PHÁP BÁN KINH NGHIỆM [7], [10], [11]
Giới thiệu
Địi hỏi của việc thực hiện chuỗi tính HF thường là các hàm mũ 4. Điều này phát sinh bởi số các tích phân hai điện tử cần thiết cho việc xây dựng ma trận Fock. Phương pháp bán thực nghiệm giảm địi hỏi của việc tính tốn bằng cách giảm số tích phân hai điện tử. Điều này chỉ là một tác động giới hạn bộ cơ sở rộng, và phương pháp ab initio sẽ vẫn địi hỏi một nỗ lực tính tốn lớn hơn phương pháp bán thực nghiệm.
Bước đầu tiên trong việc giảm khĩ khăn tính tốn là xem như chỉ cĩ các điện tử hố trị hiện diện. Tâm điện tử được giải thích bằng cách giảm điện tích hạt nhân hoặc các hàm đưa vào mơ hình lực đẩy hố hợp do các hạt nhân và các tâm điện tử. Hơn nữa, chỉ cĩ bộ cơ sở nhỏ nhất được dùng đối với các điện tử hố trị. Vì thế hydro chỉ cĩ một hàm cơ sở, tồn bộ các nguyên tử trong hàng thứ hai và thứ ba của hệ thống tuần hồn cĩ bốn hàm cơ sở (một s và ba p). Cho đến bây giờ, phần lớn các phương pháp chỉ dùng các hàm s và p, và các hàm cơ sở là các vân đạo kiểu Slater ngĩa là các hàm mũ.
Giả định trung tâm của các phương pháp bán thực nghiệm là phép gần đúng ZDO (Zero Differential Overlap). Phương pháp này bỏ qua tất cả các tích của hàm cơ sở phụ thuộc vào cùng toạ độ điện tử khi định vị trên các nguyên tử khác. Ký hiệu vân đạo nguyên tử trên tâm A là mA, phép gần đúng ZDO tương ứng với nA(i).nB(i) = 0. Chú ý rằng tích của các hàm trên các nguyên tử khác nhau bằng khơng, khơng cĩ tích phân trên một tích như vậy. Nĩ cĩ các hệ quả sau:
Ma trận S giảm thành ma trận đơn vị.
Tích phân một điện tử ba tâm được gán về khơng.
Tất cả các tích phân 3 và 4 tâm 2 điện tử được bỏ qua.
Để bù cho các phép gần đúng này, các tích phân cịn lại được chuyển thành các tham số, và giá trị của các tích phân này cĩ được dựa trên cơ sở tính tốn hoặc dữ liệu thực nghiệm. Cĩ chính xác bao nhiêu tích phân bị bỏ qua, đã thực hiện bao nhiêu tham số hố, điều này khác nhau trong các phương pháp bán thực nghiệm khác nhau. Viết biểu thức sau đối với yếu tố ma trận Fock, trong đĩ tích phân hai điện tử được viết tắt là ámn|ls):
(2.10)
Trong đĩ:
Sự tham số hố.
Một phép tính HF ab initio với bộ cơ sở nhỏ nhất hiếm khi cĩ thể cho chất lượng tốt hơn các MO (Molecular Orbital). Nĩ là một giá trị rất giới hạn đối với mặt dự đốn định lượng. Hơn nữa phép gần đúng ZDO làm giảm chất lượng của hàm sĩng (mà nĩ vốn đã thấp). Tức là việc dùng trực tiếp các lược đồ trên là khơng cĩ lợi. Để sửa chữa nhược điểm của các phép gần đúng trên, các tham số được đưa vào vị trí của một vài hay tồn bộ các tích phân.
Cĩ ba phương pháp cĩ thể dùng để chuyển các phép gần đúng NDDO/INDO/CNDO vào mơ hình tính bằng máy tính.
Các tích phân cịn lại cĩ thể được tính từ dạng hàm vân đạo nguyên tử.
Các tích phân cịn lại được chuyển thành tham số mà các giá trị được ấn định được dựa trên một vài dữ liệu thực nghiệm.
Các tích phân cịn lại cĩ thể được chuyển thành các tham số mà giá trị được ấn định dựa trên việc làm cho phù hợp với dữ liệu thực nghiệm.
Phương pháp 2 bắt nguồn từ tính chất đặc biệt của nguyên tử, như là thế ion hố và năng lượng kích thích, trong biểu thức của các thơng số, và sự ấn định các giá trị của chúng dựa trên nguyên tắc bình phương cực tiểu phù hợp với bộ dữ liệu thực nghiệm lớn, tương tự với việc làm thích hợp của các thơng số trường lực.
Sau đây là một số phương pháp tính tốn bán kinh nghiệm :
Phương pháp NDDO (Neglect of Diatomic Diferential Overlap Approximation).
Phương pháp INDO (Intermediate Neglect of Diferential Overlap Approximation).
Phương pháp CNDO (Complete Neglect of Diferential Overlap Approximation).
Phương pháp MINDO (Modified Intermediate Neglect of Diferential Overlap Approximation).
Phương pháp MNDDO(Modified NDDO Models).
Phương pháp MNDO (Modified Neglect of Diatomic Overlap).
Phương pháp AM1 (Austin Model 1).
Phương pháp PM3 ( Parametric Method Number 3).
Phương pháp MNDO/d (The MNDO/d method).
Phương pháp SAM1 (Semi-Ab initio Method 1).
Dưới đây xin trình bày phương pháp PM3.
Phương pháp PM3 (Parametric Method Number 3)
Phương pháp PM3 là một phương pháp bán kinh nghiệm sử dụng thuật tốn tự hợp. Nĩ cĩ bản chất là phương pháp AM1 với tất cả các tham số đã được tối ưu đầy đủ.
Lực đẩy core – core của mơ hình MNDO cĩ dạng:
(2.11)
Trong đĩ a được dùng như là các tham số điều chỉnh.
Tương tác gồm liên kiết O–H và N–H được xử lý khác nhau:
(2.12)
Thêm vào, MNDO dùng phương pháp gần đúng, zs = zp đối với một vài nguyên tố sáng hơn. MNDO được tham số hố đối với các nguyên tố H, B, C, N, O, F, Al, Si, P, S, Cl, Zn, Ge, Br, Sn, I, Hg, và Pb. Các tham số Gss, Gsp, Gpp, Gp2, Hsp được lấy từ phổ nguyên tử.
Một hạn chế của MNDO là lực đẩy core – core quá lớn. Để khắc phục điều này, hàm core – core được sửa đổi bằng cách cộng các hàm Gaussian và tồn bộ mơ hình đã được tham số hĩa lại. Phương pháp này được gọi là phương pháp AM1.
Sự tham số hố của MNDO và AM1 đã được làm bằng tay, dùng các tham số Gss, Gsp, Gpp, Gp2, Hsp từ các dữ liệu nguyên tử khác nhau và thay đổi các phần cịn lại cho đến khi đạt được sự thích hợp tốt. Bởi vì sự tối ưu hố được làm bằng tay nên chỉ bao gồm một vài hợp chất tương đối. Stewart thực hiện quá trình tối ưu tự động bằng cách bổ sung và bắt nguồn từ các cơng thức đối với các đạo hàm của hàm lỗi thích hợp tương ứng đối với các tham số. Sau đĩ tồn bộ tham số được tối ưu hố đồng thời kể cả các số hạn hai điện tử và một bộ luyện lớn hơn đáng kể với dữ liệu khoảng vài trăm được sử dụng. Trong việc tham số hố lại này, các biểu thức trong AM1 đối với lực đẩy core – core được giữ lại ngoại trừ việc chỉ cĩ 2 phương trình Gaussian được gán cho mỗi nguyên tử, các tham số Gaussian này bao gồm phần tích phân trong mơ hình. Phương pháp cịn được ký hiệu là PM3, nhưng thực chất là AM1 với tất cả các tham số được tối ưu đầy đủ.
Cơ học lượng tử với các tiền đề và cơng cụ chính xác của nĩ đã giải quyết được những vấn đề cơ bản nhất của cấu tạo của các hạt cơ bản. Riêng trong hĩa học, cơ học lượng tử là một cơ sở nền tảng để nghiên cứu, giải thích các hiện tượng hĩa học, tiên đốn, chỉ đường cho nghiên cứu thực nghiệm, giúp cho hĩa học ngày càng phát huy được thế mạnh và khẳng định được vị trí của nĩ.
Chương 3
PHƯƠNG PHÁP XỬ LÝ SỐ LIỆU
-----²²²-----
Khi thu được các tham số hố lý của các hố chất, ta tiến hành phân tích và xử lý các số liệu để xác định mối quan hệ giữa các thơng số cấu trúc và hoạt tính của các hố chất. Và sau đây là phương pháp phân tích hồi qui đa biến tuyến tính và phương pháp mạng nơron sử dụng để khảo sát QSAR trong luận văn này.
PHƯƠNG PHÁP HỒI QUI ĐA BIẾN TUYẾN TÍNH MLR (Multiple Linear Regression) [6], [12], [21]
Tương quan và hồi qui
Xem xét mối quan hệ giữa hai biến định lượng x và y. Mối quan hệ giữa x và y cĩ thể cĩ bản chất xác định hoặc bản chất ngẫu nhiên.
Khi mối quan hệ cĩ bản chất xác định ta cĩ thể thiết lập được biểu thức tốn học bằng các con đường khác nhau, thí dụ bằng phương pháp phân tích hồi qui.
Khi mối quan hệ cĩ bản chất ngẫu nhiên, thì sự liên kết cĩ thể được khám phá và thiết lập bằng phương pháp phân tích tương quan.
(a) khơng cĩ liên hệ
(b) liên hệ tuyến tính thuận
x
x
y
y
Bốn dạng liên hệ thường gặp giữa hai biến định lượng x và y được biểu diễn ở Hình 3.1 bên dưới.
(c) liên hệ tuyến tính nghịch
(d) liên hệ phi tuyến
x
x
y
y
Hình 3.1 – Biểu đồ các mối liên hệ thường gặp của x và y
Trong Hình 3.1 (a) các chấm đại diện cho các cặp giá trị thực tế quan sát được (x; y) phân tán ngẫu nhiên, và khơng cĩ mối liên hệ giữa hai biến này. Trong Hình 3.1 (b) thì mối liên hệ đĩ gần như là tuyến tính thuận. Hình 3.1 (c) thể hiện mối liên hệ tuyến tính nghịch. Cịn Hình 3.1 (d) thì mối liên hệ đĩ là phi tuyến.
Người ta sử dụng một đại lượng thống kê cĩ tên là hệ số tương quan Pearson (R) để lượng hĩa mức độ chặt chẽ của mối quan hệ này, được tính theo cơng thức sau:
(3.1)
Trong đĩ: N là số hợp chất quan sát.
Sx, Sy là độ lệch chuẩn của từng biến x và y.
Trị tuyệt đối của R cho biết mức độ chặt chẽ của mối liên hệ tuyến tính:
|R| < 0.7 : nghèo nàn.
0.7 < |R| < 0.8 : khá.
0,8 < |R| < 0.9 : rõ nét.
|R| > 0.9 : hồn tồn.
Khuynh hướng của sự liên quan tuyến tính được biểu thị bởi giá trị của R:
R < 0 : liên quan nghịch (giảm dần).
R > 0 : liên quan thuận (tăng dần).
Nếu xác định các biến cĩ sự tương quan tuyến tính với nhau thì ta cĩ thể mơ hình hĩa mối quan hệ của chúng bằng mơ hình hồi qui tuyến tính. Phương trình hồi qui là bộ phận cấu thành quan trọng của các mơ hình tương quan và việc lựa chọn và tính tốn đúng đắn phương trình này là một bước quan trọng nhất trong việc lập mơ hình tương quan.
Hồi qui đa biến tuyến tính (MLR) là một trường hợp rất phổ biến trong thực tế, là tổ hợp tuyến tính giữa các biến phụ thuộc với nhiều biến độc lập. Phân tích hồi qui bao hàm cả ý nghĩa “ước tính” (Estimating) hay “dự đốn” (Predictive) vì sau khi sự tương quan tuyến tính giữa x và y được thiết lập bởi một biểu thức tốn học cụ thể người ta cĩ thể ước tính hay dự đốn giá trị của y từ một giá trị của x. Đường biểu diễn biểu thức tốn học ấy được gọi là đường hồi qui của y theo x.
(3.._.2)
thường được gọi là sai số, là chênh lệch giữa giá trị quan sát được yk và trung bình của tập con các giá trị của biến y tại điểm xk.
được xem là biến ngẫu nhiên, độc lập cĩ phân phối chuẩn, cĩ trung bình bằng 0 và phương sai là .
Các hệ số trong phương trình được ước lượng theo nguyên tắc bình phương tối thiểu nghĩa là làm sao cho tổng bình phương các phần dư dưới đây là nhỏ nhất.
(3.3)
Khi thu được các dữ liệu cần thiết (yi, xji) trong đĩ số bộ dữ liệu N ít nhất phải lớn hơn số biến độc lập k thì người ta cĩ thể xác định được các hệ số hồi qui theo chuẩn bình phương cực tiểu như sau:
(3.4)
Điều kiện này đạt được khi đạo hàm của ei2 theo các hệ số bi triệt tiêu. với i = 1, 2,..., N. (3.5)
Ta giả thiết rằng hàm f phụ thuộc tuyến tính vào bộ như vậy ta chỉ cần tìm kiếm các hệ số phù hợp. Trong khảo sát QSAR, biến yi là hoạt tính hố chất, biến xi là các tham số hố lí.
Giá trị thống kê đặc trưng cho mơ hình hồi qui là hệ số xác định (coefficient of determination) hay hệ số R2.
Một số mơ hình hồi qui đa biến tuyến tính
Mơ hình MLR cĩ dạng tổng quát như sau:
Dạng lý thuyết:
(3.6)
Dạng ước tính
(3.7)
Dạng ước tính với N trường hợp quan sát:
(3.8)
Dạng ước tính bằng phương pháp bình phương cực tiểu:
(3.9)
Trong đĩ: là giá trị dự đốn của y.
là biến độc lập.
là các hệ số hồi qui.
Mơ hình MLR cĩ thể xuất hiện dưới một số dạng đặc biệt như sau:
Dạng tương tác: giả sử hai biến x1 và x2 cĩ hệ tương tác thì mơ hình MLR cĩ thể được viết:
(3.10)
Dạng đa thức: mơ hình hồi qui dạng đa thức bậc k cĩ thể biểu diễn dưới dạng tổng quát sau:
(3.11)
Phân tích hồi qui đa biến tuyến tính
Các mơ hình hồi qui đa biến tuyến tính cĩ thể được thiết lập một cách tự động bởi các chương trình phân tích thống kê như SPSS, SAS, BMDP, MINITAB, Stagraphics-Plus, Microsoft EXEL, Stagraphics Centurion XV….
Các thủ tục chọn biến
Nhiều mơ hình hồi qui cĩ thể được xây dựng từ cùng một tập biến. Muốn sàn lọc các biến độc lập xi cĩ liên quan tuyến tính với biến phụ thuộc trong một nhĩm dữ liệu cĩ N trường hợp quan sát, người ta cĩ thể dùng nhiều phương pháp. Ba thủ tục phổ biến mà ta sẽ nghiên cứu là: đưa dần vào (forward selection), loại trừ dần (backward elimination), và hồi qui từng bước. Sau đây là các thủ tục chọn biến được thực hiện trong phần mềm Stagraphics Centurion XV.
Phương pháp đưa dần vào: biến đầu tiên được xem xét để đưa vào phương trình là biến cĩ tương quan thuận hay nghịch lớn nhất với biến phụ thuộc. Cĩ 2 tiêu chuẩn để đưa biến vào:
F-to-enter: là giá trị nhỏ nhất của thống kê F mà một biến phải đạt được để được đưa vào.
F-to-remove: là giá trị F tối thiểu mà thống kê F của biến độc lập đĩ phải đạt được để ở lại trong phương trình.
Phương pháp loại trừ dần: khởi đầu với tất cả các biến đều ở trong phương trình, sau đĩ loại trừ dần bằng tiêu chuẩn loại trừ. Cĩ hai tiêu chuẩn loại trừ:
F-to-enter: là giá trị nhỏ nhất của thống kê F mà một biến phải đạt được để được đưa vào.
F-to-remove: là giá trị F tối thiểu mà thống kê F của biến độc lập đĩ phải đạt được để ở lại trong phương trình.
Phương pháp chọn từng bước: là sự kết hợp của thủ tục đưa dần vào và thủ tục loại trừ dần, đây là phương pháp phổ biến nhất. Biến thứ nhất được chọn giống như cách chọn dần từng bước. Sau khi biến thứ nhất được đưa vào, thủ tục chọn từng bước khác với đưa dần vào ở chỗ biến thứ nhất được xem xét xem cĩ nên loại bỏ nĩ ra khỏi phương trình căn cứ theo tiêu chuẩn ra giống như thủ tục loại trừ dần. Các bước như thế được tiếp tục cho đến khi khơng cịn biến nào thỏa điều kiện ra nữa.
Đánh giá mơ hình
Để đánh giá mức độ phù hợp của mơ hình với bộ dữ liệu thực nghiệm, người ta dùng các đại lượng sau:
Hệ số xác định (R2): bình phương hệ số tương quan giữa các giá trị yitính tính theo mơ hình hồi qui và các giá trị yi thực nghiệm.
(3.12)
Trong đĩ: là giá trị trung bình của các giá trị .
Ý nghĩa: R2 cho biết sự phù hợp của mơ hình với bộ dữ liệu thực nghiệm. Nếu giá trị R2 càng gần 1 thì mơ hình mơ tả tốt các số liệu thực nghiệm, các giá trị yitính tính tốn rất gần các giá trị yi thực nghiệm.
Hệ số hiệu chỉnh () : được sử dụng để phản ánh sát hơn mức độ phù hợp của mơ hình MLR. khơng nhất thiết phải tăng lên khi nhiều biến được thêm vào phương trình.
(3.13)
Tính tổng quát của mơ hình (Q2): Việc xác định tính tổng quát dựa trên phương pháp tham chiếu chéo (cross validation). Phương pháp này được thực hiện gồm các bước sau:
Chia ngẫu nhiên tập dữ liệu thành k tập con phân biệt.
Lặp lại k lần, mỗi lần chừa ra một tập con để kiểm tra, phần cịn lại để luyện.
Tính giá trị Q2 :
(3.14)
Giá trị Q2 càng gần 1 thì khả năng đốn nhận càng chính xác hay nĩi cách khác mơ hình cĩ khả năng tổng quát hĩa.
Khả năng dự đốn ngoại của mơ hình: phương pháp này được thực hiện như sau: chia bộ dữ liệu thành 2 nhĩm nhỏ, dùng một nhĩm luyện (training set) cĩ N trường hợp để thiết lập mơ hình hồi qui và sau đĩ dùng mơ hình ấy để dự đốn tác dụng của một nhĩm thử (test set) cĩ M trường hợp.
Nếu mơ hình tìm được cĩ sự tuyến tính cao giữa các biến phụ thuộc và các biến độc lập thì phương pháp phân tích MLR cĩ ưu điểm sau:
Những mối quan hệ dữ liệu quan sát được mơ tả rõ ràng.
Là phương pháp đơn giản cho việc đốn nhận mẫu mới.
Tuy nhiên phương pháp này sẽ khơng phù hợp trong những trường hợp mà giữa các biến độc lập cĩ liên hệ chặt chẽ với nhau hoặc số biến lớn hơn số mẫu quan sát.
Nếu mơ hình khơng tuyến tính với các biến độc lập, khi đĩ ta cĩ hồi qui phi tuyến.
PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO ANN (Artificial Neural Network) [2], [8], [19], [22]
Trong thực tế, mối quan hệ giữa biến phụ thuộc và các biến độc lập thường là khơng tuyến tính, chẳng những như thế mà cĩ đơi lúc mối quan hệ này rất phức tạp. Việc áp dụng phương pháp phân tích hồi qui đa biến phi tuyến hay phi tham số vào việc khảo sát QSAR để mơ tả được các quan hệ này là điều khĩ khăn và hết sức cần thiết. Một trong những phương pháp xử lý số liệu mới được ứng dụng mạnh trong khảo sát QSAR là mạng nơron nhân tạo (ANN).
Lý thuyết ANN được hai nhà bác học người Mỹ là McCulloch và Pitts đề xuất vào năm 1943, đến khoảng giữa thập niên 80 của thế kỷ XX thì nĩ bắt đầu thật sự được tìm hiểu và ứng dụng mạnh vào rất nhiều lĩnh vực khoa học – kỹ thuật khác nhau trong đĩ cĩ hố học. Dựa trên cơ sở hệ thần kinh của sinh vật, hai nhà bác học người Mỹ đã mơ phỏng lại và xây dựng ANN tạo nhằm mơ phỏng các mối quan hệ phức tạp giữa biến phụ thuộc và biến độc lập.
ANN gồm những nơron là những đơn vị xử lý nhị phân mà cấu trúc và cách xử lý của nĩ được mơ phỏng và đơn giản hĩa từ cấu trúc và quá trình tiếp nhận – xử lý thơng tin phức tạp của bộ não con người.
Để cĩ khái niệm tổng quát về mạng nơron, phần này sẽ giới thiệu sơ lược về cấu tạo và hoạt động của nơron sinh học, các thành phần cơ bản của nơron nhân tạo, cách truyền thơng tin, mạng lan truyền đa lớp và trạng thái hoạt động của mạng.
Nơron sinh học và nơron nhân tạo
Nơron sinh học
Hình 3.1 – Cấu tạo một nơron sinh học
Hệ thần kinh con người bao gồm khoảng 1010 tế bào thần kinh hay cịn gọi là nơron. Một nơron sinh học tiêu biểu gồm một thân tế bào (soma hay cell body) với một nhân (nucleus) bên trong. Thân tế bào bao gồm nhiều sợi nhánh (dendrites) và sợi trục (axon). Cĩ dạng như hình trên.
Những sợi nhánh cĩ nhiệm vụ nhận tín hiệu được tích lũy, sợi trục tiếp nhận tín hiệu và truyền sang một nơron khác ở vị trí khớp nối (synapse).
Nhưng khơng phải lúc nào tín hiệu đưa vào cũng được truyền đi và truyền nguyên vẹn mà chỉ khi tín hiệu đĩ đạt đến một giới hạn nào đĩ và khi truyền qua synapse nĩ được biến đổi tùy thuộc vào lực synapse.
Một tín hiệu cĩ cường độ xi khi qua synapse I sẽ cĩ cường độ là si ứng với lực synapse wi :
si = xi . wi (3.15)
Nơron nhân tạo
p2
pn
V = f(I)
w1
w2
wn
.
.
.
p1
Cấu tạo của một nơron nhân tạo đơn (hay cịn gọi là một đơn vị) được mơ tả bởi hình sau:
Hình 3.2 – Cấu tạo một nơron nhân tạo
Đầu vào của một nơron gồm các dữ liệu nhập hoặc từ đầu ra của các nơron khác. Người ta thường tổ hợp đầu vào bằng cách tính tổng trọng số dữ liệu nhập pi:
(3.16)
Với wi là trọng số đặc trưng cho liên kết giữa nơi truyền dữ liệu (tín hiệu) đến và nơi nhận dữ liệu (tín hiệu). Giá trị đầu ra được tạo bằng cách dùng các hàm truyền (transfer function) f trên I: V = f(I)
Trong ANN thường dùng các hàm truyền sau:
Tanh
-1
1
0
1
0
1
Logistic (sigmoid)
Threshold
0 if x< 0
f(x) =
1 if x >= 1
Cấu trúc mạng nơron đa lớp
Một mạng lan truyền tổng quát là một mạng cĩ n (n > 2) lớp: lớp thứ nhất gọi là lớp nhập (input layer), lớp thứ n gọi là lớp xuất (output layer), và (n – 2) lớp ẩn (hidden layer). Số nút của lớp nhập và lớp xuất do bài tốn qui định, cịn số nút của lớp ẩn do người thiết kế mạng quyết định. Trong mạng lan truyền, mỗi nút của lớp thứ i (0 < i < n) liên kết với mọi nút ở lớp thứ (i +1), và các nút trong cùng lớp khơng liên kết với nhau. Lớp nhập nhận dữ liệu vào và truyền lại cho tất cả các nơron cho lớp ẩn thứ nhất. Các nơron trong lớp ẩn thứ nhất tổ hợp các giá trị đầu vào và tạo lại đầu ra rồi truyền đi cho tất cả
p1
p2
Pn
a1
an
wji
wkj
wlk
Dữ liệu nhập
Lớp xuất
Lớp nhập
Dữ liệu ra
.
.
.
.
.
.
.
.
.
Lớp ẩn
các nơron ẩn lớp kế tiếp… Lớp cuối cùng, lớp xuất, là lớp cho kết quả thật (giá trị biến phụ thuộc).
Hình 3.3 – Sơ đồ cấu tạo mạng nơron nhân tạo cĩ 3 lớp
Mạng lan truyền chỉ cĩ thể ở một trong hai trạng thái: trạng thái ánh xạ và trạng thái học.
Ở trạng thái ánh xạ, thơng tin lan truyền từ lớp nhập đến lớp xuất và mạng thực hiện ánh xạ để tính được các biến phụ thuộc như sau: trước tiên, các nơron nhập nhận các giá trị biến độc lập được đưa vào, mỗi nơron nhập chuyển giá trị nĩ nhận được cho tất cả các nơron ẩn của lớp ẩn kế cận. Mỗi nơron ẩn tính tổng trọng hĩa của tất cả các dữ liệu nhập. Sau đĩ một hàm truyền được áp dụng lên tổng trọng để nén chúng vào một miền giới hạn của hàm truyền (tùy mỗi loại hàm truyền mà ta sử dụng sẽ cĩ miền giới hạn khác nhau). Mỗi nơron ẩn này lại chuyển kết quả của mình đến các nơ ron ở lớp kế tiếp… cho đến các nơron lớp xuất. Mỗi nút xuất thực hiện các thao tác tương tự như đã thực hiện trong nút ẩn để cho ra giá trị kết xuất của nút xuất – là giá trị của các biến phụ thuộc cần xác định.
Trạng thái học: bản chất ánh xạ do mạng thực hiện tùy thuộc vào giá trị các trọng số trong mạng. Lan truyền ngược là một phương pháp cho phép xác định tập trọng tốt nhất của mạng để giải một bài tốn được cho. Việc áp dụng phương pháp lan truyền ngược là một quá trình lặp đi lặp lại nhiều lần hai tiến trình chính: ánh xạ và lan truyền ngược sai số. Hai tiến trình này được áp dụng trên một tập mẫu xác định. Ta gọi chung tiến trình này là học hay luyện mạng.
Một lợi ích của mạng lan truyền là cĩ thể xây dựng mơ hình nhiều kết xuất. Cĩ thể nĩ địi hỏi ít cơng việc hơn và ít tính tốn máy hơn. Ngồi ra một mơ hình duy nhất sẽ cĩ tính nhất quán mà những mơ hình phát triển riêng biệt khơng thể cĩ.
Luyện mạng: Kỹ thuật lan truyền ngược
Quá trình luyện mạng được bắt đầu với các giá trị trọng số tùy ý, và tiến hành lặp đi lặp lại. Mỗi lần lặp được gọi là một thế hệ (epoch). Trong mỗi thế hệ, mạng hiệu chỉnh các trọng số sao cho sai số (độ lệch giữa các kết xuất và giá trị đích) giảm dần. Tiến trình điều chỉnh nhiều lần giúp cho trọng dần dần đạt được tập giá trị tối ưu.
Để cập nhật trọng số trong mỗi thế hệ luyện, mạng phải xử lý tất cả các mẫu trong tập mẫu. Đầu tiên mạng thực hiện phép tốn lan truyền tiến, nghĩa là mạng thực hiện ánh xạ các biến nhập của mẫu hiện hành thành các giá trị xuất. Sau đĩ, xác xuất được tính dựa trên sai số của kết xuất và giá trị đích. Trên cơ sở sai số tính tốn, mạng sẽ cập nhật lại bộ trọng số theo nguyên tắc lan truyền ngược sai số - gọi là giai đoạn lan truyền ngược (back propagation).
Kỹ thuật cơ bản trong lan truyền ngược là cập nhật bộ trọng số theo hướng giảm gradient. Ví dụ khi áp dụng trong QSAR, trước hết mạng tính các kết xuất hoạt tính ai theo các dữ liệu nhập (các thơng số cấu trúc) từ các trọng số đã khởi tạo ban đầu. Sau đĩ tính gradient :
Gradient lớp xuất: với ti là giá trị hoạt tính thực nghiệm.
Gradient lớp ẩn thứ i: với là gradient của lớp nơron kế tiếp trước lớp i.
Cuối cùng chỉnh sửa các trọng số wi+1 cho vịng lặp kế tiếp theo gradient và tốc độ luyện hiện tại: (wi là trọng số hiện tại).
Các bước này được thực hiện lặp lại nhiều lần cho đến khi đạt được điều kiện ngừng luyện.
Hình 3.4 – Sơ đồ kỹ thuật lan truyền ngược
Ngừng tiến trình luyện
Khi mạng được luyện, ánh xạ của nĩ dần dần trở nên phức tạp. Nĩ sẽ băng qua một cấu hình tổng quát hĩa tốt nhất tại một điểm nào đĩ; sau điểm đĩ, mạng sẽ học để mơ hình hĩa nhiễu, khi đĩ mạng sẽ trả lời chính xác những gì nĩ được học, cịn đối với các dữ liệu mới thì mạng cho kết quả hồn tồn sai. Hiện tượng này được gọi là hiện tượng quá luyện hay quá khớp (overfitting). Nếu ta cĩ thể xác định được thời điểm mạng đạt đến điểm đĩ, ta cĩ thể ngừng luyện trước khi xảy ra quá khớp và cĩ thể sử dụng cấu hình mạng tổng quát hĩa tốt nhất này.
Thường tiêu chuẩn ngừng luyện là dựa trên gradient lỗi, mạng sẽ luyện đến khi khơng cịn lỗi hoặc lỗi nhỏ hơn một giá trị nào đĩ do ta cho trước. Nhưng khi mạng được luyện đến khơng cịn lỗi thì mạng khơng cịn tính tổng quát hố nghĩa là lúc đĩ mạng bị quá luyện.
Ta cĩ thể ngăn ngừa hiện tượng quá luyện bằng cách tìm giá trị gradient lỗi và số nút ẩn phù hợp. Điều này địi hỏi nhiều thời gian.
Nếu khơng bị giới về khả năng tính tốn (phần cứng) thì ta cĩ thể cho mạng một lượng nút ẩn thừa để luyện và dùng phương pháp dừng luyện bằng bộ kiểm tra. Phương pháp này được thực hiện như sau: chia bộ mẫu ra thành ba tập, tập số một dùng để luyện mạng, tập số hai dùng để kiểm tra hiện tượng quá khớp, bộ số ba dùng để kiểm tra tính tổng quát hố của mạng. Luyện mạng với tập mẫu luyện nhưng định kì ngừng luyện để đánh giá sai số trên tập mẫu kiểm tra (khi đánh giá sai số trên tập mẫu kiểm tra, ta chỉ cần thực hiện ánh xạ cho từng mẫu mà khơng phải trải qua giai đoạn lan truyền ngược). Khi sai số trong mẫu kiểm tra đi lên, thì quá khớp đã bắt đầu. Khi đĩ, ta ngừng luyện, trở về các trọng sinh ra lỗi thấp nhất trên mẫu kiểm tra, và dùng các trọng đĩ cho mơ hình của ta. Như vậy, song song với tiến trình luyện ta phải tính sai số trên tập mẫu kiểm tra.
Các yếu tố ảnh hưởng đến tính tổng quát hố của mạng nơron
Mạng cĩ tính tổng quát hố khi nĩ cĩ thể dự đốn tốt các dữ liệu mới. Các yếu tố ảnh hưởng nhiều đến tính tổng quát hố của mạng là:
Kích thước tập mẫu: mạng học để mơ hình hĩa dữ liệu và cĩ thể mơ hình hĩa cả nhiễu, cĩ thể ngăn nĩ quá khớp bằng cách tạo mẫu luyện đủ lớn để bù cho mức nhiễu trong dữ liệu. Nhưng việc tăng mẫu thường gặp phải khĩ khăn trong thực hành vì thực tế mẫu hiếm khi đủ lớn để ngăn được nhiễu.
Số nút ẩn: mỗi trọng số trong mạng là một tham số làm tăng khả năng của mạng, số trọng số trong mạng là một hàm theo số nút của mạng, nĩ quyết định mức độ tự do mà mạng cĩ thể khớp với dữ liệu. Do đĩ, mạng chỉ đạt được trạng thái tối ưu khi tìm được số nút ẩn phù hợp. Để tìm số nút ẩn tối ưu thì phải luyện nhiều mạng với số nút ẩn khác nhau. Hơn nữa, phải luyện cho đến khi mạng hội tụ. Phương pháp này cũng tạm ổn nhưng địi hỏi thời gian máy tính khá nhiều. Quá trình tìm mạng tối ưu chủ yếu tập trung vào việc tìm số nút ẩn, nhưng số nút nhập cũng quan trọng. Khi dùng nhiều nút nhập ta sẽ cho mạng nhiều mức tự do hơn – nhiều khả năng để mơ hình hĩa một cách chính xác các hàm phức tạp, hay nhiều khả năng để quá khớp.
Thời gian luyện mạng cũng quan trọng khơng kém. Trong thực tế, việc luyện mạng đến hội tụ là một bài tốn khơng dễ. Giai đoạn luyện cĩ thể rất dài khi phải luyện đến giá trị gradient lỗi rất nhỏ cho đến khi một nút ẩn nào đĩ tìm được giá trị tối ưu. Vì vậy, mạng cần đủ thời gian để luyện và dừng luyện đúng lúc.
Mạng chỉ cĩ giá trị sử dụng khi cĩ tính tổng quát hố cao.
Chương 4
CHẤT ĐUỔI MUỖI VÀ N-ACYLPIPERIDINE
-----²²²-----
BỆNH DO MUỖI GÂY RA VÀ CÁC HĨA CHẤT ĐUỖI MUỖI [13], [14], [15]
Muỗi đốt, ngồi chuyện khĩ chịu, ngứa ngáy tại chỗ, muỗi cịn là trung gian truyền một số bệnh ký sinh trùng ở nhiều vùng nhiệt đới và cận nhiệt đới. Sau đây là một vài bệnh nguy hiểm thường gặp:
Sốt rét cịn gọi là sốt rét ngã nước là một chứng bệnh gây ra bởi ký sinh trùng loại protozoa tên Plasmodium, lây truyền từ người này sang người khác khi những người này bị muỗi đốt. Muỗi lan truyền bệnh là những lồi Anopheles, thuộc nhĩm Plasmodium. Chúng hút máu người bệnh, tiêu hĩa máu nhưng khơng tiêu hĩa ký sinh trùng. Bệnh phổ biến ở các khu vực nhiệt đới và cận nhiệt đới của châu Mỹ, châu Á và châu Phi. Sốt rét là một trong những bệnh truyền nhiễm phổ biến nhất và là vấn đề nghiêm trọng đối với sức khoẻ cộng đồng. Bệnh cĩ thể chữa và phịng bằng thuốc căn bản Chloroquine.
Sốt Dengue, cịn gọi là Sốt Đập Lưng (breakbone fever) do muỗi Aedes Aegyti truyền virus từ người bệnh sang người lành. Bệnh ít gây tử vong ngoại trừ trường hợp Sốt Đập Lưng Xuất Huyết thường thấy ở các quốc gia Đơng Nam Á và châu Mỹ La Tinh. Bệnh nhân cĩ triệu chứng như đau xương khớp, nhức đầu, nĩng sốt, nổi ban trên da và làm cơ thể suy nhược. Khơng cĩ thuốc chữa khỏi bệnh mà cũng chưa cĩ thuốc tiêm ngừa. Sốt xuất huyết đang là vấn đề nan giải của mọi quốc gia vì dịch bệnh ngày một gia tăng.
Sốt vàng (Yellow Fever) là chứng bệnh sốt gây vàng da do siêu vi trùng thuộc họ Flaviviridae gây ra. Đây là một chứng bệnh sốt xuất huyết quan trọng tại Châu Phi và Nam Mỹ mặc dầu hiện nay đã cĩ vắc-xin hiệu nghiệm. Sốt vàng từng gây nhiều trận dịch tàn khốc, gây tử vong khắp nơi cho đến thế kỷ 20 khi khoa học khám phá ra bệnh lây do muỗi đốt và nghiên cứu được phương cách phịng chống bằng vắc-xin. Sốt vàng cũng do muỗi Aedes Aegypti truyền một loại virus.
Bệnh Giun Chỉ (Filariasis) cĩ nhiều ở vùng nhiệt đới và bán nhiệt đới. Giun chỉ bạch huyết (Lymphatic filariasis) là một bệnh nhiễm ký sinh trùng Wuchereria bancrofti, Brugia malayi hoặc Brugia timori. Lồi ký sinh trùng này được truyền từ người này sang người khác do muỗi đốt và phát triển thành giun trưởng thành trong hệ mạch bạch huyết, gây nên tổn thương và tổ chức sưng phồng. Bệnh phù chân voi (Elephantiasis) gồm đau, biến dạng chi cơ thể và cơ quan sinh dục - đây là các dấu hiệu cổ điển trong giai đoạn muộn của bệnh này. Bệnh cĩ thể chữa được bằng thuốc Diethylcarbamazine.
Viêm não Nhật Bản: tác nhân truyền bệnh là muỗi Culicinea tritaeniorhyunchus, thường cĩ ở nơng thơn. Người là ký chủ trong chu trình truyền bệnh và thường trẻ em mắc bệnh nhiều hơn người lớn. Tỉ lệ tử vong từ 7-33% hay cao hơn nhưng tỉ lệ di chứng ngược lại với tỉ lệ tử vong . Các di chứng của bệnh thường là liệt dai dẳng, mất điều hịa trương lực, chậm phát triển trí tuệ và rối loạn tính cách. Vì đây là bệnh do virus gây ra nên các hiểu biết bệnh học cịn nhiều hạn chế. Việc điều trị dựa vào điều trị triệu chứng và tiêm phịng là chủ yếu.
Các vấn đề về phịng tránh, xua đuổi hay tiêu diệt muỗi đã được con người quan tâm từ lâu. Nĩ là vấn đề nan giải của nhiều quốc gia trên thế giới.
Từ xưa, con người đã biết dùng hĩa chất để đuổi muỗi như đốt vỏ cam quýt và một số thảo mộc cĩ chứa tinh dầu hoặc dùng nhiệt để tạo điều kiện phát tán các hương liệu đối kháng với muỗi, hay dùng các loại cây củ tươi như hành tây cắt đơi đặt trong phịng,… Các phương pháp dân gian này cĩ nhiều hạn chế là khơng giết được muỗi và chỉ đuổi được muỗi trong khoảng thời gian và một vùng khơng gian nhất định, đơi khi lại cịn gây ra phiền hà đối với nhiều người khác.
Ngày nay, thuốc đuổi muỗi thơng dụng sử dụng các hĩa chất tổng hợp – được điều chế thơng qua cơng nghệ cao và tiên tiến của ngành dược phẩm. Sau đây là một vài hĩa chất được sử dụng trong sản phẩm thuốc đuổi muỗi đã đăng kí với Cơ quan Bảo Vệ Mơi Sinh của Hoa Kì US EPA (United State Environmental Protection Agency):
DEET tên hĩa học là N,N-diethyl-meta-toluamide hoặc N,N-diethyl-3-methyl-benzamide là thành phần hoạt chất được tìm thấy trong nhiều sản phẩm đuổi muỗi nhất.
DEET được điều chế vào năm 1946 sau khi chiến tranh thế giới lần thứ 2 nhấn mạnh cần ngăn ngừa muỗi và các cơn trùng khác đốt chích. DEET được sử dụng hơn 50 năm nay và được xem là “tiêu chuẩn vàng” cho các hoạt chất đuổi muỗi. Kể từ năm 1957 hĩa chất này đã cĩ mặt ở khắp mọi nơi và là hĩa chất chống muỗi và các lồi cơn trùng hút máu khác được sử dụng rộng rãi nhất trên thế giới.
Hĩa chất DEET hoạt động bằng cách làm cho muỗi và họ hàng nhà muỗi khơng thể đánh hơi mùi mồ hơi hấp dẫn của con người ở gần đĩ. Một cuộc nghiên cứu mới được thực hiện gần đây cho thấy những kết quả như sau:
Một sản phẩm chứa 23.8% DEET cĩ cơng dụng ngăn muỗi cắn khoảng 5 tiếng đồng hồ.
Một sản phẩm chứa 20% DEET cĩ cơng dụng ngăn muỗi cắn gần 4 tiếng đồng hồ.
Một sản phẩm chứa 6.65% DEET cĩ cơng dụng ngăn muỗi cắn gần 2 tiếng đồng hồ.
Những sản phẩm chứa 4.75% DEET và 2% dầu đậu nành: cả hai loại này đều cĩ cơng dụng ngăn muỗi cắn trong vịng khoảng 90 phút đồng hồ.
Ủy ban Sức Khỏe Mơi Trường của Hội Bác Sĩ Nhi Khoa Hoa Kỳ (The American Academy of Pediatrics (AAP) Committee on Environmental Health) mới đây cho biết những sản phẩm chứa DEET cĩ thể dùng một cách an tồn cho trẻ em và cho phụ nữ mang thai hoặc đang cho con bú.
Picaridin (tên hĩa học là 1-methylpropyl 2-(2-hydroxyethyl)-1-piperidinecarboxylat) là chất lỏng khơng màu khơng mùi được sử dụng như là thuốc diệt cơn trùng như ruồi, muỗi, chiggers, và bọ ve. Các sản phẩm cĩ chứa khoảng 5-20 % hoạt chất.
Tinh dầu bạch đàn chanh được tìm thấy trong lá và cành cây bạch đàn. Nĩ đã được đăng ký đầu tiên vào năm 1948 như là một thuốc trừ sâu và thuốc diệt cơn trùng và bọ ve. Như với hầu hết các loại dầu thực vật, khơng cĩ tác dụng phụ cho con người. Sản phẩm cĩ chứa khoảng 30 – 40% của các thành phần hoạt chất.
PMD (p-mentane-3,8-diol) là hĩa chất tổng hợp của tinh dầu bạch đàn chanh. Nĩ được áp dụng cho da hoặc quần áo để xua đuổi cơn trùng. Sản phẩm cĩ chứa 8-10% thành phần hoạt chất cĩ tác dụng bảo vệ như DEET ở nồng độ thấp.
IR3535 (tên hĩa học là etyl 3-(N-Butyl-N-axetyl)-aminopropionat), cũng được gọi là Merck 3.535, được sử dụng như một thuốc diệt cơn trùng chống muỗi và lồi cắn đốt khác. Sản phẩm cĩ chứa khoảng 7.5-20.07 % của các thành phần hoạt chất.
Permethrin được đăng ký để sử dụng như một loại thuốc trừ sâu và thuốc đuổi muỗi. Sản phẩm Permethrin được sử dụng trên quần áo, giày, lưới, giường. Permethrin dùng ngâm tẩm quần áo, giầy dép như một cách phịng chống bọ ve, muỗi, các lồi cơn trùng và vẫn cịn hiệu quả sau khi giặt rửa nhiều lần.
Allethrin là hĩa chất đuổi muỗi thường được sử dụng cho vùng khơng gian rộng, là chất dễ bay hơi, được sử dụng trong các sản phẩm thương mại như nhang, miếng dán, nến và đèn xơng muỗi.
Hiện thị trường cĩ nhiều sản phẩm phịng chống muỗi với những cách thức sử dụng khác nhau. Loại diệt muỗi bằng nhang hoặc bình xịt (với các nhãn hiệu như Mosfly, Jumbo, Raid Max...); loại thuốc chống muỗi dùng cho cá nhân dưới dạng kem bơi (Soffell) hay thuốc xịt lên da cĩ hương thơm; loại máy xơng muỗi, máy bắt muỗi; keo dán đuổi muỗi;… Tuy nhiên, nguyên liệu của các các loại sản phẩm này là hĩa chất đều gây ra tác dụng phụ đến sức khỏe con người nên khi sử dụng cần lưu ý cơng dụng để cĩ cách sử dụng hiệu quả, phù hợp và an tồn cho sức khỏe.
N-ACYLPIPERIDINE - CHẤT ĐUỔI MUỖI MỚI [17], [26], [29], [31]
Dữ liệu ban đầu về cấu trúc và hoạt tính của các chất họ piperidines được lấy từ bộ dữ liệu về các hợp chất đuổi muỗi của Bộ Nơng Nghiệp Hoa Kì USDA (United States Department of Agricuture) đã thu thập hơn 50 năm. Các nhà khoa học của trường đại học Florida (Mỹ) kết hợp với USDA đã nghiên cứu sàn lọc ra 200 chất từ hàng ngàn hợp chất tiềm năng, họ tập trung cuộc tìm kiếm chủ yếu trên các hợp chất N-acylpiperidine (thành phần làm cho hạt tiêu cĩ vị cay).
Cơng thức tổng quát của các dẫn xuất N-acylpiperidine như sau:
Từ bộ dữ liệu lựa chọn, họ sử dụng chương trình máy tính thiết kế thuốc, chương trình này sử dụng những thơng tin về các cấu trúc hĩa học và tác dụng của các hợp chất này trên các thụ quan của cơn trùng để tiên đốn tính hữu hiệu của chất đuổi muỗi.
Chương trình máy tính này cho phép các nhà khoa học thu hẹp các hợp chất xuống cịn 11 chất. Từ những thơng tin cĩ được từ 11 chất đĩ, họ tổng hợp thêm 23 chất, sau đĩ họ kiểm nghiệm 34 chất này với các đối tượng tình nguyện trong phịng thí nghiệm. Những người tình nguyện đã đeo các miếng băng vào cánh tay thấm đầy các liều lượng xác định mỗi hợp chất và cho tay vào lồng chứa muỗi. Mỗi lồng chứa khoảng 500 con muỗi cái 5–10 ngày tuổi, nhiệt độ trong lồng là 281oC và độ ẩm tương đối là 35–60 %. Các nhà nghiên cứu đã đo đạc tính bền bỉ của các hợp chất – thời gian cho tới khi chất đuổi muỗi phai hết – và điều này được đánh dấu bằng việc bắt đầu bị muỗi chích.
Vải chưa xử lí hĩa chất
Vải đã xử lí hĩa chất
Hình 4 – Thí nghiệm hoạt tính sinh học
Cuộc nghiên cứu đưa ra kết quả “đầy kinh ngạc” đối với các nhà khoa học, nĩ cho thấy những chất này bảo vệ được nhiều hơn gấp 3 lần hĩa chất DEET – chất đuổi muỗi hiệu quả nhất hiện nay. Những hợp chất này cĩ hiệu quả lâu nhất trong vịng 73 ngày và nhiều chất cĩ thời gian bảo vệ từ 40 đến 50 ngày so với DEET là 17.5 ngày.
Các nhà nghiên cứu dự định tiếp tục kiểm nghiệm trên 7 trong số các hợp chất nhiều hứa hẹn nhất với mục đích xác định được thế hệ hĩa chất DEET kế tiếp và sẽ tiếp tục quan sát xem việc chúng chống lại một loạt các lồi cơn trùng hiệu quả như thế nào.
* Những phát hiện thú vị về muỗi và thuốc đuổi muỗi gần đây [13], [14]
Gần đây nhà nghiên cứu Hector Douglas tại trường Đại học Alaska Fairbanks đã phát hiện được lồi chim sẻ biển cĩ lơng vũ cĩ khả năng tiết ra chất cĩ thành phần tương tụ như DEET cĩ khả năng đuổi muỗi.
Nghiên cứu của trợ lý giáo sư Mike Tyler từ Đại học Adelaide và nhà cơn trùng học Craig Williams từ Đại học James Cook cho thấy: ếch sản xuất ra một loạt hố chất ở trên da, một số lồi lưỡng cư như một lồi ếch xanh ở Australia cũng cĩ thể bài tiết ra dịch đuổi muỗi...
Nhĩm nghiên cứu của James Logan thuộc Trung tâm Nghiên cứu Rothamsted (Anh quốc) đã tìm được thuốc đuổi muỗi từ chính mồ hơi của một số tình nguyên viên và họ đã tìm được thuốc đuổi muỗi do chính cơ thể của những người này để tìm cách tổng hợp một loại hĩa chất tương đương cĩ thể đuổi muỗi và tương thích cao với sức khỏe con người – chất này gần như khơng mùi đối với con người, song hiện nay vẫn đang trong thời gian thử nghiêm hoặc chỉ cĩ ở mức độ phịng thí nghiệm.
Trong một nghiên cứu vừa được cơng bố trên tạp chí Current Biology (Mỹ), một nhĩm chuyên gia quốc tế đã lập được sơ đồ chi tiết của cơ quan cảm thụ mùi mà muỗi Anopheles sử dụng để tìm con người hút máu và truyền bệnh sốt rét. Qua đĩ, các nhà khoa học đã phát hiện khả năng tiếp nhận mùi nhạy bén của xúc tu, một bộ phận xuất phát từ đầu muỗi. Cùng với râu, xúc tu này giúp muỗi Anopheles cĩ khả năng ngửi và nếm. Theo nhĩm nghiên cứu, muỗi Anopheles sử dụng xúc tu để phát hiện mục tiêu từ xa; cịn trong những pham vi gần, nĩ dùng vịi để cảm nhận. Biết được cơ chế mà chúng sử dụng để phát hiện và tấn cơng con người, các chuyên gia cĩ thể tạo ra các chất mới để xua đuổi hoặc dẫn dụ chúng vào bẫy để tiêu diệt, gĩp phần hạn chế bệnh sốt rét – một căn bệnh hiểm nghèo mang tính phổ biến nhất hiện nay. Nghiên cứu này lấp đầy một khoảng trống lớn về hiểu biết khoa học đối với hệ thống khứu giác của muỗi.
Hiện nay, các nhà khoa học đang nghĩ cách diệt muỗi hữu hiệu hơn bằng cách lập bản đồ gen của muỗi truyền bệnh. Qua đĩ thay đổi cơ cấu di truyền của muỗi để muỗi cái khơng thể mang ký sinh trùng sốt rét. Đầu năm 2002, một nhĩm nghiên cứu ở Đại học Cleveland (Ohio) đã cấy thành cơng một gen mới của lồi muỗi Anophele Stephensi chống lại ký sinh trùng sốt rét, nghĩa là khơng cịn là trung gian truyền bệnh, gen nay cĩ tác dụng: thay đổi các thụ thể nhận mùi của muỗi để muỗi chích động vật thay vì chích người; sử dụng cơng nghệ triệt sản cơn trùng (Sterile Insect Technique = SIT) nghĩa là chiếu tia gamma vào muỗi đực, tạo ra giống muỗi đực triệt sản khơng cịn khả năng thụ tinh để giảm mật độ sinh sơi ở muỗi.
PHƯƠNG PHÁP
Chương 5
PHẦN MỀM SỬ DỤNG VÀ
CÁC BƯỚC THỰC HIỆN
-----²²²-----
PHẦN MỀM
Hyperchem 8.03
Chương trình HyperChemTM 8.03 for Windows của HyperCube, Inc được dùng để xây dựng cấu trúc phân tử, tối ưu hố hình học, tính các tham cấu trúc. Đây là chương trình được ứng dụng rộng rãi vì cĩ độ chính xác cĩ thể đáp ứng yêu cầu đặt ra trong lĩnh vực thiết kế phân tử với nhiều tính năng như: xây dựng cấu trúc, tối thiểu hĩa năng lượng, tính tốn tham số lượng tử, trình bày cấu trúc ba chiều.
Statgraphics Centurion XV
Statgraphics Centurion XV là phần mềm phân tích dữ liệu thống kê chuyên dụng. Nĩ cĩ hơn 160 chương trình thống kê, bao gồm từ phân tích thống kê cơ bản đến phức tạp. Người dùng khơng nhất thiết phải là một chuyên gia về thống kê bởi vì chương trình này đã cĩ các cơng cụ như StatWizard và StatAdvisor giúp người dùng sử dụng nĩ một cách hiệu quả nhất. Statgraphics Centurion XV được sử dụng trong phân tích MLR.
NeuroSolution 5.07
NeuroSolutionTM 5.07 là phần mềm mơ phỏng ANN. NeuroSolution for Excel là một sản phẩm đột phá của phần mềm NeuroSolutionTM 5.07. Nĩ được tích hợp trong Microsoft Excel giúp cho người dùng dễ dàng sử dụng với giao diện quen thuộc trong bảng tính của Microsoft Excel. Nĩ khơng chỉ dành cho người mới bắt đầu học về ANN mà cịn là cơng cụ mơ hình hĩa mạnh mẽ để giải quyết bài tốn hồi qui phi tuyến.
Microsoft Excel
Microsoft Excel được dùng để nhập dữ liệu ban đầu, vẽ các đồ thị biểu diễn các mối quan hệ của hoạt tính và các tham số cấu trúc, truy xuất dữ liệu vào phần mềm NeuroSolution cho việc tính tốn mạng, lưu trữ các kết quả sau khi mạng luyện.
CÁC BƯỚC THỰC HIỆN
Tính tốn hĩa lượng tử
Xây dựng mơ hình cấu trúc phân tử của các dẫn xuất N-acylpiperidine bằng phần mềm HyperChem 8.03
Tối ưu hố hình dạng các mơ hình vừa xây dựng bằng phương pháp gần đúng PM3 với các thơng số sau:
Convergence limit: 10-4
Iteration limit: 300
RHF
RMS gradient: 10-4
Thuật tốn Polak-Ribiere
Từ những cấu trúc đã tối ưu._.
Các file đính kèm theo tài liệu này:
- LA2763.doc