Mô hình AI có thể dự báo lũ lụt ở mọi con sông trên Trái đất với khả năng vượt trội
Các nhà khoa học Trung Quốc đã phát triển ra mô hình trí tuệ nhân tạo (AI) mang tên ED-DLSTM, có thể dự báo nguy cơ lũ lụt và dòng chảy qua nhiều khu vực, vùng miền khác nhau trên thế giới, ngay cả ở các lưu vực thiếu dữ liệu thủy văn.
ED-DLSTM không phụ thuộc vào dữ liệu dòng chảy lịch sử như các mô hình dự báo khác, thay vào đó sử dụng các thuộc tính như độ cao và lượng mưa.
Trong một bài báo đăng trên tạp chí bình duyệt The Innovation, nhóm do các nhà nghiên cứu tại Viện Hàn lâm Khoa học Trung Quốc (CAS) dẫn đầu đã trình bày chi tiết cách ED-DLSTM vượt trội hơn các mô hình AI khác.
Ouyang Chaojun, tác giả chính bài báo và giáo sư tại Viện nghiên cứu Rủi ro và Môi trường Núi thuộc CAS, cho biết: "Chúng tôi đã đào tạo trước mô hình AI trên quy mô nhiều lục địa bằng cách sử dụng các lưu vực có dữ liệu giám sát lịch sử. Điều này có thể giúp đưa ra dự báo lưu lượng trong các lưu vực không có dữ liệu dòng chảy".
Trong bài báo, các nhà nghiên cứu viết: “Mô hình AI mà chúng tôi đề xuất đã đạt được hiệu suất vượt trội trong các nhiệm vụ dự báo dòng chảy xuyên khu vực so với các mô hình học máy và mô hình thủy văn cổ điển khác. Dự báo dòng chảy và lũ lụt vẫn là một trong những thách thức lâu dài trong ngành thủy văn”.
Các nhà nghiên cứu viết rằng điều này là do những hạn chế trong việc hiệu chỉnh các mô hình AI dự báo vật lý, đặc biệt là ở các lưu vực chưa được đo đạc (những khu vực tập trung mưa mà thiếu dữ liệu về dòng chảy) cũng như nhu cầu sử dụng thông tin lịch sử dòng chảy cho các mô hình dựa trên dữ liệu.
Học máy là một lĩnh vực trong AI tập trung vào việc phát triển các thuật toán và mô hình máy tính có khả năng học hỏi từ dữ liệu và cải thiện hiệu suất của chúng theo thời gian mà không cần lập trình cụ thể. Các hệ thống học máy có khả năng tự động tìm hiểu và áp dụng kiến thức từ dữ liệu để thực hiện các nhiệm vụ cụ thể như phân loại, dự đoán, nhận dạng mẫu và tối ưu hóa quyết định.
Những ứng dụng của học máy rất đa dạng như xử lý ngôn ngữ tự nhiên, thị giác máy tính, xe tự hành, dự đoán thời tiết, quản lý dữ liệu lớn...
Học máy đã có sự tiến bộ đáng kể trong thập kỷ gần đây, nhờ sự phát triển của các mô hình học sâu và khả năng xử lý dữ liệu lớn (big data), mang lại nhiều cơ hội và tiềm năng giải quyết các vấn đề phức tạp và cải thiện hiệu suất trong nhiều lĩnh vực khác nhau.
CAS cho biết hơn 95% các lưu vực vừa và nhỏ trên toàn thế giới thiếu hoặc có số liệu thủy văn hạn chế, khiến việc phụ thuộc vào các mô hình AI cần thông tin này để dự báo dòng chảy mưa và lũ lụt trở nên khó khăn.
“Nhiều mô hình dự báo yêu cầu dữ liệu lịch sử chất lượng cao, "nêu bật thách thức to lớn trong việc xây dựng các dự báo dòng chảy đáng tin cậy cho hàng nghìn lưu vực mà không cần truy cập vào các thông số vật lý hoặc dữ liệu lịch sử”, các nhà nghiên cứu viết.
Các nghiên cứu gần đây cũng tập trung vào dự báo cho một khu vực cụ thể, sử dụng dữ liệu địa phương nên không đưa ra tiêu chuẩn chung để đánh giá hiệu suất của các dự báo này trên phạm vi toàn cầu, nhóm cho biết.
“Việc phát triển các chiến lược dự báo lũ cấp quốc gia hoặc khu vực phải dựa vào dự đoán dòng chảy từ hàng nghìn lưu vực chưa có thông số vật lý cũng như dữ liệu lịch sử”, theo nhóm nghiên cứu.
Để đạt được điều này, các nhà nghiên cứu đã đề xuất một mô hình AI chỉ sử dụng yếu tố đầu vào cưỡng bức khí tượng (yếu tố khí tượng bên ngoài ảnh hưởng đến hệ thống thủy văn cụ thể), chẳng hạn như lượng mưa và nhiệt độ, cũng như các thuộc tính đất tĩnh.
Đất tĩnh thường đề cập đến các thuộc tính của đất mà không thay đổi theo thời gian, tức là không phụ thuộc vào các yếu tố thời tiết hay điều kiện khí hậu nhất định.
Nhóm nghiên cứu cho biết các thuộc tính tĩnh như đặc điểm của đất “có thể được lấy từ dữ liệu vệ tinh có sẵn trên toàn thế giới”.
Các nhà nghiên cứu đã sử dụng dữ liệu giám sát lịch sử từ năm 2010 đến 2012, gồm hơn 2.000 lưu vực ở Mỹ, Canada, Trung Âu và Anh, để kiểm tra tính chính xác của ED-DLSTM so với một số mô hình khác.
Các khu vực rộng lớn cấp lục địa này có các kiểu luồng không khí, nhiệt độ, độ ẩm đất và lượng mưa khác nhau mà nhóm cho rằng đủ đa dạng để xác minh ED-DLSTM.
Nhóm nghiên cứu viết: “Lần đầu tiên, nhiều mô hình AI thủy văn đã được đào tạo và cung cấp các phân tích so sánh trên quy mô toàn cầu”.
Trong ED-DLSTM, các thuộc tính không gian và đặc điểm khí hậu theo chuỗi thời gian được xử lý riêng biệt, khác với các mô hình sử dụng chỉ số tổng hợp “dẫn đến sai lệch dự đoán và mô phỏng lớn hơn”, Ouyang Chaojun cho biết.
“So với các mô hình khác, ED-DLSTM thể hiện khả năng dự đoán vượt trội”, Ouyang Chaojun tuyên bố.
Dự báo hoạt động tốt nhất ở những lưu vực có lượng mưa lớn hoặc lưu lượng dòng chảy nhiều hơn, với gần 82% các lưu vực này đạt được hệ số hiệu suất Nash-Sutcliffe trung bình "tuyệt vời" vượt qua mức 0.6 (nơi 1 là điểm cao nhất). Hiệu suất Nash-Sutcliffe là chỉ số thường được sử dụng trong thủy văn để đánh giá hiệu suất của các mô hình dự báo lưu lượng dòng chảy mưa.
Nhóm nghiên cứu cũng kiểm tra xem liệu ED-DLSTM có thể áp dụng ở các khu vực chưa được nghiên cứu hay không. Cụ thể là áp dụng ED-DLSTM cho 160 lưu vực chưa được đo đạc ở miền trung Chile. Để thực hiện điều này, họ đã sử dụng các phiên bản của mô hình AI đã được đào tạo trước đó trên dữ liệu từ các khu vực rộng lớn ở cấp lục địa.
Mô hình được đào tạo trước ở Mỹ là hiệu quả nhất, với gần 77% lưu vực đạt hiệu suất Nash-Sutcliffe lớn hơn 0.
Các nhà nghiên cứu cho biết thử nghiệm của họ đã xác minh rằng “ED-DLSTM có thể học các hành vi thủy văn phổ biến trên bộ dữ liệu đào tạo khác nhau”.
“Nghiên cứu này chứng minh tiềm năng của các phương pháp học sâu trong việc khắc phục tình trạng thiếu thông tin thủy văn phổ biến cũng như những thiếu sót trong cấu trúc và tham số hóa mô hình vật lý”, theo nhóm nghiên cứu. Tham số hóa mô hình vật lý là đơn giản hóa các quá trình vật lý phức tạp trong mô hình vật lý để có thể mô phỏng chúng trên máy tính.
Học sâu là một lĩnh vực trong AI tập trung vào việc xây dựng và huấn luyện các mô hình học máy sâu, còn được gọi là mạng nơ-ron sâu. Mục tiêu của học sâu là tự động học các đặc trưng và biểu diễn cấp cao từ dữ liệu, giúp máy tính tự động thực hiện các nhiệm vụ phức tạp mà trước đây đòi hỏi sự can thiệp của con người.
Mô hình học sâu thường được xây dựng bằng cách sử dụng nhiều lớp của các nơ-ron. Nơ-ron là các đơn vị tính toán cơ bản mô phỏng theo cách hoạt động của não người. Những mô hình này có khả năng học các biểu diễn phức tạp của dữ liệu thông qua quá trình huấn luyện trên tập dữ liệu lớn.
Học sâu đã đạt được sự chú ý lớn nhờ vào khả năng giải quyết hiệu quả nhiều vấn đề khác nhau, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, dịch ngôn ngữ, phân tích dự đoán, robot và nhiều ứng dụng khác trong thực tế. Các mô hình nổi tiếng trong học sâu bao gồm Mạng nơ-ron tích chập (CNN) và Mạng nơ-ron hồi quy (RNN).