Tài nguyên dữ liệu còn quý hơn dầu mỏ
Cho dù có quan tâm hay chưa đến trí tuệ nhân tạo (AI), doanh nghiệp đều hiểu trước sau gì họ cũng phải tham gia vào quá trình chuyển đổi số, tức giải quyết các bài toán truyền thống bằng các ứng dụng liên quan đến công nghệ thông tin.
Chẳng hạn nếu trước đây phải tổ chức thăm dò, phỏng vấn một số mẫu dân cư để xác định phân khúc khách hàng mà sản phẩm của doanh nghiệp cần nhắm đến thì nay đã có thể dựa vào nhiều nguồn dữ liệu số, kể cả tương tác trên mạng xã hội để phân tích và xác định.
Thế nhưng, yếu tố quan trọng đầu tiên của bất kỳ quá trình chuyển đổi số nào đều là dữ liệu; không có dữ liệu, không thể tiến hành phân tích, xử lý và đưa ra quyết định. Trong khi đó, thu thập, quản lý và bảo trì dữ liệu đang là khâu yếu của không chỉ doanh nghiệp mà còn của các tổ chức và cơ quan nhà nước.
Lấy ví dụ ở mức đơn giản nhất, hệ thống lưu trữ văn bản của trang web Chính phủ hiện đã đầy đủ, cập nhật nhanh chóng nhưng các dữ liệu văn bản này chỉ được lưu ở dạng PDF, một định dạng tiện cho việc đọc, in ấn nhưng không thuận lợi cho việc tìm kiếm thông tin, phân tích sâu hay sắp xếp thông tin.
Tìm một nghị định bằng số hiệu hay tiêu đề thì dễ, có thể tìm ra ngay nhưng giả thử tìm hết tất cả các nghị định đề cập đến chuyện xử phạt vi phạm hành chính, sắp xếp thành loại còn hiệu lực, loại đã được thay thế... là chuyện khó trong điều kiện hiện nay. Các hiệp định thương mại tự do đã ký thì dễ tìm trên mạng nhưng một nhà xuất khẩu muốn biết cụ thể mặt hàng X xuất vào nước Y được hưởng thuế suất ưu đãi Z nào thì rất khó tìm.
Với doanh nghiệp, thói quen lưu trữ dữ liệu chưa có nhu cầu sử dụng, phân tích để dành cho mai sau phục vụ cho quá trình chuyển đổi số là chưa phổ biến. Các định dạng báo cáo thiếu thống nhất, rất khó cho việc chuẩn hóa thông tin sau này. Trong khi đó, nhiều nơi làm dịch vụ phân tích dữ liệu phải thuê người gõ lại thông tin, rất mất thời gian và công sức.
Cứ thử vào các trang web cung cấp thông tin về các doanh nghiệp niêm yết trên sàn chứng khoán, là nơi đi đầu trong việc cung cấp dữ liệu cho thị trường, chúng ta vẫn thấy sự thiếu nhất quán trong quản lý dữ liệu, có thể gây khó khăn cho việc khai thác dữ liệu như thế nào.
Để phát triển AI, một trong những kỹ thuật được sử dụng là “học máy”, tức dạy cho máy học các dữ liệu để từ hàng triệu dữ liệu đầu vào máy sẽ tự tìm ra quy luật phân tích chúng theo yêu cầu của con người đặt ra. Nhưng để có dữ liệu cho máy học, Trung Quốc đang tổ chức các “trại” nhập dữ liệu, trong đó lao động giá rẻ sẽ được tận dụng chỉ để dán nhãn cho hình ảnh, ví dụ đây là con mèo, đây là bánh mì, đây là đèn giao thông, chocolate, sữa...
Công nghệ tạo dữ liệu một cách thủ công như thế đang giúp Trung Quốc được mệnh danh là một Trung Đông không phải trong dầu lửa mà là trong dữ liệu.
Dữ liệu đúng là tài nguyên của thiên niên kỷ hiện nay và biết quý trọng tài nguyên dữ liệu để lưu giữ, quản lý chúng là bước đầu để khai thác loại tài nguyên đặc biệt này trên con đường chuyển đổi số cho nền kinh tế.
Thời báo Kinh tế Sài Gòn