Một trong những khía cạnh đó là vấn đề sở hữu trí tuệ liên quan đến dữ liệu dùng để huấn luyện và phát triển AI. Các vụ kiện giữa các doanh nghiệp ở Mỹ gần đây và phán quyết tương lai của tòa án ở Mỹ là “phép thử” quan trọng để đoán định chiều hướng xử lý trong các tranh chấp, vốn được dự báo sẽ ngày càng nhiều hơn.
Trước hết, cần phải hiểu dữ liệu là tiền đề quan trọng để phát triển công nghệ AI. Hiểu một cách đơn giản, AI được xây dựng trên dựa trên ba thành tố chính: bộ máy tính toán (chip xử lý), kết hợp với dữ liệu và thuật toán. Không có dữ liệu để AI học thì AI không thể thông minh được. Dữ liệu, do đó, là đầu vào để AI ngày càng “khôn” hơn.
Vấn đề đặt ra là doanh nghiệp, đặc biệt là doanh nghiệp công nghệ, lấy dữ liệu ở đâu để huấn luyện AI; và nếu lấy như vậy, kể cả khi dữ liệu sẵn có trên internet, thì dữ liệu đó có thật sự miễn phí không? Các vụ kiện gần đây trong lĩnh vực dữ liệu báo chí, liên quan đến OpenAI - một trong các công ty phát triển AI nổi tiếng nhất hiện nay, vì thế rất đáng được theo dõi.
Ngày 27.12.2023, tờ New York Times (NYT) đã đâm đơn kiện Microsoft và OpenAI - công ty đứng sau ChatGPT - với cáo buộc xâm phạm bản quyền và lạm dụng tài sản sở hữu trí tuệ của tờ báo. NYT cáo buộc Microsoft và OpenAI đã sử dụng dữ liệu từ hàng triệu bài báo của tờ báo này mà không xin phép để huấn luyện cho hai chatbot ChatGPT của OpenAI và Copilot - trợ lý AI của Microsoft. NYT cũng cho rằng việc này gây thiệt hại lên đến hàng tỉ đô la cho NYT. Vụ kiện của NYT được dự báo sẽ châm ngòi cho cuộc chiến pháp lý giữa các cơ quan báo chí và các công ty phát triển AI xung quanh vấn đề bản quyền. Trước đó, tờ Daily Mail cũng đã cân nhắc theo đuổi các hành động pháp lý với OpenAI, trong khi BBC, The Guardian hay CNN đã chặn các chatbot tự động thu thập thông tin (crawl) trang web của mình.
Tuy nhiên, không ít người lo ngại việc đặt các công ty AI trước những rủi ro về bản quyền có thể cản trở sự phát triển của công nghệ này, bởi các mô hình AI chính xác cần được huấn luyện trên những dữ liệu “sạch” và chất lượng như các nội dung báo chí. Vì vậy, nhiều công ty phát triển AI đã chủ động đàm phán thỏa thuận thương mại với các nhà xuất bản tin tức để được cấp phép sử dụng nội dung, như OpenAI đã bắt tay với Associated Press và Axel Springer. Viện Nghiên cứu báo chí Reuters dự báo những thỏa thuận tương tự có thể sẽ xuất hiện nhiều hơn trong năm nay.
Có thể thấy, việc đạt được sự cân bằng giữa bảo vệ quyền sở hữu trí tuệ và phát triển AI vẫn là bài toán đang cần tìm lời giải. Tranh luận từ mỗi phía đều có những mặt hợp lý: dữ liệu do những chủ thể tạo ra không thể là món hàng miễn phí; nhưng nếu chi phí đắt đỏ quá sẽ cản trở tiến trình phát triển công nghệ mới tiềm năng, mà AI chỉ là một ví dụ.
Với Việt Nam, việc theo dõi các chuyển động công nghệ và pháp lý liên quan đến AI là cần thiết bởi nắm bắt và hiểu được những xu hướng như vậy sẽ giúp các bên khác nhau chuẩn bị chu đáo hơn cho con sóng AI đang đến. Với các doanh nghiệp, chủ động xin phép hoặc đàm phán thỏa thuận thương mại để thu thập, sử dụng dữ liệu trong huấn luyện AI với các đối tác, dù trong hay ngoài nước là việc cần quan tâm để tránh rủi ro bị kiện tụng.
Với cơ quan hoạch định chính sách, việc gấp rút thúc đẩy mở dữ liệu công - tức dữ liệu sẵn có của cơ quan nhà nước, và giúp doanh nghiệp Việt Nam tiếp cận với nguồn dữ liệu đó sẽ là sự hỗ trợ quý báu để giảm chi phí tiếp cận dữ liệu trong tiến trình phát triển AI. Trên hết, toàn thế giới đã thực sự bước vào thời đại của AI. Để không bị bỏ lại đằng sau, việc tiếp cận, cả từ góc độ kinh doanh, chính sách và pháp lý - bằng cách theo dõi sát sao và học hỏi từ những xu thế mới nhất của các nước dẫn đầu là điều không thể không làm.