Bảo tồn ngôn ngữ các dân tộc thiểu số bằng dữ liệu âm thanh

Thanh Yến 01/10/2014 08:37

Dự án Cơ sở dữ liệu Âu Cơ nhằm thu thập và lưu trữ bản thu âm các ngôn ngữ trên lãnh thổ Việt Nam cũng như những nước láng giềng, bao gồm ngôn ngữ đang có nguy cơ tuyệt chủng và ngôn ngữ nghèo dữ liệu.

Ngôn ngữ các dân tộc ở Việt Nam đa dạng và phong phú. Tuy nhiên, trong quá trình phát triển, một số ngôn ngữ dân tộc thiểu số đang có nguy cơ biến mất. Ts Alexis Michaud, Viện Nghiên cứu quốc tế về thông tin đa phương tiện, truyền thông và ứng dụng (MICA) dẫn ra trường hợp cụ thể như người Ơ Đu ở Tương Dương, Nghệ An. Năm 2006, sau khi nhường đất xây dựng công trình thủy điện Bản Vẽ, đồng bào Ơ Đu đã chuyển về sinh sống tại bản Văng Môn, xã Nga My. Hiện nay, người Ơ Đu ở đây gần như đã quên tiếng nói của dân tộc mình mà chủ yếu sử dụng tiếng Thái, tiếng Khơ Mú. Phong tục, tập quán, tín ngưỡng của họ cũng chịu ảnh hưởng theo.

Nhà nghiên cứu ngôn ngữ Alexis Michaud
Nhà nghiên cứu ngôn ngữ Alexis Michaud

Với mong muốn bảo tồn ngôn ngữ của các dân tộc ít người tại Việt Nam, MICA đã tiến hành dự án Âu Cơ, chú trọng khai thác tiềm năng của công nghệ thông tin để bảo tồn bền vững các ngôn ngữ đang bị đe dọa. Cơ sở dữ liệu này sẽ thu thập dữ liệu của các nhà nghiên cứu ngôn ngữ thông qua hoạt động điền dã, khảo sát, ghi âm, ghi chép... qua đó xây dựng và tích lũy dữ liệu tiếng nói của các dân tộc thiểu số. Quá trình chuẩn bị, thu âm và gắn nhãn dữ liệu âm thanh thường tốn nhiều thời gian và công sức. Bên cạnh đó, đa phần nghiên cứu điền dã ở Việt Nam thường không có kế hoạch lưu trữ hay tái sử dụng lâu dài. Với dự án này, cơ sở dữ liệu có thể được sử dụng trong nhiều mục đích nghiên cứu khác nhau: không chỉ phân tích ngữ âm, xử lý tiếng nói tự động mà còn cả trong dạy học ngôn ngữ. Dự án này còn là cơ hội để kết nối các nhóm kỹ sư và nhà nghiên cứu ngôn ngữ học trong bảo tồn, thông qua chia sẻ dữ liệu, công cụ hỗ trợ và phương pháp nghiên cứu.

Việc thu thập các dữ liệu đã được tiến hành tập trung vào ngôn ngữ Mơ Piu (thuộc ngữ hệ Mông - Miền), ngôn ngữ có ít hơn 250 người sử dụng. Từ năm 2009, dữ liệu bổ sung được thu thập qua các chuyến đi thực địa tại làng Nậm Tu Thượng, tỉnh Lào Cai và mời người Mơ Piu tới Hà Nội để ghi âm tiếng nói. Qua đó, ngôn ngữ Mơ Piu dần dần được tài liệu hóa một cách đầy đủ và hoàn chỉnh hơn. Từ nay đến năm 2015, dự án Âu Cơ sẽ tập trung vào các tài liệu nghiên cứu của Gs, Ts Michel Ferlus - học giả người Pháp có rất nhiều năm nghiên cứu về ngôn ngữ các dân tộc thiểu số tại Việt Nam và Đông Nam Á, đặc biệt là tiếng Thái. Theo đó, Gs Ferlus đã cho phép dự án Âu Cơ số hóa khoảng 200 băng ghi âm (gồm 40 thứ tiếng khác nhau), nhiều ghi chép và tài liệu được sưu tầm tại Lào, Việt Nam và một số nước trong khu vực từ những năm 1963 - 2013.

Việc số hóa những tài liệu về tiếng Thái của Gs Michel Ferlus sẽ góp phần lưu giữ tiếng nói và khôi phục những chữ viết cổ từng bị mai một của người Thái ở Việt Nam. Theo Gs Trần Trí Dõi, trong quá trình nghiên cứu thực địa về dân tộc Thái ở Việt Nam, ông và Gs M.Ferlus đã tìm thấy khá nhiều kiểu chữ viết của người Thái: chữ Thái của người Thái đen, Thái trắng ở vùng Tây Bắc; chữ của người Thái Thanh ở Thanh Hóa, Nghệ An; chữ của người Thái ở Quỳ Châu, Nghệ An; đặc biệt là chữ Thái Lai Pao, loại chữ do người Thái Hàng Tổng sống ở vùng Tương Dương, Nghệ An sử dụng rộng rãi vào đầu thế kỷ XIX. Tuy nhiên, từ đầu thế kỷ XX, chữ viết này đã không còn được sử dụng nữa. Gs Ferlus hiện đang lưu giữ những hình ảnh được chụp lại từ bản viết tay dài khoảng 8 trang của chữ viết cổ này. Tuy vậy, không có nhiều người có thể đọc và dịch được loại chữ đó. Năm 2009, ông Lô Văn Thoại (nay đã mất) cùng với các ông Lương Bá Vin, Vi Khăm Mun, Lô Khăm Phi đã cùng thực hiện để tập hợp các con chữ Lai Pao vào cuốn Sách dạy chữ Thái Lai Pao trình bày về chữ cái, về mẫu câu, mẫu tự... được viết theo cách thủ công. Đây là những tài liệu quý để có thể số hóa và khôi phục chữ Thái Lai Pao - một di sản văn hóa phi vật thể của người Thái.

    Nổi bật
        Mới nhất
        Bảo tồn ngôn ngữ các dân tộc thiểu số bằng dữ liệu âm thanh
        • Mặc định
        POWERED BY ONECMS - A PRODUCT OF NEKO