Phần mềm dịch ngôn ngữ hiếm khu vực Đông Nam Á
Dịch máy (Machine Translation) hay còn gọi là dịch tự động là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như: Google Translate của Google, Bing Translator của Microsoft,… với chất lượng dịch rất tốt cho các câu đơn. Các hệ thống dịch máy chất lượng cao nói trên cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình. Tuy nhiên, rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.
Để khắc phục các tồn tại nói trên, nhóm các nhà nghiên cứu tại Viện Công nghệ thông tin (Viện CNTT) đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới. Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt - Indonesia.
Hệ thống được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Mô hình của dịch máy của Viện CNTT đã học được cách thích ứng với tất cả những đặc điểm đặc biệt này của các ngôn ngữ nói trên. Các mô hình dịch máy được huấn luyện trên hệ thống máy chủ Nvidia DGX A100 tại Viện CNTT có cấu hình tiên tiến bậc nhất ở nước ta hiện nay. Hệ thống dịch máy có thể dễ dàng mở rộng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái,… và cả các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga khi cần. Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.
Các tính năng chính của hệ thống dịch đa ngữ của hệ thống bao gồm:
- Sử dụng phần mềm on-premise: Phần mềm được cài đặt và chạy trên hệ thống máy chủ của đơn vị, cho phép đơn vị toàn quyền kiểm soát dữ liệu và ứng dụng.
- Hệ thống sử dụng công nghệ hiện đại 4.0 gồm học máy (Machine learning), công nghệ xử lý ngôn ngữ tự nhiên (Natural Language Processing) hiện đại nhất tính đến thời điểm này để đạt được độ chính xác dịch thuật ở mức cao.
- Hệ thống có khả năng cập nhật dữ liệu, tái huấn luyện mô hình nhằm nâng cao chất lượng dịch thuật, thích ứng với lĩnh vực chuyên môn của đơn vị.
- Hệ thống đảm bảo tuyệt đối an toàn thông tin trong quá trình sử dụng.
- Hệ thống có thể triển khai cả trong mạng nội bộ và trên mạng Internet.
- Hệ thống được khai thác thông qua 02 hình thức, bao gồm hình thức giao diện web để người dùng trực tiếp dịch thuật và hình thức giao tiếp API cho phép các hệ thống khác kết nối thao tác.
- Hệ thống cho phép tự động dịch thuật với nhiều định dạng khác nhau, bao gồm dạng text (.txt), dạng file văn bản được số hóa (.rtf, .doc, .docx, .pdf, .html…): Giữ nguyên khuôn dạng (format) chính của các văn bản sau dịch.
Đại diện nhóm nghiên cứu cho biết, kiến trúc tổng thể hệ thống dịch máy dựa trên công nghệ Transformer hiện đại. Mô hình ở dạng tổng quát sử dụng kiến trúc End-to-End trong đó bộ mã hóa (encoder) được sử dụng để biểu diễn các câu đầu vào (thuộc ngôn ngữ nguồn) thành các vector ngữ nghĩa. Sau đó bộ giải mã (decoder) sẽ đưa ra kết quả dịch từ các vector ngữ nghĩa này thành các câu đầu ra (thuộc ngôn ngữ đích).
Mô hình tổng quát
Hệ thống được xây dựng dựa trên các mô hình đào tạo trước (pre-trained model), sau đó tiến hành các bước tinh chỉnh (fine-tuning) và tối ưu mô hình (optimizing) như thể hiện ở hình vẽ sau.
Các bước chính trong quy trình xây dựng hệ thống dịch máy
Phần tạo lập các bộ dữ liệu song ngữ để tiến hành tinh chỉnh mô hình đóng vai trò quyết định, ảnh hưởng tới độ chính xác của mô hình dịch. Nhóm nghiên cứu đã áp dụng rất nhiều kỹ thuật khác nhau để làm giàu bộ dữ liệu bao gồm kỹ thuật dịch ngược (back-translation), kỹ thuật xoay trục (pivoting) xung quanh một ngôn ngữ phổ biến, kỹ thuật học chuyển giao v.v…
Một kỹ thuật rất tiên tiến khác nữa cũng được áp dụng để cải thiện chất lượng dịch. Cụ thể, mô hình được huấn luyện đồng thời cho nhiều cặp ngôn ngữ. Các ngôn ngữ giàu tài nguyên được huấn luyện trước, sau đó “tri thức” ngôn ngữ sẽ được chuyển giao cho các ngôn ngữ nghèo tài nguyên, giúp cải tiến hiệu suất của mô hình dịch cho các ngôn ngữ này.
Mô hình dịch ngôn ngữ có có thể có kích thước rất lớn (lên tới hàng chục tỷ, trăm tỷ tham số), ảnh hưởng tới tốc độ thực thi của hệ thống trên môi trường có năng lực tính toán hạn chế. Do vậy, nhóm nghiên cứu đã thực hiện việc tối ưu mô hình thông qua một số kỹ thuật như lượng tử hóa trọng số (weights quantization), dung hòa các lớp nút mạng nơ-ron trong mô hình (layers fusion), sắp xếp thứ tự xử lý các thành phần của câu đầu vào (batch reordering),… để tăng tốc độ thực thi và giảm bộ nhớ sử dụng trên CPU và GPU.
Hệ thống dịch máy nói trên là một lựa chọn thay thế rất tốt cho các phần mềm dịch thuật thương mại hiện có trên thế giới trong những trường hợp như: 1) khách hàng muốn có một hệ thống dịch thuật chạy riêng, không phụ thuộc bên thứ ba, đảm bảo an ninh, an toàn, bảo mật dữ liệu; 2) khách hàng muốn mở rộng sang một ngôn ngữ mới, nghèo tài nguyên mà chưa được phần mềm thương mại hỗ trợ hoặc có chất lượng dịch chưa đảm bảo; 3) khách hàng chủ động và linh hoạt trong việc kết nối và tích hợp hệ thống dịch thuật của mình với các hệ thống ứng dụng khác thông qua việc làm chủ hoàn toàn các API dịch thuật.
Nguồn tin: Viện Công nghệ thông tin
Xử lý tin: Minh Tâm