Dịch tự động – Wikipedia tiếng Việt

Dịch tự động hay còn gọi là dịch máy (tiếng Anh: machine translation) là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhập nhằng hiệu quả. Nói về tính nhập nhằng, đây là khái niệm chỉ tính không rõ ràng của ngôn ngữ, chẳng hạn khi viết từ đường kính thì vẫn chưa rõ là nó chỉ một loại “chất ngọt dùng để pha làm đồ uống” hay là “đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu“. Nhập nhằng như ví dụ vừa rồi là do hiện tượng đồng âm (hoặc đồng tự) gây ra, một số kiểu nhập nhằng khác như nhập nhằng từ loại, nhập nhằng từ đa nghĩa. Khi dịch tự động từ tiếng Việt sang tiếng Anh, khó khăn đầu tiên lại là việc xác định ranh giới từ, không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ đã mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng trắng, tiếng Việt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ xuất hiện kiểu dịch từng từ rồi ghép lại với nhau ví dụ như từ “miễn bàn” có thể bị dịch thành free table. Với tiếng Anh do là ngôn ngữ biến hình nên việc xác định từ loại dễ hơn, ngoài ra nó cũng ít từ đồng tự (hai từ có ký tự hoàn toàn giống nhau nhưng mang nghĩa khác nhau), còn về từ đa nghĩa tiếng Anh cũng như tiếng Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xác định nghĩa chính xác phải phải thực hiện phân tích văn cảnh.

Sau khi xác định nghĩa tương thích của từ, việc làm tiếp theo là sắp xếp để tạo thành câu hoàn hảo. Nếu hai ngôn từ có cấu trúc càng khác nhau bao nhiêu việc làm này càng phức tạp bấy nhiêu, với những ngôn từ gần nhau như tiếng Anh và tiếng Pháp việc làm tương đối đơn thuần, nhưng giữa tiếng Pháp và tiếng Trung thì rất khó khăn vất vả. Để sắp xếp người ta đưa vào những cấu trúc ngữ pháp rất là phức tạp, vận dụng nhiều kỹ năng và kiến thức toán học nhưng thực tiễn cho thấy hiệu suất cao của chúng vẫn không được tốt .Một cách tiếp cận khác trong nghành nghề dịch vụ này là dựa vào tư liệu đã dịch sẵn của con người, nổi bật là Google Translate, nó nạp hàng triệu trang tư liệu sau đó triển khai những thao tác mà nó gọi là thống kê kỹ năng và kiến thức để nghiên cứu và phân tích cho những lần dịch tự động hóa sau này, kiểu dịch rất gần với thao tác tìm kiếm – nghành nghề dịch vụ đặc biệt quan trọng mạnh của Google .

Lịch sử của dịch tự động hóa

Quốc tế

Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết học Leibniz và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối liên hệ giữa nhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở mức lý thuyết mà không có một ứng dụng thực tế nào.

Sáng chế đầu tiên cho một “chương trình dịch tự động” được thực hiện vào khoảng giữa thập niên 1930. Vào thời điểm này Georges Artsruni đã tạo ra một bộ từ điển song ngữ với chức năng tra từ tự động bằng các băng giấy, tiếp theo một người Nga là Pyotr Troyanskii tiếp tục phát triển với nhiều chi tiết hơn. Nó không chỉ có một bộ từ điển song ngữ mà còn bao gồm các quy tắc ngữ pháp cơ bản dựa trên quốc tế ngữ (Esperanto).

Lịch sử của dịch tự động hóa được chính thức ghi nhận từ thập niên 1950 mặc dầu như trên trình diễn trước đó một số ít việc làm ở dạng manh nha đã được triển khai. Vào năm 1954, thực nghiệm Georgetown-IBM đã thực thi thành công xuất sắc thí nghiệm dịch tự động hóa trọn vẹn hơn 60 câu tiếng Nga sang tiếng Anh. Thành công trong bước đầu này đã tạo điều kiện kèm theo để lập ra những quỹ góp vốn đầu tư có giá trị cho những điều tra và nghiên cứu. Các tác giả ( tại thời gian đó ) công bố rằng chỉ trong vòng từ 3 đến 5 năm nữa yếu tố dịch máy sẽ được xử lý [ 1 ] .

Nhưng thực tế kết quả chậm hơn nhiều, báo cáo ALPAC vào năm 1966 cho thấy sau hơn 10 năm nghiên cứu lĩnh vực này vẫn không có những tiến bộ đáng kể và hệ quả là số tiền chi cho nghiên cứu giảm mạnh. Vào cuối thập niên 1980, khi máy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầu quan tâm hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn mà trước đó không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế.

Lĩnh vực dịch tự động hóa trong vài năm qua đã có những đổi khác lớn, có rất nhiều nghiên cứu và điều tra dựa trên những nền tảng thống kê và ví dụ mẫu. Hiện nay có 1 số ít công ty kiến thiết xây dựng chương trình dựa trên thống kê như Language Weaver ( chuyên phân phối những loại sản phẩm và dịch vụ thương mại tương quan đến dịch thuật ), Google và Microsoft cũng có những mẫu sản phẩm tương tự do chính họ giữ bản quyền. Một hướng tiếp cận mới là phối hợp ( lai ghép ) những giải pháp với nhau, như những điều tra và nghiên cứu phối hợp giữa những nguyên tắc cú pháp và hình thái học vào trong những mạng lưới hệ thống thống kê .

Tiếng Việt

Những năm thập niên 1960 vấn đề dịch tự động cho tiếng Việt đã bắt đầu được nghiên cứu, hầu hết đều do các nguyên nhân chính trị và quân sự. Các tài liệu nước ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ, Bernard E. Scott thành lập công ty Logos vào năm 1969 với mục đích tiếp tục nghiên cứu việc tổ chức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt. Scott bắt đầu chuẩn bị cho việc tổ chức hệ thống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệ máy tính tại New York, Mỹ. Vào khoảng tháng 6 năm 1970 hệ thống dịch tự động có tên Logos I ra đời với từ điển tự động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt, tác giả của hệ thống này là Byrne, Charles E.; Scott, Bernard E.; Binh, Truong N [2]. Nhưng hệ thống này không tồn tại được lâu, việc nghiên cứu của Scott chấm dứt vào năm 1973. Cũng trong khoảng thời gian này, một dự án khác về xây dựng hệ thống dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên 1970 tại Tập đoàn viễn thông Xyzyx, California. Hệ thống này đầu tiên được xây dựng để dịch văn bản Anh – Pháp về vũ trụ học trên máy IBM 360 theo nguyên tắc hoạt động tương tự như của hệ thống Logos. Tuy nhiên, hệ dịch máy Anh-Việt được sử dụng rộng rãi tại Việt nam đầu tiên là EVTRAN – 1997. Và sau đó EVTRAN 2.0, 1999 với hơn 200.000 từ và cụm từ. Từ năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) biên dịch văn bản hai chiều Anh-Việt và Việt-Anh (với hơn 500.000 mục từ vựng).

Các cách tiếp cận

Một số dịch vụ dịch tự động hóa

Đa ngôn ngữ

  • Babel Fish: Một trong các tiện ích dịch tự động đầu tiên trên ứng dụng web, được công cụ tìm kiếm Alta Vista phát triển và đưa lên mạng vào năm 1997, sau đó Yahoo một công cụ tìm kiếm khác mua lại vào năm 2004. Hỗ trợ 38 cặp ngôn ngữ, trong đó tiếng Anh, tiếng Pháp và tiếng Trung Quốc (cả giản thể và phồn thể) được hỗ trợ nhiều nhất; tiếp đến là các tiếng Đức, Tây Ban Nha, Ý, Bồ Đào Nha, Nga, Triều Tiên, Nhật, Hy Lạp và Hà Lan. Liên kết: babelfish.yahoo.com
  • Google Translate: Dịch vụ này tính đến thời điểm tháng 2 năm 2010 đã hỗ trợ 52 ngôn ngữ trong đó có tiếng Việt, hiện là dịch vụ trực tuyến duy nhất hỗ trợ khả năng dịch toàn trang web cho tiếng Việt, không giống Yahoo, do sử dụng kiểu dịch trung gian nên cặp ngôn ngữ có khả năng dịch qua lại với nhau lên tới con số 1326 (52*51/2), tuy nhiên rất nhiều cặp chất lượng dịch thấp, vì thực tế đó là kiểu dịch tự động 2 lần qua một ngôn ngữ trung gian nào đó (thường là tiếng Anh), với tính năng này có thể dịch một câu tiếng Việt sang 51 ngôn ngữ còn lại. Có tính năng tương tác với người dùng nhằm tăng chất lượng dịch cho các lần sau, không hỗ trợ dịch chuyên ngành. Tốc độ dịch của Google là rất tốt so với các dịch vụ trực tuyến tương tự khác dành cho người Việt, khi sử dụng người dùng sẽ dễ dàng nhận thấy. Tốc độ, đơn giản dù sao vẫn là những đặc điểm vốn có từ lâu của người khổng lồ Internet này. Liên kết: translate.google.com.vn

Tiếng Việt

  • Lạc Việt (công ty từng phát triển và đưa ra bộ từ điển Lạc Việt): chỉ hỗ trợ dịch từ Anh sang Việt có thêm phần dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ dịch tốt hơn bởi người dùng. Liên kết: tratu.coviet.vn/hoc-tieng-anh/dich-van-ban.html
  • Vdict: Dịch vụ trực tuyến đầu tiên dịch tự động Anh-Việt, mua lại bản quyền phần mềm EVTRAN của Softex (Phòng Công nghệ Phần Mềm – Viện Ứng dụng công nghệ – Bộ Khoa học và Công nghệ Việt Nam) phát triển, sau đó từ bỏ phần mềm này (trong một thời gian ngắn) để sử dụng công nghệ của Google Translate. Tuy nhiên, vì trong nhiều trường hợp EVTRAN dịch tốt hơn Google Translate nên Vdict đã sử dụng lại EVTRAN đồng thời với Google Translate: hiện nay khi dịch Anh<->Việt, vdict cho ra cả hai kết quả. Không hỗ trợ dịch chuyên ngành cũng như trợ giúp từ phía người dùng. Liên kết: vdict.com/?autotranslation#translation
  • Baamboo: Dịch dưới 500 từ được hỗ trợ bởi Google.
  • EVTRAN: Phần mềm dịch tự động Anh-Việt, Việt-Anh đầu tiên do người Việt làm ra.
  • VIKI Translator: Phần mềm dịch tự động Anh-Việt, Việt-Anh và từ điển, xây dựng từ năm 2017. Liên kết: vikitranslator.com

Hạn chế

Do chất lượng chưa thật tốt nên hầu hết những loại sản phẩm dịch tự động hóa đều chỉ mang tính tìm hiểu thêm, những bản dịch chỉ cho biết đại ý và nó trọn vẹn hoàn toàn có thể dịch sai một phần hoặc hàng loạt nội dung cốt lõi của văn bản. Trong quy trình dịch thuật nếu lạm dụng dịch tự động hóa sẽ làm tác động ảnh hưởng nghiêm trọng đến văn phong, chính do người dịch giữ nguyên cách hành văn của bản dịch nhưng cách hành văn này thường không đúng chuẩn, máy móc và thiếu ” chất người “. So sánh giữa những thể loại văn bản khác nhau cho thấy dịch tự động hóa dịch tài liệu chuyên ngành có chất lượng tốt nhất, nguyên do là vì những tài liệu này từ vựng có nghĩa rõ ràng ( đơn nghĩa ), cấu trúc ngữ pháp mạch lạc, đơn thuần, ngược lại thể loại văn học là khó dịch nhất vì từ thường đa nghĩa, nhiều khẩu ngữ, cấu trúc ngữ pháp phức tạp, hay sử dụng nghĩa bóng .

Dịch chuyên ngành và dịch chung

Một số chương trình dịch máy được cho phép lựa chọn dịch chuyên ngành và dịch chung. Với một văn bản chuyên ngành, từ vựng thường có hai nghĩa, nghĩa thứ nhất là nghĩa chuyên ngành và nghĩa thứ hai là nghĩa vẫn hay được sử dụng, việc người dùng lựa chọn thể loại của văn bản giúp mạng lưới hệ thống giảm bớt gánh nặng giải quyết và xử lý những hiện tượng kỳ lạ nhập nhằng, tác dụng là vận tốc cũng như chất lượng được ngày càng tăng. Tuy nhiên khi sử dụng tính năng này cần thận trọng, đặc biệt quan trọng trong những văn bản có đặc thù liên ngành, ví dụ như khi dịch một tài liệu về giải quyết và xử lý ngôn từ tự nhiên và xếp nó vào chuyên ngành tin học chưa chắc đã cho tác dụng dịch tốt hơn, nguyên do là vì giải quyết và xử lý ngôn từ tự nhiên còn là sự phối hợp giữa những ngành ngôn từ, toán học chứ không đơn thuần là thuần túy tin học. Một chương trình dịch tự động hóa chất lượng cao sẽ tự động hóa nhận diện thể loại mà không cần sự trợ giúp từ con người .

Đánh giá loại sản phẩm

Khi các dịch vụ dịch tự động gia tăng lên tới hàng chục (như các dịch vụ dịch tự động từ tiếng Anh sang tiếng Pháp) thì một yêu cầu được đưa ra là cần phải lựa chọn dịch vụ nào tốt nhất. Việc đánh giá chất lượng của một sản phẩm không thể căn cứ trên vài thí nghiệm đơn giản, do vậy các chuyên gia đã thiết kế hẳn một chương trình đánh giá chuyên nghiệp một cách hoàn toàn tự động. Phương pháp của họ là sử dụng một số lượng lớn các tài liệu dịch bởi con người và đã được thẩm định đạt chất lượng, sau đó so sánh các bản dịch này với bản dịch của máy, tỉ lệ so khớp cho kết quả phù hợp càng cao thì sản phẩm đó càng tốt. Hai phương pháp thường sử dụng để đánh giá đó là BLEU (BiLingual Evaluation Understudy) và NIST (National Institute of Standards and Technology) [3].

Xem thêm

Chú thích

Tham khảo

Liên kết ngoài

Leave a Reply