Hiển thị các bài đăng có nhãn Google Translate. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn Google Translate. Hiển thị tất cả bài đăng

Thứ Ba, 27 tháng 4, 2010

Những câu dịch tiếng Việt 'kinh dị' của Google Translate

VnTim™  ^-^  Nếu người học ngoại ngữ vẫn nói đùa "vô tư đi" là "no four go" hay "thích thì chiều" là "like is afternoon" thì công cụ chuyển ngữ của Google cũng đang trêu ngươi người sử dụng bằng kiểu dịch tương tự.

Những câu dịch tiếng Việt kinh dị của Google Translate
Dịch thế này thì... bó tay.
Những câu dịch tiếng Việt kinh dị của Google Translate
Miễn bàn.
Những câu dịch tiếng Việt kinh dị của Google Translate
Google Translate chọn từ rất "đắt".
Những câu dịch tiếng Việt kinh dị của Google Translate
Đời rất... tí.
Những câu dịch tiếng Việt kinh dị của Google Translate
Với Google, ngoại tình là "tư tưởng ngoại".
Những câu dịch tiếng Việt kinh dị của Google Translate
Google không hiểu "tình" là gì?
Những câu dịch tiếng Việt kinh dị của Google Translate
Enjoy the afternoon cũng giống như cách dịch "like is afternoon".
Những câu dịch tiếng Việt kinh dị của Google Translate
Google không dịch từ "ruồi", còn "mật" tương đương với "chính sách".
Những câu dịch tiếng Việt kinh dị của Google Translate
...
Những câu dịch tiếng Việt kinh dị của Google Translate
Tôi too khờ!!!
Những câu dịch tiếng Việt kinh dị của Google Translate
"Bỏ mặc vui buồn, bỏ mặc ai" nghĩa là "cởi quần áo của ai đó".

Thứ Ba, 12 tháng 5, 2009

Bó hand - Google Translate chưa thể vượt qua sự phức tạp của tiếng Việt

Cuối cùng thì người dùng internet Việt Nam đã có thể sử dụng công cụ trực tuyến Google Translate để dịch tự động qua lại giữa tiếng Việt và hơn 30 ngôn ngữ khác nhau

Thử nghiệm ban đầu cho thấy, Google Translate có tốc độ dịch khá nhanh so với các công cụ dịch trực tuyến hiện có. Để có được tốc độ này, Google đã tự phát triển riêng một cỗ máy dịch thuật sử dụng kỹ thuật "dịch máy" (machine translation technology) dựa trên phương pháp tra cứu các cặp từ/văn bản song song kết hợp với tham khảo cơ sở dữ liệu các đoạn văn bản mẫu. Nhờ có một khối lượng dữ liệu khổng lồ cùng với hạ tầng thuộc hàng "khủng" của Google mà Google Translate có thể hoàn tất một cách xuất sắc nhiệm vụ khi chuyển ngữ giữa các ngôn ngữ gần gũi với tiếng Anh.

Tuy nhiên, bình luận trên blog của Google, một cựu lập trình viên của IBM cho rằng kỹ thuật "dịch máy" ngày nay vẫn chưa có gì tốt hơn so với 40 năm về trước. Theo ông, muốn tự động hóa việc chuyển đổi các ngôn ngữ của con người cần phải có một cách tiếp cận khác hơn. Điều này càng thể hiện rõ hơn nếu bạn sử dụng các "máy dịch thuật" này để dịch các văn bản không thuộc la-tinh hoặc các văn bản có cấu trúc khác với tiếng Anh.

Đặc biệt là khi dịch với các ngôn ngữ "phức tạp" về mặt ngữ nghĩa như tiếng Việt thì rất nhiều trường hợp bạn nhận được những kết quả khá "ngây ngô", ngay cả Google cũng không ngoại lệ. Ví dụ một số từ hoặc câu nói thông thường của người Việt được Googe dịch ra như sau:
bó tay --> bó hand
miễn bàn --> free table
thích thì chiều --> enjoy the afternoon (tương tự như like is afternoon)

Một điểm đáng chú ý khác của Google Translate là việc sử dụng tiếng Anh làm ngôn ngữ trung gian trong quá trình dịch thuật. Theo đó, nếu bạn cần dịch 1 đoạn văn bản từ tiếng Pháp, tiếng Trung,... sang tiếng Việt thì trước tiên Google Translate sẽ dịch chúng sang tiếng Anh (tất nhiên là nội dung sẽ bị sai sót một phần) sau đó mới thực hiện dịch lần thứ 2 từ tiếng Anh sang tiếng Việt. Điều này có thể giúp cho Google giảm nhẹ việc đầu tư cho cơ sở dữ liệu các cặp từ/văn bản song song, nhưng chính quy trình "tam sao thất bản" này lại làm cho kết quả càng thêm tệ hại.

Dù sao thì Google Translate cũng là công cụ dịch trực tuyến lớn đầu tiên đã chính thức hỗ trợ tiếng Việt với 2 công cụ hữu ích là dịch các đoạn văn bản trực tiếp hoặc dịch toàn bộ 1 trang web. Điều này phần nào giúp cho cộng đồng sử dụng Internet Việt Nam thuận tiện hơn trong quá trình "lướt net", nhất là khi buộc phải truy cập vào các trang web sử dụng các ngôn ngữ mà mình hoàn toàn "mù tịt".

Rất tiếc là công cụ tra từ điển trực tuyến Google Dictionary hiện tại vẫn chưa hỗ trợ tiếng Việt, bên cạnh đó, việc dịch tiếng Việt vẫn còn khá nhiều lỗi.

Sử dụng Google Translate để phát hiện một ngôn ngữ bất kỳ

Một tiểu xảo nhỏ rất hay của Google Dịch thuật (hay Google Translate) mà ít người sử dụng để ý tới là công cụ tự động Phát hiện ngôn ngữ của nó. Chỉ cần bạn sao chép và dán đoạn văn mình muốn biết ngôn ngữ của chúng vào ô Dịch văn bản hoặc trang web, chọn Phát hiện ngôn ngữ cho tùy chọn từ ngôn ngữ nguồn, sau đó chọn ngôn ngữ cần dịch sang rồi bấm vào nút Dịch, Google sẽ tự động dịch đoạn văn bản sang ngôn ngữ bạn mong muốn cùng tên của ngôn ngữ nguồn của đoạn văn bản mà bạn muốn biết.


Theo Wikipedia, Google Dịch thuật (hay Google Translate) là một dịch vụ dịch thuật trực tuyến được Google cung cấp. Nó dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang một ngôn ngữ khác, có giới hạn một số đoạn, hoặc một số khái niệm kỹ thuật. Người dùng sau khi xem bản dịch có thể hỗ trợ Google cách dịch khác khi thấy máy dịch không được tốt. Hiện tại Google Dịch thuật đã bắt đầu hỗ trợ dịch tiếng Việt.

Chức năng
Tính đến tháng 10 năm 2008, Google Dịch thuật đã hỗ trợ 34 ngôn ngữ. Số cặp ngôn ngữ dịch qua lại lên tới 561 (34*33/2) nhưng rất nhiều trong số chúng không phải là dịch trực tiếp mà thường là dịch tự động hai lần thông qua một ngôn ngữ trung gian, thường là tiếng Anh, nguyên nhân là vì số lượng ngữ liệu song ngữ của chúng chưa đủ lớn. Chẳng hạn dịch tự động từ Anh sang Việt là trực tiếp trong khi đó từ tiếng Hà Lan sang tiếng Việt phải thông qua hai bước là từ tiếng Hà Lan sang tiếng Anh và tiếng Anh sang tiếng Việt.
Có chức năng phát hiện ngôn ngữ, điều này có nghĩa là không cần lựa chọn ngôn ngữ nguồn (ngôn ngữ cần dịch) mà chỉ cần lựa chọn ngôn ngữ đích (ngôn ngữ mà người dùng muốn đọc).

Chức năng hỗ trợ từ phía người dịch, người dùng có thể sửa bản dịch của Google đưa ra nếu muốn, chức năng này có tác dụng gia tăng chất lượng theo thời gian và có hầu hết trong các dịch vụ dịch tự động trực tuyến. Đây là hoạt động tương tác rất quan trọng, là một hình thức huy động trí tuệ của cả cộng đồng.

Google Dịch thuật được tích hợp vào dịch vụ tìm kiếm của Google. Trong tìm kiếm nếu phát hiện trong kết quả tìm kiếm có đường dẫn là một ngoại ngữ, ngay bên cạnh có liên kết trong dấu ngoặc vuông là [dịch trang này] màu xanh.

Tìm kiếm được dịch (Translated Search) là chức năng tìm kiếm bằng tiếng mẹ đẻ trên các trang web bằng tiếng nước ngoài, chẳng hạn muốn tìm về máy tính trên các tư liệu bằng tiếng Pháp nhưng lại không biết nghĩa tương đương của từ này. Khi đó người dùng vẫn có thể tìm kiếm bằng cách gõ cụm từ "máy tính" vào ô "ngôn ngữ của tôi" và chọn ngôn ngữ tiếng Pháp của website mà họ cần tìm kiếm, Google sẽ tự động phiên dịch từ khóa thành ordinateur (nghĩa tiếng Pháp của máy tính) và tìm kiếm trong kho lưu trữ sau đó cho ra kết quả phù hợp với từ khóa đã được dịch đó. Kết quả được chia làm hai cột, cột bên trái là các liên kết đã được dịch ra tiếng Việt, cột bên phải là các liên kết của ngôn ngữ gốc mà trong ví dụ này là tiếng Pháp.

Nếu có một lượng lớn tài liệu song ngữ người dùng có thể trợ giúp cho Google Dịch thuật bằng cách cung cấp các tài liệu song ngữ này, điều này làm tăng chất lượng các bản dịch với điều kiện các tài liệu đó phải có chất lượng cao.

Phương pháp
Google Dịch thuật dựa trên nền tảng gọi là dịch máy theo nguyên tắc thống kê. Người đứng đầu chương trình dịch máy của Google là Franz-Josef Och - từng đoạt giải nhất cuộc thi DARPA (viết tắt của từ Defense Advanced Research Projects Agency, một cơ quan của chính phủ Mỹ có trách nhiệm phát triển công nghệ mới phục vụ cho quân đội) về tốc độ dịch tự động vào năm 2003.

Không giống như các công cụ khác như Babel Fish, AOL và Yahoo sử dụng SYSTRAN, Google Dịch thuật sử dụng phần mềm của riêng họ, chương trình này không đi quá sâu vào các quy luật phức tạp về ngữ pháp mà sử dụng phương pháp được họ gọi là thống kê kiến thức, có nghĩa là chương trình sẽ được nạp vào hàng tỉ văn bản đã được dịch sẵn của con người sau đó thực hiện các thao tác phân tích nhằm tìm ra sự tương đồng với các yêu cầu của người dùng rồi trả về kết quả. Chất lượng dịch được tăng lên theo thời gian khi mà các văn bản ngày càng được nạp vào nhiều hơn với cấu trúc và ngữ cảnh ngày càng đa dạng.
Theo Blog Đầu Cọ