Phạm Hy Hiếu, nghiên cứu sinh tiến sĩ tại Google Brain: Hạnh phúc vì phải ‘vắt giò lên cổ mà chạy’

Đối với Phạm Hy Hiếu, tất cả những thành tích đáng nể trong quá khứ đang đặt nền móng cho một hành trình thú vị hơn rất nhiều: cùng các nhà khoa học trên thế giới “dạy” máy tính hiểu tiếng người.

TIN LIÊN QUAN

CEO Anphabe: Mất việc vì dịch Covid đó, rồi sao? Cất bước lên và đi tiếp thôi
Nguyễn Cảnh Thi, CEO Good to Great: Trăn trở giải pháp công nghệ cho doanh nghiệp nhỏ và vừa

Phạm Hy Hiếu.

Ba lần được Google mời đến làm việc

Trong nhận thức của phần lớn người dùng phổ thông, máy tính là một thiết bị siêu việt vì khả năng tính toán của nó. Tuy nhiên, đối với những người nghiên cứu chuyên sâu, đây là thiết bị ngờ nghệch nhất mà họ từng phải làm việc. Để máy tính xử lý được bất cứ việc gì, nhất thiết phải có bàn tay con người can thiệp.

Năm 2011, Dự án Google Brain do Google phát triển ra đời, với mục tiêu là tạo ra trí tuệ nhân tạo (AI) cho các cỗ máy có thể tự vận hành, giảm bớt sự phụ thuộc của con người. Để đánh giá sự thông minh về AI của một công ty công nghệ nào đó, giới nghiên cứu thường nhìn vào khả năng xử lý ngôn ngữ của máy tính tại công ty đó. Điều này vô tình hình thành một cuộc chạy đua dạy cho máy tính bớt ngờ nghệch của các công ty công nghệ lớn trên thế giới.

Theo Hy Hiếu, sử dụng ngôn ngữ là một trong những khả năng khiến con người khác biệt so với nhiều loài động vật. Các nhà khoa học máy tính cho rằng, hiểu được ngôn ngữ là một trong những thước đo quan trọng cho sự phát triển của trí tuệ nhân tạo của máy tính. Chừng nào máy tính chưa hoàn toàn “hiểu” được ngôn ngữ, thì con người vẫn chưa có trí tuệ nhân tạo.

Google Translate chẳng hạn, dù có thể dịch được nhiều thứ tiếng khác nhau, nhưng chưa bao giờ được cho là “hiểu” được các ngôn ngữ mà nó đã dịch. Tương tự, Siri của iPhone hay Google Assistant trên Android có thể giao tiếp tối thiểu với con người, nhưng cả hai đều không đạt các tiêu chuẩn của việc “hiểu” ngôn ngữ.

Cho đến nay, một định nghĩa rõ ràng của việc “hiểu” được ngôn ngữ ở máy tính vẫn đang gây tranh cãi, vì mỗi công ty có một cách nghiên cứu phát triển khác nhau. “Các nhà khoa học vẫn đang bất đồng rất nhiều về các tiêu chuẩn ‘hiểu’ ngôn ngữ của máy tính. Tuy nhiên, tôi nghĩ họ đồng ý với tôi rằng, chừng nào máy tính chưa ‘hiểu’ được ngôn ngữ thì chưa có trí tuệ nhân tạo hoàn chỉnh”, Hy Hiếu nói.

Câu nói trên đã hé lộ phần nào công việc của Hy Hiếu tại Google Brain. Cùng với các đồng nghiệp, anh đang tìm ra một cách giúp máy tính có thể học nhanh và chứng minh hiệu quả của giải pháp đó với thế giới.

Cũng như cách giải quyết việc học của máy tính, đề tài Hy Hiếu đang theo đuổi có tên gọi phức tạp không kém: Học Bán Giám Sát (có nơi gọi là Học Nửa Giám Sát). Mục đích của đề tài này là tìm ra phương pháp giúp máy tính học một cách hiệu quả mà dùng ít dữ liệu nhất có thể. Hướng tiếp cận là dựa vào những điều máy đã học được để suy ra những điều mà máy chưa học được, rồi tự dạy lại... chính nó.

Một tay nghiện game

Hy Hiếu cũng là một tay nghiện thể loại nhập vai trực tuyến nhiều người chơi (MMORPG). Lineage 2 là một trong những trò chơi MMORPG đầu tiên ở Việt Nam xuất hiện vào những năm 2003-2004 và anh cũng “cày” hết 5 năm, đến cấp 3 phải bỏ vì bận học quá. Sau này vào đại học, rồi làm nghiên cứu sinh, Hy Hiếu vẫn chơi và lần nào cũng bị nghiện. Sợ quá anh phải xếp xó cái máy tính dùng để chơi game, lâu lắm mới dám đụng vào.

“Nếu có thể trở thành một vị giáo sư, tôi sẽ giới thiệu trò chơi này cho học trò và rủ tụi nhỏ cùng chơi”, Hy Hiếu cười nói.

Để dễ hình dung, hãy ví dụ Hy Hiếu và một người bạn gốc Hoa đang sinh sống ở Việt Nam cùng học thêm tiếng Hoa. Ở nhà, người bạn này nói tiếng Hoa phổ thông (Mandarin) với mọi người trong gia đình mình. Bạn này có thể nghe/nói tiếng Hoa khá tốt, nhưng không hề biết các mặt Hán tự.

Tuy nhiên, trong quá trình học tiếng Hoa, Hy Hiếu sẽ thiệt thòi hơn so với người bạn kia, vì anh không hề biết nghe/nói tiếng Hoa. Điều này là do bộ não của con người có thể thu thập Prior Knowledge (tạm dịch là Tiền kiến thức), từ đó giúp chúng liên kết các kiến thức đã biết và chưa biết với nhau để việc học ngôn ngữ dễ dàng hơn.

“Công việc của tôi là phát triển các phương pháp để máy tính cũng có thể sử dụng Prior Knowledge để học một cách nhanh chóng, hiệu quả hơn, giống như các bạn đã biết nghe/nói tiếng Hoa đi học Hán tự”, Hy Hiếu nói.

Đó cũng là lý do khiến Google mời Hy Hiếu về làm việc đến 3 lần. Hãng sở hữu công cụ tìm kiếm lớn nhất thế giới muốn học toàn bộ thông tin từ Internet, nhưng thông tin trên đây lại xuất hiện tràn lan, thiếu hệ thống. Và cách học dựa vào phương pháp Prior Knowledge mà Hy Hiếu đang theo đuổi là một trong các phương pháp tiềm năng để giải quyết bài toán của Google gặp phải.

Hành trình dạy học cho máy tính

Năm lớp 6, Hy Hiếu đoạt huy chương Vàng toán tiểu học quốc tế tổ chức tại Ấn Độ. Ở bậc phổ thông cơ sở và trung học, Hy Hiếu học chuyên toán. Năm học lớp 11, anh giành huy chương Bạc toán quốc tế lần thứ 50 tổ chức tại Đức. Với thành tích này, Hy Hiếu được học bổng du học.

Học Stanford được một năm, anh tham gia đội tuyển tin học, đây cũng là cột mốc của việc chuyển hướng sang nghiên cứu tin học. Năm thứ ba đại học, anh được GS. Christopher Manning, một trong những người đầu ngành lĩnh vực trí tuệ nhân tạo hướng dẫn, nhờ đó đạt được một vài thành tựu nghiên cứu. Thành tích đó đã giúp Hy Hiếu lọt vào mắt xanh Google sau khi tốt nghiệp đại học.

27 tuổi, Phạm Hy Hiếu đã có bề dày thành tích đáng nể trên con đường sự nghiệp: nghiên cứu tiến sĩ Đại học Carnegie Mellon theo chương trình hợp tác giữa đại học này và Google, xuất bản 12 bài báo công bố tại các hội nghị, tạp chí khoa học hàng đầu với hơn 4.000 lượt trích dẫn.

Sở hữu một thành tích đáng nể, nhưng chàng trai sinh năm 1992 cho rằng, mình không có thiên hướng toán như nhiều người nghĩ, chỉ đơn giản là thích toán và sau mỗi lần đi thi được thầy cô khen thì… thích lắm và cố gắng học tiếp. Hy Hiếu cũng cho biết, mình không thuộc hàng quá xuất chúng vì giai đoạn từ lớp 7 đến lớp 9, anh từng thường xuyên tự hỏi: “Sao mình đi học giống các bạn, mà cuối cùng họ làm bài được, còn mình thì không?”.

Ngay cả lúc luyện thi, dù ghi danh học những nơi nổi tiếng trong giới, nhưng anh không tiếp thu được nhiều. Hy Hiếu cho rằng, thành quả có được là do may mắn. May mắn thứ nhất là bố mẹ rất quan tâm đến chuyện học, nên “tầm sư” khắp TP.HCM cho anh. Họ cũng không tạo áp lực, mà cho phép Hy Hiếu thử, sai và rút kinh nghiệm.

May mắn thứ hai, cũng quan trọng nhất là, trong quá trình học cấp 3, Hy Hiếu gặp được nhiều thầy cô và các anh chị khóa trước vừa giỏi, vừa tâm huyết, lại có phong cách dạy hợp “gu”, nên tiếp thu rất nhanh.

Khi được hỏi về mối liên hệ giữa toán và ngôn ngữ, Hy Hiếu nói, máy tính học ngôn ngữ bằng cách… đếm. Lấy ví dụ đơn giản khi một người đã biết tiếng Việt, chưa biết tiếng Pháp và muốn học tiếng Pháp. Người này đọc một cuốn sách song ngữ Pháp - Việt và nhìn thấy những câu sau đây: Tôi là học sinh - Je suis étudiant; Tôi là giáo viên - Je suis professeur; Tôi gặp bạn của tôi - Je rencontre mon ami.

Nếu chỉ nhìn và phân tích các câu này, thì không cần có ai dạy, anh ta vẫn có thể "học" được một số từ tiếng Pháp dựa trên việc đếm tần suất xuất hiện của các ký tự. Từ "Tôi" là từ duy nhất xuất hiện ở cả 3 câu tiếng Việt, trong khi đó từ "Je" là từ duy nhất xuất hiện ở cả 3 câu tiếng Pháp. Như vậy, nhiều khả năng "Je" nghĩa là "Tôi". Từ "là" xuất hiện ở 2 câu tiếng Việt đầu tiên, nhưng không ở câu thứ ba. Chỉ có từ "suis" là như vậy ở các câu tiếng Pháp. Vậy nhiều khả năng, "suis" nghĩa là "là".

“Khi máy tính ‘học’ ngôn ngữ, như Google Translate ‘học’ cách để dịch, bản chất cũng chỉ là thực hiện các phân tích như thế thôi. Tất nhiên, máy tính ‘đếm’ bằng cách phức tạp hơn và học trên hàng triệu câu, nhờ đó rút ra được những quy luật phức tạp hơn rất nhiều”, Hy Hiếu nói.

Giờ đây, công việc hằng ngày của Hy Hiếu với nhóm của anh, Brain AutoML là thảo luận cùng sếp người Việt Nam, xác lập thí nghiệm, rồi sử dụng chúng để thử nghiệm các giả thuyết mới. Việc thí nghiệm được thực hiện từ ngày này qua ngày khác và hầu hết các ngày đều… không tìm được gì.

Khi có phát hiện mới thì sẽ tập trung vào các phát hiện đó, nếu phát hiện đó phát triển tốt thì chúng sẽ được dùng làm tư liệu khoa học để báo cáo tại các hội nghị. Nghe thì có vẻ đơn giản nhưng áp lực làm việc trong nhóm theo Hy Hiếu là rất lớn, vì lọt vào đội này toàn các cá nhân xuất chúng đến từ Ấn Độ, Trung Quốc, Hàn Quốc, Brazil...

Tiêu chuẩn của nhóm cũng rất cao. Để đáp ứng các tiêu chuẩn này, lúc nào anh cũng ở trong tư thế phải “vắt giò lên cổ mà chạy”, nhưng khá thú vị. Thay vì áp lực, Hy Hiếu cảm thấy rất hạnh phúc vì có thể học tập được nhiều điều hay từ đồng nghiệp.

Đạo đức trong khoa học máy tính

Năm 4 ở đại học, tôi phải học lớp “Đạo đức trong khoa học máy tính”. Giữa kỳ, có một bài tiểu luận về tình huống tương đối nổi tiếng như sau: Bạn lập trình một cái xe tự lái. Chiếc xe đối mặt với một tình huống nguy hiểm: nếu bẻ lái sang trái sẽ tông vào một người cựu chiến binh từng đóng góp rất nhiều cho đất nước, nếu bẻ lái sang phải sẽ tông vào một nhóm trẻ em đang đi qua đường. Bạn sẽ làm gì?

Hồi đó, tôi nhớ là khi thảo luận, dù ai nói làm gì cũng bị vị giáo sư khó tính của lớp vặn vẹo. Sau đó, khi đã vào làm ở Google, có một lần, tôi gặp một người lãnh đạo của Waymo (công ty con của Alphabet, chuyên phát triển xe tự lái bằng AI) và hỏi lại bà câu hỏi “hóc búa” năm xưa.

Bà nói rằng, các câu hỏi như trên là vô nghĩa đối với những người như tôi và bà. Nhiệm vụ của chúng tôi là cố gắng phát triển các thuật toán cho tốt, để chiếc xe tự lái đừng rơi vào tình huống trên, còn nếu có lỡ rơi vào tình huống tệ hại như vậy, thì đó là phạm trù của các nhà làm luật.