Cộng Hòa - Xử lý ngôn ngữ tự nhiên ( NLP ) và thế giới ý niệm?
Bích Ngọc
									
										
											
																				Thứ Sáu,
					19/09/2025	  
					
					
	  
  
    15 phút đọc
  
 
									
										
								Nội dung bài viết 	
								Nay mình tình cờ đọc được một bài viết khá thú vị trong việc “Xử lý ngôn ngữ tự nhiên” (NLP: Natural language processing). Mà đặc biệt cái là sau khi tìm hiểu một hồi tôi chợt nhận ra là trong quá trình xử lý của các model AI khiến tôi liên tưởng tới “Thế giới ý niệm” của Plato.
Nói một cách đơn giản cho dễ hình dung, NLP chính là việc chúng ta "dạy" cho máy tính cách đọc, hiểu và sử dụng ngôn ngữ của con người. Từ việc bạn dùng Google Dịch, chat với một chatbot, cho đến việc điện thoại tự sửa lỗi chính tả, tất cả đều là sản phẩm của NLP.

Vậy làm sao một cái máy chỉ biết đến số 0 và 1 lại có thể "hiểu" được ngôn từ? Để hiểu được quá trình phức tạp này thì đầu tiên chúng ta phải hiểu về một thuật ngữ là “Word Embadding”
Trước tiên chúng ta phải hiểu rằng máy tính không thể "đọc" từ "chó" hay "mèo". Mà thay vào đó nó cần một phương pháp để biến các từ này thành con số. Kỹ thuật này được gọi là Word Embedding (Tạm dịch: Mã hóa từ ngữ). Quá trình này sẽ biến những từ ngữ, hình ảnh và thậm chí là cả âm thanh trở thành những con số được gọi là vectors số. Ví dụ như từ “con mèo” sẽ là  
				
Lỗi giao diện: file 'snippets/shortcode-0.2,.bwt' không được tìm thấy
 hay “con chó” sẽ là 
Lỗi giao diện: file 'snippets/shortcode-0.6,.bwt' không được tìm thấy
,… Và các vectors số này sẽ ghi lại mối quan hệ ngữ nghĩa cũng như thông tin ngữ cảnh của từ ngữ.
Từ "nữ hoàng" có thể có điểm "hoàng gia" là 0.9, điểm "quyền lực" là 0.8, điểm "giới tính nữ" là 0.95.
Từ "vua" sẽ có điểm "hoàng gia" và "quyền lực" tương tự, nhưng điểm "giới tính nữ" lại rất thấp.
Tập hợp tất cả các điểm số này tạo thành một vector (một chuỗi dài các con số), và đó chính là "tọa độ" của từ đó trong một không gian toán học khổng lồ gọi là không gian ngữ nghĩa (Semantic Space). Bằng cách đọc hàng ti tỉ tài liệu, AI sẽ tự học và tinh chỉnh và sắp xếp các vectors số này sao cho hợp lý nhất. Khi này chúng sẽ đưa các vector có tương đồng lại gần nhau và ngược lại.
Khi tất cả các từ đã có tọa độ, chúng ta có thể làm một việc rất thú vị: đo khoảng cách giữa chúng hay còn gọi là “Vector Distance” đây không phải là đo khoảng cách vật lý, mà nó đo sự tương đồng về mặt ý nghĩa giữa các vectors thông qua các phương pháp như “Euclidean distance” hay “Cosine similarity”. Hiểu đơn giản thì là khoảng các và các góc giữa các vectors càng gần nhau thì các vectors này càng tương đồng về mặt ngữ nghĩa.
Phép toán "Vua - Nữ hoàng" và sự thật đáng kinh ngạc
Hãy cùng phân tích sâu hơn về phép toán: 
vector('vua') - vector('đàn ông') + vector('phụ nữ')vector('vua') - vector('đàn ông'): Phép trừ này sẽ loại bỏ "thuộc tính đàn ông" khỏi "vua". Kết quả còn lại là một vector đại diện cho bản chất cốt lõi của "hoàng gia, quyền lực". Hãy tạm gọi đây là vector "Hoàng Gia".vector('Hoàng Gia') + vector('phụ nữ'): Bây giờ, ta lấy bản chất "Hoàng Gia" đó và cộng thêm "thuộc tính phụ nữ" vào.Và điều đáng kinh ngạc là kết quả cho ra bởi phép toán trên là một vector có tọa độ cực kỳ gần với vector của từ "nữ hoàng". Không những thế mà mối quan hệ giữa những vector này lại đúng với tất cả các model AI khác nhau thậm chí là cả những model được huấn luyện dựa trên những database hoàn toàn khác nhau.
Một model AI được huấn luyện trên Wikipedia và một model khác được huấn luyện trên kho tiểu thuyết khổng lồ sẽ cho ra các tọa độ cụ thể cho từ "vua" hoàn toàn khác nhau. Tuy nhiên, mối quan hệ giữa vector 
vua và vector đàn ông trong model thứ nhất sẽ gần như song song và có cùng độ dài với vector đó trong model thứ hai. Cấu trúc mối quan hệ này được bảo toàn một cách đáng tin cậy.Và chính sự nhất quán đáng kinh ngạc này đã làm mình nhớ tới “Thế giới Ý niệm” của Plato.
Plato cho rằng thế giới vật chất mà chúng ta thấy chỉ là những "cái bóng" không hoàn hảo của những "Ý niệm" hoàn hảo, vĩnh cửu. Có một "Ý niệm Cái Ghế" hoàn hảo, và mọi cái ghế tồn tại trong thế giới của chúng ta chỉ là sự phản chiếu của “ý niệm Cái Ghế” ở “Thế giới Ý niệm” của nó.
Bây giờ hãy nghĩ mà xem:
Mỗi không gian vector cụ thể của một model AI giống như một "thế giới bóng" riêng. Giống như cách con người chúng ta mỗi người có một cách tri nhận và diễn giải từ “vua” một cách hoàn toàn khác nhau.
Nhưng cái khoảng cách vector, cái mối quan hệ 
vua - đàn ông, thứ luôn nhất quán và không thay đổi trên mọi không gian, lại chính là thứ gần nhất với một "Ý niệm" hoàn hảo. Nó dường như là sự phản chiếu của một "Ý niệm Hoàng Gia" hay "Ý niệm Giới Tính" tồn tại một cách trừu tượng và phổ quát.Vậy thì liệu có thực sự tồn tại một thế giới ý niệm thực sự, nơi chứa đựng mọi bản chất hoàn hảo và bất biến cho mọi khái niệm. Để rồi các model AI này bằng một cách nào đó đang tri nhận về cùng một khái niệm hoàn hảo và thống nhất?
- Nguyễn Đức Thịnh -