Trí tuệ nhân tạo (AI) đã xuất hiện ở mọi ngóc ngách trong cuộc sống ngày nay, từ phân tích việc tiêu dùng online để dự đoán hành vi khách hàng tới xem xét một cách kỹ lưỡng sở thích nghe nhạc, xem phim để dự đoán những sản phẩm khách hàng có thể thích. Tất cả những gợi ý xuất hiện đều dựa trên sự kiểm định kỹ lưỡng của các thuật toán AI qua những gì người dùng xem, nghe và đánh giá trên mạng.
Bạn thấy đấy, AI ở quanh chúng ta!
Vậy AI là gì?
Trí trí tuệ nhân tạo (AI) là một mảng trong lĩnh vực khoa học máy tính nhằm mục đích tạo ra các sản phẩm thông minh để thay thế hoặc tăng cường các khả năng nhất định của bộ não con người, ví du như đọc hiểu hay dự đoán. ML (Machine learning ) và NLP (Natural Language Processing) là cốt lõi của AI. Các chương trình này dùng để xây dựng mô hình toán học dưa trên những dữ liệu mẫu thường được gọi là mẫu đào tạo (training samples) để hoàn thành các nhiệm vụ phức tạp như dự đoán, phân loại, lọc, phát hiện,…
Mạng lưới thần kinh nhân tạo (ANN hoặc NN) thuộc họ thuật toán ML lấy cảm hứng từ mạng thần kinh sinh học. NN thường được hình thành từ các lớp tập hợp những nhóm gồm các đơn vị được kết nối với nhau gọi là nơ-ron. Cách làm việc của các đơn vị này giống với nơ-ron của con người, chúng nhận thông tin đầu vào và tạo thông tin đầu ra thông qua tính năng kích hoạt như hyperbol hoặc softmax. Những kết nối của các nơ-ron được điều chỉnh ở một mức nhất định. Có rất nhiều các biến thể khác nhau của NN như Mạng thần kinh chuyển đổi (CNN), Mạng thần kinh tái phát (RNN), bộ tự động,…
AI đã được nghiên cứu trong nhiều năm trước những nó chỉ mới thành công trong giới học thuật và công nghiệp. Tuy nhiên ngày nay nó không còn chỉ dành riêng cho một tầng lớp đặc biệt nào nữa mà trở nên dễ tiếp cận với cả cộng đồng. Nhiều trường đã đưa nó vào chương trình dạy học của mình. Như vậy, sớm sẽ có một thế hệ làm việc bằng AI mà không nhất thiết phải giỏi về toán học nữa.
AI đã trở thành chủ đề thu hút đến nỗi nó khiến 8000 vé tại hội nghị Hệ thống xử lý thông tin thần kinh (NeurIPS) bị bán hết trong 11 phút, nhanh hơn cả lễ hội Burning Man nhưng vẫn chậm hơn show của Beyoncé một chút :))) Đây là hội nghị chuyên về ML, AI và khoa học thần kinh máy được tổ chức gần đây nhất.
R&D và AI trong MyScript
MyScript được thành lập năm 1998 với sứ mệnh xây dựng hệ thống nhận dạng chữ viết tiên tiến nhất. Ấn phẩm đầu tiên được ra đời vào đầu những năm 2000 và ML là cốt lõi của hệ thống này. Cả tài liệu in và viết tay đều được sử dụng cho mạng lưới nơ-ron phân tích và phân loại các chủ thể. Họ đã sử dụng một hệ thống tiếp cận dựa trên chương trình đào tạo phân loại toàn cầu để ước tính tốc độ truyền qua NN. Ngày nay nó là một kỹ thuật thường được sử dụng trong CTC (Connectionist Temporal Classification) để huấn luyện các hệ thống thần kinh theo trình tự. Điểm khác biệt lớn nhất là những nhà phát triển phần mềm của MyScript sử dụng “thông tin tương hỗ tối đa” (Maximum Mutual Information) thay vì tiêu chuẩn “tối đa Likelihood” (Maximum Likelihood) để cân bằng tần số ký tự và từ chối các phân đoạn xấu trong quá trình học của máy.
Trong những năm qua, MyScript đã phát triển thành một hệ thống đa ngôn ngữ có khả năng nhận dạng một lượng lớn ngôn ngữ và chữ viết. Vào năm 2006, MyScript đã nhận dạng được hơn 30,000 ký tự chữ viết Trung Quốc nhờ sử dụng một cấu trúc NN đặc biệt đẩy độ chính xác lên cao nhất tại thời điểm đó. Cấu trúc này cho phép giảm bộ nhớ bằng cách sử dụng các nơ-ron có khả năng nhận dạng thành phần ký tự bổ sung hay các gốc cấu trúc phổ biến của ký tự Hanzi. Hiệu quả của một nơ-ron đầu ra được tổng hợp bởi các nơ-ron gốc. Mô hình gốc cũng cung cấp những mô tả tốt hơn về những ký tự hiếm mà người phát triển phần mềm có ít mẫu. Sự hoạt động của hệ thống thần kinh khổng lồ này được tăng tốc bởi một tính năng softmax mà ở đó các đầu ra được gộp thành các cụm theo sự tương đồng của ký tự. Softmax đầu tiên được sử dụng để tính toán những nhóm ký tự có khả năng xảy ra nhất sau đó chỉ kích hoạt những ký tự tương ứng trong softmax thứ 2 để tránh phải tính toán nhiều hơn 30.000 đầu ra.
Đối với tiếng Ả Rập, MyScript đã phát triển một kỹ thuật phân đoạn theo thời gian để hỗ trợ tính đặc thù hai chiều của chữ viết Ả Rập, trong đó các chữ thường được viết từ phải sang trái, còn các từ Latin được viết từ trái sang phải. Ở tiếng Ả Rập, việc xử lý các nét chữ chưa hoàn thiện là một thách thức lớn do khó khăn trong việc gán các dấu vào ký tự tương ứng của chúng. Bởi vậy họ đã phát triển một kỹ thuật gồm 2 quy trình đan xen: sắp xếp chữ và nhận dạng ký tự. Về cơ bản, họ mô hình hóa tất cả những sắp xếp chữ có thể rồi để hệ thống lựa chọn cái có ký tự phù hợp tối đa.
Công nghệ NLP của MyScript đã phát triển qua nhiều năm, từ mô hình n-gram và n lớp sang mạng thần kinh tái tạo (RNN) để dự đoán ký tự hoặc chữ viết tiếp nối (mô hình ngôn ngữ). Các RNN có lợi thế trong việc xử lý vấn đề thưa thớt mà các mô hình n-gram gặp phải đó là không đủ dữ liệu trong một kho văn bản để ước tính chính xác khả năng xuất hiện của một ký tự dựa trên các ký tự trước đó. Những mô hình thần kinh này dựa vào các phần nhúng chuyển một thành phần ngôn ngữ (ký tự hoặc chữ viết) thành một vectơ có giá trị thực. Vì vậy, các ký tự hoặc từ xuất hiện trong ngữ cảnh tương tự hoặc có sự tương đồng về ngữ nghĩa được liên kết với các vectơ gần nhau. MyScript hiện không chỉ áp dụng mô hình ngôn ngữ thần kinh này cho các ngôn ngữ tự nhiên như tiếng Anh,tiếng Pháp hoặc tiếng Trung Quốc mà được sử dụng cho ngôn ngữ toán học.
Khoảng 10 năm trước, MyScript đã mở rộng nghiên cứu về trí tuệ nhân tạo sang các công nghệ 2D, phân tích và giải thích các ngôn ngữ 2 chiều như toán học, âm nhạc, đồ thị và sơ đồ. Họ phát triển các thuật toán AI đặc biệt dựa vào cấu trúc và cú pháp 2D để hiểu và giải thích phiên bản viết tay của các ngôn ngữ này. Nó phân tích mực đầu vào bằng cách áp dụng một cách liên tiếp các quy tắc sản suất từ đó xây dựng một phân tích đại diện cho cấu trúc của đối tượng được nhận dạng. Ví dụ, nó có thể truy xuất các phần tử của một phân số bằng cách xác định tử số và mẫu số của nó, gán các lỗi trong âm nhạc cho ghi chú tương ứng của chúng, khôi phục mối quan hệ giữa các điểm kiến thức trong sơ đồ.
Gần đây, MyScript đã đầu tư lượng lớn nghiên cứu R&D vào một cấu trúc thần kinh tái tạo gọi là mạng LSTM (Bộ nhớ ngắn dài hạn). Mạng này dựa trên các đơn vị bộ nhớ cụ thể, bao gồm một ô và ba cổng. Cổng đầu vào điều khiển luồng giá trị vào ô, cổng quên kiểm soát thời lượng của giá trị này và cổng đầu ra điều khiển kích hoạt đơn vị dựa trên giá trị này. Các mạng LSTM đã được phát triển để giải quyết các vấn đề độ dốc biến mất thường gặp của các RNN tiêu chuẩn. MyScript đã áp dụng thành công kiến trúc này để đáp ứng nhiều yêu cầu trong phân tích tài liệu hoặc các ghi chú viết tay. Dựa trên khả năng ghi nhớ mạnh mẽ của LSTM, giờ đây chúng ta có thể phân biệt các nét văn bản và các hình dạng hình học trong sơ đồ, chia một khối văn bản thành các dòng hoặc xác định các biểu thức hoặc ký hiệu toán học ở giữa văn bản.
MyScript Interactive Ink
Công nghệ MyScript Interactive Ink là công nghệ dựa trên mực kỹ thuật số, một hệ thống liên kết giữ sự thống nhất giữa các tọa độ và phân tích sự tương ứng của chúng. Mỗi hành vi (ví dụ như tẩy) xảy ra trên một phần tử mực sẽ được tự động sao chép trong thời gian thực ở bản nhận dạng của nó và ngược lại. Việc xử lý mực trở nên dễ dàng như xử lý các ký tự ASCII trên máy tính. Văn bản viết tay, phương trình toán học hoặc thậm chí sơ đồ được diễn giải theo thời gian thực để có thể chỉnh sửa thông qua các cử chỉ đơn giản, MyScript Interactive Ink phản ứng nhanh và chuyển đổi thành đầu một cách gọn gàng.
Tương lai của MyScript AI sẽ như thế nào?
MyScript sẽ tiếp tục đổi mới để biến cách biến Interactive Ink trở thành công nghệ hạng nhất trong thế giới kỹ thuật số trong tương lai. Kế hoạch 10 năm của họ đầy thách thức bao gồm phát triển: thao tác bảng, nhận dạng công thức hóa học, phác họa tương tác, cộng tác mực, phân tích ngữ nghĩa, thực tế ảo, v.v … AI sẽ tồn tại mãi mãi trong DNA của MyScript!