AI – Không có gì hot hơn từ này trong năm 2023 với sự bùng nổ mạnh mẽ của các ứng dụng mạnh mẽ đã và đang thay đổi thế giới một cách chóng mặt. Sáng giá nhất có thể nói đến là chatGPT. Và bạn có biết điều gì đã tạo nên những AI siêu thông minh máy tính biết nghĩ như người này không? Chính xác. Đó là Machine learning. Vậy Machine learning là gì và ứng dụng ra sao? Cùng tìm hiểu về nền tảng cho cuộc sống thời đại mới này qua bài viết sau.
Học máy, còn được gọi là Machine Learning, là một lĩnh vực trong trí tuệ nhân tạo (AI) và khoa học máy tính. Học máy tập trung vào nghiên cứu và phát triển các kỹ thuật cho phép hệ thống “học” tự động từ dữ liệu để giải quyết các vấn đề cụ thể. Nó liên quan đến việc sử dụng dữ liệu và thuật toán để mô phỏng quá trình học của con người và từ đó tăng cường độ chính xác theo thời gian.
Máy học có khả năng thích nghi với môi trường xung quanh để suy luận các nguyên tắc từ tri thức thu thập được, nhằm hỗ trợ quyết định. Một số ứng dụng tiêu biểu của phương pháp học máy bao gồm cảnh báo giao thông trên ứng dụng Google Maps, công nghệ Deepface của mạng xã hội Facebook, cũng như khả năng tự động phân loại thư điện tử là spam hay không và xếp chúng vào thư mục tương ứng.
2. Nguyên lý “tự học” của Machine Learning
Các bước triển khai Machine Learning là gì? Về tổng quan, quá trình này bao gồm việc xác định vấn đề, đánh giá các phương án có sẵn từ dữ liệu đầu vào để đưa ra kết quả phù hợp. Sau mỗi lần xử lý, học máy có khả năng đánh giá và rút ra kinh nghiệm để làm “mở rộng” bộ dữ liệu ban đầu được lập trình.
Quy trình chuỗi khép kín, vận hành và chuyển hóa liên tục này cụ thể như sau:
Bước 1. Tiền xử lý dữ liệu đầu vào.
Dữ liệu thô sẽ được lọc để loại bỏ thông tin không cần thiết và được sắp xếp thành nhóm có cấu trúc. Dữ liệu thô trong mỗi ngữ cảnh có thể khác nhau và thường rất phức tạp, nhưng qua quá trình sàng lọc, machine learning có khả năng tự động giải quyết sự phức tạp này. Quá trình này giúp nhận dạng các dữ liệu quan trọng, nhóm chúng lại và loại bỏ các dữ liệu không cần thiết để giảm thiểu chi phí xử lý.
Bước 2. Sử dụng thuật toán để tìm ra các phương án tối ưu nhất.
Các dữ liệu đã được phân nhóm được đưa vào quá trình xử lý để phân tích và kết hợp để tạo ra các phương án mà machine learning cho rằng phù hợp nhất với vấn đề hiện tại. Đơn giản như là hệ thống kết hợp các dữ liệu đầu vào và áp dụng thuật toán để tạo ra, đánh giá và lựa chọn những phương án khả thi nhất.
Các ứng viên tiềm năng sau quá trình đánh giá sẽ được kiểm tra trong các điều kiện giả định của yêu cầu đầu vào. Lần nữa, các phương án mà có nhược điểm sẽ bị loại bỏ. Kết quả cuối cùng là phương án sau (nhiều) lần thử nghiệm mà machine learning cho rằng phù hợp nhất với vấn đề đang được giải quyết.
Bước 3. Triển khai phương án tốt nhất và liên tục cải thiện.
Phương án cuối cùng sẽ được triển khai trong thực tế và trong quá trình triển khai machine learning sẽ ghi nhận các vấn đề phát sinh, bao gồm cả những ưu và nhược điểm mà chưa được phát hiện trong quá trình kiểm tra. Sau đó, hệ thống sẽ cập nhật lại bộ dữ liệu ban đầu và phương pháp xử lý để cải thiện phương án theo thời gian.
Sau nhiều lần cập nhật, machine learning sẽ hình thành tiêu chuẩn cho những phương án trả ra, nhằm mục tiêu đạt được phương án tốt nhất với tốc độ xử lý nhanh, ít sai sót và rủi ro thấp hơn.
3. Phân loại Machine Learning
3.1 Máy học có giám sát – Supervised Machine Learning
Dữ liệu đầu vào, bao gồm cách thức và phương án mà con người mong muốn, sẽ được con người lập trình. Các phương án và đáp án sẽ được đánh dấu và sắp xếp sẵn, và Machine Learning chỉ cần kiểm tra và trả về kết quả chính xác từ bộ dữ liệu đã có sẵn.
Đây là kỹ thuật học sử dụng cho các bài toán phân lớp (Classification). Một số thuật toán thường được lựa chọn khi xây dựng bộ phân lớp này gồm có: Máy vector hỗ trợ (Support Vector Machine – SVM); Cây quyết định (Decision Tree – DT); sử dụng mạng nơron (Neural Network – Net); dựa trên vector trọng tâm (Centroid– based vector); hay tuyến tính bình phương nhỏ nhất (Linear Least Square Fit – LLSF).
Ứng dụng của Machine learning như việc phân loại tin nhắn trong email sẽ tự động tách các tin nhắn rác từ nguồn gửi khác nhau ra khỏi hộp thư chính.
3.2 Học máy không giám sát (Unsupervised Learning)
Machine learning cung cấp các thuật toán và công cụ để tự động xử lý dữ liệu mà không biết trước kết quả. Đây là kỹ thuật học sử dụng cho các bài toán phân cụm, gom cụm (Clustering). Một ứng dụng phổ biến của machine learning là cá nhân hóa trải nghiệm khách hàng. Dữ liệu đầu vào bao gồm hành vi và lịch sử mua hàng, và hệ thống sẽ dự đoán và đề xuất các sản phẩm phù hợp riêng cho từng khách hàng.
Có rất nhiều thuật toán học không giám sát được ra đời và phát triển nhằm giải quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và mục đích của từng bài toán. Trong đó có các thuật toán thường được sử dụng như: k-means, HAC (Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map), DBSCAN, FCM,…
3.3 Học tập bán giám sát (Semi-Supervised Learning)
Đây là một loại phân loại nằm giữa hai loại phân loại đã đề cập trước đó. Trong trường hợp này, dữ liệu đầu vào là một hỗn hợp của cả phương pháp và đáp án. Một điểm khác biệt ở đây là phương án và đáp án chưa được nhóm lại thành từng bộ. Vì vậy, machine learning phải tự tìm ra cách giải pháp tương thích với từng đáp án trong bộ dữ liệu đã có sẵn.
Một số thuật toán thường được sử dụng gồm có: thuật toán Cực đại kỳ vọng (EM – Expectation Maximization), SVM truyền dẫn (TSVM – Transductive Support Vector Machine), Self-training, Co-training và các phương pháp dựa trên đồ thị (graph-based).
4. So sánh Machine Learning và Deep Learning
Nội dung | Machine Learning | Deep Learning |
✔️ Khái niệm | Liên quan đến việc nghiên cứu và xây dựng các kỹ thuật, machine learning tập trung vào khả năng hệ thống “học” tự động để giải quyết các vấn đề cụ thể từ dữ liệu. | Deep Learning, trong quá trình xử lý dữ liệu, mô phỏng các hoạt động trong bộ não của con người để tạo ra các mô hình sử dụng trong quyết định. |
✔️ Cách thức vận hành | Dùng thuật toán này để tiến hành phân tích thông tin có sẵn. Sau đó học hỏi nó và đưa ra dự đoán hoặc quyết định về thứ nào đó liên quan | Đây là một tập hợp con thuộc lĩnh vực Machine Learning và sử dụng Deep Neural Networks. Phương pháp này đòi hỏi tính toán mạnh mẽ hơn và yêu cầu dữ liệu đầu vào lớn hơn so với Machine Learning. |
✔️ Tính năng | Người dùng cần phải hiểu những tính năng đại diện đối với dữ liệu. | Bạn không cần hiểu tính năng đại diện cho các dữ liệu. |
✔️ Thời gian thực hiện | Thực hiện trong thời gian từ vài phút cho tới vài giờ. | Thời gian thực hiện có thể kéo dài hàng tuần, do mạng nơ-ron phải xử lý một lượng lớn dữ liệu tính toán. |
✔️ Dữ liệu đào tạo | Nhỏ. | Lớn. |
✔️ Số lượng thuật toán | Tốn hơn Deep Learning. | Có rất nhiều thuật toán. |
5. Ứng dụng phổ biến của Machine Learning hiện nay
5.1. Phân loại giọng nói
Nhận diện giọng nói có thể được phân thành hai loại: nhận diện giọng nói (Voice recognition) và nhận diện lời nói (Speech recognition).
Speech recognition tập trung vào việc nhận dạng từ ngữ và chuyển đổi chúng thành văn bản. Đây là quá trình sử dụng xử lý ngôn ngữ tự nhiên (NLP) để dịch lời nói của con người thành dạng văn bản.
Voice recognition cho phép nhận dạng và xác định giọng nói của từng người dùng, nhờ vào sự phát triển của Machine Learning.
Các ứng dụng của nhận diện giọng nói bao gồm:
– Tối ưu hoá nhập liệu: giúp tiết kiệm thời gian nhập văn bản.
– Điều khiển nhà thông minh (smarthome): chỉ với giọng nói, người dùng có thể tắt/bật đèn, điều chỉnh nhiệt độ hoặc mở/đóng rèm cửa.
– Trợ lý ảo: nhiều thiết bị di động kết hợp tính năng nhận diện giọng nói để thực hiện tìm kiếm hoặc cung cấp thông tin cá nhân hóa, ví dụ như Siri của Apple, Google Assistant và Alexa của Amazon.
5.2. Dịch vụ khách hàng (Customer service)
Các chatbot trực tuyến đang thay thế con người trong việc tương tác với khách hàng trên các trang web và nền tảng truyền thông xã hội. Chatbot có khả năng trả lời câu hỏi thường gặp và cung cấp lời khuyên cá nhân hóa, đề xuất sản phẩm hoặc kích thước phù hợp.
Ví dụ về các ứng dụng bao gồm chatbot trên trang web thương mại điện tử, bot nhắn tin trên Slack và Facebook Messenger, cũng như các trợ lý ảo và trợ lý giọng nói.
5.3. Thị giác máy tính (Computer vision)
Công nghệ thị giác máy tính cho phép máy tính trích xuất thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào trực quan khác, sau đó thực hiện các hành động phù hợp.
Thị giác máy tính sử dụng mạng nơ-ron tích chập (Convolutional Neural Networks) và có các ứng dụng như:
– Gắn thẻ ảnh trên các nền tảng truyền thông xã hội như Facebook.
– Phân tích hình ảnh X-quang trong lĩnh vực chăm sóc sức khỏe.
– Tự động lái xe trong ngành công nghiệp ô tô.
5.4. Hệ thống đề xuất (Recommendation engines)
Sử dụng dữ liệu hành vi tiêu dùng trong quá khứ, các thuật toán trí tuệ nhân tạo và Machine learning giúp phát hiện xu hướng dữ liệu và phát triển các chiến lược đề xuất sản phẩm hiệu quả hơn. Phương pháp này được sử dụng bởi các nhà bán lẻ trực tuyến để đưa ra các đề xuất sản phẩm phù hợp cho khách hàng trong quá trình thanh toán.
5.5. Giao dịch chứng khoán tự động (Automated stock trading)
Các nền tảng giao dịch chứng khoán được điều khiển bởi trí tuệ nhân tạo đã được thiết kế để tối ưu hóa danh mục đầu tư. Hệ thống này thực hiện hàng nghìn, thậm chí hàng triệu giao dịch mỗi ngày mà không cần sự can thiệp của con người.
Machine Learning không đảm bảo độ chính xác tuyệt đối cho mọi cơ hội đầu tư, nhưng nó có thể giúp giảm thiểu các rủi ro liên quan đến quyết định đầu tư. Qua quá trình phân tích chi tiết và dự đoán tình hình kinh tế tổng quát, Machine Learning có thể giúp nhà đầu tư thực hiện các giao dịch mua bán đúng thời điểm và phù hợp nhất với mức lợi nhuận và rủi ro mà họ mong muốn.
5.6. Phát hiện gian lận (Fraud detection)
Ngân hàng và tổ chức tài chính sử dụng học máy để phát hiện các giao dịch gian lận. Bằng cách sử dụng dữ liệu giao dịch gian lận đã biết, mô hình học có giám sát có thể được huấn luyện để xác định các giao dịch không bình thường và đòi hỏi sự điều tra.
5.7. Ứng dụng Machine Learning trong nông nghiệp
Máy bay không người lái đã được áp dụng trong nông nghiệp để thực hiện việc bón phân theo khu vực đã xác định trước đó. Hệ thống này cũng có khả năng ghi nhận sức khỏe của vật nuôi và quản lý toàn bộ quy trình nông nghiệp bằng các thiết bị số tuân theo tiêu chuẩn quốc tế.
Đây là những ứng dụng rõ ràng và đáng chú ý của machine learning trong ngành nông nghiệp. Nhờ đó, các công việc lao động cần đòi hỏi sức lực và lo lắng mất giá do “trúng mùa” đã được giải quyết. Ngành nông nghiệp đã thay đổi với việc áp dụng công nghệ mới, tối ưu hóa sản xuất và đảm bảo chất lượng sản phẩm, đồng thời cân bằng cung và cầu.