Trong thời gian gần đây, trí tuệ nhân tạo (AI), cụ thể là machine learning đã tạo nên một cơn sốt công nghệ và dần dần len lỏi vào mọi khía cạnh của cuộc sống con người mà có lẽ chúng ta vẫn chưa nhận ra. Tuy nhiên, dấu ấn của machine learning đã hiện diện rõ ràng thông qua hàng loạt ứng dụng trải dài trên mọi lĩnh vực từ khoa học máy tính đến những ngành ít liên quan hơn như vật lý, hóa học, y học và chính trị. Vậy machine learning là gì? Bài viết dưới đây sẽ cung cấp cho bạn cái nhìn tổng quan hơn về công cụ này, hãy cùng theo dõi nhé.
- Machine learning là gì?
- Machine learning workflow cơ bản
- Các phương pháp machine learning phổ biến hiện nay
- Các thuật toán thông dụng của machine learning
- Một số khái niệm cơ bản liên quan đến machine learning
- Ứng dụng phổ biến của machine learning trong thực tế
- Vén màn những hiểu lầm phổ biến về machine learning
Machine learning là gì?
Machine learning hay học máy là một phần thuộc trí tuệ nhân tạo (AI) và khoa học máy tính, tập trung vào việc nghiên cứu cũng như phát triển các kỹ thuật cho phép hệ thống tự động "học" từ dữ liệu để giải quyết những vấn đề nhất định. Nói cách khác, máy học chú trọng vào việc sử dụng dữ liệu và thuật toán để mô phỏng quá trình học của con người, từ đó không ngừng cải thiện độ chính xác của nó.
Ngoài ra, thông qua các phương pháp thống kê và thuật toán để phân loại hoặc dự đoán, máy học cũng giúp con người khám phá những chi tiết quan trọng khi tiến hành khai thác dữ liệu.
Machine learning workflow cơ bản
Quy trình làm việc của machine learning cơ bản dưới đây sẽ hướng dẫn bạn cách sử dụng công nghệ machine learning, cụ thể như sau:
- Thu thập dữ liệu (Data collection): Để máy tính thực hiện được quá trình học thì đầu tiên, bạn cần có một bộ dữ liệu, đó có thể là do bạn tự thu thập hoặc sử dụng từ các công bố trước đó. Lưu ý rằng độ chính xác và hiệu suất của máy học sẽ phụ thuộc lớn vào việc dữ liệu của bạn có đáng tin cậy hay không.
- Tiền xử lý (Preprocessing): Bước này thường chiếm phần lớn thời gian thực hiện để chuẩn hóa dữ liệu, loại bỏ các thuộc tính không cần thiết, gán nhãn dữ liệu, mã hóa đặc trưng, trích xuất và thu gọn dữ liệu nhưng vẫn đảm bảo được tính chính xác của kết quả.
- Huấn luyện mô hình (Training model): Tiếp theo, bạn cần huấn luyện mô hình hoặc để công cụ học tự động trên dữ liệu đã được xử lý ở bước trên.
- Đánh giá mô hình (Evaluating model): Sau khi huấn luyện mô hình, hãy sử dụng các công cụ chuyên dụng để đánh giá mô hình và độ chính xác trên 80% thường được coi là tốt.
- Cải thiện (Improve): Ở bước này, những mô hình có độ chính xác kém cần được đào tạo lại. Lặp lại từ bước 3 cho đến khi đạt được độ chính xác như mong muốn.
Các phương pháp machine learning phổ biến hiện nay
Trong thế giới ngày nay, machine learning cơ bản đã trở thành một lĩnh vực quan trọng của trí tuệ nhân tạo, mở ra những khả năng xuất sắc trong việc xử lý dữ liệu và đưa ra dự đoán chính xác. Vậy có những phương pháp machine learning phổ biến nào?
1. Supervised machine learning (máy học có giám sát)
Supervised machine learning hay học có giám sát là một phương pháp sử dụng tập dữ liệu được gắn nhãn để đào tạo các thuật toán phân loại hoặc dự đoán kết quả một cách chính xác.
Khi dữ liệu đầu vào được cung cấp, mô hình sẽ tự động điều chỉnh trọng lượng của nó cho đến khi đạt được sự điều chỉnh phù hợp. Quá trình này thường xuyên được thực hiện để đảm bảo rằng mô hình không chịu sự trang bị quá mức hoặc thiếu thông tin.
Ngày nay, máy học có giám sát đóng vai trò quan trọng khi hỗ trợ con người giải quyết nhiều thách thức trong cuộc sống, chẳng hạn như phân loại thư rác trong hộp thư đến của bạn.
2. Unsupervised machine learning (máy học không giám sát)
Unsupervised machine learning hay máy học không giám sát là một phương pháp sử dụng thuật toán máy học để phân tích và phân cụm các tập hợp dữ liệu không được gắn nhãn.
Khác với học máy có giám sát, phương pháp này không đòi hỏi sự can thiệp của con người để định rõ nhãn của dữ liệu bởi lẽ những thuật toán trong unsupervised machine learning có thể tự động phát hiện ra các mẫu hoặc nhóm dữ liệu ẩn một cách tự nhiên. Do đó mà phương pháp này vô cùng lý tưởng để thực hiện các nhiệm vụ như phân khúc khách hàng, chiến lược bán chéo (cross-sell), phân tích dữ liệu khám phá cũng như nhận diện hình ảnh và mẫu.
Mặt khác, unsupervised machine learning còn được sử dụng để giảm số lượng các đặc trưng trong một mô hình thông qua thuật toán Dimensionality Reduction - giảm kích thước. Trong đó, phân tích thành phần chính (PCA) và phân tích giá trị đơn lẻ (SVD) là hai cách tiếp cận phổ biến thường được áp dụng trong việc này.
3. Semi-supervised learning (học máy bán giám sát)
Semi-supervised learning hay học máy bán giám sát là một phương pháp kết hợp giữa học có giám sát và không giám sát nhằm mang lại hiệu suất đáng kể hơn. Trong quá trình đào tạo, nó sử dụng một tập dữ liệu nhỏ hơn có nhãn để hướng dẫn quá trình phân loại và trích xuất đặc trưng cho một tập dữ liệu lớn hơn nhưng không được gắn nhãn.
Nhìn chung, phương pháp học máy bán giám sát có thể giải quyết các vấn đề khi không có đủ dữ liệu được gắn nhãn để huấn luyện thuật toán học có giám sát. Nó cũng là lựa chọn hữu ích khi việc gắn nhãn cho đủ dữ liệu trở nên quá tốn kém hoặc không khả thi.
Các thuật toán thông dụng của machine learning
Như bất kỳ một công cụ AI nào khác thì machine learning cũng sử dụng nhiều thuật toán mạnh mẽ mà trong đó phải kể đến là:
- Neural networks: bắt chước lại cách thức hoạt động của bộ não con người bằng cách liên kết với một lượng lớn các nút xử lý. Thuật toán này đóng vai trò quan trọng trong việc nhận dạng mẫu và ảnh hưởng sâu rộng trong nhiều lĩnh vực, bao gồm dịch ngôn ngữ tự nhiên, nhận dạng hình ảnh, giọng nói và tạo hình ảnh.
- Linear regression: dự đoán trước các trị số dựa trên mối quan hệ tuyến tính giữa nhiều biến liên quan.
- Logistic regression: đưa ra dự đoán chính xác cho các biến phản hồi phân loại, ví dụ như câu trả lời "có / không". Ngày nay, thuật toán này thường được ứng dụng trong các lĩnh vực như kiểm soát chất lượng trên dây chuyền sản xuất hoặc phân loại thư rác.
- Clustering: một thuật toán phân cụm có khả năng xác định các mẫu trong tập dữ liệu để nhóm chúng lại với nhau.
- Decision trees: được dùng để phân loại dữ liệu và dự đoán giá trị số (hồi quy) với một tập hợp các quyết định được biểu diễn bằng sơ đồ cây. Một trong những ưu điểm của decision trees là dễ xác thực và kiểm tra, không giống với thuật toán neural networks.
- Random forests: dự đoán giá trị hoặc danh mục bằng cách kết hợp các kết quả từ nhiều cây quyết định.
Một số khái niệm cơ bản liên quan đến machine learning
Ngoài việc hiểu rõ định nghĩa machine learning là gì thì bạn cũng cần nắm vững một số khái niệm liên quan đến thuật ngữ này, cụ thể như sau:
- Dataset (tập dữ liệu): đây là bộ dữ liệu gốc chưa qua xử lý, được ghi nhận trong bước thu thập dữ liệu. Mỗi tập data có thể bao gồm một hoặc nhiều điểm dữ liệu.
- Data point (điểm dữ liệu): là một đơn vị thông tin độc lập trong dataset. Ví dụ, nếu tập dữ liệu của bạn bao gồm diện tích nhà, giá nhà, thời gian xây dựng,... thì mỗi điểm dữ liệu sẽ bao gồm các thông tin đó. Nói cách khác, một tập hợp các điểm dữ liệu được gọi chung là dataset.
- Training data, test data: tập dữ liệu thường được chia thành hai phần. Dữ liệu huấn luyện được sử dụng để đào tạo mô hình machine learning, trong khi dữ liệu kiểm thử được sử dụng để dự đoán kết quả và đánh giá hiệu suất của mô hình.
- Features vector: là vector được sử dụng để biểu diễn một điểm dữ liệu trong dataset. Mỗi vector có n chiều, mỗi chiều đại diện cho một tính năng của điểm dữ liệu và mỗi tính năng phải là một số.
- Model: tập hợp những mô hình thường được sử dụng để đào tạo các dữ liệu huấn luyện (training data) dựa trên thuật toán của mô hình. Sau đó, mô hình sẽ dự đoán hoặc đưa ra quyết định dựa trên kiến thức đã học được.
Ứng dụng phổ biến của machine learning trong thực tế
Với sự thông minh và tiện ích của mình, machine learning hiện nay được ứng dụng rất nhiều trong thực tiễn, điển hình có thể kể đến như:
- Speech recognition: áp dụng cho việc nhận dạng giọng nói tự động (ASR), xác định giọng nói máy tính hoặc chuyển đổi giọng nói thành văn bản nhờ khả năng xử lý ngôn ngữ tự nhiên (NLP).
- Customer service: chatbots đang dần thay thế nhân viên trong quá trình tương tác với khách hàng, điều này đã thay đổi cách chúng ta hiểu về trải nghiệm của người dùng trên trang web và các mạng xã hội.
- Computer vision: cho phép máy tính rút ra thông tin ý nghĩa từ video, hình ảnh số và đầu vào trực quan khác, sau đó thực hiện các hành động phù hợp.
- Recommendation engines: bằng cách sử dụng dữ liệu hành vi tiêu dùng trong quá khứ, các thuật toán học máy có thể phân tích xu hướng để phát triển chiến lược cross-sell hiệu quả hơn.
- Automated stock trading: ứng dụng trong việc tối ưu hóa danh mục đầu tư chứng khoán, các nền tảng giao dịch tần suất cao được kiểm soát bởi trí tuệ nhân tạo để thực hiện hàng triệu giao dịch mỗi ngày mà không cần đến bàn tay của con người.
- Fraud detection: ngân hàng và tổ chức tài chính có thể sử dụng machine learning để phát hiện các giao dịch đáng ngờ.
Vén màn những hiểu lầm phổ biến về machine learning
Sự hiểu lầm và quan niệm sai lệch về machine learning đang gia tăng do nó ngày càng bị cường điệu hóa như một giải pháp đa năng có thể giải quyết mọi vấn đề trong mọi tình huống. Dưới đây là một số hiểu lầm phổ biến về machine learning mà không ít người gặp phải:
1. Machine learning là trí tuệ nhân tạo AI
Người ta thường đánh đồng machine learning và AI nhưng ít ai biết rằng machine learning chỉ là một kỹ thuật phổ biến được ứng dụng rộng rãi trong các phòng thí nghiệm. Ngược lại, AI là một phạm trù lớn hơn bao gồm nhiều lĩnh vực như robot, tầm nhìn máy tính, xử lý ngôn ngữ tự nhiên và các cách tiếp cận khác mà không liên quan đến machine learning. Hãy xem xét trí tuệ nhân tạo như những yếu tố làm cho máy móc trở nên thông minh hơn với khả năng tự học. Tuy nhiên, không phải lúc nào máy móc cũng đều sử dụng trí tuệ nhân tạo, điều mà nhiều người nghĩ rằng có thể dẫn đến sự đối đầu hoặc thậm chí tấn công con người.
Mặt khác, machine learning tập trung vào việc học mô hình và dự đoán kết quả từ dữ liệu lớn; kết quả có vẻ "thông minh" nhưng thực sự nó đang phân tích số liệu thống kê với tốc độ cùng quy mô chưa từng có.
2. Machine learning không thiên vị
Vì học tập dựa trên dữ liệu có sẵn nên machine learning có thể sao chép lại mọi sai lầm trong tập dữ liệu đó. Chẳng hạn, khi tìm kiếm hình ảnh của CEO, bạn thường nhận được kết quả là hình ảnh của nam CEO da trắng, do có nhiều CEO thuộc nhóm này hơn so với nhóm khác. Điều này cũng dẫn đến việc machine learning có thể làm cho những định kiến đã tồn tại càng trở nên sâu sắc hơn.
Tập dữ liệu COCO thường được sử dụng để huấn luyện hệ thống nhận diện hình ảnh nam và nữ nhưng hình ảnh của phụ nữ thường xuất hiện gần bếp hơn, trong khi hình ảnh của đàn ông thì thường liên quan đến máy tính, chuột hoặc các hoạt động như tennis và trượt tuyết. Do đó, việc huấn luyện hệ thống trên COCO sẽ gán đàn ông với phần cứng máy tính mạnh hơn so với các số liệu thống kê trong bức ảnh gốc.
Ngoài ra, một hệ thống machine learning cũng có thể tạo ra sự chệch trong thông tin. Nếu huấn luyện một hệ thống máy học với frameworks phổ biến để biểu diễn mối quan hệ giữa các frameworks thì hệ thống sẽ học những định kiến như "đàn ông liên quan đến lập trình máy tính, phụ nữ liên quan đến công việc nội trợ", hoặc "bác sĩ và y tá" hoặc "ông chủ và tiếp tân". Khi sử dụng hệ thống này với các hệ thống dịch giữa các ngôn ngữ có các đại từ như "he, she" trong tiếng Anh với các đại từ giới tính trung lập như trong tiếng Phần Lan hoặc tiếng Thổ Nhĩ Kỳ thì "họ là bác sĩ" thành "anh ấy là bác sĩ" và "họ là y tá" có thể trở thành "cô ấy là y tá".
Bạn nên hiểu rõ hơn về những sai lầm của machine learning, nếu bạn không thể loại bỏ chúng từ tập dữ liệu, hãy sử dụng các kỹ thuật như chuẩn hóa liên kết giới tính với các cặp từ để giảm sai lầm hoặc bổ sung các mục không liên quan đến gợi ý để tránh “filter bubble “.
3. Machine learning chỉ được sử dụng cho mục đích tốt đẹp
Machine learning đang được sử dụng rộng rãi trong các công cụ chống virus, giúp theo dõi động thái của các vụ tấn công mới để phát hiện rủi ro một cách nhanh chóng ngay khi chúng xuất hiện. Tuy nhiên, đối với tin tặc hay hacker, họ sẽ lợi dụng học máy để thực thi những hành vi xấu như lừa đảo quy mô lớn, trái ngược với những gì chúng ta vốn kỳ vọng vào nó.
4. Machine learning sẽ dần thay thế con người
Nhiều người lo lắng rằng xu hướng công nghệ học máy sẽ dần chiếm lĩnh các vị trí công việc và có khả năng thay thế con người bởi lẽ hệ thống machine learning giúp cải thiện hiệu suất, làm cho quy trình trở nên mượt mà hơn cũng như giảm bớt chi phí. Trong tương lai, nó sẽ có thể đảm nhận nhiều công việc hơn và làm cho một số quy trình hiện tại trở nên lạc hậu. Tuy nhiên, không phải mọi thứ đều có thể được thực hiện bởi machine learning, đặc biệt là những công việc có độ phức tạp cao hoặc quy mô lớn.
Như vậy qua bài viết này, Phương Nam 24h đã chia sẻ đến bạn khái niệm machine learning là gì và những thông tin bổ ích về machine learning - một công cụ thông minh trong thời đại kỹ thuật số. Có thể thấy, việc áp dụng machine learning trong phân tích dữ liệu với quy mô lớn chắc chắn sẽ mang lại hiệu suất và độ chính xác cao, vượt xa so với khả năng của con người. Điều này không chỉ giúp tối ưu hóa quy trình làm việc mà còn mở ra những triển vọng mới về khả năng ứng dụng trong nhiều lĩnh vực khác nhau.