Bối cảnh
Một tập đoàn đa quốc gia hoạt động trong lĩnh vực hạ tầng công nghệ cần cải thiện khả năng phân tích kỹ thuật, phản hồi khách hàng và tự động hóa quy trình vận hành hỗ trợ kỹ thuật (technical support operation). Họ đang có lượng dữ liệu lớn đến từ các nền tảng như:
Splunk: Log, telemetry, inventory, alert
ServiceNow: Ticket, CMDB, change/SR
File (Word, CSV, PDF): Tài liệu mô tả quy trình, hợp đồng, best practices
Website / Internet: Ví dụ mã nguồn, hướng dẫn công khai
Tuy nhiên, việc tìm kiếm tri thức liên quan và trả lời chính xác cho các truy vấn kỹ thuật (như “Tôi có thể giải quyết lỗi X như thế nào?”) vẫn mất rất nhiều thời gian do khối lượng dữ liệu phân tán và khó truy vấn theo ngữ cảnh.
Giải pháp: Triển khai mô hình RAG với Splunk làm nền tảng dữ liệu
Kiến trúc Tổng quan
RAG (Retrieval-Augmented Generation) là phương pháp kết hợp giữa:
Retriever: Truy xuất thông tin liên quan từ tập dữ liệu lớn (Splunk, ServiceNow, file, web)
Generator: Sử dụng LLM (như OpenAI, Mistral) để tạo phản hồi dựa trên đoạn văn đã truy xuất
Hệ thống truy xuất:
Splunk → telemetry, logs, inventory
ServiceNow → case notes, incident, change, SR
Docs → templates, RCA, MOP, golden rules, hợp đồng
Web → ví dụ code, định nghĩa lỗi
Sau khi truy xuất dữ liệu liên quan, các LLM sẽ tạo ra phản hồi tự nhiên, chính xác và đầy đủ ngữ cảnh.
Kết quả đạt được
Customer Personalization: Hệ thống hiểu rõ hơn về từng khách hàng (inventory, hợp đồng, known errors…)
Expanded Application: Ứng dụng được mở rộng sang phân tích RCA, tạo tài liệu MOP, đề xuất quy trình
Optimized Analysis & Response: Giảm thời gian phân tích và phản hồi từ hàng giờ xuống còn vài phút
Các Use Case tiêu biểu
Enhanced Technical Analysis: Truy xuất và tổng hợp thông tin từ RCA logs, case notes để hỗ trợ chuyên gia xử lý sự cố nhanh hơn
Log Analysis & Sentiment Analysis: Tự động phân tích log và cảm xúc khách hàng trong notes hoặc phản hồi
Pre/Post Checks & Ticket Grading: Phân loại mức độ nghiêm trọng và tự động kiểm tra trước/sau sự cố
Code Development & Known Error Match: Rút trích các định nghĩa lỗi (CDETS, PSIRT, FN), tìm mã code mẫu từ các ví dụ cũ
Process Review & Onboarding: Đề xuất quy trình vận hành mới và hỗ trợ đào tạo nhân sự mới (ST)
Ví dụ minh họa
Truy vấn: “Hệ thống bị lỗi CRC trên thiết bị A từ tuần trước, có cách nào khắc phục và phòng ngừa không?”
Retriever: Lấy logs từ Splunk, các notes liên quan từ ServiceNow, RFC hoặc MOP tài liệu trong Word/PDF, thông báo lỗi tương tự từ Internet.
Generator (LLM): Tổng hợp thành hướng dẫn từng bước:
Phân tích nguyên nhân CRC
Gợi ý kiểm tra cáp vật lý, cấu hình duplex
Trích dẫn MOP và RCA trước đó
Đưa ra cảnh báo theo thời gian thực trong Splunk để ngăn ngừa tái diễn

Bài học rút ra
RAG giúp mở khóa tiềm năng dữ liệu phi cấu trúc trong các hệ thống IT hiện có như Splunk, ServiceNow.
Là cầu nối giữa dữ liệu kỹ thuật và phản hồi mang tính ngữ cảnh, chính xác, nhanh chóng.
Là bước trung gian quan trọng để triển khai AI Agent hỗ trợ vận hành, giảm chi phí và tăng hiệu suất hỗ trợ kỹ thuật.
Gợi ý triển khai tiếp
Kết hợp vector database (FAISS, Weaviate) để tối ưu việc truy xuất
Kết nối thêm hệ thống nội bộ như Jira, GitHub để áp dụng RAG cho DevOps
Triển khai dashboard đo hiệu quả AI RAG: thời gian phản hồi, tỷ lệ chính xác, mức độ hài lòng người dùng
Bạn đang muốn triển khai hệ thống RAG như thế cho doanh nghiệp?