Tổng quan
G
Total Visits
0
All time
Unique Visitors
0
Unique IPs
Online Users
0
Real-time
Queue
505,094
Pending
Master Data
16,427
P+D+W
OSM Entities
615,547
OSM
Training Data
25,130
Labeled
AI Intelligence Lifecycle

1. Thu thập

2. Xử lý NER

3. Gán nhãn

4. Retrain

5. Tăng trưởng

PhoBERT NER
Token classification · 10 entities
Training
PhoBERT Siamese
Bi-Encoder address matching
Ready
mGTE Siamese
Multilingual baseline
Ready
LLM Qwen3-4B
Final normalization
Standby
Input
Inference Comparison Matrix Ready

Mục đích nghiên cứu: So sánh kết quả phân tách thực thể (NER) và điểm tin cậy (Confidence Score) từ các chiến lược mô hình khác nhau. Giúp đánh giá độ lệch (variance) giữa Heuristic, PhoBERT, mGTE, và LLM trong thực chiến.

Chưa có dữ liệu phân tích. Hãy nhập địa chỉ hoặc lấy mẫu từ DB.
Visual Highlight (Hybrid PreLabeler)

Trực quan hóa: Hiển thị chuỗi địa chỉ gốc được gán nhãn thực thể (Entity Tags) bởi mô hình chính. Chế độ PreLabeler đề xuất nhãn thô tự động, giúp giảm thiểu thời gian gán nhãn thủ công cho đội ngũ Annotator (Label Studio).

Kết quả highlight thực thể sẽ hiển thị ở đây...
Analysis Metadata
Bắt đầu phân tích để xem thông số độ trễ và độ tự tin của mô hình.
Total Queue
505,094
Processed
0
Pending
505,094
Throughput
-- items/s
Batch Control
Chưa có job nào được chạy.
Export for Annotation

Sử dụng Hybrid PreLabeler để tạo gợi nhãn tự động trước khi gửi cho team gán nhãn trên Label Studio.

Training Status
Labeled Data200 / 1,000
Model F1-ScorePending training
NER Labels10 entities
NER Label Registry
Code Name Color Hotkey Example
F1-Score (Noise Data)
--
Target: ≥ 82%
Throughput
--
Target: ≥ 20 addr/s
Cost / 1M Addresses
--
Target: < $100
Google Match Rate
--
Target: ≥ 75%
Run Experiment (Phase C: experiment_runner.py)

Chạy experiment_runner.py để so sánh 3 mô hình trên tập dữ liệu thực. Kết quả ưu tiên KPI MIS: F1, Throughput, Cost và Google Match.

Model F1-Score Throughput Cost / 1M Google Match Target Status
PhoBERT -- -- -- -- F1≥82% | TPS≥20 | Cost<$100 | Match≥75% Pending
Siamese (mGTE) -- -- -- -- F1≥82% | TPS≥20 | Cost<$100 | Match≥75% Pending
LLM (Qwen3) -- -- -- -- F1≥82% | TPS≥20 | Cost<$100 | Match≥75% Pending
Tra cứu
Kết quả ánh xạ
Nhập tên phường/xã cũ để tra cứu quy tắc sáp nhập...

Tổng: 10,635 quy tắc ánh xạ từ mat.ward_mapping

Bộ lọc ĐVHC
Tìm nhanh theo địa chỉ trong queue prq.address_cleansing_queue.
prq.address_cleansing_queue
ID Raw Address Ward District Province Status
Click Refresh to load data...
OSM Controls
raw_entities
0
OSM raw
streets
0
Road gazetteer
buildings
0
Building gazetteer
pois
0
POI gazetteer
Pipeline hiện tại

OSM/Overpass

raw_entities

streets

pois / buildings

OSM Job Status
Started: -
Finished: -
Job ID: -
IDLE
Chưa có job nào được chạy.
Database Connection

Credentials loaded from .env file

System Info
Python3.11
PhoBERTvinai/phobert-base
mGTEgte-multilingual-base
LLMQwen/Qwen3-4B
Deadline25/05/2026
AI Workflow Operations (Code-Truth)
Phase A
Pre-label Export
export_for_annotation.py → Label Studio JSON/XML
Phase B
NER Fine-tune
train_ner.py → models/phobert-ner-vn
Phase C
3-Model Benchmark
experiment_runner.py → HTML/CSV report
Phase D
Production Hybrid Pipeline
production_pipeline.py → standardize + writeback queue

1. Thu thập dữ liệu

Địa chỉ thô được thu thập từ các hệ thống hoặc upload hàng loạt.

2. Xử lý NER

AI bóc tách các thực thể (Tỉnh, Quận, Đường...) với độ tin cậy cụ thể.

3. Kiểm soát (Human-in-the-loop)

Các địa chỉ có độ tin cậy thấp được gán nhãn lại qua Label Studio.

4. Tái huấn luyện (Retrain)

Dữ liệu gán nhãn được đẩy ngược lại để huấn luyện mô hình (Fine-tuning).

5. Tăng trưởng thông minh

AI học mẫu mới, tự động giảm tỷ lệ lỗi trong tương lai.

Bộ lọc ĐVHC
Chọn version để tải danh sách ĐVHC tương ứng.
Bộ lọc ĐVHC
Lọc danh sách NSO theo tên tỉnh và khởi chạy đồng bộ từ cùng một panel điều khiển.
Bộ lọc ĐVHC
Danh sách Tỉnh/Thành