You are on page 1of 24

GeoScene 地理编码服务器产

品白皮书

易智瑞信息技术有限公司

二〇二二年九月

网址:www.geoscene.cn 电话:010-57632288 技术支持热线:400-819-2881


1
版权声明

本文档版权为易智瑞信息技术有限公司所有。未经本公司书面许可,

任何单位和个人不得以任何形式摘抄、复制本文档的部分或全部,并以任

何形式传播。

制定及修订记录

版本 完成日期 编写/修订纪要 编写者 备 注

V1.0 2022-9-23 编写 陈竞男

www.geoscene.cn
1 GeoScene 地理编码服务器产品简介

GeoScene 地理编码服务器(GeoScene Geocoding Server)是面向中文

地址数据所打造的一套地址标准化与地址匹配解决方案级产品,提供地址

治理、地址库管理和维护、地理编码服务等能力。

由于中文地址标准不统一、表达多样等因素,导致地址数据无法被有

效利用,为解决这一迫切需求,GeoScene 地理编码服务器产品提供地址抽

取、地址分类、地址补全纠正、地址结构化等智能化治理工具,可以有效

减少地址人工核查工作,辅助用户不断沉淀形成自己的标准地址数据。

针对地址库建设及地址查询需求,GeoScene 地理编码产品一方面提供

地址库管理维护工具,实现从地址入库与更新维护的完整流程;另一方面

提供地理编码服务的构建工具,包括地理编码服务发布和查询匹配功能接

www.geoscene.cn
口,以支撑标准地址查询检索集成到业务应用。

2 GeoScene 地理编码服务器产品组成

GeoScene Geocoding Server 包括两个组成部分:

• 桌面端智能地址应用工具箱

• 服务器端地理编码服务引擎

2.1 智能地址应用工具箱

智能地址应用工具箱需要独立安装,安装后集成在 GeoScene Pro 系统

工具箱中,包括地址治理和地理编码两大工具集。

www.geoscene.cn
智能地址应用工具箱

2.1.1 地址治理工具集

地址治理工具集基于深度学习的方式实现地址治理,其中工具的正常

运行需要提前安装 GeoScene 深度学习包,使用流程符合深度学习的通用

流程,包括样本标注、模型训练和模型推理。

该工具集中包含辅助地址文本标准化的一系列工具,可用于地址分类

(如判断地址异常类别)、地址实体识别、地址结构化、地址补全纠正等,

www.geoscene.cn
每一类工具成对出现,分别用于模型训练和推理。用户可以根据自身的数

据情况,决定是否使用这些工具对地址做处理。

表 1-地址治理工具集概览
工具类型 工具名 功能说明 场景示例

• 从疫情流调、物流
将 csv 样本转换为 json 格
地址抽取样本转换 信息、新闻报道等

各类非结构化文本

种提取地址等实
地址抽取模型训练 训练地址抽取模型
体;
地址抽取
• 从地址文本串中抽

取(拆分)地址元

使用训练好的模型实现地 素,如省、市、
地址抽取
址抽取 县、乡镇、道路等

多级地址元素

地址多分类模型训练 训练地址多分类模型 用户现存的地址数据可

能存在多种不规范情

形,如行政区划缺失、

片段冗余、片段缺失甚

至无效地址等异常,且

地址多分类 使用训练好的模型实现地 一个地址可能对应多种


地址多分类
址多分类 异常类型,也就是为单

个地址打上多个类别标

签,此类问题就可以抽

象为地址多分类任务来

解决。

地址单分类 地址单分类模型训练 训练地址单分类模型 为地址划分所属的兴趣

www.geoscene.cn
点类别,或判断地址所

属的某级行政区划,如

“西坝河南路 1 号”属

使用训练好的模型实现地 于“朝阳区”,也就是
地址单分类
址单分类 为单个地址打上单个类

别标签,此类问题可以

抽象为地址单分类任务

来解决。

地址补全纠错模型训 适用于应对中文地址中
训练地址补全纠错模型
练 缺失行政区划、结构冗

地址规范化 余、错别字描述等不规
使用训练好的模型实现地
地址补全纠错 范的情况,目标是实现
址补全纠错推理
地址文本的标准化。

www.geoscene.cn
工具示例:地址抽取模型训练工具

工具示例:地址抽取推理工具

地址治理工具集并不局限于地址文本的治理,可以理解为是自然语言

处理的通用工具,因此也可用于其他领域(如医疗、金融等)的非结构化

文本的处理,可以支撑实体抽取、文本分类以及文本序列转换等任务。

2.1.2 地理编码工具集

地理编码工具集针对标准化的地址数据,为地址入库与管理、构建地

理编码服务提供工具。

www.geoscene.cn
表 2. 地理编码工具集概览
工具名 描述

创建数据库连接文 创建 Elasticsearch 数据库连接文件(.es),保存数据库连接信息,便于用作其

件 他地理编码工具的输入。

地址入库 将地址数据导入到 Elasticsearch 数据库中形成地址库。

地址追加 追加新的地址数据到已有地址库中。

地址删除 基于指定地址文件对地址库中的数据进行删除。

创建地址服务定义 设置和保存地址服务定义文件。

发布地理编码服务 基于服务定义文件发布地理编码服务。

发布地理编码服务 直接基于地址库数据发布地理编码服务。

(无需服务定义)

导出批量地理编码 基于地理编码服务完成批量地址匹配,并将结果导出为要素类。

结果

工具示例:地址入库工具

www.geoscene.cn
工具示例:地理编码服务发布工具

2.2 地理编码服务引擎

地 理 编 码 服 务 引 擎 目 前 集 成 在 GeoScene Innovator Server(GeoScene

Enterprise 跨平台版)中,提供地理编码服务的发布与服务接口的访问。通

过调用 REST API 可以发布地理编码服务,服务中提供多个功能接口,支

持单个或批量地址的查询、定位等操作。

www.geoscene.cn
地理编码服务发布示例

服务访问页面及功能接口示例

功能名称 接口名 用途

www.geoscene.cn
单个地理编码 Find Address 该接口提供单个地址的匹配和定位,返回匹配地址和空间坐标信

Candidates 息。

逆地理编码 Reverse 该接口将输入的坐标信息进行匹配,返回地址文本信息。

Geocode

批量地理编码 Geocode 该接口提供批量地址的匹配和定位,批量返回匹配结果,包括空

Addresses Addresses 间坐标和属性信息

地址输入提示 Suggest 该接口提供地址输入建议,可用于输入过程中的文本自动补全。

www.geoscene.cn
www.geoscene.cn
Find Address Candidates 接口参数、返回结果使用示例

www.geoscene.cn
Reverse Geocode 接口参数、返回结果示例

www.geoscene.cn
Geocode Addresses 接口参数、返回结果示例

www.geoscene.cn
Suggest 接口参数、返回结果示例

3 GeoScene 地理编码服务器核心能力

3.1 辅助地址治理

中文地址中普遍存在标准不统一、地域特点明显、描述多样等问题,

导 致 中 文 地 址 的 匹 配 效 果 不 佳 , 针 对 这 些 问 题 , GeoScene Geocoding

Server 提 供 了 地 址 治 理 工 具 , 借 助 深 度 学 习 手 段 — 实 体 识 别

( EntityRecognizer ) 、 文 本 分 类 ( TextClassifier ) 、 序 列 到 序 列

(SequenceToSequence)等技术,采用 Bert-base-Chinese 等成熟的骨干网

络,实现地址抽取、地址分类、地址补全纠正、地址结构化等模型的训练

www.geoscene.cn
和推理工具,为地址标准化治理提供智能化手段。

从非结构化文本中抽取地址

www.geoscene.cn
基于深度学习治理工具实现地址异常分类

基于深度学习治理工具实现地址补全纠正

www.geoscene.cn
3.2 地址入库与管理

在 地 址 库 管 理 和 维 护 方 面 , GeoScene 地 理 编 码 产 品 提 供 基 于

ElasticSearch 的地址入库工具,以及针对地址库更新维护需求的地址追加 、

地址删除等工具。ElasticSearch 支持与中文分词技术进行集成,可以在地

址入库的过程中同步完成地址文本的分词,且其具有分布式特性,便于横

向扩展,可以支撑海量数据的快速导入。

入库地址示例

3.3 地址查询匹配

地址数据入库完成后,支持将其发布为地理编码服务,对外提供统一

www.geoscene.cn
的服务功能接口。服务功能接口的核心能力是从构建完成的 ElasticSearch

地址库中进行高效的检索匹配,得到所需地址描述及空间位置数据,具体

提供单个地理编码、批量地理编码、地址输入建议、逆地理编码等功能,

全面赋能业务系统中的空间地址应用。

地址查询赋能业务系统集成

4 GeoScene 地理编码服务器部署架构

产品部署包括 3 个部分:

www.geoscene.cn
① 提供桌面端工具箱部署包:独立安装,完成后在 GeoScene Pro 地理

处理工具中增加智能地址应用工具箱;

② 部 署 数 据 库 : 产 品 中 采 用 的 数 据 库 为 Elasticsearch , 版 本 为

7.10.0,完成后用于支撑地址的存储;

③ 部署 GeoScene Enterprise 跨平台版,完成后用于支持服务发布和服

务能力调用。

5 GeoScene 地理编码服务器许可配置

产品名称 版本要求 功能模块 许可要求


地理编码工具集
GeoScene Pro 3.1 基础版/标准版/高级版
地址治理工具集
GeoScene Enterprise 跨 服务发布
3.1 需要服务器许可
平台版 服务调用

www.geoscene.cn
6 适用领域和产品特色

GeoScene 地理编码服务器产品适用于有地址数据治理、管理和查询匹

配等需求的用户,前提是用户须拥有自己的地名地址数据。

1)有地址数据治理需求的用户

很多城市部门机构都存有海量与地址相关的信息,但由于地址规划落

后于城市建设,地址标准不统一、中文地址地域特点明显、表达多样等多

种因素,导致中文地址无法被有效利用,这种情况下则需要进行地址标准

化治理,GeoScene 地理编码软件可以提供相关的地址治理工具,形成地址

治理模型,帮助用户将非标准地址转换为标准地址,使得地址数据更好地

为业务提供支持。

2)有地址库建设、管理和应用需求的用户

在公安、住建、自然资源和规划等领域通常存在比较规范的地名地址

数据,以地址数据为纽带,实现地理资源等的共享互通,也是一个重要的

需求。GeoScene 地理编码软件可以将标准地址数据以地址库形式高效地管

www.geoscene.cn
理起来,同时能够提供基于地址库的地址查询匹配能力,从而进一步满足

数据共享、定位上图、分析挖掘等功能。

该产品可广泛用于各行业领域,包括但不限于自然资源、国土、规划

环保、交通、智慧城市、水利等。

产品特色:

• 融合自然语言处理、深度学习等技术,提供智能治理工具,提供了

10 余种 AI 治理模型,可灵活应对用户现存地址数据较复杂的情况;

• 基于 Elasticsearch 构建地址库,高效且便于分布式扩展;

• 提供完整的地址库建设和管理维护工具;

• 服务功能全面,支持单个/批量地址匹配、逆理编码等;

• 地理编码服务可与 Enterprise 平台无缝集成,进而支撑整个云平台中

的地址搜索、批量地理编码等功能。

www.geoscene.cn

You might also like