数据库案例研究

数据库是现代信息管理的重要工具，它可以帮助企业有效地存储、管理和分析大量
的数据。在当今竞争激烈的商业环境中，拥有一个高效的数据库系统是保持竞争优
势的关键。为了帮助您更好地了解数据库的作用和价值，我们为您提供了一些数据
库案例研究，展示了不同企业如何利用数据库来提高业务效率和创造价值。
Case Study 1：电子商务公司
一家电子商务公司拥有大量的客户信息和销售数据，但是由于数据存储和管理不
规范，导致数据分析和决策缺乏依据。为了解决这一问题，他们采用了一个强大的数
据库系统，将所有数据集中存储，并建立了数据仓库和数据挖掘系统。通过对数据的
分析，他们发现了客户的购买习惯和偏好，从而调整了产品推荐和促销策略，大大提
高了销售额。
Case Study 2：医疗机构
一家医疗机构面临着大量的病历和患者信息的管理问题。为了提高医疗服务质量和
效率，他们建立了一个综合的数据库系统，包括患者信息、病历记录、医疗费用等。通
过这个系统，医生可以快速查找患者的病历和治疗方案，提高了诊断准确性和治疗
效率。同时，医疗机构也可以通过数据分析来优化资源配置和医疗服务流程，提升整
体运营效率。
为什么选择HelpWriting.net？
如果您也想拥有一个高效的数据库系统，我们强烈推荐您选择HelpWriting.net。这是一
个专业的数据库服务平台，拥有丰富的经验和专业的团队，可以为您提供定制化的
数据库解决方案。无论您是小型企业还是大型机构，我们都能为您提供最适合的数
据库服务，帮助您提升业务效率和价值创造。
不要再犹豫了，立即联系我们的客服团队，让我们一起开启数据库的无限可能！
得到数据集后删除不相关、弱相关或冗余属性，如会员卡号、性别等，可以得到
与RMF模型相关的5个属性分别是：C（平均折扣率较高、仓位等级较高）、F（乘坐次数
）、M （总里程），R（最近乘坐航班）低、L（入会时长），我们根据属性更够对客户群进行
分类，鉴别出重要挽留客户、重要保持客户、低价值客户等。一般大家选型基于不同
的需求看的重点不一样，我想可能会对可靠性、成本性能、功能各个方面进行权衡。
图，形式上是节点 (vertex，或者 node) 和边 (edge) 的集合。在一张图中，一个节点代表
一个实体，例如某个人，某个城市，某家公司等等。边，就是关联这些节点的关系
(relation) ，例如“ 王健林”是“王思聪”的父亲，“我”生活在“上海” 。我们在这篇文章中探
讨了知识图谱，特别是图数据库 NebulaGraph，是如何结合 LlamaIndex 和 GPT-3.5
为 Philadelphia Phillies 队构建了一个 RAG。此外，我们还探讨了 7 种查询引擎，研究了
它们的内部工作，并观察了它们对三个问题的回答。我们比较了每个查询引擎的优
点和缺点，以便更好地理解了每个查询引擎设计的用例。 2、并发：社区版只能部署成
单实例，不能做集群。而企业版可以部署成高可用集群或因果集群，从而可以解决高
并发量的问题；这个例子是关于 IT 系统的。我相信现在大多数的公司都是有一个庞大
的数仓，几万张甚至几百万张的表，表与表之间又有比较强的依赖关系。例如：一张
表或者某几张表取当中几个字段，通过一个 job 清洗，生成下一张表。某一天 DBA 或
者某个业务人员发现有一个数据不太对，想知道哪个环节出错了，一层一层往上查，
上百层的依赖，用图的方式关联就可以很快的查到哪个地方更有可能出错。这也是
我们和微众银行合作的，他们现在正在使用的东西。这个是美团的例子，把所有的调
用关系写到图谱里，大概是百万级别的调用关系。比如说运维想知道过去 7 天可用率
低于 4 个 9 的链路有哪些，可以非常快速地识别出来，深度可以是 10 层也可以 100 层。
图结构在工业界使用的时候还会加上一个概念就是**属性。**比如，中间的这个人（点
）可以有他的身份证、性别、年龄属性，关系就是边上也可以有一些属性，比如说投资
某家公司的投资金额、投资的比例、投资的时间等等，都可以构成这个投资关系的
属性。此外，图数据库产品还广泛用在地理空间和物流应用，路由计算，电商和社交
类产品防机器人作弊，网络和数据中心管理，授权和访问控制等领域。什么是临界
事务，临界事务就是在宕机那个时间点主库正在提交的事务，这个事务可能已经
提交，可能已经fsync到磁盘，但是确没有同步到从库中去，半同步复制对于临界事务是没
法保证的，如下图是myql5.7无损复制一次事务commit流程（udb基于次复制技术做了优
化）：先来介绍一下什么是图和图数据库，所谓的图和平常认知的图片其实不是同一
个概念，图（Graph）在计算机科学里面是一种数据结构，这种数据结构有三个比较主要
的概念：点、边和属性。「Why-What-How」在讲解概念和执行上是个不错的思维模型，本
文依例按此框架来拆分「数据分析」。有人曾做过一个测试：在一个包含100w人，每人
约有50个朋友的社交网络中找到最大深度为5的朋友的朋友。下图为图数据库Neo4J和
关系型数据库在寻找扩展朋友时的性能对比。 http://www.doc88.com/p-187788246565.html
作为大多数图数据库性能测试标配的 LDBC SNB 它是如何保障不同系统环境之间的测
评比较公平且基准测试结果可重复的呢？本文从数据和Schema 生成入手同你讲解它
的原理。在业务逻辑复杂、技术栈不甚了解的情况下，如何在有限的时间完成对数据
库的重构迁移工作？技术方案该如何拟定，灰度计划怎么拟定，项目排期如何规划…
本文给你一个通用的解决思路，让你更好地完成数据库重构工作。这个过程如上图
所示。但图五这种情况比较特殊，即MASTER-B宕机的话怎么办呢？首先可以确定的是
我们的所有Write请求都不会受到任何影响，而且所有的Read请求也都能够正常访问；
但所有Slave的复制都会中断，Slave上面的数据会开始出现滞后的现象。这时候我们需
要做的就是将所有的Slave进行CHANGE MASTER TO操作，改为从Master A进行复制。由
于所有Slave的复制都不可能超前最初的数据源，所以可以根据Slave上面的Relay Log中
的时间戳信息与Master A中的时间戳信息进行对照，来找到准确的复制起始点，从而避
免造成数据的丢失。 Nebula Graph 是一个开源的产品，源代码是开放在 GitHub 上的。虽
然产品的研发时间不长，从 2018 年 10 月开始第一行代码，但是整个项目很活跃。 LLM
作为 2023 年技术圈的一大热点，Graph + RAG 如何更好地实践？让大家更好地了
解图、知识图谱、大模型这一新的三元组呢？数据库通常会内置支持常用的数据
类型，但特征处理又要用到 Embedding、Binary 类型，那么，如何在已有的数据类型中增
加新的数据类型呢？数据库服务和很多工业服务在高可用技术方案是相通的，为了
实现高可用首先实现服务的”冗余”，即服务的集群化，如果服务有冗余备份，宕机后
还有其它备份服务(热备和冷备)可以顶上，所以实现数据库服务的”冗余”也是高可用
数据库的核心准则；而有了” 冗余”备份后还不够，如果每次宕机都需要人工恢复切换
至备份服务，恢复时间得不到保证，同时人为的故障恢复过程中可能会引入新的风
险(人为事故) ，从而降低了服务的可用性，因此必须还具备”自动故障转移”功能。而
数据库服务相比于其它系统的高可用，在以上两个关键技术点的实现上会更加的
困难，因为传统RDMS 对数据和事务的持久性和稳定性是要求非高的，从也提高了对
冗余数据的一致性的要求和实现难度。在左边的这个例子里，有些的黑产团伙，他们
控制的账号会登录一些设备（手机），这些设备和 Wi-Fi 有关联关系。通过这样的账号-
设备-WiFi 关联关系可以识别出来这些团伙。这些团伙被识别出来后，如果团伙相关的
人来贷款或者说是来申请授信时，在风控环节会先识别出来。其实，两者属于同一个
家族（广义线性模型），但它们面向的因变量类型不同，逻辑回归的因变量是分类变
量（男女、职业…），线性回归的因变量是连续型数字变量（如1000人的工资，单位元）。
从图中可以发现，当我们需要寻找朋友的朋友（深度为 2）时，关系型数据库（RDBMS）
与 Neo4j 性能差距并不明显；深度为 4 时，关系型数据库需要近半个小时才能返回结
果；当深度到达 5 时，关系型数据库已无法返回结果。从中我们可以很容易看出，对
于图数据库来说，数据量越大，查询需要涉及的关系越复杂，图数据库的性能优势
越大。
这个是美团的例子，把所有的调用关系写到图谱里，大概是百万级别的调用关系。比
如说运维想知道过去 7 天可用率低于 4 个 9 的链路有哪些，可以非常快速地识别
出来，深度可以是 10 层也可以 100 层。 RETURN b,c 系统监测到您的网络环境存在异
常风险，为保证您的正常访问，请输入验证码进行验证。我们在这篇文章中探讨了知
识图谱，特别是图数据库 NebulaGraph，是如何结合 LlamaIndex 和 GPT-3.5 为 Philadelphia
Phillies 队构建了一个 RAG。此外，我们还探讨了 7 种查询引擎，研究了它们的内部
工作，并观察了它们对三个问题的回答。我们比较了每个查询引擎的优点和缺点，以
便更好地理解了每个查询引擎设计的用例。数据库通常会内置支持常用的数据
类型，但特征处理又要用到 Embedding、Binary 类型，那么，如何在已有的数据类型中增
加新的数据类型呢？通过以上分析，无损复制模式下只有在阶段4发生宕机会导致
恢复后双主数据不一致，因为当在此阶段发生宕机，该事务并没有发送至从库，但是
主库已提交至Binlog和Redolog，如果此时业务切至从库，主库恢复后会继续将事
务commit并同步到从库，但是由于从库上已经有了新事务，很可能会和此事务产生冲
突（如主键冲突），从而导致双主数据不一致；为了解决此宕机时临界事务问题，我们
通过内核层面在主库重启recovery阶段作了如下调整：有选择性的commit并复制到从库
部分事务，回滚掉没有同步到原从库的事务及Truncate掉binlog中相应的event，整个过程
如下图：云数据库HBase是低成本、高扩展、云智能的大数据NoSQL，兼容标准HBase访
问协议，提供低成本存储、高扩展吞吐、智能数据处理等核心能力，是为淘宝推荐、花
呗风控、广告投放、监控大屏、菜鸟物流轨迹、支付宝账单、手淘消息等众多阿里巴巴
核心服务提供支撑的数据库，具备PB规模、高并发、秒级伸缩、毫秒响应、跨机房高可
用、全托管、全球分布等企业能力。在业务逻辑复杂、技术栈不甚了解的情况下，如
何在有限的时间完成对数据库的重构迁移工作？技术方案该如何拟定，灰度计划怎
么拟定，项目排期如何规划…本文给你一个通用的解决思路，让你更好地完成数据库
重构工作。 2023 年数据库回顾：向量数据库虽然大火，但没有技术壁垒；2022 年数据库
回顾：江山代有新人出，区块链数据库还是那个傻主意；2021 年数据库回顾：性能之争
烽烟起，不如低调搞大钱… 在左边的这个例子里，有些的黑产团伙，他们控制的账号
会登录一些设备（手机），这些设备和 Wi-Fi 有关联关系。通过这样的账号- 设备-WiFi 关
联关系可以识别出来这些团伙。这些团伙被识别出来后，如果团伙相关的人来贷款或
者说是来申请授信时，在风控环节会先识别出来。这个是和美团合作的项目，本身其
实是有两方面，一方面是和知识图谱相关，一方面是和深度学习相关。目前来说大多
数公司的推荐系统都有基于深度学习的模型。那么会存在一个问题：这个推荐出来的
内容可解释性差。简单来说，用户不知道为什么产生这样的列表。因此，美团结合图
谱做了一些应用，把所有的菜、地点、人、人与人之间的关系还有这些东西组成大
的网，当深度学习模型算出推荐列表之后，取用户和商家之间所有可能的关系，取出
一条路径或者多条路径的，在多条路径之间做一些加权或者说计算一些路径规则分，
呈现给用户看上去更可理解的理由。比如，这里挺有意思的理由，叫“在北京喜欢北
京菜的山东老乡都说这家店很赞” ，看到这个理由的时候，你会觉得这个推荐略微
合理。当然类似的方法也可以用于像问答机器人这样的 KBQA 的系统。在整体上，从
v3.3.0 到 v3.6.0，NebulaGraph 的稳定性有了明显的提升；而最新的发行版 v3.6.0 版本，在
性能上，针对图上常用的路径查询、多跳查询上，均有不同程度的性能提升，最高提
升了 6 倍。通过以上问题及UDB相应解决方案的分析，大家可以看出Proxy在整个架构
中扮演着极其重要的角色，不仅负责数据转发，同时为数据一致性和可用性提高保
障；因此大家一定会问如果Proxy 宕机怎么办，为了解决Proxy高可用问题，UDB这边
对Proxy模块也采用了一主一备模式，如下图： NebulaGraph is nothing without you ｜社
区 2023 年度人物合集本文主要介绍了大数据入门到精通--hive 中创建分区及向分区
表中插入数据的操作，通过具体的内容向大家展现，希望对大家大数据的学习有所
帮助。优势：部署简单，实施方便，维护也不复杂，是MySQL天生就支持的功能。且主
备机之间切换方便，通过第三方软件或者自行编写的脚本即可自动完成主备切换。
在阶段4发生异常，由于主库进入了commit阶段，但是binlog尚未发送到从库。在主库重
启后仍然会将这个事务发送到从机。使用场景：商业领域，聚类分析常结合（RMF模型）
被用来进行客户细分；生科领域，聚类分析常被对动植物分类和基因进行分类，进行
种群研究。为了实现云数据库服务的高可用，UDB基于半同步复制技术采用双主的
热备架构，为了实现故障自动转移，并在此基础上实现了Proxy模块，该模块不仅负责
数据业务的转发，同时还监控后端DB的健康状况，双主数据一致性检测，并在后
端DB宕机情况下，在不影响数据一致性的情况下，完成数据业务切换，整个架构及容
灾过程如下图：这张图第一个例子是去年和微信合作的项目，他们现在的生产环境
单个集群是 50 台机器的规模，它的更新数据量大概是4,000 亿这样的级别。第二个是
美团的例子，美团所做的 Nebula 和其它竞争对手产品的评测。因为美团也是有一个非
常高的可用需求，基本上都是要两地多机房。第三个是BOSS 直聘的评测，从友商产品
迁移到 Nebula 之后，从最初只能做 50 亿量级的边的产品，提升到做千亿点边的项目。
下面这是贝壳做的评测，公开在今年的DTCC，也是和友商产品的的对比。右边是 360
金融做的评测，生产环境服务器数量减少到原先集群的1/3，性能是原来的 20 倍以上。
图结构在工业界使用的时候还会加上一个概念就是属性。比如，中间的这个人（点）
可以有他的身份证、性别、年龄属性，关系就是边上也可以有一些属性，比如说投资
属性。数据挖掘是对既定的“净数据”进行加工利用的过程，我们可以把它看作是烹
饪加工的过程。这个例子是关于 IT 系统的。我相信现在大多数的公司都是有一个庞大
的数仓，几万张甚至几百万张的表，表与表之间又有比较强的依赖关系。例如：一张
表或者某几张表取当中几个字段，通过一个 job 清洗，生成下一张表。某一天 DBA 或
者某个业务人员发现有一个数据不太对，想知道哪个环节出错了，一层一层往上查，
上百层的依赖，用图的方式关联就可以很快的查到哪个地方更有可能出错。这也是
我们和微众银行合作的，他们现在正在使用的东西。一个是图的表达能力更强。左边
是用表的结构方式来处理人物关系和社区关系。右边当中人的是比较重要的节点，
他在左边的表中对应的某一行，右边是用图的方式来看。通过不同的着色可以很容
易地看出来不同的社区，然后不同的社区之间通过某些特殊的节点来关联。这样远
比用表的方式直观得多，特别是在右边图里面查找中心节点比起在左边的表中查找
属性值大小要方便的多。大语言模型时代，我们有了 few-shot 和 zero-shot 的能力。借助
这些 LLM 能力，如何更便捷地实现知识图谱的知识抽取，用知识图谱来解决相关问
题。
双主多从是在上面的方案中衍生而来的一种更加合理的方案。这个方案的好处是：当
两个主服务器中任何一个挂掉时，整个架构都不用做大的调整。交付模式应用持续
集成和持续交付，构建包括代码管理，基线控制，自动构建审查，自动化测试还有环
境部署的交付流水线。通俗的说，图结构还有其他的叫法，比如：网络结构、拓扑
结构，大致上都是描述的同一种数据结构。举个例子，上面这个图是典型的图结构（
网络结构），人和公司，公司与公司都存在关联关系。这里面存在几个重要的概念，在
网络结构中一家公司、一个人可以是一个点；还有另外一个概念是边，描述的是点与
点之间的关系，对应上图中母公司和子公司之间的一个控股关系，也可以是某一个
人是另外一个公司的董事长，这样的一个身份关系。点和边基本上组成一个网络
结构。在左边的这个例子里，有些的黑产团伙，他们控制的账号会登录一些设备（手机
），这些设备和 Wi-Fi 有关联关系。通过这样的账号-设备-WiFi 关联关系可以识别出来
这些团伙。这些团伙被识别出来后，如果团伙相关的人来贷款或者说是来申请授
信时，在风控环节会先识别出来。在中间这个例子里，红色的点是已知存在风险的
账号，最中间的那个区域就是一个风险的团伙，这些节点就是被识别出来的风险
节点，它们基于 Wi-Fi 关系将其他点关联到了一起。此时，距离 ChatGPT 面世已过去半
年有余，一起来看看热度散去之后，大家都在关心什么问题。 NebulaGraph is nothing
without you ｜社区 2023 年度人物合集 nebula-br local-store 模式，快速搭建主备集群实
践本期，我们关注图数据库。图数据库，不是存储图片的数据库，而是存储节点与他
们之间关系的数据库。根据DB-Engines数据显示，图数据库是近五年来成长最快的数据
库分类。由于很早开始被Twitter，Facebook和Google在内的公司采用，图已经演变成当
今各行各业所使用的主流技术。版权所有职坐标-一站式IT培训就业服务领导者沪ICP
备13042190号-4 在目前MySQL 实现高可用的衍生产品中，知名度的和普及度比较高的
是GALERA CLUSTER和PERCONA XTRDB CLUSTER（PXC）。相关的内容本文暂不展开
讲述，感兴趣的同学可以查阅相关资料进一步了解。这两种集群的实现方式都是类
似的，如图七、图八：我们从使用图数据库的角度入手，一个完善的图数据系统至少
应该包括图存储和查询，图处理和计算，数据导入导出，可能还有可视化，对于商业
化产品还需要高可用及容灾备份。下面对主要部分进行介绍。本文档中心旨在介绍
SequoiaDB 巨杉数据库的基本概念、数据库实例创建与管理方式、数据增删改查的基本
语法、数据库集群管理的基本策略、以及性能调优和问题诊断的基本思路。 UDF 允许
用户自定义函数来扩展数据库管理系统的功能，如何实现一个数据库的 UDF 功能
呢？先从一条查询语句开始，我们来分析下它的生命周期，再… 说完了各种常用架
构的优缺点后，剩下的就是如何选择合适的架构在现实的生产环境中使用的问题。
在这方面每个人都有自己的想法和经验，具体哪个方案是最优的就见仁见智了。在
日常的工作中架构的完善并不是一蹴而就，而是一个不断演变优化完善的过程。图
结构在工业界使用的时候还会加上一个概念就是**属性。**比如，中间的这个人（点）
可以有他的身份证、性别、年龄属性，关系就是边上也可以有一些属性，比如说投资
属性。在风控场景下，通过大数据分析和数据关系挖掘可以找到之前无法联系上的
客户，同时提高客户还款率； Nebula Graph 是一个开源的产品，源代码是开放在 GitHub
上的。虽然产品的研发时间不长，从 2018 年 10 月开始第一行代码，但是整个项目很
活跃。如上图所示，主库在恢复后，会向从库或者proxy 询问从本库同步过去的最后一
条事务的Binlog位置，并以此为基础回滚掉该Binlog位置之后的临界事务。这个是和美
团合作的项目，本身其实是有两方面，一方面是和知识图谱相关，一方面是和深度学
习相关。目前来说大多数公司的推荐系统都有基于深度学习的模型。那么会存在一
个问题：这个推荐出来的内容可解释性差。简单来说，用户不知道为什么产生这样的
列表。因此，美团结合图谱做了一些应用，把所有的菜、地点、人、人与人之间的关系
还有这些东西组成大的网，当深度学习模型算出推荐列表之后，取用户和商家之间
所有可能的关系，取出一条路径或者多条路径的，在多条路径之间做一些加权或者说
计算一些路径规则分，呈现给用户看上去更可理解的理由。比如，这里挺有意思的
理由，叫“ 在北京喜欢北京菜的山东老乡都说这家店很赞”，看到这个理由的时候，你
会觉得这个推荐略微合理。当然类似的方法也可以用于像问答机器人这样的 KBQA
的系统。采用很友好的 Apache2.0 协议，支持对接可视化组件如 Cytoscape，Gephi plugin
for Apache TinkerPop，Graphexp，KeyLines by Cambridge Intelligence，Linkurious 等。最后一
个原因是关于流行趋势。在国际上，用于统计各种数据库类型流行情况的 DB-Engines
上，可以看到图数据库的趋势。上图这是这个月最新的数据，绿色是图这种数据库类
型流行的趋势，最下面红色的线是关系型数据库的流行趋势。可以看到，图数据库在
过去 8 年内保持了比较好的增速，增长了 11 倍。最后一个原因是关于流行趋势。在国
际上，用于统计各种数据库类型流行情况的 DB-Engines 上，可以看到图数据库的趋势。
上图这是这个月最新的数据，绿色是图这种数据库类型流行的趋势，最下面红色的线
是关系型数据库的流行趋势。可以看到，图数据库在过去 8 年内保持了比较好的
增速，增长了 11 倍。
我们从使用图数据库的角度入手，一个完善的图数据系统至少应该包括图存储和
查询，图处理和计算，数据导入导出，可能还有可视化，对于商业化产品还需要高可
用及容灾备份。下面对主要部分进行介绍。一般大家选型基于不同的需求看的重点
不一样，我想可能会对可靠性、成本性能、功能各个方面进行权衡。在业务逻辑
复杂、技术栈不甚了解的情况下，如何在有限的时间完成对数据库的重构迁移工
作？技术方案该如何拟定，灰度计划怎么拟定，项目排期如何规划…本文给你一个通
用的解决思路，让你更好地完成数据库重构工作。一般来说，图在安全场景里面的应
用会比较多，上面这种图的中间部分是和 360金融合作的一个项目，主要用于识别诈
骗团伙。目前使用的图模型有3种，分别是属性图（Property Graph）、资源描述框
架（RDF ，Resource Description Framework）和超图（HyperGraph）。下面将先介绍Mysql领域
几个典型的高可用解决方案，分析其中的关键技术及适用场景，并在此基础上介绍
和分享UDB的高可用方案。就目前而言，利用MYSQL CLUSTER实现整体的高可用（
即NDB CLUSTER）的方案在国内的公司并没有很普及。NDB CLUSTER节点实际上就是
一个多节点的MySQL服务器，但是并不包含数据，所以任何机器只要安装了就可以使
用。当集群中某一个sql节点crash之后，因为节点不存具体的数据，所以数据不会丢失。
如图六：做过DBA或者是运维的同学都应该知道，任何设备或服务，存在单点就会带
来巨大风险，因为这台物理机一旦宕机或服务模块crash，若在短时间内无法找到替
换的设备，势必会影响整个应用系统。因而如何保证不出现单点就是我们的重要
工作，使用MySQL 高可用方案可以很好地解决这个问题，一般有以下几种： 5、性能：社
区版最多用到 4 个内核，而企业能用到全部内核，且对性能做了精心的优化；这是一个创
建于 1175 天前的主题，其中的信息可能已经有所发展或是发生改变。云计算号称互联
网公司的水和电，高可用犹如云服务商的生命线，而云数据库作为该领域的一项重
要服务更是接受着不同维度的考验，因为云端成千上万个用户数据库实例所面临的
问题会更加五花八门。上面的例子主要是识别有风险的人，在这个例子里主要讲下
BOSS 直聘的公司风控。在上图中显示了 BOSS 直聘的一些公司，有些公司是很早入
驻 BOSS 直聘平台，有些是新注册的。当中存在部分公司不一定可信，需要对这些公司
作区分给一定信用分。比如说，公司信用等级好的对它的运营策略会放松点，信用等
级差的公司对它的运营审核严格些。因为有不停的新的公司在注册，可以通过不同
的运营方式得到这些公司的不同信息，上图这里用的是同这些公司有关联关系的关
系公司。举个例子，我新注册一家公司的时候，这家公司还是会和其它公司有一些互
动和关联，例如：该公司的分公司，或是公司同失信被执行人之间有关联关系，通过
一轮轮的迭代算出风险评级和信用评级，为新出来的公司提供一个启动初始信
用分，这个方法类似于网页权重中使用的 Page Rank 。每天晚上 BOSS 直聘会跑几百万
社区的权重。本期，笔者通过一个“烹饪和菜系”的例子，带着大家了解了数据挖掘的
常用模型，相信大家有所收获！在阶段1,2,3发生了crash，由于主库重启后事务会
回滚，binlog未发送到从库，所以不会发生异常。 Happy 1024 Day ｜ Just Be Happy，开心
地重新认识下当程序员的自己 {{ postmeta.bookmark }} 劣势：如果Master 主机硬件故障
且无法恢复，则可能造成部分未传送到Slave端的数据丢失。既然是 Nebula Graph 是开
源代码的，那么所有人可以下载和评测。所有的用户都可以根据自己的业务场景做
的评测，会更贴近自己的实际场景。而不像某些供应商自己提供的评测，用户难验证
这样的评测里面隐藏了多少坑。 360 金融通过用图的方法大概识别了接近 100 万个有
风险的团伙，所以这些团伙哪怕换一个马甲或者其他设备也能第一时间把他们识别
出来，进行屏蔽。右边案例图是一些受害人，蓝色的点是诈骗团伙，诈骗团伙还是有
挺明显的特征存在的。 2021/05/11 11:26分享科技资讯，专注全球最新高科技资讯来自
江西 1、容量：社区版最多支持320 亿个节点、320 亿个关系和 640 亿个属性，而企业版
没有这个限制；当然除了该双主技术架构外，为了保障服务的高可用，UDB在运维监
控等层面也做了很多工作，通过对从硬件、操作系统、数据库以及网络等各个层面的
不间断监控，从而最大程度的及时捕获和恢复数据库服务；同时UDB通过自研的大型
数据库备份系统，能够应对各种级别的宕机故障后的数据恢复，从而保障了用户数据
的安全可靠性，这里不做过多赘述，有兴趣的同学可以参考《从炉石传说数据库故障
看云数据备份策略》这篇文章。如何给图数据库 NebulaGraph 新增一种数据类型，
以 Binary 为例综上，我们可以得到Y（工资）=0.0379X（各项贷款余额）-0.8295。「UCloud
机构号」将独家分享云计算领域的技术洞见、行业资讯以及一切你想知道的相关
讯息。有人曾做过一个测试：在一个包含100w人，每人约有50个朋友的社交网络中找
到最大深度为5的朋友的朋友。下图为图数据库Neo4J和关系型数据库在寻找扩展朋
友时的性能对比。个推在数据库方面也经历了从单点到主从再到主从+高可用的
过程，同时也经历了从单一的MySQL+redis到MySQL+redis+es，最后到现
在MySQL+redis+es+codis等等的演变。每一次的演变都是为了解决生产环境下的实际问
题和痛点。单从MySQL 来说任何一个架构都无法解决所有的问题（痛点），都需要根
据实际的情况选择一个合适架构。MySQL 集群实现的方案非常灵活多变，对于MySQL
工作者来说如何选择一个合适的架构也是一种挑战，同时也是我们不断钻研和学习
MySQL的动力。双主多从是在上面的方案中衍生而来的一种更加合理的方案。这个
方案的好处是：当两个主服务器中任何一个挂掉时，整个架构都不用做大的调整。本
文档中心旨在介绍 SequoiaDB 巨杉数据库的基本概念、数据库实例创建与管理方式、
数据增删改查的基本语法、数据库集群管理的基本策略、以及性能调优和问题诊断
的基本思路。
左边是和运维相关的，右边是和研发相关的事。因为现在基本都是微服务化了，整个
微服务之间的调用关系其实是很庞大的。特别是一个大型集团内的RPC 调用关系，运
维自己都不一定搞得清楚全局是什么依赖情况。系统监测到您的网络环境存在异常
风险，为保证您的正常访问，请输入验证码进行验证。在使用 SequoiaDB 巨杉数据
库前，用户需要完成数据库存储引擎的安装，之后可以创建并使用关系型数据库
实例，或直接通过 API 对分布式存储引擎进行操作。第二个是对于图的遍历这种操作
来说——相当于表操作中 join。如果用 SQL 来写，大约是左边这么长，也不是算非常复
杂；但是用图的查询语言（右侧）来写的话，其实例子核心就是一句话，沿着一个点开
始沿着这样一个路径取 Person 数据。所以对于图遍历操作，图专用的查询语言要更
简洁。一般大家选型基于不同的需求看的重点不一样，我想可能会对可靠性、成本
性能、功能各个方面进行权衡。 JanusGraph（2017）基于 Titan（2012）发展而来，包含其所
有功能，采用 Tikerpop 的 Gremlin 图查询语言，有单独的后端存储，支持 Cassandra
/ HBase 等做存储，支持 Solr / ElasticSearch / Lucence 等做图索引。支持Spark GraphX
/ Giraph等图分析计算引擎及Hadoop分布式计算框架。原生支持集成了Tinkerpop 系列组
件：Gremlin 查询语言，Gremlin-Server 及 Gremlin applications。既然是 Nebula Graph 是开
源代码的，那么所有人可以下载和评测。所有的用户都可以根据自己的业务场景做
的评测，会更贴近自己的实际场景。而不像某些供应商自己提供的评测，用户难验证
这样的评测里面隐藏了多少坑。 IBM有BDWM(Banking Data Warehouse Model) 刚才说
的其实就是一些图的应用，当然其实这些应用不用图这种数据结构来处理，也是可
以的。比如在数仓用 Spark 或者写 SQL 来做也可以。但是为什么更推荐用图数据库
呢？有以下几个原因。在左边的这个例子里，有些的黑产团伙，他们控制的账号会登
录一些设备（手机），这些设备和 Wi-Fi 有关联关系。通过这样的账号-设备-WiFi 关联关
系可以识别出来这些团伙。这些团伙被识别出来后，如果团伙相关的人来贷款或者说
是来申请授信时，在风控环节会先识别出来。这个是美团的例子，把所有的调用关系
写到图谱里，大概是百万级别的调用关系。比如说运维想知道过去 7 天可用率低于 4
个 9 的链路有哪些，可以非常快速地识别出来，深度可以是 10 层也可以 100 层。本篇
介绍了不用代码，在大数据分析的学习中如何在Excel中构建线性回归模型以及如何
解释结果，希望对于大数据分析的学习有所帮助。在目前MySQL 实现高可用的衍生
产品中，知名度的和普及度比较高的是GALERA CLUSTER和PERCONA XTRDB
CLUSTER（PXC）。相关的内容本文暂不展开讲述，感兴趣的同学可以查阅相关资料进
一步了解。这两种集群的实现方式都是类似的，如图七、图八：得到数据集后删除不相
关、弱相关或冗余属性，如会员卡号、性别等，可以得到与RMF模型相关的5个属性分
别是：C（平均折扣率较高、仓位等级较高）、F（乘坐次数）、M （总里程），R（最近乘坐航
班）低、L（入会时长），我们根据属性更够对客户群进行分类，鉴别出重要挽留客户、
重要保持客户、低价值客户等。这是一个刷单的例子，其实很多公司会有运营经费，
特别是对新用户会有运营经费，但是这会招来一些羊毛党。这些专业的羊毛党技术
很好，他们来薅羊毛的速度比一般的消费者速度快很多，一般前期的大多数的运营
经费不是给新用户用掉而是给羊毛党薅走了，羊毛党一般就是那些人，把他们识别出
来之后，就可以降低运营经费被薅走的概率。使用图还有一个优势是更快，行业内的
经典例子就是查询的数据深度越多的时候，图数据库的优势越加明显。对于 4、 5 层深
度的查询，小时级别的时延和秒级别的时延，是两种不同的业务形态。 2023 年数据库
回顾：向量数据库虽然大火，但没有技术壁垒；2022 年数据库回顾：江山代有新人出，区
块链数据库还是那个傻主意；2021 年数据库回顾：性能之争烽烟起，不如低调搞大钱…
当然，在整个图数据库领域，产品并不是只有 Nebula Graph 一个，也有很多的其他
公司。今天早上也有其他同行在会场上，我想解释一下为什么会推荐 Nebula Graph 。劣
势：非分布式文件系统环境无法支持镜像数据同时可见，即性能和可靠性两者相互
矛盾，无法适用于对二者要求都比较苛刻的环境。维护成本高于MySQL Replication。将
系统架构拆分为应用架构和数据架构：数据架构以数据为主体7*24小时进行加工、数
据工厂的模式，处理完之后最终的数据结果直接通过中间层传给应用架构作输入；应
用架构作微服务化和容器化的改造，提升应用服务的灵活性和交付效率；某股份制
银行随着业务和需求的不断增长，在大数据的数据治理和平台建设过程中遇到了不
少困难； {{ postmeta.bookmark }} 最后一个原因是关于流行趋势。在国际上，用于统计各
种数据库类型流行情况的 DB-Engines 上，可以看到图数据库的趋势。上图这是这个月
最新的数据，绿色是图这种数据库类型流行的趋势，最下面红色的线是关系型数据库
的流行趋势。可以看到，图数据库在过去 8 年内保持了比较好的增速，增长了 11 倍。
如上图所示，主库在恢复后，会向从库或者proxy询问从本库同步过去的最后一条事
务的Binlog位置，并以此为基础回滚掉该Binlog位置之后的临界事务。这张图第一个例
子是去年和微信合作的项目，他们现在的生产环境单个集群是 50 台机器的规模，它
的更新数据量大概是4,000 亿这样的级别。第二个是美团的例子，美团所做的 Nebula 和
其它竞争对手产品的评测。因为美团也是有一个非常高的可用需求，基本上都是要
两地多机房。第三个是BOSS 直聘的评测，从友商产品迁移到 Nebula 之后，从最初只
能做 50 亿量级的边的产品，提升到做千亿点边的项目。下面这是贝壳做的评测，公
开在今年的DTCC，也是和友商产品的的对比。右边是 360 金融做的评测，生产环境服
务器数量减少到原先集群的1/3 ，性能是原来的 20 倍以上。 RETURN b,c Nebula Graph 是
一个开源的产品，源代码是开放在 GitHub 上的。虽然产品的研发时间不长，从 2018
年 10 月开始第一行代码，但是整个项目很活跃。如何实现一个数据库的 UDF？图数
据库 NebulaGraph UDF 功能背后的设计与思考
当然，实际场景中的图要比上图复杂的多的多，图数据库就是处理这种数据的工具。
而数据挖掘是有一定规则和相应模型的，这一点我们也可以通过一个类比进行理解。
上图左下角是 Nebula Graph 中文论坛的情况，在国内有大量的使用者。而Nebula Graph
本身是开源的项目，整个项目除了我们公司人员之外也有很多国内外贡献者，很多
人在使用 Nebula 之后会发现一些 bug 这样就会 file 个 issue，也有不少人会自己动手 fix
和贡献 feature，这样提升了整个研发迭代速度。当然除了该双主技术架构外，为了保
障服务的高可用，UDB在运维监控等层面也做了很多工作，通过对从硬件、操作
系统、数据库以及网络等各个层面的不间断监控，从而最大程度的及时捕获和恢复
数据库服务；同时UDB通过自研的大型数据库备份系统，能够应对各种级别的宕机故
障后的数据恢复，从而保障了用户数据的安全可靠性，这里不做过多赘述，有兴趣的
同学可以参考《从炉石传说数据库故障看云数据备份策略》这篇文章。 © 2023 深圳市法
本信息技术股份有限公司版权所有粤ICP备11012762号 3、容灾：由于企业版支持
集群，部分实例出故障不会影响整个系统正常运行；左边是和运维相关的，右边是和
研发相关的事。因为现在基本都是微服务化了，整个微服务之间的调用关系其实是
很庞大的。特别是一个大型集团内的RPC 调用关系，运维自己都不一定搞得清楚全局
是什么依赖情况。在整体上，从 v3.3.0 到 v3.6.0，NebulaGraph 的稳定性有了明显的提
升；而最新的发行版 v3.6.0 版本，在性能上，针对图上常用的路径查询、多跳查询上，均
有不同程度的性能提升，最高提升了6 倍。 5、性能：社区版最多用到4 个内核，而企业
能用到全部内核，且对性能做了精心的优化；说完了各种常用架构的优缺点后，剩下
的就是如何选择合适的架构在现实的生产环境中使用的问题。在这方面每个人都有
自己的想法和经验，具体哪个方案是最优的就见仁见智了。在日常的工作中架构的
完善并不是一蹴而就，而是一个不断演变优化完善的过程。本文是一份极度友好，你
即便只会一个开机操作、不懂任何数据库的人，也能通过学习本文查询到你想要的
图关系。在文章开始之前，先解释下为什么文章标签是 “Yes&NoSQL”。不同于传统的
关系型数据库，NoSQL 是 “not only SQL” 的缩写，特指不以 SQL 为中心的任何非关系
型数据库。比较常见的错误是，把 “NoSQL” 理解为 “NO SQL” ，所以使用 “Yes&NoSQL”
代表关系型及非关系型数据库，关注所有数据库知识。这张图第一个例子是去年和
微信合作的项目，他们现在的生产环境单个集群是 50 台机器的规模，它的更新数据
量大概是 4,000 亿这样的级别。第二个是美团的例子，美团所做的 Nebula 和其它竞争对
手产品的评测。因为美团也是有一个非常高的可用需求，基本上都是要两地多机房。
第三个是 BOSS 直聘的评测，从友商产品迁移到 Nebula 之后，从最初只能做 50 亿量级
的边的产品，提升到做千亿点边的项目。下面这是贝壳做的评测，公开在今年的
DTCC，也是和友商产品的的对比。右边是 360 金融做的评测，生产环境服务器数量减
少到原先集群的 1/3 ，性能是原来的 20 倍以上。劣势：如果Master主机硬件故障且无法
恢复，则可能造成部分未传送到Slave端的数据丢失。 Neo4j 是老牌的图数据代
表（2007）。其功能强大，性能也不错，单节点的服务器可承载上亿级的节点和关系，单
节点性能不够时也可进行分布式集群部署。 Teradata有TS-LDM(Telecom Services
Logical Data Model) 系统的运维分析可通过数据分析发现风险交易、入侵检测和探测密
码等异常。也可通过大数据技术查看网络包发现敏感交易、敏感数据进而发现风险。
{{ postmeta.bookmark }} 图查询指支持对图数据模型的增、删、改、查（CRUD ）方法，更关
注 OLTP。有的图数据库也继承了少量的图计算能力，但真正的大型系统还是需要单
独的计算框架。如何实现一个数据库的 UDF？图数据库 NebulaGraph UDF 功能背后的
设计与思考劣势：维护较为复杂，产品较新，存在部分bug，目前还不一定适用于比较
核心的线上系统。右边是所有 Nebula 的 GitHub 贡献者列表，这些是公开情况，你可以
在 GitHub 上面看到。总的来说，贡献者来源很多，并不是背后只有一家公司在研发。
虽然软件本身是开源的，但是开源软件是可以商业化的。这个在国内外也是一个比较
普遍的事情。Nebula 的源代码是开放的，所以不管是社区版也好，企业版也好，在产品
功能内核、可视化、生态方面基本上没有太大的差别。主要的差别是在服务上，社区
版如果有问题可以通过开源社区的方式来解决，按照开源协议（Apache 2.0）的约定。而
如果是企业版的话，那会提供企业版的严格的 SLA。另外，云这几年流行和增速也非
常的快，云目前是在受邀公测的阶段。大家有什么兴趣可以联系我们。图数据如何存
储图，对存储效率和查询效率都至关重要。我们称数据库表达数据的方式为图模型
（Data Model），是一种对图的建模方式。目前使用的图模型有3种，分别是属性
图（Property Graph）、资源描述框架（RDF ，Resource Description Framework）和超
图（HyperGraph）。在业务逻辑复杂、技术栈不甚了解的情况下，如何在有限的时间完成
对数据库的重构迁移工作？技术方案该如何拟定，灰度计划怎么拟定，项目排期如
何规划…本文给你一个通用的解决思路，让你更好地完成数据库重构工作。先来介
绍一下什么是图和图数据库，所谓的图和平常认知的图片其实不是同一个概念，图
（Graph）在计算机科学里面是一种数据结构，这种数据结构有三个比较主要的概念
：点、边和属性。
JanusGraph（2017）基于 Titan（2012）发展而来，包含其所有功能，采用Tikerpop 的 Gremlin
图查询语言，有单独的后端存储，支持 Cassandra / HBase 等做存储，支持 Solr
/ ElasticSearch / Lucence 等做图索引。支持Spark GraphX / Giraph等图分析计算引擎
及Hadoop分布式计算框架。原生支持集成了Tinkerpop 系列组件：Gremlin 查询
语言，Gremlin-Server 及 Gremlin applications。图数据库基准测试 LDBC SNB 系列讲
解：Schema 和数据生成的机制右边是一个辅助开发过程的小工具，对研发人员来说挺
方便的。对于一个大型的代码仓库，函数之间相互调用。比如说研发今天想改用一个
接口，但是我不知道有多少人在调用这个接口，是怎么调用的。对于测试来说，也不
知道要测试哪些边界场景。那可以把这些关系都放到图谱里面去，这样大约是一个
千万级别的调用关系，把整个调用关系全抽出来之后，那研发说我想看一眼这个接口
被多少人调用了，调用方是怎么使用的；QA 要做测试的时候，可能有哪些边界场景
受到影响也可以很快地知道。从图中可以发现，当我们需要寻找朋友的朋友（深度为
2）时，关系型数据库（RDBMS ）与 Neo4j 性能差距并不明显；深度为 4 时，关系型数据库
需要近半个小时才能返回结果；当深度到达 5 时，关系型数据库已无法返回结果。从
中我们可以很容易看出，对于图数据库来说，数据量越大，查询需要涉及的关系越
复杂，图数据库的性能优势越大。 3、容灾：由于企业版支持集群，部分实例出故障不
会影响整个系统正常运行；特点：模型的重要参考主题，一般情况下源系统有
数据，但定义和使用方法与FS-LDM不匹配。优势：软件功能强大，数据在底层块设备
级别跨物理主机镜像，且可根据性能和可靠性要求配置不同级别的同步。IO操作保持
顺序，可满足数据库对数据一致性的苛刻要求。策略：按照FS-LDM的框架进行设
计，同时补充银行的个性数据元素。其实，两者属于同一个家族（广义线性模型），但
它们面向的因变量类型不同，逻辑回归的因变量是分类变量（男女、职业…），线性回
归的因变量是连续型数字变量（如1000人的工资，单位元）。举个例子，上面这个图是
典型的图结构（网络结构），人和公司，公司与公司都存在关联关系。这里面存在几个
重要的概念，在网络结构中一家公司、一个人可以是一个点；还有另外一个概念
是边，描述的是点与点之间的关系，对应上图中母公司和子公司之间的一个控股
关系，也可以是某一个人是另外一个公司的董事长，这样的一个身份关系。点和边基
本上组成一个网络结构。当然，在整个图数据库领域，产品并不是只有 Nebula Graph
一个，也有很多的其他公司。今天早上也有其他同行在会场上，我想解释一下为什么
会推荐 Nebula Graph。在阶段5,6,7发生异常，由于从库已经收到了binlog，只要主库重启
后即可达到主库和备库数据一致的效果。当然除了该双主技术架构外，为了保障服
务的高可用，UDB在运维监控等层面也做了很多工作，通过对从硬件、操作系统、数
据库以及网络等各个层面的不间断监控，从而最大程度的及时捕获和恢复数据库服
务；同时UDB通过自研的大型数据库备份系统，能够应对各种级别的宕机故障后的数
据恢复，从而保障了用户数据的安全可靠性，这里不做过多赘述，有兴趣的同学可以
参考《从炉石传说数据库故障看云数据备份策略》这篇文章。某股份制银行随着业务
和需求的不断增长，在大数据的数据治理和平台建设过程中遇到了不少困难；管理
方便。数据库中可以加入流程管理，将审批流程纳入进去。例如：平常使用的合同或
订单审批，需要一个或多个人签字盖章完成，还可能需要拿着单据走过多个部门，效
率低下。而数据库中可以加入数字签名和数字签章，实现在线审批，并可以自定义审
批流程，即先给甲签字，再给乙签字，再给丙盖章。并使得远程审批得以实现。即审批
人或者总经理不需要在办公室，只要在能上网的地方就可以审批，甚至可以使用手
机来审批。既然是 Nebula Graph 是开源代码的，那么所有人可以下载和评测。所有的用
户都可以根据自己的业务场景做的评测，会更贴近自己的实际场景。而不像某些供
应商自己提供的评测，用户难验证这样的评测里面隐藏了多少坑。 CSDN-Ada助手: 恭
喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics
/617115749。 Neo4j有自己的后端存储，不必如同 JanusGraph 等一样依赖另外的数据库
存储。Neo4j 在每个节点中存储了每个边的指针，因而遍历时效率相当高。Neo4j 分为社
区版和企业版，社区版功能受限，另外其提供可视化的客户端感觉很不错。将系统架
构拆分为应用架构和数据架构：数据架构以数据为主体7*24小时进行加工、数据工厂
的模式，处理完之后最终的数据结果直接通过中间层传给应用架构作输入；应用架构
作微服务化和容器化的改造，提升应用服务的灵活性和交付效率；既然是 Nebula Graph
是开源代码的，那么所有人可以下载和评测。所有的用户都可以根据自己的业务场
景做的评测，会更贴近自己的实际场景。而不像某些供应商自己提供的评测，用户难
验证这样的评测里面隐藏了多少坑。在整体上，从 v3.3.0 到 v3.6.0，NebulaGraph 的稳定
性有了明显的提升；而最新的发行版 v3.6.0 版本，在性能上，针对图上常用的路径
查询、多跳查询上，均有不同程度的性能提升，最高提升了6 倍。在阶段4发生异常，
由于主库进入了commit阶段，但是binlog尚未发送到从库。在主库重启后仍然会将这个
事务发送到从机。

数据库案例研究

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

数据库案例研究

Uploaded by

Copyright:

Available Formats

数据库是现代信息管理的重要工具，它可以帮助企业有效地存储、管理和分析大量

You might also like