金融行业数据复杂 成本高 难获取 看路孚特如何打破困局

  • 时间:
  • 浏览:1
  • 来源:彩神苹果app_彩神ios下载

嘉宾丨路孚特 RDP 研发总监董玉栋,路孚特高级研发经理赵仪,路孚特企业架构总监陈强

2018 年,汤森路透金融与风险业务部门独立成为 Refinitiv(路孚特)。路孚特在汤森路透金融数据和市场知识积累之上,利用领先的技术、信息和分析方式继续为行业者提供着服务。如今路孚特推出金融数据平台。(Refinitiv Elektron Data Platform,简称 RDP),进一步发挥其在行业积累的优势。InfoQ 记者专访路孚特 RDP 研发总监董玉栋、路孚特高级研发经理赵仪、路孚特企业架构总监陈强,揭秘 RDP 的设计理念及技术亮点。

从传统的金融数据管理到现代金融数据治理,金融行业迎来巨大的转变。不可能 数据量增长形成的倒逼,以及要顺应监管机构和用户的需求,太满的金融从业机构开始意识到“数据驱动”的重要性,但全面释放数据价值的过程无须一帆风顺。

金融行业在数据治理中面临那些痛点?

路孚特企业架构总监陈强表示,在金融行业里,数据来源非常冗杂。面对不同的数据提供厂商、数据类型以及数据提供方式,企业要获取所需的金融数据并作补救分析,成本无须低。而但会 小型金融机构即便获取到数据,也没哟足够的技术能力去补救。

从原先深层来看,路孚特高级研发经理赵仪解释,数据通常受到两类人的关注:一类是数据提供商,另一类是数据消费者。对于数据提供商而言,数据的权限管理、再分类分类整理权限的机制、数据合规等始终是痛点;对于数据消费者而言,怎样才能补救数据来源不同、格式不统一、不一致等问题报告 迫在眉睫。

总体来看,金融从业机构面临的主要痛点如下:

数据来源冗杂,且在不同部门、不同业务系统以及不同领域的机构间,数据不足英文流动性和共享性。

数据标准化程度低。来自不同业务、不一并期的数据,在用途、型态、价值和质量水平等方面差异较大,愿因数据的提取、分类整理、分析和使用的难度加大。

成本问题报告 。随着用户量和数据量的增加,访问和使用数据的成本也在大幅提升。

目前金融机构大每项可利用的数据依然是传统业务产生的数据,而实物数据源拓展不足英文,不足英文更高层面的统筹协调来支持全面的数据分析和使用。

基于以上愿因,路孚特推出了自主研发的金融数据平台 RDP。该平台应用统一的存储层能力汇集来自全球的海量金融数据,通过完正的清洗、分析和增值补救流程后,集中分类分类整理给用户。

RDP 研发总监董玉栋提到,路孚特不可能 与全球的证券交易所、期货交易所等机构建立了公司企业合作 关系,从数据生产端获取到一手数据,面向全球发布到数据消费的一端。简单来讲,却说“收之全球,发之全球”。

都才能说,RDP 要花费另2个多多多全球金融行业数据的统筹协调中心,其目的是方便金融从业者获取更全面的行业数据,一并尽不可能 减少用户成本,增加数据价值。

RDP 怎样才能帮助金融从业者以较低的成本访问和使用数据?

据了解,企业在数据传输过程中,除了从上游不同业务数据库中实时、定时传输到下游系统之外,还需要从实物公司企业合作 商、供应商中获取业务数据。RDP 具有大数据级别的行业数据,没哟,它是怎样才能帮助金融从业者以较低的成本便捷地访问和使用那些数据?

RDP 的补救思路是:将其核心数据存储在 AWS 上,为用户提供基于元数据驱动的统一的 API 接口。RDP 的数据和 API 接口都才能通过所有主流的公有云产品、私有云设施,以及企业自有数据中心访问。

从用户深层来看,基于元数据的访问大大冗杂了客户对数据的使用。但会 ,数据访问越便捷愿因分析开发难度越高。董玉栋也提到,统一的 API 眼前 ,需要理解客户不之类型的请求,并才能高效执行,但云原生的 API 网关无须能完正实现你什儿 型态。

API 网关发生客户端与各个微服务之间,担任着反向代理的角色,负责将不同的请求路由到相对应的微服务中去。API 网关都才能补救客户端需求和每个微服务暴露的细粒度 API 不匹配、每项服务使用的协议非 Web 友好协议等问题报告 。

为了提升 API 性能,满足用户不之类型的访问请求,路孚特自主研发了 API 网关以及用户数据权限管理系统。AWS 中的 API 网关会注册其所有的 RDP API,包括实物消费的 API 和面向客户的 API。用户请求到达后来,API 网关会自动验证用户的权限,并保证后续的合法数据请求快速递交给相应的服务,而超出服务范围的请求会自动拒绝。董玉栋表示,所有在 RDP 上的产品设计需要从 API 定义开始,这有有助于于实现把客户需求放满第一位的目标,并最大化各种 API 及服务的重用性,补救重复实现相同的功能。

在数据分类分类整理上,RDP 统一了流式补救、批量补救和基于请求的数据提供方式。对于流式数据的访问,董玉栋提到,之类数据即时性有点痛 要,RDP 通过在后边做多层缓存将数据持续且高速地推送给客户。批量数据请求分为“定制批量请求”和“随机批量请求”本身请况。对于定制批量请求,RDP 按照约定时间定时打包推送给用户;对于随机批量请求,则采用异步打包,但会 将数据提取位置发送给用户的方式补救。

对于面向搜索的数据,董玉栋介绍:“之类访问基本需要同步请求,实时访问我们我们我们的数据库返回给客户。有后来用户基于搜索的数据量有点痛 大,RDP 系统会进行职能预测,自动将你什儿 类请求转变成随机批量数据请求来补救。”

没哟,怎样才能应对诸如跨洋实时交易之类对时效性要求非常高的超低时延数据访问?

赵仪解释:“跨洋实时交易本身发生地理位置上的时延,再换成系统带来的时延,通过云服务访问无法满足超低时延的需求。即便是快到 70ms 的时延,对于实时交易来讲,也是本身延迟。”路孚特的做法是在全球部署数据中心,以此提高时效性。此外,目前公有云还无法提供具有超高时效性的数据,但会 ,比较要花费的做法是将数据通过专线直接部署到用户所在地。

元数据驱动的价值与挑战

从简单的库表到整个数据平台,再到服务管理,元数据管理的范围正在扩大,不断突破传统管理的范畴,并在大数据治理中发挥着关键作用。而 RDP 的整个系统便是由元数据驱动的。

简单来讲,元数据是对数据本身进行描述的数据,如描述数据的格式、映射关系、语义、权限等。元数据管理具有以下三方面的价值:

都才能为数据管理提供统一的视图,方便数据交互共享;

实现数据自动关联分析,为数据分析、问题报告 定位等提供支撑;

便于建立数据标准,统一交换、存储、应用口径,减少共享壁垒,降低应用出错几率,提升质量。

在大数据时代,数据的容量、多样性等在持续扩充,元数据管理也面临着挑战。目前,元数据仍然没哟统一的标准,怎样才能用一套统一的语义去描述种类繁多的金融数据间的型态,但会 真正和数据管理系统 / 微服务之间紧密集成而需要割裂的发生,是行业中普遍发生的问题报告 。

企业首先需要集中化管理元数据,由另2个多多多专门且人数较少的架构师团队定义元数据,并进行统一管理。其次,研发团队要让软件才能支持元数据体系,并与之融为一体,而非割裂发生。最后,不仅实物的系统要实现元数据驱动,系统间的相互访问以及对外开放也需要遵循同一套体系。

随着元数据驱动的数据管理、API 访问和增值业务能力的增加,元数据实质上不可能 成为了更高级别抽象的代码,这就带来了另2个多多多问题报告 :怎样才能进行数据的生命周期管理。确切地说,之类冗杂的问题报告 没哟单一的补救方案,需要从系统级架构、可重用的代码和服务、DevOps 和自动化测试、代码安全扫描等多个方面来补救问题报告 。

对此,陈强分享了以下几点经验:

(1)怎样才能在权限管理系统中定义“谁”都才能“管理”那些“元数据”?都才能把整个系统中的“谁”、“管理(行为)”、“元数据”那些业务概念也都元数据化,由统一的身份及权限系统通过共享服务进行统一管理。

(2)对于都才能在线修改并实时生效的元数据,尤其是决定数据存储和表现形式的元数据,怎样才能保证由其驱动的数据系统的健壮性、稳定性和可控性?首先,在线元数据的修改和发布是独立的异步流程,可由相应的权限进行控制;其次,对元数据的前后变化进行快照,并以版本号作为快照的唯一标识符,在发布和回滚元数据版本时都才能明确地识别具体的快照内容;最后,发布和回滚的过程中,都才能根据业务特点,根据需要辅以各种在线的自动化功能测试和发布策略。

(3)但会 业务及技术实现的冗杂度愿因但会 元数据的修改无法真正进行热加载和实时生效,不可能 实现热加载 / 部署的代价不足英文,但仍然需要业务管理专家而非研发人员控制和实施元数据修改的部署。RDP 在应用中会尽量利用公有云的弹性,对版本化后的元数据进行修改,并进行 CI/CD 持续集成和自动化测试,一并辅助以蓝 / 绿部署策略。原先,元数据的版本控制与代码的版本控制流程及部署策略就都才能非常接近。不同的是,元数据的修改是通过易于使用的控制界面,主要由业务专家进行管理。在这眼前 ,路孚特所有由业务专家使用的功能需要经过充分的测试,确保界面上都才能操作的功能是健壮有效的。

随着数据量的增长,RDP 怎样才能平衡性能与成本?

随着大数据的发展,数据平台难免要面对数据或作业爆发式增长所带来的挑战。RDP 的用户量和数据量每年需要大幅增长,相应的成本投资增长不容小觑。在你什儿 数据量和计算量不断增长的请况下,怎样才能去平衡性能和成本?赵仪表示,你什儿 问题报告 的核心在于每个用户计算成本的控制,即怎样才能保证每个用户计算成本不随用户数量和数据量的增加而显着增加。RDP 在控制成本方面可借鉴的方式有:

(1)尽不可能 地在用户间共享都才能共享的计算,只需支付对用户的分类分类整理成本;

(2)控制热点数据的规模,在 API 级区分热点访问和冷数据访问;

(3)基于微服务的管理,方便用户管理自己的数据需求;

(4)用户输入不同的数据源不盲目整合,补救在另2个多多多对象模型下产生巨量的数据集,从而降低用户增加对单个用户计算冗杂度的影响;

(5)数据压缩 / 访问本地化 / 算法优化等传统方式。

对于大数据平台而言,区分冷热数据并安排不同的存储方式是非常重要的一项工作,对存储成本和计算性能至关重要。对于冷数据,不可能 调用频率相对较低,都才能通过冷压缩,将数据压缩到最小,再存储起来的方式节省存储成本;对于热数据,则需要增加 Cache 不可能 采用但会 优化策略,让用户能快速调用,从而提升计算性能。

数据本身无须产生价值,基于数据的计算才能带来价值。为了保证上层计算的有效性,通常将数据放满距离计算最近的地方,但会 会带来传输的延迟。数据的统一存储无须是将数据都放满同另2个多多多地方,这里的统一存储确实是另2个多多多逻辑概念。不同的数据应该放满不同的存储中,才能使数据上层的计算最有效,并将数据延迟降到最低。RDP 会针对不同的访问请求提供不同的数据访问缓存,并辅以共享计算的方式对数据传输进行优化。

路孚特金融数据平台的未来发展趋势

科技带给金融行业的影响显而易见,在金融机构进行各种互联网创新的一并,也将金融科技的重要性提升到了战略深层,通过 AI、大数据、云计算、区块链等新兴技术不断提升金融时延和竞争力,建立新的金融生态。

而大数据技术从最初的“新奇”发展到如今的“普惠”阶段,用户的关注点也发生了很大的改变。早期用户比较关注“灵活”、“快”,现在更关心的是企业级能力,一并降低成本也变得没哟重要。目前,企业级数据平台普遍发生的困难是高速增长的数据和计算量与成本之间的矛盾。怎样才能用更低的成本获取更多的信息,不仅是金融从业机构的迫切需求,也是数据平台的核心竞争点。

谈及 RDP 未来的发展重点,赵仪表示:“RDP 的目标主要集中在加强数据的统一存储和分类分类整理能力,降低客户获取数据的冗杂度和成本。未来将用更低的成本扩大数据覆盖范围。”与此一并,RDP 会继续获取更多的用户需求,并把那些需求统一到 RDP 数据分类分类整理机制里,更好地为客户提供存储和分类分类整理的能力。

用科技普惠金融,这是路孚特技术团队研发 RDP 的初心。未来,随着 5G、AI 等新兴技术的发展,路孚特也将打造更加智能高效的平台,给用户提供更好的体验。

除了在技术上不断精益求精,路孚特也在积极推动金融科技的生态发展。11 月 29 日,由路孚特主办,以“引领科技变革,洞见金融未来”为主题的 ReFinTech 金融科技峰会将在北京举行。本次大会邀请了金融界知名专家和金融科技企业技术专家,深层探讨行业发展思路和技术演进趋势,分享最前沿创新实践,一并打造“创新、聚力、发展、共赢”的金融科技生态平台。