-
【核心技术】
构建电商数据仓库原理介绍
建模过程,划分维度表和事实表
ELT流程
查询分析
【项目简介】本项目基于大数据平台构建电商数据仓库。10万个订单的信息数据,数据维度和度量丰富,从订单状态,价格,付款和运费价格到客户位置,产品属性,商家信息以及最终由客户撰写的评论。构建全流程数据仓库,包括建模过程,架构选型,数据流全流程操作演示。
-
【核心技术】
了解FineBI工具
FineBI数据连接
FineBI数据处理与模型
数据可视化图形制作
使用FineBI中的计算分析数据
制作仪表板
【项目简介】对零售行业来讲,通过发放优惠券来吸引客户是一种常见手段。那么如何设计优惠券,才能为自己的业务带来更好的收益?本项目我们使用FineBI这款数据分析工具,针对某零售企业的历史营销数据,对产品价格弹性进行探索,就产品需求量对价格变动的影响程度进行分析、计算、和预测
-
【核心技术】
Flink核心概念
EventTime
Watermark
State
Window API
TopN实现
【项目简介】Apache Flink作为目前最受关注的开源项目之一,已成为流式计算领域的事实标准。本项目将结合淘宝用户行为数据集和Apache Flink框架实现一个“实时热门商品”的数据需求。更具体地,我们可以将“实时热门商品”翻译成程序员更好理解的需求:每隔5分钟输出最近一小时内点击量最多的前 N 个商品。希望通过该项目加深大家对Flink的理解,帮助大家解决实战上遇到的问题。
-
【核心技术】
协同过滤算法推荐算法技术
Flink实时计算技术
用户画像实时标签技术
HBase分布式KV存储技术
Redis高性能内存KV存储技术
【项目简介】推荐功能是电商、新闻、短视频、音乐等互联网产品中的核心功能,可以大大提升产品的转化率和产品的粘性,例如今日头条和抖音依赖于推荐功能取得了惊人的业务量和资本估值,成为国民应用。实时推荐功能,就是根据用户当前行为或者用户的主动操作(如下拉、滑动等)实时更新展示给用户的推荐结果,前端快速反应用户的兴趣变化,给用户视觉上的冲击与强感知,推荐效果更好。同时实时推荐背后需要使用大量的实时和离线大数据和人工智能相关技术,技术挑战大效果好。
-
【核心技术】
Flume继承Kafka实现实时采集
Sqoop将MySQL数据导入Hive
Kafka存储用户行为数据
MapReduce编程数据处理ETL流程
Hive数据仓库建模
Presto高效地查询Hive数据
【项目简介】面对“双十一”电商爆发式增长的业务场景,海量用户行为日志需要通过大数据平台处理来支撑企业营销,决策指导,推荐,广告等核心业务。结合企业的实战经验,构建Lambda大数据架构, 串联多个大数据系统来打造针对日志分析的大数据解决方案。
-
【核心技术】
用户画像大数据系统架构
用户特征工程
机器学习技术生成用户标签
【项目简介】现如今,大数据时代“人”已经被数据化了。通过数据来描述用户在互联网留下的行为轨迹,根据特定的业务需求,挖掘出用户尽可能多的数据信息价值,最终形成用户画像。用户画像经常被用于企业精细化运营、个性化推荐、趋势预测等方面。
本项目利用大数据技术处理已知用户行为数据,通过标签标示方法,利用特征工程生成标签,形成用户画像标签体系。选择合适的机器学习算法搭建用户画像模型,预测用户性别等其他维度,形成用户画像。 -
【核心技术】
Spark SQL处理JSON格式数据
DataFrame和DataSet的使用
实现Spark SQL UDF
Spark写外部存储最佳实践
控制Spark Streaming消费Kafka数据的速率
【项目简介】像“今日头条”这样的内容APP非常流行,企业内部需要实时分析统计热点新闻,各地区用户观看新闻内容的情况,使用机器学习技术预测用户的性别和分析新闻分类,从而支撑推荐和广告等业务,实现大数据技术落地支撑内部业务。项目使用真实脱敏数据,使用Spark SQL进行新闻热度分析,国家和省份热度分析,搜索引擎来源分析,流量PV和UV分析。Kafka作为消息队列缓存数据,使用Spark Streaming进行热搜新闻统计分析。使用机器学习技术预测用户性别,分类新闻内容。
-
【核心技术】
漏斗模型
漏斗计算算法
带窗口的最长递增子序列算法
Spark实现用户自定义函数UDAF
Presto实现AggregationFunction方法
Presto Plugin的开发和使用
Hive数据仓库建模
【项目简介】目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。在这个研发过程中,有个比较核心的需求,叫做“有序漏斗”
-
【核心技术】
流式数据处理框架
Kafka消息中间件的使用
HBase缓存设计方案
流批转换的方案
数据仓库建设
查询引擎优化和选择
【项目简介】像“广点通”这样的广告平台,会产生大量的日志数据。与普通的日志数据不同,这类数据是有“状态”的。广告服务器会得到2类日志事件,一类是广告服务器的编排事件,一类是用户广告行为事件(例如:点击、曝光)。通过广告日志的实时处理和分析,实现媒体和广告主的智能化洞察。 本项目利用流式大数据技术处理实时事件,通过多种机制的缓存机制,实现关联事件的匹配。选择高效的数据存储和查询引擎,构建一套面向机器学习、智能洞察的广告数据平台。