SmartData 2020



We have already told Habr that the new SmartData is a conference about data engineering. But what exactly does this mean in practice, what reports fit this definition? At the time of the announcement, we could only explain in general terms, but now the conference program is ready - so we are showing all the specifics. Under the cut - descriptions of all reports.



- -: 1 YouTube , ( asm0dey , olegchir , , ) — , . YouTube-.







Streaming





Flink — , . , Flink SQL, Flink . , Apache Zeppelin . , Zeppelin Flink -, HTML/JS- .

, Flink Zeppelin, .



: Zeppelin

: Zeppelin — Exploratory Data Analysis (EDA). , .

: , Zeppelin Flink .






« Kafka NiFi: »,



Apache NiFi Apache Kafka .



: VirtualHealth . , , ?

: , NiFi Kafka.

: VirtualHealth , .






«Advanced usage patterns of Scala UDF in PySpark»,



PySpark UDF, Scala/Java. .

, , Scala/Java UDF PySpark.



, :



  • PySpark , UDF;
  • pyspark.sql.Column UDF spark.sql(...);
  • Singleton Pattern UDF;
  • UDF ;
  • log4j.


: Spark .

: , Spark, - , Spark (Spark-).

: , , .






«Stateful streaming: , , »,



— , . , . , .






Storage



«Kusto (Azure Data Explorer): Big Data »,



Kusto — Big Data. , Kusto Azure . Kusto security log analytics- : Azure Monitor, Azure Sentinel, Microsoft Defender Advanced Threat Protection . Kusto Azure Data Explorer, e-commerce, gaming, manufacturing, automotive .



, Kusto (Azure Data Explorer) , , - ( ) , , Kusto.



: — .

: . .

: , .

, .






«Kusto (Azure Data Explorer): Architecture and internals»,



Kusto , . , , .



. , , , Azure .






«NeoFS: »,



NeoFS — , . . NeoFS AWS S3, . .



, S3 , . , , , , .



: .

: .

: , , .






« : Business intelligence Clickhouse»,



: , . Data Silo. - , .



Data Silo . DWH Clickhouse, Kafka Spark.



, , - . , DWH Clickhouse, , . , , , Clickhouse DWH .



: DWH DE, , .

: ClickHouse — , BA , .

: , BI.






«The latest and greatest of Delta Lake», Jacek Laskowski



: Spark, « » Apache Spark, Delta Lake, Apache Kafka Kafka Streams.

: , SQL. DeltaLake — , .

: -, DeltaLake.






« . , , »,



: bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata .



, , . , , .



, , , .



: , , .

: , .






«SQL- Postgres »,



? ? ? - , . , — ? ( ), ?



, PostgreSQL, .



: PG, , .

: , — , .

: , , , .






Tooling



« - Dagster»,



- — , Java/Scala- .



Spark + Scala- Python-? Dagster , - , .



, Dagster .



: 7 , ML DE , .

: -.

: , - .






« »,



Lamoda:



  • SVN + Python + Jira + cron Git + Liquibase + Bamboo;
  • ;
  • .


: , .

: , , . .






«CI/CD Ml- »,



, , DS . , , , DS - ( , ).



— , , . , , .



: MLOps .

: -, ML.






«Scio — data processing at Spotify», Neville Li



Scio — Scala API Apache Beam Google Cloud Dataflow, Spotify , , . Scio .



big data Spotify: Python, Hadoop, Hive, Storm, Scalding . , « », , Discover Weekly, Wrapped, a , .



, Scio Spotify big data- Scala, Algebird, macros, shapeless magnolia. , .






Industry use-cases



« »,



« » — , , , .



, Kafka, Clickhouse Esper , , .



: , stateful- .






«Enterprise data platform: -»,



S7 . , , data governance . , , , .



S7 : Openshift, Minio, Apache Spark, Apache Airflow, Apache Kafka, Python, Scala, Java, Dremio, Alation.



: , , - . , , .






«Predictive Maintenance S7: »,



S7. S7 , , .



S7 : Apache Spark, Apache Airflow, Python, R.



: S7 , .

: , , DE. , , .






«: , ,



, , , , .



, , : , , , , .



: Kafka, Redis, ClickHouse, Quartz, Spring, Flink, ZooKeeper.



. .



: , , -.






Architecture



«Retable DSL: technology-agnostic data pipelines »,



Retable DataFrame DSL — open-source data pipelines DSL. C , data-, Spark DataFrames Python Pandas, — backend-agnostic, data pipelines data warehouses ELT, ETL data lakes, Spark.



Modern Data Stack, (ETL) (ELT) , DSL. , data pipelines, CI/CD-, — Spark, Snowflake Pandas Code.






«Highly Normalized Hybrid Model, », ,



DWH «» «». , , Agile.



, DWH , : Data Vault Anchor modeling — . , , : , .



:



  • DV AM: ;
  • «» ;
  • «» , ;
  • , ;
  • .


: DWH.

: -, DWH.






« . »,



, DWH, Hadoop.



:

: -, Hadoop, , data engineering.






« »,



, . . DWH, . , , .



:



  • ;
  • , -;
  • .


: Apache Kafka, Apache Flink, AWS, S3, EKS, Compression, Spark, Parquet, JSON.



: : — Joom , .

: DE, .

: .






« -»,



- , . , , MongoDB .



: .



Other



« »,



, , , . , . , — JIT, BLAS .






« NiFi»,



Apache NiFi , , NiFi, . , . , , .

, , .



, . , — . « », . SmartData 9 12 !



All Articles