課程信息
15,421 次近期查看

100% 在線

立即開始,按照自己的計劃學習。

可靈活調整截止日期

根據您的日程表重置截止日期。

中級

完成時間大約為16 小時

建議:4 weeks of study, 2-5 hours/week...

英語(English)

字幕:英語(English)

您將學到的內容有

  • Check

    U​se the collaborative Databricks workspace and write SQL code that executes against a cluster of machines

  • Check

    Use Spark UI to analyze performance and identify bottlenecks

  • Check

    Create an end-to-end pipeline that reads data, transforms it, and saves the result

  • Check

    B​uild a linear regression model and make predictions using SparkSQL

您將獲得的技能

Data ScienceApache SparkSQL

100% 在線

立即開始,按照自己的計劃學習。

可靈活調整截止日期

根據您的日程表重置截止日期。

中級

完成時間大約為16 小時

建議:4 weeks of study, 2-5 hours/week...

英語(English)

字幕:英語(English)

教學大綱 - 您將從這門課程中學到什麼

1
完成時間為 3 小時

Introduction to Spark

6 個視頻 (總計 32 分鐘), 3 個閱讀材料, 2 個測驗
6 個視頻
Why Distributed Computing?7分鐘
Spark DataFrames6分鐘
The Databricks Environment8分鐘
SQL in Notebooks3分鐘
Import Data2分鐘
3 個閱讀材料
A Note From UC Davis10分鐘
Readings and Resources40分鐘
Assignment #1 - Queries in Spark SQL30分鐘
2 個練習
Assignment #1 Quiz - Queries in Spark SQL30分鐘
Module 1 Quiz30分鐘
2
完成時間為 2 小時

Spark Core Concepts

6 個視頻 (總計 25 分鐘), 2 個閱讀材料, 2 個測驗
6 個視頻
Spark Terminology3分鐘
Caching5分鐘
Shuffle Partitions7分鐘
Spark UI3分鐘
Broadcast Joins3分鐘
2 個閱讀材料
Readings30分鐘
Assignment #2 - Spark Internals30分鐘
2 個練習
Assignment #2 Quiz - Spark Internals30分鐘
Module 2 Quiz30分鐘
3
完成時間為 3 小時

Engineering Data Pipelines

7 個視頻 (總計 43 分鐘), 2 個閱讀材料, 2 個測驗
7 個視頻
Spark as a Connector6分鐘
Accessing Data10分鐘
File Formats8分鐘
Schemas and Types4分鐘
Writing Data6分鐘
Managed and Unmanaged Tables4分鐘
2 個閱讀材料
Readings20分鐘
Assignment #3 - Engineering Data Pipelines30分鐘
2 個練習
Assignment #3 Quiz - Engineering Data Pipelines30分鐘
Module 3 Quiz30分鐘
4
完成時間為 4 小時

Machine Learning Applications of Spark

7 個視頻 (總計 35 分鐘), 2 個閱讀材料, 3 個測驗
7 個視頻
Applications of Machine Learning4分鐘
Machine Learning Fundamentals6分鐘
Linear Regression6分鐘
Training Linear Regression Model8分鐘
Applying Machine Learning with UDFs4分鐘
Course Summary3分鐘
2 個閱讀材料
Readings20分鐘
Assignment #4 - Logistic Regression Classifier10分鐘
2 個練習
Assignment #4 Quiz - Logistic Regression Classifier30分鐘
Module 4 Quiz30分鐘
4.5
2 條評論

來自Distributed Computing with Spark SQL的熱門評論

創建者 JBJan 6th 2020

Extremely informative for those who are seeking to learn the fundamentals for distributed computing using Spark SQL.

講師

授課教師 Brooke Wenig 的圖片

Brooke Wenig

Machine Learning Practice Lead at Databricks
Continuing and Professional Education
授課教師 Conor Murphy 的圖片

Conor Murphy

Data Scientist at Databricks
Continuing and Professional Education

關於 加州大学戴维斯分校

UC Davis, one of the nation’s top-ranked research universities, is a global leader in agriculture, veterinary medicine, sustainability, environmental and biological sciences, and technology. With four colleges and six professional schools, UC Davis and its students and alumni are known for their academic excellence, meaningful public service and profound international impact....

關於 Learn SQL Basics for Data Science 專項課程

This Specialization is intended for a learner with no previous coding experience seeking to develop SQL query fluency. Through four progressively more difficult SQL projects with data science applications, you will cover topics such as SQL basics, data wrangling, SQL analysis, AB testing, distributed computing using Apache Spark, and more. These topics will prepare you to apply SQL creatively to analyze and explore data; demonstrate efficiency in writing queries; create data analysis datasets; conduct feature engineering, use SQL with other data analysis and machine learning toolsets; and use SQL with unstructured data sets....
Learn SQL Basics for Data Science

常見問題

  • 注册以便获得证书后,您将有权访问所有视频、测验和编程作业(如果适用)。只有在您的班次开课之后,才可以提交和审阅同学互评作业。如果您选择在不购买的情况下浏览课程,可能无法访问某些作业。

  • 您注册课程后,将有权访问专项课程中的所有课程,并且会在完成课程后获得证书。您的电子课程证书将添加到您的成就页中,您可以通过该页打印您的课程证书或将其添加到您的领英档案中。如果您只想阅读和查看课程内容,可以免费旁听课程。

還有其他問題嗎?請訪問 學生幫助中心