[SPARK-42471] Distributed ML <> spark connect - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Umbrella
Status: Open
Priority: Major
Resolution: Unresolved
Affects Version/s: 3.4.0
Fix Version/s: None
Component/s: Connect, ML
Labels:
None

Epic Link:
Spark Connect

Attachments

Sub-Tasks

1.	Make spark connect supporting canceling job group	Open	Unassigned
2.	High level design doc for Distributed ML <> spark connect	Resolved	Weichen Xu
3.	Initial prototype implementation for PySparkML	Resolved	Weichen Xu
4.	Extract the common .ml classes to `mllib-common`	Resolved	Ruifeng Zheng
5.	Make LiteralExpression support array	Resolved	Ruifeng Zheng
6.	Factor literal value conversion out to connect-common	Resolved	Ruifeng Zheng
7.	Helper function to convert proto literal to value in Python Client	Resolved	Ruifeng Zheng
8.	Implement ml function {array_to_vector, vector_to_array}	Resolved	Ruifeng Zheng
9.	Move `toCatalystValue` to connect-common	Resolved	Ruifeng Zheng
10.	Make Torch Distributor compatible with Spark Connect	Resolved	Ruifeng Zheng
11.	Torch Distributor support Local Mode	Resolved	Ruifeng Zheng
12.	Add torch distributor data loader that loads data from spark partition data	Resolved	Weichen Xu
13.	Implement pyspark ML logistic regression estimator on top of torch distributor	Resolved	Weichen Xu
14.	Basic estimator / transformer / model / evaluator interfaces and basic transformer / evaluator implementation	Resolved	Weichen Xu
15.	Add spark DataFrame binary file format writer	Resolved	Weichen Xu
16.	Add API `copyLocalFileToHadoopFS`	Resolved	Weichen Xu
17.	Basic saving / loading implementation	Resolved	Weichen Xu
18.	Implement pipeline estimator	Resolved	Weichen Xu
19.	Implement cross validator estimator	Resolved	Weichen Xu
20.	Move namespace from `pyspark.mlv2` to `pyspark.ml.connect`	Resolved	Weichen Xu
21.	Implement classification evaluator	Resolved	Weichen Xu
22.	Add example code	Resolved	Weichen Xu
23.	Add pyspark "ml-connect" extras dependencies	Open	Unassigned
24.	Avoid Spark connect ML model to change input pandas dataframe	Resolved	Weichen Xu
25.	Add doc entry for `pyspark.ml.connect` module	Resolved	Weichen Xu
26.	Add vector assembler feature transformer	Resolved	Weichen Xu

Activity

People

Assignee:: Weichen Xu

Reporter:: Ruifeng Zheng

Votes:: 0 Vote for this issue

Watchers:: 4 Start watching this issue

Dates

Created:: 17/Feb/23 05:18

Updated:: 15/Nov/23 10:22