本节案例是在社交网络上进行汽车销售的推荐。案例数据源文件是Social_Network_Ads.csv,数据文件一共400条数据,前面四列是用户ID(User ID)、性别(Gender)、年龄(Age)、大致薪水(EstimatedSalary),其中年龄列的数据中包括20岁、25岁、32岁、45岁、60岁.......等年龄的用户;第五列为是否购买,客户可能购买,也有可能没购买,没购买是0,购买是1。
Social_Network_Ads.csv文件的部分记录内容如下。
User ID,Gender,Age,EstimatedSalary,Purchased
15624510,Male,19,19000,0
15810944,Male,35,20000,0
15668575,Female,26,43000,0
15603246,Female,27,57000,0
15804002,Male,19,76000,0
15728773,Male,27,58000,0
15598044,Female,27,84000,0
15694829,Female,32,150000,1
15600575,Male,25,33000,0
15727311,Female,35,65000,0
15570769,Female,26,80000,0
15606274,Female,26,52000,0
15746139,Male,20,86000,0
15704987,Male,32,18000,0
15628972,Male,18,82000,0
15697686,Male,29,80000,0
15733883,Male,47,25000,1
15617482,Male,45,26000,1
15704583,Male,46,28000,1
15621083,Female,48,29000,1
15649487,Male,45,22000,1
15736760,Female,47,49000,1
15714658,Male,48,41000,1
15599081,Female,45,22000,1
15705113,Male,46,23000,1
15631159,Male,47,20000,1
15792818,Male,49,28000,1
15633531,Female,47,30000,1
15744529,Male,29,43000,0
逻辑回归基于用户的购买记录,分析哪些特征的用户喜欢购买什么商品。如果你是公司的人工智能工程师,公司给你的任务是基于客户在YouTube上的播放记录,分析哪些人喜欢SUV,例如,如果一个客户喜欢看数学、哲学、心理学、科幻、健身方面的内容,拿到这些数据然后进行分析,对于工程师及AI专家而言,需从数据中选出哪些特征较重要。在我们这个场景中,数据记录包括户ID、性别、年龄、大致薪水,这些列是否都很重要呢?这涉及一个问题,特征对输出结果的关联度,这是一个很基础的内容,涉及到哪些特征对你更重要的问题,目的是看出哪些人要买SUV。从直觉的角度,年龄和薪水是比较重要的因素。如果年龄比较轻,薪水又不高,估计不会购买SUV,性别是除了年龄、薪水之外的第三个因素,本节主要是讲逻辑回归,暂不考虑性别的因素。
基于这两列,寻找出一种规律,这个规律就是什么年龄段的人以及什么薪水段的人会购买SUV?这对于专门提供平台的机构如Amazon、FaceBook太重要了,这是他们获利的地方(甜蜜点The Sweet Spot)。
逻辑回归是一个常用、基础的算法,如图32-2所示,大数据领域火爆的计算平台Spark,在首页对逻辑回归在Hadoop与Spark的计算性能进行了对比,发现Spark比Hadoop超过100倍的性能, 从另一个侧面也反映出逻辑回归的广泛应用。
本文根据王家林老师《5节课内从零起步(无需数学和Python基础)编码实现AI人工智能框架电子书》整理。