Hadoop面试题与python基础

Hadoop面试题

  1. Hadoop的三种部署模式?Hadoop最初元数据放在哪里?要想多个客户端访问,元数据要放在哪里?
  2. 分桶表和分区表的区别?
  3. 项目中如何实现拉链表?

python基础(面向大数据开发)

如果你是面向python开发,那么我的这些应该是不够用的,我的这些只够大数据开发人员使用;
每一个岗位它对一门语言的要求掌握程度是不一样的;
但是我写的这些你必须要会,它是基础中的基础。

容器

不可变容器

  1. 字符串str
  2. 元组tuple

可变容器

  1. 列表 list
  2. 字典 dict
  3. 集合 set

方法

公共方法
查找 in  |  not in 

切片: print(str[start:stop:step])  # 注意和substr区分 索引从0开始
str = 中长跑路上的crush
print(data_str[1:5])  # 默认步长为1 
print(data_str[2:-1])  # 自己运行代码自己理解,我被坑过,每天的理解和语言组织是不一样的

hive中的substr("中长跑路上的crush",1,4#str索引从0开始 ,它是从1 开始,4代表取四个长度
#结果 :中长跑路 

str.count(x)  # 没错和hive中一样
len()

list

# (1)定义一个列表变量1,用于存放几个知名大学名称;
data_list1 = ['北京大学','五道口职业学院']
print(data_list1)
# (2)定义一个列表变量2,用于存放某学生的姓名、年龄、存款、是否男生等信息;
data_list2 = ['张三',18,10000.29,'男']
print(data_list2)
# 列表嵌套,也就列表中可以再存储列表数据
data_list3 = [['张三',18,10000.29,'男'],['李四',20,100.29,'男']]
print(data_list3)

# 要把字符串Python转换为列表list类型的值,该怎么做?
# 使用append方法
# 定义空列表 
data_list4 = []
print(data_list4)
for i in 'itcast':
    data_list4.append(i)
print(data_list4)

# split方法切割的数据存入到列表中
data = 'itcast'
data_list5 = data.split()
print(data_list5)h

list添加
# (1)定义一个列表变量,存放内容:中国,美国,英国,俄罗斯;
data_list = ["中国", "美国", "英国", "俄罗斯"]
# (2)在列表结尾处添加元素:德国;
data_list.append('德国')  # 将数据添加到列表的末尾
print(data_list)
# (3)在元素美国后添加元素:日本;
data_list.insert(2, '日本')  # 指定索引位置写入数据
print(data_list)
# (4)思考:若要在列表变量的结尾处,再新增元素:100,200,300,该怎么做?
data_list2 = [100, 200, 300]
# 对原始data_list列表数据进行增加新的数据
data_list.extend(data_list2)  # 将一个列表数据添加到另一个列表结尾
print(data_list)

# 将多个列表数据合并到一个新的列表,并不改变原来的data_list数据
data_list3 = data_list + data_list2
print(data_list3)
list删除
# (2)使用remove()删除元素:英国;
data_list.remove('英国')  # 根据指定的元素数据删除
print(data_list)
# (3)使用del删除元素:美国;
del data_list[1]   # 根据指定的索引位置删除数据
print(data_list)
字典
# 字典的数据遍历
# 定义一个空字典
data_dict = {}
# 字段数据添加
data_dict['name'] = '张三'
print(data_dict)
key = 'age'
value = 18
data_dict[key] = value  # data_dict['age'] = 18
print(data_dict)
# 修改字典数据
# 如果key存在是修改数据 ,如果key不存在则增加数据
data_dict['name']  = '李四'
print(data_dict)

# 删除字典
del data_dict['name']
print(data_dict)

# 查询字典
data = data_dict.get('age')
print(data)
data1 = data_dict.get('name','itcast')
print(data1)

# 添加数据
data_dict['name']  = '李四'
#字典循环遍历
print('-------------字典遍历-------------')
print(data_dict)
# for循环时会取出key
for k in data_dict:
    print(k)

for k in data_dict.keys():
    print(k)

流水的笔记,铁打的跑步

Hadoop面试题与python基础_第1张图片
午睡起来后,只做了40个俯卧撑,我淦好气,是状态不好?还是今天做的时候在憋气了?
不服气,学了半小时有去做了,

你可能感兴趣的:(hadoop,python,大数据)