Tres_Lu

【LeetCode】30 天 Pandas 挑战

一、笔记

1.对某列进行筛选

df[(df[column1]条件1) | (df[column2]条件2) & (df[column3]条件3)][[columns]]

真题：

（一）条件筛选——1.大的国家

（一）条件筛选——2.可回收且低脂的产品

（一）条件筛选——4.文章浏览1

（四）数据统计——16.富有客户的数量

（四）数据统计——18.按分类统计薪水

（六）数据合并——26.合作过至少三次的演员和导演

2.某列是否包含/不包含另一列

df1[~df1[column1].isin(df2[column2])][[columns]]

真题：

（一）条件筛选——3.从不订购的客户

（六）数据合并——29.至少有5名直接下属的经理

（六）数据合并——30.销售员

3.列表重命名

# 方式一
df.rename(columns={old_column:new_column})
# 方式二
df.columns = [columns]

4.某列值相关属性

4.1 字符串

# 字符串长度
df[column].str.len()
# 使得只有第一个字符是大写的，其余都是小写的
df[column].str.capitalize()
# 字符串正则表达式
df[column].str.match(正则表达式)
# 字符串包含
df[column].str.contains(正则表达式)

真题：

（二）字符串函数——5.无效的推文

（二）字符串函数——7.修复表中的名字

（二）字符串函数——8.查找拥有有效邮箱的用户

（二）字符串函数——9.患某种疾病的患者

4.2 函数

# 以某个字符开头
df[column].startswith(字符)
# 列中前M个最大值的Series，Series中的最后N个元素，转成dataframe
df[column].nlargest(M).tail(N).to_frame()
# 最大值
df[column].max()
# 排名
df[column].rank(method="dense",ascending=False)
# 去除空
df.dropna()
# 求和
df[column].sum()
# 最小值
df[column].min()

真题：

（二）字符串函数——6.计算特殊奖金

（三）数据操作——10.第N高的薪水

（三）数据操作——11.第二高的薪水

（三）数据操作——12.部门工资最高的员工

（三）数据操作——13.分数排名

（三）数据操作——15.每个产品在不同商店的价格

（五）数据分组——19.查找每个员工花费的总时间

（五）数据分组——20.游戏玩法分析1

（五）数据分组——23.定单最多的客户

（六）数据合并——28.学生们参加各科测试的次数

5.对行/列进行操作

# 行
df.apply(操作, axis=1)
# 列
df.apply(操作, axis=0)

真题：

（二）字符串函数——6.计算特殊奖金

（三）数据操作——12.部门工资最高的员工

（五）数据分组——24.按日期分组销售产品

6.去重

df.drop_duplicates([columns])
df.drop_duplicates(subset=column,keep="first",inplace=True)
df.nunique()

真题：

（三）数据操作——11.第二高的薪水

（三）数据操作——14.删除重复的电子邮箱

（四）数据统计——16.富有客户的数量

（五）数据分组——21.每位教师所教授的科目种类

（五）数据分组——24.按日期分组销售产品

7.关联

# join
df1.set_index(column1).join(df2.set_index(column2), how="left")
# merge
df1.merge(df2, on=[columns], how='left', indicator=True)
## 笛卡尔积
df1.assign(key=1).merge(df2.assign(key=1), on='key').drop('key', axis=1)

真题：

（三）数据操作——12.部门工资最高的员工

（五）数据分组——24.按日期分组销售产品

（五）数据分组——25.每天的领导和合伙人

（六）数据合并——27.使用唯一标识码替换员工ID

（六）数据合并——28.学生们参加各科测试的次数

8.排序

df.sort_values([column], ascending=False).reset_index(drop=True)

真题：

（三）数据操作——13.分数排名

（三）数据操作——14.删除重复的电子邮箱

（五）数据分组——24.按日期分组销售产品

9.合并

pd.concat([df_1,df_2,df_3], axis=0, ignore_index=True)

真题：

（三）数据操作——15.每个产品在不同商店的价格

10.分组

df.groupby(column).reset_index(name=new_column)
# 分组计数
df.groupby([column]).size().reset_index(name=new_column)
# 分组去重计数
df.groupby([column1])[column2].nunique().reset_index(name=new_column)

真题：

（五）数据分组——21.每位教师所教授的科目种类

（五）数据分组——22.超过5名学生课

（五）数据分组——23.定单最多的客户

（五）数据分组——24.按日期分组销售产品

（五）数据分组——25.每天的领导和合伙人

（六）数据合并——26.合作过至少三次的演员和导演

（六）数据合并——29.至少有5名直接下属的经理

二、真题

（一）条件筛选

1.大的国家

如果一个国家满足下述两个条件之一，则认为该国是大国：面积至少为300万平方公里（即3000000km2），或者人口至少为 2500万（即25000000）
编写解决方案找出大国的国家名称、人口和面积。按任意顺序返回结果表。

import pandas as pd

def big_countries(world: pd.DataFrame) -> pd.DataFrame:
    return world[(world["area"] >= 3000000) | (world["population"] >= 25000000)][["name","population","area"]]

2.可回收且低脂的产品

编写解决方案找出既是低脂又是可回收的产品编号。返回结果无顺序要求。

import pandas as pd

def find_products(products: pd.DataFrame) -> pd.DataFrame:
    return products[(products["low_fats"] == "Y") & (products["recyclable"] == "Y")][["product_id"]]

3.从不订购的客户

找出所有从不点任何东西的顾客。以任意顺序返回结果表。

import pandas as pd

def find_customers(customers: pd.DataFrame, orders: pd.DataFrame) -> pd.DataFrame:
    return customers[~customers["id"].isin(orders["customerId"])][["name"]].rename(columns={"name":"Customers"})

4.文章浏览1

请查询出所有浏览过自己文章的作者，结果按照 id 升序排列。

import pandas as pd

def article_views(views: pd.DataFrame) -> pd.DataFrame:
    return views[views["author_id"] == views["viewer_id"]][["viewer_id"]].rename(columns={"viewer_id":"id"}).drop_duplicates().sort_values(by=["id"])

5.无效的推文

查询所有无效推文的编号（ID）。当推文内容中的字符数严格大于 15 时，该推文是无效的。以任意顺序返回结果表。

import pandas as pd

def invalid_tweets(tweets: pd.DataFrame) -> pd.DataFrame:
    return tweets[tweets["content"].str.len() > 15][["tweet_id"]]

6.计算特殊奖金

编写解决方案，计算每个雇员的奖金。如果一个雇员的 id 是奇数并且他的名字不是以 ‘M’ 开头，那么他的奖金是他工资的 100% ，否则奖金为 0 。返回的结果按照 employee_id 排序。

import pandas as pd

def calculate_nonus(row):
    if row["employee_id"] % 2 == 1 and not row["name"].startswith("M"):
        return row["salary"]
    else:
        return 0

def calculate_special_bonus(employees: pd.DataFrame) -> pd.DataFrame:
    employees["salary"] = employees.apply(calculate_nonus, axis=1)
    return employees[["employee_id","salary"]].rename(columns={"salary":"bonus"}).sort_values(by="employee_id")

7.修复表中的名字

编写解决方案，修复名字，使得只有第一个字符是大写的，其余都是小写的。返回按 user_id 排序的结果表。

import pandas as pd

def fix_names(users: pd.DataFrame) -> pd.DataFrame:
    users["name"] = users["name"].str.capitalize()

    return users.sort_values(by=["user_id"])

8.查找拥有有效邮箱的用户

编写一个解决方案，以查找具有有效电子邮件的用户。一个有效的电子邮件具有前缀名称和域，其中：前缀名称是一个字符串，可以包含字母（大写或小写），数字，下划线 ‘_’ ，点 ‘.’ 和/或破折号 ‘-’ 。前缀名称必须以字母开头。域为 ‘@leetcode.com’ 。以任何顺序返回结果表。

import pandas as pd

def valid_emails(users: pd.DataFrame) -> pd.DataFrame:
    return users[users["mail"].str.match(r"^[a-zA-Z][a-zA-Z0-9_.\-]*@leetcode\.com$")]

9.患某种疾病的患者

查询患有 I 类糖尿病的患者 ID （patient_id）、患者姓名（patient_name）以及其患有的所有疾病代码（conditions）。I 类糖尿病的代码总是包含前缀 DIAB1 。按任意顺序返回结果表。

import pandas as pd

def find_patients(patients: pd.DataFrame) -> pd.DataFrame:
    return patients[patients["conditions"].str.contains(r'\bDIAB1\w*', regex=True)]

10.第N高的薪水

查询 Employee 表中第 n 高的工资。如果没有第 n 个最高工资，查询结果应该为 null 。

import pandas as pd

def nth_highest_salary(employee: pd.DataFrame, N: int) -> pd.DataFrame:
    employee = employee.drop_duplicates('salary')
    return employee['salary'].nlargest(N).tail(1).to_frame() if employee.shape[0]>=N else pd.DataFrame()

11.第二高的薪水

查询并返回 Employee 表中第二高的薪水。如果不存在第二高的薪水，查询应该返回 null(Pandas 则返回 None) 。

import pandas as pd

def second_highest_salary(employee: pd.DataFrame) -> pd.DataFrame:
    employee = employee.drop_duplicates('salary')
    return employee["salary"].nlargest(2).tail(1).to_frame().rename(columns={"salary":"SecondHighestSalary"}) if employee.shape[0]>=2 else pd.DataFrame([None], columns=["SecondHighestSalary"])

12.部门工资最高的员工

查找出每个部门中薪资最高的员工。按任意顺序返回结果表。

import pandas as pd

def department_highest_salary(employee: pd.DataFrame, department: pd.DataFrame) -> pd.DataFrame:
    df = employee.set_index("departmentId").join(department.rename(columns={"name":"Department"}).set_index("id"), how="left")
    return df.groupby("Department").apply(lambda x:x[x["salary"]==x["salary"].max()])[["Department","name","salary"]].rename(columns={"name":"Employee","salary":"Salary"})

13.分数排名

查询并对分数进行排序。排名按以下规则计算:分数应按从高到低排列。如果两个分数相等，那么两个分数的排名应该相同。在排名相同的分数后，排名数应该是下一个连续的整数。换句话说，排名之间不应该有空缺的数字。按 score 降序返回结果表。

import pandas as pd

def order_scores(scores: pd.DataFrame) -> pd.DataFrame:
    scores = scores.sort_values(["score"], ascending=False).reset_index(drop=True)
    scores["rank"] = scores["score"].rank(method="dense",ascending=False)
    return scores[["score","rank"]]

14.删除重复的电子邮箱

编写解决方案删除所有重复的电子邮件，只保留一个具有最小 id 的唯一电子邮件。（对于 SQL 用户，请注意你应该编写一个 DELETE 语句而不是 SELECT 语句。）（对于 Pandas 用户，请注意你应该直接修改 Person 表。）运行脚本后，显示的答案是 Person 表。驱动程序将首先编译并运行您的代码片段，然后再显示 Person 表。Person 表的最终顺序无关紧要。

import pandas as pd

# Modify Person in place
def delete_duplicate_emails(person: pd.DataFrame) -> None:
    if len(person):
        person.sort_values(by=["id"], inplace=True)
        return person.drop_duplicates(subset='email',keep="first",inplace=True) 
    else:
        return None

15.每个产品在不同商店的价格

请你重构 Products 表，查询每个产品在不同商店的价格，使得输出的格式变为(product_id, store, price) 。如果这一产品在商店里没有出售，则不输出这一行。输出结果表中的顺序不作要求。

import pandas as pd

def rearrange_products_table(products: pd.DataFrame) -> pd.DataFrame:
    df_1 = products[["product_id", "store1"]].rename(columns={"store1":"price"}).dropna()
    df_1["store"] = "store1"
    df_2 = products[["product_id", "store2"]].rename(columns={"store2":"price"}).dropna()
    df_2["store"] = "store2"
    df_3 = products[["product_id", "store3"]].rename(columns={"store3":"price"}).dropna()
    df_3["store"] = "store3"
    df = pd.concat([df_1,df_2,df_3], axis=0, ignore_index=True)[["product_id","store","price"]]
    return df

16.富有客户的数量

编写解决方案找出至少有一个订单的金额严格大于 500 的客户的数量。

import pandas as pd

def count_rich_customers(store: pd.DataFrame) -> pd.DataFrame:
    return pd.DataFrame({"rich_count": store[store["amount"] > 500][["customer_id"]].nunique()})

17.即时食物配送

如果顾客期望的配送日期和下单日期相同，则该订单称为「即时订单」，否则称为「计划订单」。编写解决方案统计即时订单所占的百分比，保留两位小数。

import pandas as pd

def food_delivery(delivery: pd.DataFrame) -> pd.DataFrame:
    return pd.DataFrame({"immediate_percentage": [round(len(delivery[delivery["order_date"]==delivery["customer_pref_delivery_date"]])/len(delivery)*100, 2)]})

18.按分类统计薪水

查询每个工资类别的银行账户数量。工资类别如下：
“Low Salary”：所有工资严格低于 20000 美元。
“Average Salary”：包含范围内的所有工资 [$20000, $50000] 。
“High Salary”：所有工资严格大于 50000 美元。
结果表必须包含所有三个类别。如果某个类别中没有帐户，则报告 0 。按任意顺序返回结果表。

import pandas as pd

def count_salary_categories(accounts: pd.DataFrame) -> pd.DataFrame:
    return pd.DataFrame({"category":["Low Salary","Average Salary","High Salary"],"accounts_count":[len(accounts[accounts["income"]<20000]),len(accounts[(accounts["income"]>=20000) & (accounts["income"]<=50000)]),len(accounts[accounts["income"]>50000])]})

19.查找每个员工花费的总时间

计算每位员工每天在办公室花费的总时间（以分钟为单位）。请注意，在一天之内，同一员工是可以多次进入和离开办公室的。在办公室里一次进出所花费的时间为out_time 减去 in_time。返回结果表单的顺序无要求。

import pandas as pd

def total_time(employees: pd.DataFrame) -> pd.DataFrame:
    employees["difference"] = employees["out_time"] - employees["in_time"]
    return employees.groupby(["emp_id","event_day"])["difference"].sum().reset_index()[["event_day","emp_id","difference"]].rename(columns={"event_day":"day","difference":"total_time"})

20.游戏玩法分析1

查询每位玩家第一次登陆平台的日期。

import pandas as pd

def game_analysis(activity: pd.DataFrame) -> pd.DataFrame:
    return activity.groupby("player_id")["event_date"].min().reset_index().rename(columns={"event_date":"first_login"})

21.每位教师所教授的科目种类

import pandas as pd

def count_unique_subjects(teacher: pd.DataFrame) -> pd.DataFrame:
    return teacher.groupby('teacher_id')['subject_id'].nunique().reset_index(name='cnt')

22.超过5名学生课

查询至少有5个学生的所有班级。以任意顺序返回结果表。

import pandas as pd

def find_classes(courses: pd.DataFrame) -> pd.DataFrame:
    courses = courses.groupby(["class"]).size().reset_index(name='count')
    return courses[courses["count"]>=5][["class"]]

23.定单最多的客户

查找下了最多订单的客户的 customer_number 。测试用例生成后，恰好有一个客户比任何其他客户下了更多的订单。

import pandas as pd

def largest_orders(orders: pd.DataFrame) -> pd.DataFrame:
    orders = orders.groupby(["customer_number"]).size().reset_index(name="count")
    return orders[orders["count"]==orders["count"].max()][["customer_number"]]

24.按日期分组销售产品

编写解决方案找出每个日期、销售的不同产品的数量及其名称。每个日期的销售产品名称应按词典序排列。返回按 sell_date 排序的结果表。

import pandas as pd

def categorize_products(activities: pd.DataFrame) -> pd.DataFrame:
    activities = activities.drop_duplicates().sort_values(by='product')
    activities_num_sold = activities.groupby('sell_date').size().reset_index(name='num_sold')
    activities_products = activities.groupby("sell_date")["product"].apply(','.join).reset_index(name="products")
    return activities_num_sold.set_index("sell_date").join(activities_products.set_index("sell_date"), how="left").reset_index()

25.每天的领导和合伙人

对于每一个 date_id 和 make_name，找出不同的 lead_id 以及不同的 partner_id 的数量。按任意顺序返回结果表。

import pandas as pd

def daily_leads_and_partners(daily_sales: pd.DataFrame) -> pd.DataFrame:
    daily_sales_unique_leads = daily_sales.groupby(["date_id","make_name"])['lead_id'].nunique().reset_index(name='unique_leads')
    daily_sales_unique_partners = daily_sales.groupby(["date_id","make_name"])['partner_id'].nunique().reset_index(name='unique_partners')
    return daily_sales_unique_leads.set_index(["date_id","make_name"]).join(daily_sales_unique_partners.set_index(["date_id","make_name"]), how='left').reset_index()

26.合作过至少三次的演员和导演

编写解决方案找出合作过至少三次的演员和导演的 id 对 (actor_id, director_id)

import pandas as pd

def actors_and_directors(actor_director: pd.DataFrame) -> pd.DataFrame:
    actor_director = actor_director.groupby(["actor_id","director_id"]).size().reset_index(name="cnt")
    return actor_director[actor_director["cnt"]>=3][["actor_id","director_id"]]

27.使用唯一标识码替换员工ID

展示每位用户的唯一标识码（unique ID ）；如果某位员工没有唯一标识码，使用 null 填充即可。你可以以任意顺序返回结果表。

import pandas as pd

def replace_employee_id(employees: pd.DataFrame, employee_uni: pd.DataFrame) -> pd.DataFrame:
    return employee_uni.set_index('id').join(employees.set_index('id'), how='right').reset_index()[["unique_id","name"]]

28.学生们参加各科测试的次数

查询出每个学生参加每一门科目测试的次数，结果按 student_id 和 subject_name 排序。

import pandas as pd
import numpy as np

def students_and_examinations(students: pd.DataFrame, subjects: pd.DataFrame, examinations: pd.DataFrame) -> pd.DataFrame:
    students = students.assign(key=1).merge(subjects.assign(key=1), on='key').drop('key', axis=1)
    students = students.merge(examinations, on=['student_id', 'subject_name'], how='left', indicator=True)
    students['attended_exams'] = (students['_merge'] == 'both').astype(int)
    return students.groupby(['student_id', 'student_name', 'subject_name'])['attended_exams'].sum().reset_index()

29.至少有5名直接下属的经理

查询至少有5名直接下属的经理。以任意顺序返回结果表。

import pandas as pd

def find_managers(employee: pd.DataFrame) -> pd.DataFrame:
    employee_cnt = employee.groupby(["managerId"]).size().reset_index(name="cnt")
    return employee[employee["id"].isin(employee_cnt[employee_cnt["cnt"]>=5]["managerId"])][["name"]]

30.销售员

编写解决方案，找出没有任何与名为 “RED” 的公司相关的订单的所有销售人员的姓名。以任意顺序返回结果表。

import pandas as pd

def sales_person(sales_person: pd.DataFrame, company: pd.DataFrame, orders: pd.DataFrame) -> pd.DataFrame:
    return sales_person[~sales_person["sales_id"].isin(orders[orders["com_id"].isin(company[company["name"]=="RED"]["com_id"])][["sales_id"]]["sales_id"])][["name"]]

你可能感兴趣的:(LeetCode,leetcode,pandas,大数据)

Pandas-数据组合赛丽曼 Pandas pandas
文章目录一.concat二.merge三.join(了解)day09一.concat二.merge三.join(了解)
代码随想录算法训练营第十一天天天开心(∩_∩) 算法
LeetCode.150逆波兰表达式求值题目链接逆波兰表达式求值题解classSolution{publicintevalRPN(String[]tokens){Stackcstack=newStackset=newHashSetdeque=newLinkedListdeque.getLast()){deque.removeLast();}deque.add(val);}intpeek(){ret
（阳：算法霸权 / 阴：数据确权）→当GDPR类法规覆盖53%经济体量时，催生出隐私计算新范式百态老人人工智能机器学习深度学习算法
当GDPR类法规覆盖53%经济体量时，隐私计算新范式的兴起可归因于以下多维度因素的相互作用：一、算法霸权与数据确权的矛盾激化算法霸权的危害大型科技公司通过算法歧视、大数据杀熟等手段形成垄断优势，利用数据优势操控用户行为，导致消费者权益受损。这种"算法黑箱"不仅加剧市场不公平，还阻碍数据要素的自由流动。例如，算法框架的底层逻辑掌握在少数企业手中，产生"数据黑箱"问题。数据确权的立法需求数据权属不明确
LeetCode-最长回文子串踏实写代码，认真搞学术的小研 leetcode
classSolution:deflongestPalindrome(self,s:str)->str:n=len(s)#创建一个二维数组dp，用于记录回文子串的信息dp=[[False]*nfor_inrange(n)]start=0#记录最长回文子串的起始位置max_len=1#记录最长回文子串的长度#初始化单个字符和相邻两个字符是回文子串的情况foriinrange(n):dp[i][i]=
（LeetCode）Java 求解最长回文子串南淮北安冲刺大厂之 Java 刷题笔记 leetcode 字符串动态规划 java 算法
文章目录一、题解二、常规理解三、简单理解四、总结一、题解给定一个字符串s，找到s中最长的回文子串。你可以假设s的最大长度为1000。示例1：输入:“babad”输出:“bab”注意:“aba”也是一个有效答案。示例2：输入:“cbbd”输出:“bb”二、常规理解思路就是创建一个二维数组，boolean[][]flag,flag[i][j]表示字符串第i到j是否是回文。边界：字符串长度为1是为TRU
最长回文子串-leetCode-005
针对这个问题，共有四种解法，分别是暴力法，中心拓展法，动态规划，Manacher算法解法一：暴力法思路：枚举所有可能的子串，然后判断每个子串是否是回文串，最后找出最长的回文子串。classSolution{publicStringlongestPalindrome(Strings){intn=s.length();if(n==0){return"";}StringmaxPalindrome=s.s
LeetCode-最长回文子串（005）
一.题目描述给你一个字符串s，找到s中最长的回文子串。二.示例示例1：输入：s="babad"输出："bab"解释："aba"同样是符合题意的答案。示例2：输入：s="cbbd"输出："bb"三.提示：1=0;--i){//从当前字符的下一个字符开始，向后遍历for(intj=i+1;j>1);}}//返回最长回文子串returns.substring(start,start+mx);}//辅助函
LeetCode-5.最长回文子串 C++实现
一.问题描述给你一个字符串s，找到s中最长的回文子串（如果字符串向前和向后读都相同，则它满足回文性。）。示例1：输入：s="babad"输出："bab"解释："aba"同样是符合题意的答案。示例2：输入：s="cbbd"输出："bb"提示：1usingnamespacestd;classSolution{public:stringlongestPalindrome(strings){intn=s.
[贪心]BM95 分糖果问题 lanbing 多语言LeeCode的题解算法数据结构 leetcode
一、题目牛客题目链接：分糖果问题_牛客题霸_牛客网LeeCode题目链接：135.分发糖果-力扣（LeetCode）题目描述：一群孩子做游戏，现在请你根据游戏得分来发糖果，要求如下：1.每个孩子不管得分多少，起码分到一个糖果。2.任意两个相邻的孩子之间，得分较多的孩子必须拿多一些糖果。(若相同则无此限制)给定一个数组arr代表得分数组，请返回最少需要多少糖果。要求:时间复杂度为O(n)空间复杂度为
解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
pdfplumber、pandas根据指定字段提取PDF跨页表格数据
importpdfplumberimportpandasaspdfromtypingimportList,Dict,Tuple,Optionaldefextract_table_by_title(pdf_path:str,target_title:str,page_range:Tuple[int,int]=(1,None),#(起始页,结束页)，None表示到最后一页title_padding:f
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
【大数据入门核心技术-DolphinScheduler】（二）DolphinScheduler安装部署-集群模式 forest_long 大数据技术入门到21天通关大数据 spark hive hadoop 交互 flink mapreduce
目录一、部署模式1、单机模式2、伪集群模式3、集群模式二、部署安装1、下载2、创建mysql元数据库3、配置一键部署脚本4、初始化数据库5、一键部署DolphinScheduler6、访问DolphinSchedulerUI三、启停命令一、部署模式DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（PseudoCluster）、集群模式（Cluste
利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
电商API性能优化：策略体系与实施要点 Joe13265449558 性能优化电商返回值淘宝 API 接口京东
电商API性能优化策略介绍在电商领域，API（应用程序编程接口）作为连接电商平台与外部系统、服务或应用的关键桥梁，其性能直接关系到用户体验、业务效率以及系统的整体稳定性。随着电商业务的快速发展，API接口面临着高并发、大数据量处理等挑战，因此，对电商API进行性能优化显得尤为重要。本文将从多个维度探讨电商API性能优化的策略。一、数据库优化策略数据库是电商API接口的核心组件之一，其性能直接影响A
ECharts 智慧医疗大屏制作实例详解
在大数据时代，数据可视化已成为信息传递和决策支持的重要手段。ECharts作为一款功能强大、易于上手的开源可视化库，凭借其丰富的图表类型、灵活的配置项和良好的跨平台兼容性，广泛应用于企业级数据大屏、BI报表、实时监控等场景。本教程以“智慧医疗大屏”为例，完整演示了从页面搭建、图表配置到动态交互与响应式适配的全过程。通过循序渐进的讲解，读者将掌握如何使用ECharts构建专业、美观、可交互的数据可视
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
LeetCode-196. 删除重复的电子邮箱做一个AC梦 LeetCode-数据库 leetcode 数据库 sql mysql
题目描述表:Person+-------------+---------+|ColumnName|Type|+-------------+---------+|id|int||email|varchar|+-------------+---------+id是该表的主键列(具有唯一值的列)。该表的每一行包含一封电子邮件。电子邮件将不包含大写字母。编写解决方案删除所有重复的电子邮件，只保留一个具有最
3333. 找到初始输入字符串 II 咔咔咔的 leetcode c++
3333.找到初始输入字符串II题目链接：3333.找到初始输入字符串II代码如下：//参考链接：https://leetcode.cn/problems/find-the-original-typed-string-ii/solutions/3706277/zhao-dao-chu-shi-shu-ru-zi-fu-chuan-ii-b-ldyvclassSolution{public:intp
Python（28）Python循环语句指南：从语法糖到CPython字节码的底层探秘一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 开发语言
目录引言一、推导式家族全解析1.1基础语法对比1.2性能对比测试二、CPython实现揭秘2.1字节码层面的秘密2.2临时变量机制三、高级特性实现3.1嵌套推导式优化3.2条件表达式处理四、性能优化指南4.1内存使用对比4.2执行时间优化技巧五、最佳实践建议六、总结Python爬虫相关文章（推荐）引言在Python编程中，循环语句是控制流程的核心工具。传统for循环虽然直观，但在处理大数据时往往面
DAY08 算法训练营| 字符串part01 天空的孩子算法
344.反转字符串-力扣（LeetCode）字符串和数组算法题目思路类似反转字符串是经典双指针法（回忆反转链表，有序数组的平方，三数之和，四数之和）classSolution{public:voidreverseString(vector&s){len=s.length();for(inti=0,j=s.size()-1;iusingnamespacestd;intmain(){strings;/
python训练60天挑战-day51
DAY51复习日作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高kaggl的一个图像数据集；数据集地址：LungNoduleMalignancy肺结核良恶性判断三层卷积CNN做到的精度63%，现在需要实现提高。importosimportpandasaspdimportnumpyasnpfromsklearn.model_se
DAY 51 复习日忧陌606 Python打卡 python
作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高（一）Day43代码importosimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimporttorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.
科比投篮预测——数据处理与分析 Ssaty. python 机器学习数据挖掘
第1关：数据清洗importnumpyasnpimportpandasaspdimportwarningswarnings.filterwarnings("ignore")pd.set_option('display.max_columns',1000)pd.set_option(<
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug 马特说 REACT react.js 金融数据分析
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug前言在现代前端开发中，处理大数据量的实时金融应用已成为常态。最近我在开发一个React-based金融数据分析应用时，遇到了典型的"Maximumcallstacksizeexceeded"错误。通过AI辅助分析和系统性优化，最终成功解决了这个复杂的性能问题。这篇文章将分享从问题发现到最终解决的完整过程。项目背景这是一
LeetCode 643.子数组最大平均数 I
题目：给你一个由n个元素组成的整数数组nums和一个整数k。请你找出平均数最大且长度为k的连续子数组，并输出该最大平均数。任何误差小于10-5的答案都将被视为正确答案。思路：定长滑动窗口入更新出代码：classSolution{publicdoublefindMaxAverage(int[]nums,intk){intn=nums.length;doubleans=Integer.MIN_VALU
leetcode 643. 子数组最大平均数 I �粉红豹护体 leetcode
子数组最大平均数I给定n个整数，找出平均数最大且长度为k的连续子数组，并输出该最大平均数。示例1:输入:[1,12,-5,-6,50,3],k=4输出:12.75解释:最大平均数(12-5-6+50)/4=51/4=12.75注意:1result){result=cursum;}}return(double)result/k;}}
LeetCode1456. 定长子串中元音的最大数目
题目分析本题要求在给定字符串中找到长度为k的子串，使其包含的元音字母（a,e,i,o,u）数量最多。这是一个典型的固定窗口大小的滑动窗口问题。解题思路初始化元音数量：先计算字符串前k个字符中的元音数量作为初始值滑动窗口处理：从第k个字符开始向右移动窗口：加入当前字符：如果是元音，计数加1移除窗口左侧字符：如果是元音，计数减1每次移动后更新最大元音数量元音判断优化：使用逻辑或判断字符是否为元音（简单
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST