36大数据

深入分析一款简单的Github信息泄露爬虫

作者：grt1stnull

0×01.前言

Github作为一个代码托管平台，有着海量的开源代码和许多开发者。在代码上传时，有些开发者缺乏安全意识，会在不经意间泄露自己的密码或者密钥。本文以这里为切入点，介绍一个检索代码信息的小爬虫以及在写爬虫时的一些奇技淫巧。

0×02.github信息泄露

正如前言所述，缺乏安全意识的开发者会造成这个问题。不止web路径下的.git目录会泄露信息，在托管的开源代码中也会产生信息泄露。例子很多，比如php连接数据库的配置文件泄露，那么可能数据库帐号密码都泄露了，任何人都可以访问这个数据库。再比如通向内网的帐号密码，管理员帐号密码乃至ssh密钥。

api，即应用程序编程接口。众所周知，http是无状态协议，为了将用户区分开引进了cookie机制。有许多厂商，提供了api这个接口供用户调取业务，为了区分用户引进了token，比如’https://example.com/get?info=xxx&token=xxx‘

而我比较喜欢做的事就是，在github上找api的密钥。因为相比与帐号密码，这个不但泄露的更多，而且也更难以注意察觉，并且我们调用方便。比如查询whois信息，子域名检测等等，很多安全厂商提供了api接口，所以如果你没有密钥，不妨试试这个github信息泄露的方法。

shodan可能很多安全从业者都知道，这是一个很强大的搜索引擎。下文我会以爬取github上的shodan api密钥为例子，写一个简单的小爬虫。

0×03.github搜索结果爬取

1.shodan api格式

首先访问https://developer.shodan.io/api,这是shodan的api文档，我们可以看到api请求格式为https://api.shodan.io/shodan/host/{ip}?key={YOUR_API_KEY}。之后我们就可以在github上搜索” https://api.shodan.io/shodan/host/ key=”来看看。

结果如图：

可以看到已经有人不小心泄露自己的密钥了，虽然还有很多人没有。

2.github信息收集

虽然github有提供api，但是对代码检索功能有限制，所以我们这里不使用api。

首先进行搜索我们需要有一个登录状态，大家可以注册一个小号，或者是使用大号，这个没关系的。

登录状态我们可以使用cookies，也可以直接登录，我们这里说直接登录。

首先F12抓包可以看到整个登录流程，即访问github.com/login，之后将表单的值传递给github.com/session。整个流程非常清晰。

代码如下：

import requests

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0',

'Referer': 'https://github.com/',

'Host': 'github.com',

'Upgrade-Insecure-Requests': '1',

}

payload = {'commit': 'Sign in', 'login': '[email protected]',  'password': 'xxxxxx'}

r = requests.get("https://github.com/login", headers=headers)

_cookies = r.cookies

r = requests.post("https://github.com/session", headers=headers, data=payload,  cookies=_cookies)

如上可不可以呢？仔细分析整个流程，实际上，表单值中还有一个authenticity_token，我们要先抓取到这个值，然后传递给表单。

抓取函数如下：

from lxml import etree

def get_token(text):

#

    html = etree.HTML(text)

    t = html.xpath("//input[@name='authenticity_token']")

    try:

        token = t[0].get('value')

    except IndexError:

        print("[+] Error: can't get login token, exit...")

        os.exit()

    except Exception as e:

        print(e)

        os.exit()

    #print(token)

    return token

payload['authenticity_token'] = get_token(r.content)

现在我们代码还有什么缺点呢，我觉得就是对cookies的处理不够优雅。requests有一个神奇的类requests.session()，可以为每次请求保存cookies，并应用于下次请求。

在官方文档我们可以找到http://www.python-requests.org/en/master/user/advanced/#session-objects。

所以这里我们可以使用requests.session对代码进行优化，即：

import requests

session = requests.Session()

r = session.get("https://github.com/login", headers=headers)

payload['authenticity_token'] = get_token(r.content)

r = session.post("https://github.com/session", headers=headers, data=payload)

获取登录状态后，我们就可以进行搜索，之后列举出信息。

这里采用lxml进行信息提取，xpath很简单，不多说，代码如下：

from lxml import etree

words = "https://api.shodan.io/shodan/host/ key="

url = ("https://github.com/search?p=1&q=%s&type=Code" % words)

r = session.get(url, headers=headers)

html = etree.HTML(r.text)

block = html.xpath("//div[@class='code-list-item col-12 py-4 code-list-item-public ']")

print("[+] Info: get item: %i" % len(block))

codes = html.xpath("//div[@class='code-list-item col-12 py-4 code-list-item-public ']/div[@class='file-box blob-wrapper']/table[@class='highlight']/tr/td[@class='blob-code blob-code-inner']")

nums = html.xpath("//div[@class='code-list-item col-12 py-4 code-list-item-public ']/div[@class='file-box blob-wrapper']/table[@class='highlight']/tr/td[@class='blob-num']/a")

if len(codes) == len(nums):

    print("[+] Info: start get data, waiting")

    lines = []

    strs = None

    for i in range(len(nums)):

        #print(etree.tostring(codes[i], method='text'))

    try:

        text = etree.tostring(codes[i], method='text')

    except UnicodeEncodeError:

        print("[+] UnicodeEncodeError of a result, jump...")

        continue

    if nums[i].text == '1':

        if strs is not None:

            lines.append(strs)

            strs = text

        else:

            strs = "%s \\n %s" % (strs, text)

            lines.append(strs)

    else:

        print("[+] Error: wrong number get for codes lines, exit")

print("info : %s" % lines)

print("total num of info get: %i" % len(lines))

接下来是正则部分，信息抓取下来后，怎么筛选出我们需要的信息呢？靠的就是这里。

因为我们知道shodan api以http的形式，把shodan的token带入了参数中。简单的以get方法为例，可能是?key=xxx&host=xxx、?hosy=xxx&key=xxx&ip=xxx或者？host=xxx&key=xxx等等形式，所以我们构造正则为 key=的形式，然后尝试匹配key的末尾，可能是’、”、&。

代码如下：

import re

pattern = re.compile('key=(.*)[&|"|\']')

for a in lines:

    strs = re.findall(pattern, str(a))

    if len(strs) > 0:

        #print(strs[0].split('"')[0])

        results = strs[0].split('"')[0]

        results = results.split('&')[0]

        results = results.split('\'')[0]

        if results == '':

            continue

        print(results)

用一个简单的多线程，多爬取几页可以看到输出：

D32FBKHYYqETSf4bIdmurM7xoZA74FnL

E48kKXIaCpuKq4nsTJCglvd9o4y8oBni

${SHODAN_API_KEY}

AR7LzKvBGZNaXlgkYCg4Z9y3x5lEO352

%s

${PINCH.USERDEFINED.api_key.value}

{ShodanAPIKey}

{YOUR_API_KEY}

%s

$SHODAN_API_KEY

MFuS0RPXqInMILeWWPFktPp2BOHUZpzF

#{SHODAN_API_KEY}

D32FBKHYYqETSf4bIdmurM7xoZA74FnL

$SHODAN_API_KEY

MFuS0RPXqInMILeWWPFktPp2BOHUZpzF

#{SHODAN_API_KEY}

${PINCH.USERDEFINED.api_key.value}

E48kKXIaCpuKq4nsTJCglvd9o4y8oBni

{YOUR_API_KEY}

%s

${SHODAN_API_KEY}

AR7LzKvBGZNaXlgkYCg4Z9y3x5lEO352

虽然已经有了输出，但是注意到并不是所有输出都符合要求，有的甚至只是一个变量名。

其实到这里已经结束了，shodan api长度为32，只要验证长度就可以得到密钥了。但是本着精益求精的精神，我们将会编写正则表达式，进一步的获取信息。

从输出可以看到，除了输出token，还有%s和变量名称两种形式。熟悉python的人可能知道，%s是python中的格式化输出。

我们首先去除特殊符号data = re.findall(pattern1, results)[0]，之后判断字符串类型：

if data == 's':

    print("python")

elif len(data) < 32:

    print("value")

else:

    print(data)

这里我们顺利区分开了python的输出、值为token的变量和token。

下一步我们尝试得到变量的值，即token。我们假设变量的值就在搜索结果中，即key=value的形式。

由于上一步中已经得到了变量名称data，所以构建正则如下：

pattern0 = re.compile("%s[=|:](.*)[\"|']" % data[:6])

results = re.findall(pattern0, a.replace(' ',''))

if len(results) > 0:

    results = results[0].split('\'')[0]

    print(results.split('"'))

我们可以获得输出比如[‘sys.argv[1]\\n\\n’]。

然后是对python格式化输出%s的解析。通常%s格式化输出为print(“%s” % strs)或者print(“%s,%s” % (strs, strs))的形式。所以构建正则如下：

pattern2 = re.compile('%\([\w|\.|,]+')

results = re.findall(pattern2, a.replace(' ',''))

lists = []

for i in results:

    i = i.replace('%(', '')

    i = i.split(',')

    lists.extend(i)

    lists = set(lists)

这里我们首先提取变量名称strs，之后做了去重操作。

既然得到了变量名词，我们可以仿照上一步，得到变量的值。

再次运行结果如下：

['//api.bintray.com/packages/fooock/maven/jShodan/images/download.svg)](https://bintray.com/fooock/maven/jShodan/_latestVersion)[![AndroidArsenal](https://img.shields.io/badge/Android%20Arsenal-jShodan-brightgreen.svg?style=flat)]( https://android-arsenal.com/details/1/5312)\\n']

D32FBKHYYqETSf4bIdmurM7xoZA74FnL

D32FBKHYYqETSf4bIdmurM7xoZA74FnL

E48kKXIaCpuKq4nsTJCglvd9o4y8oBni

AR7LzKvBGZNaXlgkYCg4Z9y3x5lEO352

['//developer.shodan.io](https://developer.shodan.io)\\n']

MFuS0RPXqInMILeWWPFktPp2BOHUZpzF

['//api.shodan.io/shodan/host/search?key=%s&query=hostname:%s&facets={facets}', '%(\\n']

MM72AkzHXdHpC8iP65VVEEVrJjp7zkgd

['OPTIONAL)],\\n\\n']

0fTS2YJPZAOSQHnC7kSEI06LrTg7pPcV

0×04.爬虫技巧

1.调试爬虫

有时我们写完爬虫后，会发现结果并不是我们想要的，我们就想知道中间出了什么问题。

最直观的，直接输出代码print(req.content),或许复杂一点，输出成html文件：

def see(text):

    with open("./t.html", "w") as f:

        f.write(text)

see(req.content)

大家可能知道，我们会用burp suite、fiddle来进行移动端的抓包分析。同样的，在这里，我们也可以通过代理，对爬虫进行分析。这里我使用的是burp suite。

我们不仅可以实时分析请求，也可以在history里分析请求。

这里以requests为例，我们可以使用代理设置，官方文档如图：

proxies = {

'http': 'http://127.0.0.1:8080',

'https': 'http://127.0.0.1:8080',

}

r = session.get("https://github.com/login", headers=headers, proxies=proxies)

但是大家应该知道，在浏览器中使用burp suite对https进行分析的时候，需要导入证书。因为https会对证书进行验证，而burp suite不属于可信证书，所以需要导入。但是这里我们怎么导入证书呢？

很简单，只需要简单的加一个参数verify即可。这个verify的意思为，不对证书进行验证。

r = session.get("https://github.com/login", headers=headers, verify=False, proxies=proxies)

2.保存状态

为了不需要每次都要登录，我们可以保存cookie到文件，下次直接读取cookie就好了。代码如下：

# 从文件读入cookie

with open('./cookies.txt', 'rb') as f:

    cookies = requests.utils.cookiejar_from_dict(pickle.load(f))

session.cookies=cookies

# 保存cookie

with open('./cookies.txt', 'wb') as f:

    pickle.dump(requests.utils.dict_from_cookiejar(session.cookies), f)

0×05.总结

这次只是以shodan api为例子，提醒大家注意github信息泄露，也给想要爬取github敏感信息的人抛个砖。不只是shodan api，github上有更多的api等待你去挖掘。只需要改改正则，调试一下，你也有了自己的api爬取爬虫。

附录

代码如下(也可以访问这个私密gist)：

#coding:utf-8
import requests
import re
from lxml import etree
import os
import io
import pickle
import threading
import warnings
warnings.filterwarnings('ignore')
session = requests.Session()
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0' ,
'Referer': 'https://github.com/' ,
'Host': 'github.com',
'Upgrade-Insecure-Requests': '1',
}
payload = {'commit': 'Sign in' , 'login': '[email protected]', 'password' : 'xxxxxx'}
proxies = {
'http': 'http://127.0.0.1:8080' ,
'https': 'http://127.0.0.1:8080' ,
}
def see(text):
with open("./t.html" , "w") as f:
f.write(text)
def get_token(text):
#
html = etree.HTML(text)
t = html.xpath("//input[@name='authenticity_token']")
try:
token = t[0].get('value' )
except IndexError:
print("[+] Error: can't get login token, exit...")
os.exit()
except Exception as e:
print(e)
os.exit()
#print(token)
return token
def get_cookie(session):
if not os.path.exists("./cookies.txt" ):
r = session.get("https://github.com/login" , headers=headers)#, verify=False, proxies=proxies)
payload['authenticity_token'] = get_token(r.content)
r = session.post("https://github.com/session" , headers=headers, data= payload)#, verify=False, proxies=proxies)
#print(r.cookies.get_dict())
#see(r.text)
else:
with open('./cookies.txt' , 'rb') as f:
try:
cookies = requests.utils.cookiejar_from_dict(pickle.load(f))
except TypeError:
os.remove("./cookies.txt")
return get_cookie(session)
session.cookies=cookies
return session
def search(url, session):
r = session.get(url, headers=headers) #, verify=False, proxies=proxies)
html = etree.HTML(r.text)
block = html.xpath("//div[@class='code-list-item col-12 py-4 code-list-item-public ']" )
#print("[+] Info: get item: %i" % len(block))
codes = html.xpath("//div[@class='code-list-item col-12 py-4 code-list-item-public ']/div[@class='file-box blob-wrapper']/table[@class='highlight']/tr/td[@class='blob-code blob-code-inner']" )
nums = html.xpath("//div[@class='code-list-item col-12 py-4 code-list-item-public ']/div[@class='file-box blob-wrapper']/table[@class='highlight']/tr/td[@class='blob-num']/a" )
if len(codes) == len(nums):
lines = []
strs = None
for i in range (len(nums)):
#print(etree.tostring(codes[i], method='text'))
try:
text = etree.tostring(codes[i], method= 'text')
except UnicodeEncodeError:
#print("UnicodeEncodeError")
continue
if nums[i].text == '1' :
if strs is not None:
lines.append(strs)
strs = text
else:
strs = "%s \n %s" % (strs, text)
lines.append(strs)
else:
print("[+] Error: wrong number get for codes lines, exit")
pattern = re.compile('key=(.*)[&|"|\']')
pattern1 = re.compile("\w+")
pattern2 = re.compile('%([\w|.|,]+')
for a in lines:
#a = a.replace(' ','')
strs = re.findall(pattern, str(a))
if len(strs) > 0:
results = strs[0].split('"' )[0]
results = results.split('&')[ 0]
results = results.split('\'')[ 0]
if results == '' :
continue
try:
data = re.findall(pattern1, results)[0]
except IndexError:
print(results)
continue
if data == 's' :
resulresults = re.findall(pattern2, a.replace(' ', ''))
lists = []
for i in results:
i = i.replace('%(', '' )
i = i.split(',')
lists.extend(i)
lists = set(lists)
for i in lists:
pattern0 = re.compile("%s=|:[\"|']" % i[:6])
results = re.findall(pattern0, a.replace(' ', ''))
if len(results) > 0:
results = results[0].split('\'' )[0]
print(results.split('"'))
#print(a)
elif len(data) < 32:
pattern0 = re.compile("%s=|:[\"|']" % data[:6])
results = re.findall(pattern0, a.replace(' ', ''))
if len(results) > 0:
results = results[0].split('\'' )[0]
print(results.split('"'))
#print(a)
else:
print(data)
words = "https://api.shodan.io/shodan/host/ key="
session = get_cookie(session)
threads = []
for i in range( 1, 21):
url = "https://github.com/search?p= %i&q=%s&type=Code" % (i, words)
t=threading.Thread(target = search, args = (url, session))
t.start()
threads.append(t)
for t in threads:
t.join()
threads = []
for i in range( 21, 41):
url = "https://github.com/search?p= %i&q=%s&type=Code" % (i, words)
t=threading.Thread(target = search, args = (url, session))
t.start()
threads.append(t)
for t in threads:
t.join()

with open('./cookies.txt' , 'wb') as f:
pickle.dump(requests.utils.dict_from_cookiejar(session.cookies), f)

End.

转载请注明来自36大数据（36dsj.com)：36大数据 » 深入分析一款简单的Github信息泄露爬虫

使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
解决stm32引脚如果选择输入模式雁过留声花欲落单片机嵌入式硬件
1.输入模式分类STM32的GPIO输入模式主要分为以下四种：浮空输入（FloatingInput/InputFloating）上拉输入（InputPull-Up）下拉输入（InputPull-Down）模拟输入（AnalogInput）2.各模式详解(1)浮空输入（FloatingInput）电路结构：引脚内部不连接上拉或下拉电阻，完全由外部电路决定电平状态。等效电路：引脚直接连接施密特触发器（
【Docker】搭建实用的内网穿透工具 - FRP UPToZ 群晖Docker docker 容器运维
前言本教程基于群晖的NAS设备DS423+的docker功能进行搭建FRP的客户端，DSM版本为7.2.1-69057Update5。采用香港机Debian12系统的服务器来安装FRP的服务端作为演示。服务器购买地址：https://www.crash.work/aff/AQXGDNKY简介FRP（FastReverseProxy）是一个高性能的反向代理应用，它可以帮助您将内网服务通过反向代理暴露
openai-agents 中custom example agent ZHOU_CAMP oi_agents 人工智能
代码pipshowopenai-agentsName:openai-agentsVersion:0.0.4Summary:OpenAIAgentsSDKHome-page:https://github.com/openai/openai-agents-pythonAuthor:Author-email:OpenAILicense-Expression:MITLocation:d:\soft\ana
STM32八股【3】------RAM和片上FLASH Invinciblenuonuo stm32 嵌入式硬件单片机
1、RAM和FLASH构成1.RAM┌──────────────────────────┐│栈区(Stack)│←从RAM顶端向下扩展（存储局部变量、函数调用信息）│--------------------------││堆区(Heap)│←从.bss段底部向上扩展（动态分配的内存，如malloc）│--------------------------││.bss未初始化数据区│←未初始化的全局
通俗易懂的讲解MobX luckucu javascript html5 react.js 前端
什么是MobX？想象一下，你有一个小白板，上面写着你每天要做的事情。你每完成一件事，就在白板上打个勾。这个小白板就像是你的“状态”，而你打勾的动作就是“更新状态”。MobX就是这样一个工具，它帮助你管理和更新你的“小白板”。核心概念MobX有几个核心概念：observable、action、computed和reaction。我们用一个家庭日常生活的例子来解释这些概念。Observable（可观察
算法及数据结构系列 - 动态规划诺亚凹凸曼算法及数据结构算法数据结构动态规划
系列文章目录算法及数据结构系列-二分查找算法及数据结构系列-BFS算法文章目录框架思路子序列问题解题模板一维dp数组二维dp数组经典题型322.零钱兑换暴力递归带备忘录的暴力递归动态规划300.最长上升子序列1143.最长公共子序列72.编辑距离框架思路动态规划问题的一般形式就是求最值。动态规划其实是运筹学的一种最优化方法，只不过在计算机问题上应用比较多，比如说求最长递增子序列，最小编辑距离等等。
3.20 补题（二分模板，反向搜索） ZZZS0516 深度优先算法图论 c++
目录D-填涂颜色（搜索）题目描述思路分析代码实现F-跳石头（二分模板）题目描述思路分析代码实现D-填涂颜色（搜索）链接：P1162填涂颜色-洛谷题目描述由数字000组成的方阵中，有一任意形状的由数字111构成的闭合圈。现要求把闭合圈内的所有空间都填写成222。例如：6×66\times66×6的方阵（n=6n=6n=6），涂色前和涂色后的方阵如下：如果从某个000出发，只向上下左右444个方向移动
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
Windows 和 MacOS 上安装配置ADB（安卓调试桥）网络安全苏柒 windows macos adb 网络安全 python web安全数据库
一、Android调试桥(ADB)Android调试桥（ADB）是一款多功能命令行工具，它让你能够更便捷地访问和管理Android设备。使用ADB命令，你可以轻松执行以下操作网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！在设备上安装、复制和删除文件；安装应用程序；录制设备屏幕或截图；对设备进行调试，以便排查问题；检查手机上的日志文件；更新应用程序和系统组件的固件；完整地访问有关操作系
Kafka常见问题 C18298182575 kafka linq 分布式
Kafka集群，常见MQ面试问题Kafka集群，常见MQ问题Kafka名词介绍•Topic:消息队列，生产者和消费者面向的都是一个Topic•Broker:一个Kafka服务器就是一个Broker，一个集群由多个Broker组成。一个Broker可以容纳多个Topic•Producer:消息生产者，向KafkaBroker发生消息的客户端•Consumer:消息消费者，向KafkaBroker取消
深度剖析哈希表数据结构：原理、冲突解决与优化策略麻辣酸甜笔记
摘要哈希表作为一种高效的数据结构，在计算机科学领域广泛应用。本文深入探讨哈希表的工作原理，详细分析常见的冲突解决方法，如开放地址法、链地址法等，并进一步研究哈希表在不同场景下的优化策略，旨在帮助读者全面理解哈希表数据结构及其应用。一、引言在计算机程序中，快速查找和插入数据是常见需求。哈希表以其平均时间复杂度为O(1)的高效查找和插入特性，成为解决这类问题的有力工具。从数据库索引到编程语言的集合类实
PyTorch数据归一化处理：transforms 2401_87555420 pytorch 人工智能 python
##1.数据归一化处理：transforms.Normalize###1.1理解torchvision*torchvision.transforms：常用的图像预处理方法*torchvision.datasets：常用的数据集Dataset实现*torchvision.models：常用的CV（预训练）模型实现torchvision.transforms:常用的数据预处理方法，提升泛化能力，包括：
Ubuntu使用Docker部署Nginx并结合内网穿透实现公网远程访问鸭鸭渗透 eureka 云原生
目录1.安装Docker2.使用Docker拉取Nginx镜像3.创建并启动Nginx容器4.本地连接测试5.公网远程访问本地Nginx5.1内网穿透工具安装5.2创建远程连接公网地址5.3使用固定公网地址远程访问在开发人员的工作中，公网远程访问内网是其必备的技术需求之一。对于运维人员和开发者来说，能够通过公网远程访问内部的服务和应用，能够极大地提升工作效率和便利性。本文将介绍如何利用Ubuntu
Python 向量检索库Faiss使用懒大王爱吃狼 python python 开发语言自动化 Python基础 python教程
Faiss（FacebookAISimilaritySearch）是一个由FacebookAIResearch开发的库，它专门用于高效地搜索和聚类大量向量。Faiss能够在几毫秒内搜索数亿个向量，这使得它非常适合于实现近似最近邻（ANN）搜索，这在许多应用中都非常有用，比如图像检索、推荐系统和自然语言处理。以下是如何使用Faiss的基本步骤和示例：1.安装Faiss首先，你需要安装Faiss。你可
通过启用Ranger插件的Hive审计日志同步到Doris做分析 fzip Doris Hive doris 审计 hive
以下是基于ApacheDoris的RangerHive审计日志同步方案详细步骤，结合审计日志插件与数据导入策略实现：一、Doris环境准备1.创建审计日志库表参考搜索结果的表结构设计，根据Ranger日志字段调整建表语句：CREATEDATABASEIFNOTEXISTSranger_audit;CREATETABLEIFNOTEXISTSranger_audit_hive_log(repoTyp
Python 应用部署云端实战指南 —— AWS、Google Cloud 与 Azure 全解析清水白石008 python Python题库 python aws azure
Python应用部署云端实战指南——AWS、GoogleCloud与Azure全解析在当下云计算飞速发展的时代，将Python应用部署到云平台已成为大多数开发者和企业的首选。无论是构建Web服务、API接口，还是自动化任务调度，云平台都能为我们提供高可靠性、弹性伸缩与简便管理的优势。本文将详细阐述如何将Python应用分别部署到AWS、GoogleCloud与Azure，并介绍各平台下涉及的部署工
ARM：ELF bin Hex axf 守正待 ARM SoC RTOS arm
前言：PC平台流行的可执行文件格式(ExecutableFileFormat)，主要是Windows下的PE（PortableExecutable）和Linux的ELF(ExecutableandLinkingFormat，可执行和链接格式)。他们都是COFF(CommonObjectFileFormat)的变种。ARM架构采用的也是ELF文件格式。COFF是在UnixSystemVRelease
Python编程：为什么使用同步原语林十一npc Python语言 python 开发语言
Python编程：为什么使用同步原语1.同步原语同步原语：计算机科学中用于实现进程或线程之间同步的机制。目的：提供一种方法来控制多个进程或线程的执行顺序，确保他们以一致的方式访问共享资源在多线程/多进程编程中，多个执行单元可能同时访问共享资源，导致竞态条件。同步原语通过协调执行顺序，确保数据一致性和操作原子性2.Python核心同步原语同步原语作用适用场景模块Lock（互斥锁）确保同一时间只有一个
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
kafka生产消息失败 ...has passed since batch creation plus linger time Lichenpar #记录BUG解决 kafka 网络安全 java
背景：公司要使用华为云的kafka服务，我负责进行技术预研，后期要封装kafka组件。从华为云下载了demo，完全按照开发者文档来进行配置文件配置，但是会报以下错误。org.apache.kafka.common.errors.TimeoutException:Expiring10record(s)fortopic-0:30015mshaspassedsincebatchcreationplusl
linux环境下安装Redis后却找不到./src/redis-server Lichenpar redis #记录BUG解决 redis
原因是因为在执行make命令的时候失败了。失败的原因大概率是环境没有安装gcc命令。先安装gcc命令yum-yinstallgcc然后再进入到redis安装目录下执行makedistclean然后重新编译一遍make这次的编译过程时间就会长一些了。然后启动./src/redis-server
aws s3 java使用教程_在 Amazon S3 对象上执行操作 - 适用于 Java 的 AWS 开发工具包 weixin_42510731 aws s3 java使用教程
本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。在AmazonS3对象上执行操作AmazonS3对象表示一个文件或数据集合。每个对象必须驻留在一个存储桶中。注意上传对象使用AmazonS3客户端的putObject方法，并为其提供存储桶名称、键名称和要上传的文件。存储桶必须存在，否则将出现错误。导入importcom.amazonaws.AmazonServiceExc
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
python函数闭包和递归_闭包和递归_个人文章 - SegmentFault 思否 weixin_39830313 python函数闭包和递归
js变量的作用域:全局作用域(全局变量):在函数外面声明的变量**生命周期(变量从声明到销毁)：页面从打开到关闭.局部作用域(局部变量):在函数里面声明的变量**生命周：开始调用函数到函数执行完毕1.闭包使用介绍1.闭包介绍(closure)1.1闭包：是一个可以在函数外部访问函数内部变量的函数->闭包是函数1.2闭包作用：可以在函数外部访问函数内部变量->延长局部变量的生命周期1.3闭包语法：-
python函数闭包和递归_python函数基础3--闭包 + 递归 + 函数回调 weixin_39532019 python函数闭包和递归
一、闭包1.函数嵌套defouter():print("外层函数")definner():print("内层函数")returninner()outer()函数嵌套流程图2.闭包闭包的表现形式：函数里面嵌套函数，外层函数返回内层函数的函数名，这种情况就称之为闭包defouter():print("外层函数")definner():print("内层函数")returninnerret=outer(
AWS WAF实战指南：从入门到精通 ivwdcwso 安全 aws 网络云计算 WAF 安全
1.引言AmazonWebServices(AWS)WebApplicationFirewall(WAF)是一款强大的网络安全工具，用于保护Web应用程序免受常见的Web漏洞攻击。本文将带您从入门到精通，深入探讨AWSWAF的实际应用策略，并提供具体案例，帮助您更好地保护您的Web应用程序。2.AWSWAF基础2.1什么是AWSWAF？AWSWAF是一种Web应用程序防火墙，可以帮助保护您的Web
线性代数-MIT 18.06-汇总儒雅的钓翁数学基础线性代数矩阵
第一讲：方程组的几何解释第二讲：矩阵消元第三讲：乘法和逆矩阵第四讲：AAA的LULULU分解第五讲：转换、置换、向量空间R第六讲：列空间和零空间第七讲：求解Ax=0Ax=0Ax=0，主变量，特解第八讲：求解Ax=bAx=bAx=b：可解性和解的结构第九讲：线性相关性、基、维数第十讲四个基本子空间第十一讲：矩阵空间、秩1矩阵和小世界图第十二讲：图和网络第十三讲：复习一第十四讲：正交向量与子空间第十五
如何在Spring Boot中设置HttpOnly Cookie以增强安全性遥不可及~~斌 spring boot 后端 java
引言在Web开发中，Cookie是用于在客户端和服务器之间传递信息的重要机制。然而，Cookie的安全性一直是一个备受关注的问题。特别是当Cookie中存储了敏感信息（如会话ID）时，如何防止这些信息被恶意脚本窃取就显得尤为重要。HttpOnly属性是增强Cookie安全性的一种有效手段。本文将详细介绍如何在SpringBoot中设置HttpOnlyCookie，并探讨其背后的安全机制。什么是Ht
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include