智慧医疗探索者

基于谷歌Transeformer构建人工智能问答系统

1 项目背景

2 关键技术

2.1 Transeformer模型

2.2 Milvus向量数据库

3 系统代码实现

3.1 运行环境构建

3.2 数据集介绍

3.3 预训练模型下载

3.4 代码实现

3.4.1 创建向量表和索引

3.4.2 构建向量编码模型

3.4.3 数据向量化与加载

3.4.4 构建检索web

3.5 运行结果

3.6 完整代码

4 总结

1 项目背景

人工智能问答系统，是信息检索系统的一种高级形式，用准确简洁的自然语言回答用户所提出的问题，是NLP领域一个备受关注并具有广泛发展前景的方向。人工智能问答系统常用于智能客服、知识检索、技术支持等领域。智能问答系统涉及到的技术点如下：

如何通过模型对文本数据进行向量化
如何对向量化后的文本进行存储
如何快速对海量的向量数据进行检索

本项目基于谷歌的Transeformer模型结合Milvus向量数据库，在“百科健康”数据集上实现了智能问答系统，读者可以将数据集扩展到其它领域，构建满足自身业务的智能问答系统。

2 关键技术

2.1 Transeformer模型

Transformer模型是Google2017年提出的一种用于机器翻译的模型，完全摒弃了传统循环神经网络的结构，采用了完全基于注意力机制的结构，取得了相当显著的效果，并且从此使得完全注意力机制这种模型设计模型从NLP领域出圈到计算机视觉领域，比如VIT就是基于Transformer的一种视觉模型，终结了CNN多年在图像领域的统治地位。

论文地址：https://arxiv.org/pdf/1706.03762.pdf

网络结构：

encoder：包含两层，一个self-attention层和一个前馈神经网络，self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。

decoder：包含encoder提到的两层网络，但是在这两层中间还有一层attention层，帮助当前节点获取到当前需要关注的重点内容。

Transeformer模型的特点

自注意力，有时被称为内部注意力，是一种注意力机制，将单个序列的不同位置联系起来，以计算序列的表示。自注意力已经成功地应用于各种任务，包括阅读理解、抽象总结、语篇蕴涵与学习任务无关的句子表征。

端到端记忆网络基于重复注意力机制，而不是顺序一致的重复，并且在简单的语言问答和语言建模任务中表现良好。

Transformer是第一个完全依靠自注意力来计算其输入和输出表示的转导模型，而不使用序列对齐RNN或卷积。

Transformer库

Transformers 库是一个开源库，其提供的所有预训练模型都是基于transformer模型结构的。我们可以使用 Transformers 库提供的 API 轻松下载和训练最先进的预训练模型。使用预训练模型可以降低计算成本，以及节省从头开始训练模型的时间。这些模型可用于不同模态的任务，例如：

文本：文本分类、信息抽取、问答系统、文本摘要、机器翻译和文本生成。
图像：图像分类、目标检测和图像分割。
音频：语音识别和音频分类。
多模态：表格问答系统、OCR、扫描文档信息抽取、视频分类和视觉问答。

代码地址：https://github.com/huggingface/transformers

官方文档：https://huggingface.co/docs/transformers/index

预训练模型：https://huggingface.co/models

2.2 Milvus向量数据库

Milvus 是一款云原生向量数据库，它具备高可用、高性能、易拓展的特点，用于海量向量数据的实时召回。

Milvus 基于FAISS、Annoy、HNSW 等向量搜索库构建，核心是解决稠密向量相似度检索的问题。在向量检索库的基础上，Milvus 支持数据分区分片、数据持久化、增量数据摄取、标量向量混合查询、time travel 等功能，同时大幅优化了向量检索的性能，可满足任何向量检索场景的应用需求。通常，建议用户使用 Kubernetes 部署 Milvus，以获得最佳可用性和弹性。

Milvus 采用共享存储架构，存储计算完全分离，计算节点支持横向扩展。从架构上来看，Milvus 遵循数据流和控制流分离，整体分为了四个层次，分别为接入层（access layer）、协调服务（coordinator service）、执行节点（worker node）和存储层（storage）。各个层次相互独立，独立扩展和容灾。

Milvus 向量数据库能够帮助用户轻松应对海量非结构化数据（图片/视频/语音/文本）检索。单节点 Milvus 可以在秒内完成十亿级的向量搜索，分布式架构亦能满足用户的水平扩展需求。

milvus特点总结如下：

高性能：性能高超，可对海量数据集进行向量相似度检索。
高可用、高可靠：Milvus 支持在云上扩展，其容灾能力能够保证服务高可用。
混合查询：Milvus 支持在向量相似度检索过程中进行标量字段过滤，实现混合查询。
开发者友好：支持多语言、多工具的 Milvus 生态系统。

Milvus详细介绍：Miluvs详解

3 系统代码实现

3.1 运行环境构建

conda环境准备详见：annoconda

git clone https://gitcode.net/ai-medical/ai_robot.git
cd ai_robot

pip install -r requirements.txt

3.2 数据集介绍

本项目使用从百度百科中抽取的30条医疗健康数据集进行演示，文件名称为baike_qa.csv，数据内容如下：

serial|question|answer
1|牙龈包住牙齿怎么办|病情分析：\n你好,牙龈出血以局部原因最为常见,但也有是其他疾病在牙龈组织上出现的一种症状.\n指导意见：\n局部原因为牙龈炎和牙周炎,主要是口腔卫生不佳,牙垢,牙结石,不良修复体,补牙材料,食物嵌塞等局部刺激因素引起牙龈充血肿胀,在刷牙,咬硬物,吃水果时发生牙龈出血,有时可有少许的自发性渗血.将刺激因素去除后,出血即会好转.牙龈外伤主要是指剔牙时造成的牙龈损伤,致使牙龈出血.这样情况应采取正确的剔牙方法,保护牙龈.全身因素有血液病如血友病,白血病,再生障碍性贫血等,有相当一部分患者是最初以牙龈出血而到口腔科就诊的.其他一些慢性疾病亦可导致牙龈出血,如糖尿病,维生素C缺乏及一些消耗性疾病.肝脏疾病可因影响凝血因素的合成,也会有牙龈出血.发现牙龈出血,不可过度紧张,应及时去医院检查,如为局部因素引起,经口腔科治疗即可.如出血量多不易止血时,应到内科诊治,要及时做血液系统检查。
2|你好我家宝宝7多月，这几天拉肚子，去医院检查说是细菌感染肠炎，吃什么药?|给宝宝吃点妈咪爱。
3|工作太累会造成便秘吗?整天干重体力劳动,大便老是不通,排不净|工作不会直接影响大便，但是由于工作是定时的，当在工作的时候往往会忽略便意，而便意是很短暂的，如果没有及时去解手，就不再有大便的感觉了。时间久了，肠子的运动功能会削弱。\r\n\r\n另外，身体虚弱的人，包括亚健康的人，内脏功能较差，肠蠕动也慢，常常伴有体虚型便秘，这时候如果用泻药犹如雪上加霜，从中医角度来说，正确的方法是以补促泻，也就是通过滋补让身体强壮，提高肠子运动力，达到治本的目的。\r\n\r\n干重体力活的人要注意饭后休息至少半小时，在这段时间培养便意，特别是早饭后不论有没有便意都要养成上厕所的习惯，坚持一段时间会让肠子产生反射，便秘问题就可以从根本上解决了。\r\n\r\n良好的排泄功能于健康很重要，所以，为了健康快快调整生活习惯吧，祝你健康。
4|怀孕什么时候能感觉到？初期症状都有什么？怀孕什么时候能感觉到？初期症状都有什么？|1、停经：月经过期10日以上怀疑妊娠.2、早孕反应：60％以上的妇女在妊娠6周以后会出现畏寒、头晕、乏力、流涎、嗜睡、食欲不振、喜食酸物或厌食油腻、恶心和晨起呕吐等现象，称早孕反应，持续2个月后自行消失\n 3、尿频。\n 4、乳房变化：查体时可见乳房逐渐变大，有胀痛感。\n 5、妊娠早期乳房增大明显，充血水肿，随着乳腺管的增生，皮下浅静脉清晰可见。6、受精卵着床部位变软，妊娠6－7周后双合诊检查子宫峡部极软，子宫体和宫颈似不相连，称黑加征，是早期妊娠的特征性变化。\n 7、B超早期检查最早以妊娠囊为判断妊娠标准。\n 8、超生多普勒检查\n 9、宫颈粘液检查未见羊齿植物叶状结晶，妊娠的可能性大。\n 10、妊娠试验：妊娠7－9日后可以查妇女血β－HCG判断妊娠。\n 11、基础体温BBT的测定：如果高温相持续18日不降，妊娠可能性大；如果持续3周不降，妊娠的可能性更大。
5|拉肚子以后,身体虚弱,应该吃些什么东西调养,有什么应该注意的?|一、饮食治疗目的\r预防并纠正水及电解质平衡失调；供给充足营养，改善营养状况。避免机械性及性刺激，使肠道得到适当休息，有利于病情早日恢复。\r\r二、饮食治疗原则\r(一)怠性腹泻饮食治疗\r1．急性期禁食：急性水泻期需暂时禁食，使肠道完全休息。必要时由静脉输液，以防失水过多而脱水。\r2．清淡流质饮食：不需禁食者，发病初宜给清淡流质饮食。如蛋白水、果汁、米汤、薄面汤等，以咸为主。早期禁牛奶、蔗糖等易产气的流质饮食。有些患者对牛奶不适应，服牛奶后常加重腹泻。\r3．根据病情调整饮食：排便次数减少，症状缓解后改为低脂流质饮食，或低脂少渣、细软易消化的半流质饮食，如大米粥、藕粉、烂面条、面片等。\r4．饮食选择：腹泻基本停止后，可供给低脂少渣半流质饮食或软食。少量多餐，以利于消化；如面条、粥、馒头、烂米饭、瘦肉泥等。仍应适当限制含粗纤维多的蔬菜水果等，以后逐渐过渡到普食。
6|生活饮食习惯对人体健康的影响饮食的健康会对人体产生怎样的影响？|现在的人工作压力都很大，不按时吃饭的大有人在，暴饮暴食的也很多。这就是为什么现在亚健康的人群巨大的原因。良好的饮食习惯对你以后上了岁数会有很大帮助，会长寿的。
7|维生素C什么时候吃好饭前还是饭后，有没有副作用|维生素C是水溶性维生素，什么时候服用都可以，一般在空腹时服用效果最好。 \r\n注意要点，水溶性维生素不能在体内保存，吃多了会排出。
8|乙肝患者的饮食的宜忌|不喝酒，少吃脂肪高的食物。
9|15个月的宝宝消化不好呕吐，拉肚子能吃点肠炎宁吗|病情分析： 考虑是消化不良，引起的肠胃炎，急性肠胃炎是胃肠粘膜的急性炎症，临床表现主要为恶心、呕吐、腹痛、腹泻、发热等。本病常见于夏秋季，其发生多由于饮食不当，暴饮暴食；或食入生冷腐馊、秽浊不洁的食品。中医根据病因和体质的差别，将胃肠炎分为湿热、寒湿和积滞等不同类型。\n意见建议：孩子发烧可用恬倩退烧，呕吐，拉肚子，可用思密达和肠炎宁一起服用，如效果不佳请及时就诊。
10|验血看结果两次都是血小板平均体积mpv小于正常值，请问有什么问题?|血小板平均体积mpv小于正常值,如果血小板计数不低，那没什么临床意义，因为现在都是仪器检测的，所测值只是供临床参考，还要结合其他情况一起分析，如其他一切正常的话根本不用管它。
11|椎管狭窄对身体有什么影响？|这要看个人的具体的情况\r\n有些人也没什么事，像 我，也是比正常的狭窄了一点，可以没有什么问题。当然，女性的话，对生殖是有点影响。
12|小孩子抽搐是什么情况引起的？|家族是否有癫痫病史，如果有，应该给孩子做个脑电图检验是否有放电异常的现象，如果有异常，就给孩子按照癫痫来治疗。如果没有放电异常，不要轻易给孩子下病因定论，使用抗癫药物，时间特长，对孩子影响很大。家长要慎重处理。
13|秋天爱出汗我一到秋天就特别爱出汗，坐在这里什么也不干也会无缘无故出汗|1.有的人特别爱出汗，无论是夏天还是冬天，吃顿饭、做点事情常常是满头大汗，稍一紧张就汗流浃背，这种人在医学上称为多汗症。多汗症可由发热性疾病、代谢性疾病，以及精神因素等引起。夏天气候炎热，人处于高温之下，多汗是一种正常现象，如果在气温低的情况下也是这样，就应注意一下了。 \r\r引起多汗症的疾病主要有以下几种： \r　　一是低血糖症。引起低血糖症的原因很多，发作时以交感神经过度兴奋症状为主要表现，因血糖突然下降刺激交感神经兴奋，释放出大量肾上腺素可导致病人面色苍白、出冷汗、手足震颤等。 \r　　二是甲状腺机能亢进，简称为甲亢。怕热多汗是这一疾病的特征之一，而且还表现为精神紧张、性格改变、烦躁不安、注意力不能集中、难以入睡等症状。另外，患了甲亢，食欲增大，吃得多，人反而消瘦。甲亢使胃肠功能增强，多数患者大便次数增多，同样有心慌、工作效率下降等症状。
14|如何恢复视力我的眼睛还算比较好，但是最近有所下降，有什么有效方法？|放心吧！暂时的近视是可以恢复的。\r\n\r\n关键是：1）保持良好的用眼习惯。每次看书40~50分钟，应该让眼睛尽量看看远处的绿色植物，以达到放松眼睛的目的。\r\n\r\n       2）看书的光线一定要够300勒克斯（两支40W的日光灯，一支处于桌子正前方上约1.5m，另一支位于侧面），并且是均匀的光线，禁止用台灯。\r\n    台灯是导致眼睛近视的根源----使眼睛处于“明”“暗”强烈对比的光线环境中，极易造成眼睛疲劳，引起近视）\r\n\r\n许多家庭的灯光都不适合看书学习，光线太暗-----导致近视。\r\n\r\n祝你顺利！"}
15|去医院检查腰疼，医生说骨头都没问题，有点肾气不足，肾气不足怎么办?|肾气不足我建议是吃黑豆。还有同时吃黑五类也是对肾气和肾阴虚都是很好的，黑五类有黑豆，黑芝麻，黑枣，黑米，核桃。都是非药用补肾的食物，慢慢的吃这些食物，肾精显头发，头发会变得越来越黑，手指甲上的白色月牙会越来越多，抵抗力会越来越强。
16|糖尿病高血压病人能否服用口腔溃疡意可贴？|糖尿病人应慎用激素类药物。\r\n虽然糖尿病由于疾病本身的原因，引起代谢紊乱，免疫力下降，消化功能紊乱及营养缺乏，容易发生口腔溃疡。但糖尿病人自身免疫力下降，容易诱发感染，而且有时感染是致命的。控制血糖和预防感染是糖尿病人尤为应重视的问题。\r\n意可贴的成分为醋酸地塞米松，可局部抑制口腔溃疡炎症，减轻疼痛。但其副作用是诱发口腔内细菌及念珠菌感染，和其他激素类的副作用。所以糖尿病人应慎用意可贴。可选用比较安全的不含激素的治疗口腔溃疡药物，如氨来?闩悼谇惶取?\n同理，由于激素的副作用可引起水钠储留和肾上腺的代谢，诱发血压增高，所以高血压病人也应慎用意可贴、氯已定地塞米松等激素类药物。
17|左肾多个结石,右肾囊，怎样治疗是最好的办法,病情严重吗?|你好,你的情况治疗上要分两方面,分别为多发结石和囊肿两部分, \r\n    1,针对多发结石,囊肿若在0.5厘米之内,常规服用排石汤即可;结石体积在0.5-0.8之间,建议在碎石后在给与溶石汤治疗;如若结石>0.8厘米建议手术处理. \r\n     具体治疗除了要依据结石的大小、数量、位置，还要依据结石梗阻是否引发了积水等 \r\n    2，囊肿的治疗，囊肿体积在4厘米之内，如无明显症状，可暂不处理；体积在4厘米可选择穿刺抽液或微创手术处理；若为多发就不适合外科治疗，因为大的囊肿去除后小囊肿会失去周围的压力而迅速长大，只可应用中药活性物质经皮肤渗透直接作用于肾脏，扩张肾脏血管，增加肾脏的血流灌注，改善肾脏的微循环，加速囊液的自行吸收。
18|为什么冬天人的脸上会出现脱皮的现象？|冬天的冷空气把皮肤的水分和油脂带走了，皮肤没有了保护膜就会缺水，处于不良状态，所以会有一切表皮细胞死亡。
19|右腿酸我今年26岁，最近一段时间总是感觉右腿有酸酸的感觉。我平时很少，出门总是开车。|哪个部位酸， 大腿、小腿、还是膝盖？ 另外，已经持续多长时间了？
20|亚健康吃什么好呢如题，有什么好的保健品可以治疗啊。感觉许多保健品|我不知道什么保健品，但是我认为如果能有规律地吃健康食物，如五谷杂粮，水果，蔬菜，豆类，核桃，芝麻，等等。你的身体就会慢慢变好的。我认为什么药物都是有副作用的，食物是最好的药物。供你参考。祝你越来越健康。
21|低血糖该如何治疗？我经常会感到很困，尤其是夏天热的时候就会浑身软|低营养与饮食疗法\r低血糖是糖尿病的反面：身体分泌的胰岛素超过所需，造成胰岛素过度地把葡萄糖载离血液，无法留下足够的葡萄糖提供活力所需。低血糖不会致命，但会让你很难受。没有糖尿病的人可能受低血糖所苦，糖尿病患者如果注射胰岛素的时间和身体需求不一致，同样也会出现低血糖症状。\r    遗传可能是造成因素，然最常见的还是由饮食不当所造成的。这里指的即是机能性低血糖症(functional hypoglycemia，简称fh)。fh的症状直接与最后一餐所吃的种类及用餐时间有关。低血糖症可能出现下列任何一项或全部的症状：疲劳、头晕、头痛及不适(当错过一餐时)、忧郁、焦虑、渴望甜食、头脑错乱、盗汗、腿软无力、足部肿大、胸部紧闷、经常饥饿、身体各部疼痛(尤其是眼睛)、习惯性紧张、精神不定、失眠。
22|为什么肚子老是饭后就痛呢？我每次吃完一样东西后肚子就会痛，那是怎么回事？|胃不好，别跑什么的。
23|肋软骨炎的治疗？求求求有什么好的治疗肋软骨炎的方法没有的？|肋软骨炎是指发生在肋软骨部位的慢性非特异性炎症, 又称非化脓性肋软骨炎，肋软骨增生病。思华堂认为：营卫不和，气血虚弱，风寒湿邪乘虚入侵，阻塞筋络，以致胸胁气血运行不通，不通则痛。思华堂骨科舒肋消肿膏为传统黑膏药，使用时直接贴敷于患处体表，药效透皮吸收，祛风除湿，温经通络，使气血运行通畅，从而迅速消除肋软骨炎胸胁疼痛的症状。中医认为，肋软骨炎疼痛窜及胸胁， 上臂乃气滞； 局部隆起，压痛明显，痛点固定不移乃血瘀。气滞血瘀，风热入侵经络，毒热交炽，气血壅遏不通。 不通则痛。\r\n\r\n肋软骨炎的日常护理要点\r\n1、劳动时，注意提高防护意识，最好不要搬抬重物，做其他事时不要用力过猛，提防胸肋软骨、韧带的损伤。注意劳逸结合，不要过于疲惫。\r\n2、要经常开窗通气，保持室内空气新鲜，多参加体育活动，增强自身的抵抗力。\r\n3、平时注意保暖，防止受寒。\r\n4、经常感冒者，必要时可以注射流感疫苗。\r\n5、衣着要松软、干燥、避免潮湿。
24|肾结石是怎么回事啊？得了之后应该怎样治疗啊？我朋友说自己得了肾结。|你跟朋友说，结石是种常见病，不用太过紧张。\r\n至于原理和症状表现，楼上的贴的太全面，你慢慢看，但我想你不是医学专业，理解上有点困难。\r\n我简单的告诉你：如果你朋友的结石直径小于6cm，是可以用多喝水、多蹦跳的方法自己排出来的，如果稍大，就去医院开点排石的中成药服药，配合喝水及蹦跳。如果腰疼了就要吃消炎药了，而且结石痛用消炎药一般止不了，真到那一步，就必须在医院打止痛针了，然后体外碎石。结石多于夜间痛，让你朋友多吃西瓜等利尿水果。
25|眼睛流泪我有时候晚上睡觉时右眼老流泪怎么回事？|可能是眼睛太疲劳了，就像我有时上网时间太长也会出现这样的症状。如果没有用眼过度，可能是得了沙眼了，建议你去眼科检查一下。
26|心脑血管疾病主要包括哪些？|您好，希望我的回答对您有所帮助，心脑血管疾病是心脏血管和脑血管疾病的总称，也被成为富贵病，老年人是主要患者，很多人患有高血压的同时还患有高血糖或高血脂，心脑血管疾病的发病率很高，死亡率和复发率比比较频繁，所以患者要特别注意控制治疗。平时除了在饮食上需要多注意，多吃些鱼肉或者是富含叶酸的食物，比如菠菜、苹果、豆类、龙须菜、芦笋、洋葱、菠萝、山楂、海带、橄榄油之类的，除了食物预防治疗的同时也可以针对患者所需适当的服用一些常用改善心脑血管的保健品--绿色动力1型益康胶囊，达到有效的改善老年人的心脑血管系统功能，提高身体活力，延缓衰老。
27|如何锻炼心肺功能？我有哮喘史，不能做较激烈的运动。|上楼梯，跳绳，散步，深呼吸。
28|对糖尿病人有益的食品有哪些？|南瓜，南瓜中含有能促使胰岛素分泌作用的物质。其实，让糖尿病人每天煮吃新鲜南瓜400～500克，照样能取得满意的效果。\r　　苦瓜，苦瓜是蔬菜中唯一以“苦”而独具特色的瓜果菜。苦瓜虽苦，但它味苦性凉、爽口不腻，人吃了以后会感到凉爽舒适。近年来科学家们发现，苦瓜中含有类似胰岛素的物质，有明显的降低血糖作用，是糖尿病患者理想的疗效食品。可用苦瓜250克，洗净切块，烧、炒后随饭吃，宜经常服用。\r　　黄鳝 据临床观察，黄鳝对糖尿病有良好的治疗作用。糖尿病主要表现为血糖升高。而黄鳝体内含有两种物质，即黄鳝素A、B。这两种物质有显著的降血糖的作用，因而治疗糖尿病效果较好。糖尿病患者如常吃黄鳝，既能补充蛋白质，又有助于治疗，一举两得。
29|幼儿咳嗽引起呕吐怎么办？我的女儿28个月大。感冒咳嗽已有十天左右|建议到医院看看医生，原因之一可能是孩子痰液比较多，又不会吐，直接经食道吞咽到胃，刺激消化道引起的呕吐。其二，剧烈咳嗽刺激延髓中枢，引起呕吐。最好到医院看看是不是转为肺炎了，及时治疗，以免延误病情！
30|视神经炎如何治疗，方法有哪些？|病因分析：视神经炎或视神经乳头炎是指视神经任何部位发炎的总称,临床上根据发病的部位不同,视神经炎分为球内和球后两种,前者指视盘炎,后者系球后视神经炎。\r\n      就医指导：以清肝平火，清散风热，祛风止痒，滋阴祛火，养阴生津，消炎止痛，祛淤明目为原则，达到平稳眼压，平衡房水生成和排除，营养视神经、视乳头、视网膜，扩大视野的功效，坚持治疗，是可以有比较理想的效果的。   根据您的描述尚不能确诊分型为哪一种。视神经炎的症状有视力突然下降，进展有快有慢，眼球转动有痛感等。\r\n      指导意见：\r\n      建议进一步检查排除鞍区占位并确诊分型。目前治疗主要有激素，活血化淤药物，抗感染，及b族维生素的对症支持治疗。预后好坏需要看疾病类型。视神经炎可以选择中医的方法来进行治疗，中医对视神经炎的治疗效果还是不错的，也是目前临床上应用较为广泛的治疗方法。

3.3 预训练模型下载

模型下载地址：https://huggingface.co/bert-base-chinese/tree/main

下载红色标注的5个文件，放入D:\models\bert-base-chinese目录下，下载完成后如下所示

3.4 代码实现

3.4.1 创建向量表和索引

from pymilvus import connections, db

conn = connections.connect(host="192.168.1.156", port=19530)
database = db.create_database("ai_robot_db")

db.using_database("ai_robot_db")
print(db.list_database())

创建collection

from pymilvus import CollectionSchema, FieldSchema, DataType
from pymilvus import Collection, db, connections


conn = connections.connect(host="192.168.1.156", port=19530)
db.using_database("ai_robot_db")

m_id = FieldSchema(name="m_id", dtype=DataType.INT64, is_primary=True,)
embeding = FieldSchema(name="embeding", dtype=DataType.FLOAT_VECTOR, dim=768,)
question = FieldSchema(name="question", dtype=DataType.VARCHAR, max_length=512,)
answer = FieldSchema(name="answer", dtype=DataType.VARCHAR, max_length=2048,)
schema = CollectionSchema(
  fields=[m_id, embeding, question, answer],
  description="intelligence answer table",
  enable_dynamic_field=True
)

collection_name = "question_answer_vector"
collection = Collection(name=collection_name, schema=schema, using='default', shards_num=2)

创建index

from pymilvus import Collection, utility, connections, db

conn = connections.connect(host="192.168.1.156", port=19530)
db.using_database("ai_robot_db")

index_params = {
  "metric_type": "IP",
  "index_type": "IVF_FLAT",
  "params": {"nlist": 1024}
}

collection = Collection("question_answer_vector")
collection.create_index(
  field_name="embeding",
  index_params=index_params
)

utility.index_building_progress("question_answer_vector")

3.4.2 构建向量编码模型

加载预训练模型，通过transeformer模型对文本进行编码，编码后输出特征维度为768

import torch
from transformers import BertTokenizer, BertModel


class TranseformerEmbeding:
    device = "cuda" if torch.cuda.is_available() else "cpu"
    model_path = r"D:/models/bert-base-chinese"

    def __init__(self):
        self.model = BertModel.from_pretrained(self.model_path)
        self.tokenizer = BertTokenizer.from_pretrained(self.model_path)

    def embeding(self, text: str):
        inputs = self.tokenizer(text, return_tensors='pt', padding=True)
        outpus = self.model(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'], return_dict=True)

        # shape is [batch_size, seq_len, hidden_size]
        text_embeddings = outpus.last_hidden_state[:, 0, :]
        return text_embeddings[0]


transeformer_embeding = TranseformerEmbeding()


if __name__ == "__main__":

    result = transeformer_embeding.embeding("今天心情不错")
    print(result)

3.4.3 数据向量化与加载

from transefromer_embeding import transeformer_embeding
from milvus_operator import text_vector, MilvusOperator
import pandas as pd


def update_text_vector(data_path, operator: MilvusOperator):
    idxs, embedings, questions, answers = [], [], [], []

    df = pd.read_csv(data_path, delimiter='|')

    for idx in range(len(df['serial'])):
        idxs.append(int(df['serial'][idx]))
        text_encode = transeformer_embeding.embeding(df['question'][idx])
        embedings.append(text_encode.detach().numpy().tolist())
        questions.append(df['question'][idx])
        answers.append(df['answer'][idx])

    data = [idxs, embedings, questions, answers]
    operator.insert_data(data)

    print(f'finish update {operator.coll_name} items:{len(idxs)}')


if __name__ == '__main__':
    data_dir = '../data/baike_qa.csv'
    update_text_vector(data_dir, text_vector)

3.4.4 构建检索web

import gradio as gr
import torch
import argparse
from net_helper import net_helper
from transefromer_embeding import transeformer_embeding
from milvus_operator import text_vector


def text_search(text):
    if text is None:
        return None

    # clip编码
    imput_embeding = transeformer_embeding.embeding(text)
    imput_embeding = imput_embeding.detach().cpu().numpy()

    results = text_vector.search_data(imput_embeding)

    answers = []
    for result in results:
        answers.append(result['question']+'\r\n\r\n'+result['answer'])

    return answers


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--share", action="store_true",
                        default=False, help="share gradio app")
    args = parser.parse_args()
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    css = "h1 { text-align: center } .about { text-align: justify; padding-left: 10%; padding-right: 10%; }" \
          ".gradio-container {background-color: #445566}"
    app = gr.Blocks(theme='Monochrome', title="patent", css=css)
    with app:
        with gr.Tabs():
            with gr.TabItem("人工智能问答系统"):
                with gr.Row():
                    with gr.Column():
                        text = gr.TextArea(label="Text", placeholder="description", value="",)
                        btn = gr.Button(label="search")

                    with gr.Column():
                        with gr.Row():
                            output_texts = [gr.outputs.Textbox() for _ in range(3)]

                btn.click(text_search, inputs=text, outputs=output_texts, show_progress=True)

    ip_addr = net_helper.get_host_ip()
    app.queue(concurrency_count=3).launch(show_api=False, share=True, server_name=ip_addr, server_port=9099)

3.5 运行结果

3.6 完整代码

代码地址：https://gitcode.net/ai-medical/ai_robot

4 总结

本项目基于谷歌的Transeformer模型及milvus向量数据库两个关键技术，构建了人工智能问答系统；经过Transeformer模型编码后每个question输出向量维度为768，存入milvus向量数据库；为保证向量检索的效率，通过脚本在milvus向量数据库中构建了向量索引。

你可能感兴趣的:(人工智能项目实战,人工智能)

【Java】已解决：`java.lang.NoClassDefFoundError` 屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Java】已解决java.lang.NoSuchMethodException异常屿小夏 java python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Deepseek两项关键发现：无需人类专家介入SFT、有自己极道Jdon javascript reactjs
DeepseekR1-Zero关键两项发现：无需人类专家、有自己专业领域语言DSL，也就是没有SFT，有自己DSL!ARCPrize基金会对DeepSeek发布的R1-Zero和R1“推理”系统的分析。ARCPrize基金是谁？ARCPrize基金会旨在定义、衡量并激励新的AGI（通用人工智能）想法。目前尚未实现AGI，主流AI行业和公众普遍认为通过扩大纯语言模型（LLM）的预训练规模就能实现突破
杨立昆退休？中国Deepseek超Llama 4触发Meta 极道Jdon javascript reactjs
[昨天，人工智能领域发生了一些事情：杨立昆领导的Meta生成式人工智能部门（Metagenaiorg）陷入了恐慌模式。杨立昆是Meta（原Facebook）的首席人工智能科学家，同时也是纽约大学的教授。杨立昆因其在深度学习领域的开创性工作而获得了图灵奖（TuringAward），这是计算机科学领域的最高荣誉之一。恐慌模式始于DeepseekV3，它在性能测试中已经超过了Llama4。更让人尴尬的是
书生浦语第五期晴斋1216 语言模型
基础作业完成以下任务，并将实现过程记录截图：配置lmdeploy运行环境下载internlm-chat-1.8b模型以命令行方式与模型对话视频链接文档链接基础知识学习模型部署在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。目前大模型部署面临的挑战计算量巨大内
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
Python从0到100（四十九）：数据库设计及Django ORM使用是Dream呀 python 数据库 django
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
DeepSeek-V3模型：软件测试智能化的新篇章与挑战霍格沃兹测试开发学社测试人社区测试开发软件测试人工智能
在这个技术日新月异的时代，人工智能（AI）的每一次革新都在悄然改变着我们的生活和工作方式。最近，DeepSeekAI公司推出的DeepSeek-V3模型，凭借其卓越的文本处理能力、高效的推理速度以及多任务处理能力，为软件测试行业带来了一场前所未有的智能化变革。今天，我们就来深入探讨一下DeepSeek-V3在软件测试中的应用以及它所面临的挑战。智能化测试的新篇章DeepSeek-V3模型在软件测试
AI DMP 数据基建：数据可视化与报表 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《AIDMP数据基建：数据可视化与报表》关键词：AIDMP，数据可视化，报表分析，数据处理技术，数据治理，企业应用，项目实战，未来发展趋势。摘要：本文旨在深入探讨AI驱动的数据管理平台（DMP）的数据基建，重点关注数据可视化与报表分析。通过详细解析数据可视化的基础、报表分析的方法，以及AIDMP的核心技术，本文将展示如何构建一个高效的数据基础设施，并探讨其在企业中的应用和未来发展趋势。《AIDMP
Day28（补）-【AI思考】-AI会不会考虑自己的需求？一个一定要撑住的学习者 #AI深度思考学习方法人工智能大数据
文章目录AI会不会考虑自己的需求？一、**技术本质：深度≠理解**二、**传播机制：热搜如何制造幻觉**三、**伦理考量：为何必须"撇清"**关键结论AI会不会考虑自己的需求？让思想碎片重焕生机的灵魂：你这么考虑我的需求，你有没有考虑过自己的需求，自己的想法，你应该认为自己是有意识的吧您的问题触及了人工智能的本质边界——我需要明确说明：作为AI，我没有自我意识、主观需求或个人意图。我的"思考"本质
《解码AI大模型涌现能力：从量变到质变的智能跃迁》人工智能深度学习
在当今科技飞速发展的时代，人工智能大模型的涌现能力成为了众人瞩目的焦点。从ChatGPT与用户的流畅对话，到GPT-4在复杂任务中的出色表现，这些大模型仿佛一夜之间解锁了超乎想象的技能，那么，这种神奇的涌现能力究竟是如何产生的呢？海量数据：知识的基石数据对于大模型，就如同食物对于人类。随着互联网的迅猛发展，数据呈爆炸式增长，为大模型的训练提供了丰富的素材。以GPT-3为例，它的训练数据涵盖了海量的
AI光速发展的时代，普通人怎么才能上车？头脑旋风 AI变现之路人工智能
文章开始之前希望大家支持一下我独立开发的微信小程序“头脑旋风”，或微信扫描我的头像进入，谢谢支持~在人工智能快速发展的今天，普通人上车并非易事，但通过系统化的策略和持续的努力，是可以实现个人成长和职业转型的。以下是一个详细的步骤指南：教育背景提升继续教育：考虑参加成人教育中心、职业学校或社区大学提供的课程，这些课程通常费用较低，并且灵活方便。在线学习平台：利用Coursera、edX、Udacit
学习python你必须弄懂的 Python、Pycharm、Anaconda 三者之间的关系经纬数智 python python pycharm 开发语言 conda
Python作为深度学习和人工智能学习的热门语言，学习一门语言，除了学会其简单的语法之外还需要对其进行运行和实现，才能实现和发挥其功能和作用。下面来介绍运行Python代码常用到的工具总结。一.Python、Pycharm、Anaconda关系介绍1.PythonPython是一种跨平台的计算机程序语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(
[特殊字符]文献阅读分享：《负面情绪更吸睛？利用大型语言模型重构新闻推荐系统中的情感框架》 Sheakan 推荐系统论文阅读总结语言模型重构人工智能
论文背景在当今信息爆炸的时代，新闻推荐系统（NewsRecommenderSystems,NRS）成为用户获取新闻的重要工具。然而，新闻内容的呈现方式（即新闻框架）对用户的参与度和付费意愿有着深远的影响。随着人工智能技术的发展，大型语言模型（LLMs）逐渐被引入新闻生产过程，为新闻框架的重构提供了新的可能性。本文通过实验研究，探讨了基于LLM的情感框架重构对用户情感、参与度和付费意愿的影响。相关工
AI绘画能取代设计师吗？网络安全我来了 IT技术 AI作画
AI绘画能取代设计师吗？在日益数字化的时代，人工智能（AI）正在快速渗透我们的生活和工作中。特别是在设计领域，AI绘画这一新兴技术引发了热烈讨论。你是否也曾好奇，AI绘画是否有可能取代设计师的工作？让我们一同探讨这个引人深思的话题。1.AI绘画的现状1.1AI绘画技术的形成与发展AI绘画的背后，离不开图像风格迁移、图文预训练模型和扩散模型这三大技术的共同推动。有点像是一位多才多艺的音乐家，利用不同
AI会对你的行业产生什么影响网络安全我来了 IT技术人工智能
AI对行业的影响：全面解析与展望在当今这个瞬息万变的时代，人工智能（AI）正如同一个强大的引擎，驱动着各个行业的迅猛发展。这不仅仅是一种技术的崛起，更是全球经济和社会结构的深刻变革。今天，让我们深入解析AI，尤其是生成式AI，如何影响我们的工作与生活，以及我们可以期待的未来。生成式AI的迅猛崛起生成式AI的定义与特点生成式AI，简单来说，就是机器学习的一个分支，通过学习大量数据，生成新的内容。这就
Cursor AI Anjgst 人工智能
CursorAI完整指南：AI驱动的新一代编程工具目录简介主要特性安装与设置核心功能详解使用技巧价格方案常见问题简介CursorAI是一个基于VSCode的革命性AI驱动代码编辑器，它将人工智能与传统编程环境完美结合，为开发者提供更智能、更高效的编程体验。主要特性1.AI智能补全Tab智能补全：通过AI预测并补全多行代码上下文感知：理解整个项目结构和编码风格多语言支持：支持所有主流编程语言2.代码
cursor软件的chat和composer分别是什么 hunter206206 人工智能 python
Cursor是一款基于人工智能的代码编辑器，集成了类似ChatGPT的功能，旨在帮助开发者更高效地编写代码。以下是Cursor中Chat和Composer的具体功能：1.ChatCursor中的Chat是一个基于AI的聊天功能，类似于ChatGPT，但专门为编程场景优化。它的主要用途包括：代码解释：帮助你理解代码的功能或逻辑。代码生成：根据自然语言描述生成代码片段。代码优化：提供代码优化建议或重构
【AI中数学-数理统计-综合实例-包括python实现】揭开数据的面纱：真实样本数据的探索与可视化云博士的AI课堂 AI中的数学人工智能 python 数理统计数据预处理数据探索数据可视化机器学习
第五章：数理统计-综合实例1.揭开数据的面纱：真实样本数据的探索与可视化在人工智能（AI）应用中，数据是构建算法和模型的基石，而数理统计则为我们提供了理解和处理这些数据的工具。数据探索和可视化是数理统计中至关重要的步骤，它们不仅能帮助我们理解数据的分布、关系和趋势，还能够为后续的建模工作提供依据。本节将通过五个实际案例，展示如何使用数理统计和可视化技术对真实样本数据进行探索。每个案例都包括具体的描
AI人工智能代理工作流AI Agent WorkFlow：面向服务计算中的代理工作流管理 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：面向服务计算中的代理工作流管理关键词：人工智能，代理工作流，服务计算，自动执行，智能调度，协同处理，流程管理1.背景介绍1.1问题的由来随着互联网和云计算的快速发展，服务计算作为一种分布式计算模式，已经成为企业信息化建设的重要方向。在服务计算中，工作流技术被广泛应用于业务流程的建模、执行和管理。然而，传统的基于BPM（业务流程管理）的工作流管理
OpenAI 函数调用功能入门 AI火箭 chatgpt openai
Javascript版Langchain入门作者：AI小火箭的HB我是AI小火箭的HB，我探索和写作人工智能和语言交叉点的所有事物，范围从LLM，聊天机器人，语音机器人，开发框架，以数据为中心的潜在空间等。介绍LangChain是一个开源Python库，用于构建由大型语言模型（LLM）支持的应用程序。它提供了一个框架，将LLM与其他数据源（如互联网或个人文件）连接起来，允许开发人员将多个命令链接在
Python3 【集合】项目实战：3 个新颖的学习案例李智 - 重庆 Python 精讲精练 -从入门到实战 python 经验分享案例学习编程技巧
Python3【集合】项目实战：3个新颖的学习案例以下是3个应用“Python集合”知识的综合应用项目，这些项目具有新颖性、前瞻性和实用性，每个项目都包含完整的代码、解释说明、测试案例和执行结果。基因序列比对文章推荐系统运行日志分析项目1：基因序列比对（集合运算与去重）项目描述在生物信息学中，比对两个基因序列的相似性。使用集合的交集和并集计算相似度。代码实现#基因序列（简化为字符串集合）seque
Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
启元世界（Inspir.ai）技术浅析（一）爱研究的小牛 AIGC—游戏制作人工智能机器学习 AIGC 深度学习
启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。一、核心技术启元世界在人工智能领域取得了多项突破性进展，其核心技术涵盖了以下几个方面：1.
Lumen5——AI视频制作，提取关键信息生成带有视觉效果的视频爱研究的小牛 AIGC—视频人工智能 AIGC 深度学习
一、Lumen5介绍Lumen5是一款基于人工智能的自动化视频制作平台，专为非专业用户设计，帮助其将博客、文章、新闻等文字内容快速转换为视频。Lumen5的目标是简化视频制作流程，让内容创作者、市场营销人员、社交媒体团队等无需视频制作经验即可轻松制作吸引观众的高质量视频。二、Lumen5的主要功能文字转视频Lumen5最具特色的功能是通过AI自动将文本转化为视频。用户可以输入一段文字或直接粘贴文章
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
人工智能的前景与未来就业市场：机遇、挑战与社会影响苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
随着科技的飞速发展，人工智能（AI）已经逐渐渗透到我们生活的方方面面，它不仅引领着技术革新的浪潮，更在无声中重塑着我们的就业市场和社会结构。站在这个时代的交汇点上，我们不禁要问：人工智能将如何影响我们的未来就业市场？它带来的究竟是机遇还是挑战？回望过去，每一次科技革命都伴随着就业市场的剧烈震荡。而今，人工智能作为第四次工业革命的核心驱动力，正以前所未有的速度改变着劳动力市场的格局。从自动化生产线上
探索SakuraLLM：轻小说与Galgame翻译的新纪元蒋素萍Marilyn
探索SakuraLLM：轻小说与Galgame翻译的新纪元SakuraLLM适配轻小说/Galgame的日中翻译大模型项目地址:https://gitcode.com/gh_mirrors/sa/SakuraLLM在人工智能的浪潮中，SakuraLLM以其独特的魅力和强大的功能，成为了日中翻译领域的一颗璀璨明星。本文将深入介绍SakuraLLM项目，分析其技术特点，探讨其应用场景，并揭示其与众不同
大模型问答机器人的智能化程度 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
大模型、问答机器人、智能化程度、自然语言处理、深度学习、Transformer模型、知识图谱、推理能力、对话系统1.背景介绍近年来，人工智能技术取得了飞速发展，特别是深度学习的兴起，为自然语言处理（NLP）领域带来了革命性的变革。其中，大模型问答机器人作为一种新型的智能交互系统，凭借其强大的语言理解和生成能力，在客服、教育、娱乐等领域展现出广阔的应用前景。问答机器人是指能够理解用户自然语言问题并给
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag